Accueil » Les projets IMPACT » Open Language and Knowledge for Citizens – OLKi » Résultats

Résultats

Une plateforme alternative intégrée à un mouvement citoyen de grande ampleur

La plateforme développée par le projet OLKi a pour finalité de créer un écosystème ouvert et fédéré favorisant le travail et les échanges scientifiques, notamment autour de ressources langagières. Elle permet d’héberger et diffuser des ressources scientifiques liées au langage et aux connaissances qui en sont extraites. Elle s’interconnecte aux noeuds du Fediverse (ensemble de serveurs interconnectés formant un réseau social ; https://en.wikipedia.org/wiki/Fediverse) et ajoute aux ressources qui y existent déjà (musique, blogs, vidéos…) une dimension recherche et connaissances scientifiques.
Au-delà des progrès en termes de contrôle, d’éthique, d’ouverture, de transparence et de respect de la vie privée, la plateforme résoudra en partie des problèmes de nombreuses plateformes scientifiques actuelles, dont la maintenance à long terme, le passage à l’échelle, la réduction des coûts, le contrôle des fournisseurs de données et l’interaction entre recherche et citoyens.
Un développeur, assisté d’un groupe de travail, a publié une première version utilisable de la plateforme en mai 2020 après 15 mois d’effort de développement. Elle implémente les deux fonctionnalités fondamentales: 1) la fédération des listes de corpus et 2) la fédération des commentaires. Grâce à ces deux fonctionnalités, la diffusion de corpus en cours de constitution et gérés localement devient possible via un réseau décentralisé, ainsi que les interactions de la communauté autour d’un corpus donné via les réseaux sociaux libres.

CONNAISSANCES ET INGENIERIE

Fouille de textes au niveau discursif

Laurine Huber sous la direction de Yannick Toussaint (LORIA- équipe Orpailleur) et Mathilde Dargnat (ATILF – équipe Discours) – thèse

L’objectif de cette thèse est de montrer dans quelle mesure la structure des textes peut être utilisée pour améliorer les tâches de fouille de texte en combinant des approches symboliques et numériques. Pendant la première moitié de cette thèse, je me suis concentrée sur les structures du discours et de l’argumentation. J’ai développé des outils et des méthodes pour étudier si les structures construites à partir de deux formalismes distincts (du discours et de l’argumentation) sont liées, et de quelle manière. J’ai proposé deux approches qui tirent parti des techniques de fouille de données pour découvrir des alignements de sous-graphes du discours et de l’argumentation à partir d’un corpus annoté selon les deux formalismes. Ce travail a bénéficié de deux collaborations et a donné lieu à deux publications: l’une dans la communauté de l’argumentation [1] et l’autre dans la communauté des treillis de concepts [2]. Plus récemment, j’ai étudié si les propriétés discursives des phrases sont intégrées dans leurs représentations distributionnelles, en construisant des tâches de classification spécialement conçues pour prédire les propriétés discursives de celles-ci. Ce travail préliminaire avec un stagiaire a donné lieu à une publication [3]. Nous y comparons les performances des approches contextuelles et non contextuelles des représentations de phrases pour détecter les propriétés discursives de celles-ci.

  • [1] Laurine Huber, Yannick Toussaint, Charlotte Roze, Mathilde Dargnat, Chloé Braud:
    Aligning Discourse and Argumentation Structures using Subtrees and Redescription Mining. ArgMining@ACL 2019: 35-40
  • [2] Laurine Huber, Justine Reynaud, Mathilde Dargnat, Yannick Toussaint:
    AOC-Poset on Discourse and Argumentation Subgraphs: What Can we Learn on Their Dependen-cies? CLA 2020: 107-118
  • [3] Laurine Huber, Chaker Memmadi, Mathilde Dargnat, Yannick Toussaint:
    Do sentence embeddings capture discourse properties of sentences from Scientific Abstracts ? CODI 2020 – EMNLP 1stWorkshop on Computational Approaches to Discourse, Nov 2020, Punta Cana, Dominican Republic.

Modèles thématiques dans le cadre de la détection de discours haineux dans les médias sociaux

Tulika Bose sous la direction d’Irina Illina (LORIA), Dominique Fohr (LORIA) et Angeliki Monnier (CREM) – thèse

Nous étudions l’utilisation de modèles thématiques pour améliorer la détection des discours de haine. Les recherches sur l’identification automatique des discours haineux dans les médias sociaux font appel à des corpus annotés qui diffèrent en termes de sujets abordés. Dans une analyse expérimentale détaillée, il a été établi qu’une grande diversité des thèmes dans les corpus d’appren-tissage, se traduit par une amélioration des modèles thématiques pour la détection de langage abusif. De plus, en raison de différences dans la distribution de probabilité entre les corpus d’apprentissage et de test, nous étudions les mécanismes d’adaptation de domaine (domain adaptation) pour augmenter la généralisabilité des modèles.

Modélisation et inférence de la persistance de l’information sur les réseaux sociaux

Nicolas Dante sous la direction de Marianne Clausel (IECL) et Radu Stefan Stoica (IECL) – thèse

Dans un premier temps, je me suis familiarisé avec la notion de « Topic Modeling ». Il s’agit d’un ensemble de méthodes qui visent à représenter un corpus ou un texte à partir des thèmes sous-jacents. Je me suis particulièrement intéressé par le modèle ATAM (Ailment Topic Aspect Model) conçu pour l’étude des tweets liés à la santé. Ce modèle permet la construction d’une série chrono-logique multivariée représentant l’évolution de la proportion des sujets. J’ai ensuite consacré mon temps aux séries temporelles et plus particulièrement à la notion de « Longue Mémoire ». Plusieurs méthodes d’inférence, basées sur le contenu spectral de la série temporelle multivariée ont été dé-veloppées dans la littérature. Je souhaite adapter une approche bayésienne d’estimation univariée du paramètre « Longue Mémoire » dans le cas multivarié.

Données multi-source et polymorphes : faire collaborer fouille de motifs et FCA pour une meilleure extraction de connaissances

Jiajun Pan en collaboration avec Armelle Brun (LORIA) et Yannick Toussaint (LORIA) – post-doctorat 14 mois

Il est désormais classique de disposer de multiples sources de données portant sur un même phénomène ou des mêmes éléments. Un phénomène peut être un thème tel que les « fake news », la population animalière d’un pays, etc…ou de façon plus générale un domaine tel que la santé, le e-commerce, l’éducation, etc… Les données peuvent être des données textuelles, des données de description, des données de réalisation, etc…Les sources de données peuvent avoir des structures différentes et offrir des points de vue différents. Lorsque les sources ont des points de vue différents, chacune d’elles fournit a fortiori une connaissance différente et peut être complémentaire sur le phénomène. L’objectif du post-doc est de réaliser une fouille conjointe de données multi-sources afin d’en extraire une information plus riche et d’unifier la connaissance liée aux éléments étudiés. Nous nous intéressons ici à l’e-éducation avec des données de description d’activités pédagogiques d’apprenants, curriculum scolaire, etc…Le projet s’intéresse à la fois à la description d’éléments (au travers d’attributs) et à l’utilisation de ces éléments en contexte (en particulier dans un cadre séquentiel). La première approche envisagée est la fouille de redescriptions, qu’il faut adapter pour permettre de gérer les structures multiples des sources. Des approches telles que la fouille multi-vue ou la fouille de données relationnelles seront également explorées.

LANGAGE

Du statut des plongements lexicaux en tant qu’implémentations de l’hypothèse distributionnelle

Timothee Mickus sous la direction de Mathieu Constant (ATILF) et Denis Paperno (Utrecht University, LORIA- équipe Synalp) – thèse

Cette thèse s’intéresse au statut des plongements lexicaux (ou « word embeddings »), c’est-à-dire des vecteurs de mots issus de modèles de Traitement Automatique des Langues. Plus particulièrement, notre intérêt se porte sur leur valeur linguistique et la relation qu’ils entretiennent avec la sémantique distributionnelle, le champ d’études fondé sur l’hypothèse que le contexte est corrélé au sens. L’objet de notre recherche est d’établir si ces plongements lexicaux peuvent être considérés comme une implémentation concrète de la sémantique distributionnelle.
Notre première approche dans cette étude consiste à comparer les plongements lexicaux à d’autres représentations du sens, en particulier aux définitions telles qu’on en trouve dans des dictionnaires. Cette démarche se fonde sur l’hypothèse que des représentations sémantiques de deux formalismes distincts devraient être équivalentes, et que par conséquent l’information encodée dans les représentations sémantiques distributionnelles devrait être équivalente à celle encodée dans les définitions. Nous mettons cette idée à l’épreuve à travers deux protocoles expérimentaux distincts : le premier est basé sur la similarité globale des espaces métrisables décrits par les vecteurs de mots et les définitions, le second repose sur des réseaux de neurones profonds. Dans les deux cas, nous n’obtenons qu’un succès limité, ce qui suggère soit que la sémantique distributionnelle et les dictionnaires encodent des informations différentes, soit que les plongements lexicaux ne sont pas motivés d’un point de vue linguistique.
Le second angle que nous adoptons ici pour étudier le rapport entre sémantique distributionnelle et plongements lexicaux consiste à formellement définir ce que nous attendons des représentations sémantiques distributionnelles, puis de comparer nos attentes à ce que nous observons effectivement dans les plongements lexicaux. Nous construisons un jeu de données de jugements humains sur l’hypothèse distributionnelle. Nous utilisons ensuite ce jeu pour obtenir des prédictions sur une tâche de substituabilité distributionnelle de la part de modèles de plongements lexicaux. Bien que nous observions un certain degré de performance de la part des modèles en questions, leur comportement se démarque très clairement de celui de nos annotateurs humains. Venant renforcer ces résultats, nous remarquons qu’une large famille de modèles de plongements qui ont rencontré un franc succès, ceux basés sur l’architecture Transformer, présente des artefacts directement imputables à l’architecture qu’elle emploie plutôt qu’à des facteurs d’ordre sémantique.
Nos expériences suggèrent que la validité linguistique des plongements lexicaux n’est aujourd’hui pas un problème résolu. Trois grandes conclusions se dégagent de nos expériences. Premièrement, la diversité des approches en sémantique distributionnelles n’implique pas que ce champ d’étude est voué aux approches informelles : nous avons vu que le linguiste peut s’appuyer sur la substituabilité distributionnelle. Deuxièmement, comme on ne peut pas aisément comparer la sémantique distributionnelle à une autre théorie lexicale, il devient nécessaire d’étudier si la sémantique distributionnelle s’intéresse bien au sens, ou bien si elle porte sur une série de faits entièrement distincte. Troisièmement, bien que l’on puisse souligner une différence entre la qualité des plongements lexicaux et ce qu’on attend qu’ils puissent faire, la possibilité d’étudier cette différence sous un angle quantitatif est de très bon augure pour les travaux à venir.

Le Lexique de l’Environnement et Termes de la Chimie dans le Discours Ordinaire. Utilisation des Réseaux Sociaux comme Corpus (LEGCOD)

Tomara Gotkova sous la direction d’Alain Polguère (ATILF) et Francesca Ingrosso (LPCT) – thèse

La première année du projet LEGCOD a été consacrée à l’exploration du vocabulaire de l’environnement et de la chimie dans le discours de la langue générale trouvé sur Internet dans les réseaux sociaux ; plus précisément, dans le cadre de notre recherche : Twitter et Reddit. Nous avons commencé par construire un corpus spécialisé composé de textes scientifiques de l’environnement et de la chimie en anglais. En collaboration avec nos collègues de l’Université Pompeu Fabra à Barcelone nous avons utilisé ce corpus pour l’extraction automatique des termes clés de l’environnement et de la chimie. Le résultat obtenu a été utilisé comme un filtre pour cons-truire un corpus de référence de données issues de Twitter et Reddit. Après avoir développé une technique d’extraction pour chaque réseau social, nous avons collecté des données préliminaires pour un corpus d’essai. L’étape suivante, qui sera réalisée au cours de la deuxième année, consistera à nettoyer et tester notre corpus d’essai pour l’analyse linguistique plus approfondie et l’étude du lexique de l’environnement et de la chimie dans le discours de la langue générale.

Amélioration, expérimentation et analyse du dispositif numérique d’apprentissage du français FLEURON

Biagio Ursi en collaboration avec Virginie André (ATILF) et Manuel Rebuschi (AHP-PReST) – post-doctorat 12 mois

La base de données FLEURON (Français Langue Etrangère Universitaire Ressources et Outils Numé­riques) [1] propose des ressources multimédias authentiques, classées par catégories, qui illustrent un ensemble de situations de communication de la vie des étudiants en France. Ces ressources per­mettent de découvrir des situations auxquelles les étudiants sont confrontés dès leur arrivée dans une université française, elles permettent également d’observer différentes actions et interactions dans des situations variées de la vie universitaire et de tous les jours.

Le post-doc a contribué à l’alimentation de la base de données en prenant part à la collecte de nouveaux enregistrements audiovisuels ; il a participé à la conception d’expérimentations portant sur l’exploitation du concordancier de la plateforme, qu’il a menées avec des apprenants allophones inscrits aux cours de Français Langue Etrangère du Centre de Langue Yves Châlon de l’Université de Lorraine, selon différentes configurations : seuls et en binôme, avec l’accompagnement d’un enseignant ou en autonomie. Ces expérimentations ont été vidéo-enregistrées grâce à la mise en place d’un dispositif de captation adapté ; elles ont fait l’objet d’études qualitatives et d’évalua­tions épistémologiques qui ont donné lieu à plusieurs contributions dans des colloques internationaux [2-3] et un article scientifique [4]. Suite à ce post-doc, la collaboration se poursuit en vue de l’implémentation d’annotations de phénomènes conversationnels pour l’apprentissage du français parlé en interaction, à partir des ressources FLEURON.

  • [1] https://fleuron.atilf.fr
  • [2] Biagio Ursi. Corpus-based resources in conversation: Learning with the multimodal concordancer of the FLEURON database. Teaching and Lan­guage Corpora Conference – TaLC2020, Henry Tyne (chair), Jul 2020, Perpignan, France
  • [3] Biagio Ursi, Virginie André. Corpus : exploration, médiation et autonomisation. L’utilisation du concordancier de la plateforme FLEURON en classe de FLE. La linguistique appliquée à l’ère digitale – Colloque VALS/ASLA 2020, Alain Kamber; Simona Pekarek Doehler; Maud Dubois (chairs), Feb 2020, Neuchâtel, Suisse
  • [4] Biagio Ursi, Virginie André. Corpus : exploration, médiation et autonomisation. L’utilisation du concordancier de la plateforme FLEURON en cours de FLE. Bulletin suisse de Linguistique appliquée, Neuchâtel : Institut de linguistique de l’Université, 2021, pp.129-148

DEFIS SOCIETAUX

Indexer et explorer un corpus d’humanités numériques par des représentations élastiques

Nicolas Lasolle sous la direction d’Olivier Bruneau (AHP-PReST) et Jean Lieber (LORIA) – thèse

Ce projet s’intéresse à l’application et le développement d’outils du Web sémantique pour le corpus de la correspondance d’Henri Poincaré. Les travaux récents se sont concentrés sur la proposition de méthodes pour assister l’édition de données RDF. Un mécanisme utilisant le raisonnement à partir de cas et l’exploitation des connaissances de l’ontologie a été formalisé afin de fournir une liste de suggestions lors de l’édition d’un fait (triplet RDF). Un outil utilisant ces méthodes a été développé et testé avec le corpus de la correspondance d’Henri Poincaré. Ce travail, qui peut être réutilisé dans d’autres contextes, sera présenté en novembre 2020 lors de la conférence internationale du Web sémantique (ISWC 2020). Un autre travail en cours concerne un problème de représentation de connaissances lié à l’intégration de données temporelles lors de l’indexation de corpus historiques par des technologies du Web sémantique.

Transparency Discourses: From Institutions to Citizens (DISTIC)

Jana Vargovčíková et Anaïs Augé en collaboration avec François Allard-Huver, Anne Piponnier, Emmanuelle Simon (CREM) et Marianne Clausel (IECL) – post-doctorat 22 mois

Le sujet porte sur les discours relatifs à la transparence en matière d’environnement, de santé et de sécurité alimentaire circulant en France et en Europe. Le projet DISTIC (Transparency Discourses: From Institutions to Citizens) s’intéresse aux significa­tions multiples et parfois contradictoires du terme transparence dans les controverses liées à l’envi­ronnement, à la santé et à la sécurité alimentaire. En effet, la question de la disponibilité publique d’informations et d’expertises fiables se retrouve souvent au centre des débats sur les risques envi­ronnementaux ou sanitaires, comme le démontre d’ailleurs la crise actuelle due à l’épidémie de Covid-19. Dans ce contexte, les discours sur la transparence produits par les autorités publiques, les acteurs industriels, les or­ganisations non gouvernementales et les médias cristallisent les tensions entre, d’une part, l’accès public à de plus en plus d’informations et de données et, d’autre part, la défiance citoyenne croissante envers ces données et les savoirs dits experts qui les façonnent. La tâche est donc d’abord de construire et analyser des corpus de textes, pour mettre en lumière la circulation des discours sur la transparence entre différents espaces et types d’acteurs. Ensuite, nous pointerons les divergences dans les acceptions du terme transparence et des objectifs et limites inhérents chez ces différents acteurs. Pour cela, nous nous appuierons notamment sur des méthodes lexicométriques et sur des méthodes qualitatives d’analyse des discours et nous nous concentrerons sur les terrains français et européen. En plus de contri­buer à l’accroissement des connaissances scientifiques, cette recherche pourra aider les acteurs de la société civile et les citoyens pour se repérer dans les injonctions parfois contradictoires à la transparence, ainsi que pour réfléchir aux présupposés de leurs propres appels à plus de visibilité sur les politiques publiques.

Ethics of AI and IT

Maël Pégny en collaboration avec Anna Zielinska (AHP), Cyrille Imbert (AHP) et Christophe Cerisara (LORIA) – post-doctorat 12 mois

Le début du post-doc a été consacré à l’achèvement d’un article sur le droit à l’explication, un sujet classique de la littérature en éthique de l’IA [1]. La principale tâche du post-doc consistait en la rédaction d’une charte sur l’éthique de l’IA, fondée sur une collabora­tion entre les Archives Henri Poincaré et le LORIA. Nous avons centré notre travail sur le développement des modèles de machine learning respectueux de la vie privée dès la conception. Le sujet présentait deux avantages tactiques im­portants. Le premier était sa pertinence pour l’équipe de Traitement Automatique de la Langue très impliquée dans le projet, car l’apprentissage de modèles sur de vastes corpus de textes écrits pose des problèmes évidents de respect de la vie privée. Le second était le faible développement de la littérature sur les attaques par inversion de modèles. Ces dernières consistent à récupérer les données encodées dans les modèles, et peuvent être opérées même lorsque les données d’apprentissage ont été détruites : elles constituent donc un enjeu de respect de la vie privée nouveau et spécifique à l’IA. Le document achevé comprend dix recommandations concrètes aux développeurs, ainsi qu’une discussion des frontières de l’état de l’art sur ces questions de respect de la vie privée tant du point de vue technique, comme les problèmes de reconnaissance d’informations privées dans les corpus, et juridiques, comme les questions de portée de la définition des données personnelles. Le document invite un retour d’expérience de la part des déve­loppeurs qui pourra servir de base à des travaux futurs [2]. Par ailleurs, nous avons publié un bref article sur les données médicales, et leur place dans les mouvements sociaux dans l’hôpital public. Cet article se plaçait sur le double front de la recherche académique et de sa diffusion auprès du public, afin de pouvoir contribuer aux débats en cours sur l’avenir du système de santé. L’article a été fondé à la fois sur la littérature académique et journalistique et sur des interviews de soignants impliqués dans ces mouvements sociaux [3].

Discours haineux en ligne contre les migrants

Axel Boursier et Nadia Makouar en collaboration avec Angeliki Monnier (CREM), Irina Illina (LORIA) et Dominique Fohr (LORIA) – post-doctorat 12 mois

La mise en oeuvre de processus automatisés de détection des discours de haine sur Internet (médias socio-numériques, sections de commentaires dans les journaux, etc.), nécessite une meilleure compréhension du discours de haine en tant que phénomène social. Pour cette raison, les deux chercheurs postdoctoraux en sciences humaines et sociales se sont penchés sur les enjeux de l’émergence et de la circulation des discours de haine en ligne, ainsi que sur la structure discursive de ceux-ci. Les travaux ont porté sur le cas précis du discours de haine en ligne contre les migrants. Plusieurs publications et communications ont permis la publicisation de leurs travaux [1-3], dont une sélection figure ci-dessous :

  • [1] A. Boursier, « Circulation des discours de haine dans la sphère publique numérique », 3rd DiscourseNet Congress « Language and power in a polycentric world », Université de Cergy-Pontoise, 12 septembre 2019 (publication en cours dans l’Harmattan, collection « Cahiers de la nouvelle Europe »).
  • [2] A. Boursier “Media truth is not mine”, séminaire University of Warwick, 13 novembre 2019.
  • [3] N. Makouar, “Anti-intellectualism as a strategy of anti-immigrant propaganda: semantic analysis of French media online comments regarding immigration statistics”, 24th DiscourseNet Conference “Discourse and Communication as propaganda: digital and multimodal forms of activism, persuasion and disinformation across ideologies”, Bruxelles, Septembre 2020.

STAGES [non mis à jour]

  • 2019 Histoire et mémoire de l’informatique universitaire à Nancy (1950-2010), sous la direction de Laurent Rollet (AHP-PReST)
  • 2019 Annotation en parties du discours du corpus oral « Traitement de Corpus Oraux en Français », sous la direction d’Etienne Petitjean (ATILF) et Christophe Benzitoun (ATILF)
  • 2019 Collecte et analyse de données langagières en ligne (discours haineux contre les migrants), sous la direction d’Angeliki Monnier (CREM)
  • 2019 Etude de l’évolution spatio-temporelle d’un corpus de tweets, sous la direction de Marianne Clausel (IECL) et Antoine Lejay (IECL)
  • 2019 Extraction de relations à partir de textes, sous la direction de Yannick Toussaint (LORIA)