LISIS
image description

Programmation : Séminaire le « Démonstrateur »

Le Démonstrateur est un séminaire de méthode dédiée à la mise en commun, à l’exploration et au décryptage de méthodes et objets d’enquête en régime numérique. Férus, experts, croyants mais non pratiquants et néophytes sont les bienvenus pour assister aux séances. Le programme est organisé par grappes thématiques, comprenant 1. une séance de séminaire plus classique dédié à la présentation de travaux mobilisant des méthodes computationnelles, 2. une séance de démonstration où sont présentés plus spécifiquement des outils et des méthodes d’enquête, 3. une séance d’atelier durant laquelle chacun·e est invité à venir tester ces outils sur ses propres jeux de données ou terrain d’enquête, de façon exploratoire et collective.

La première grappe sera dédiée aux méthodes de scraping et d’annotation active grâce à l’entraînement de grands modèles de langage non génératifs (LLM) :

Séance 1. Le vendredi 7 novembre, de 14h à 16h, en salle 109. Invité : Etienne Ollion, pour la présentation de l’article « La part du genre. Genre et approche intersectionnelle dans les revues de sciences sociales françaises au XXIe siècle« , co-écrit avec Julien Boelaert, Samuel Coavoux, Estelle Delaine, Altaïr Despres, Sibylle Gollac, Narguesse Keyhani et Adèle Momméja, et paru dans le n°258-259 des Actes de la Recherche en Sciences Sociales. L’article s’appuie sur un important travail empirique d’aspiration de résumés d’articles académiques et d’annotation assistée par des modèles d’IA afin d’identifier la place occupée par le genre dans les publications en sciences sociales.

Séance 2. Le 5 décembre de 14h à 16h, salle 109. Invités : Emilien Schultz et Annina Claesson, membres de l’équipe de développement de la plateforme Active Tigger, permettant l’entraînement de modèle LLM pour la codification de données textuelles. Cette séance sera dédiée à la présentation de la plateforme, de son fonctionnement et de ses usages potentiels.

Séance 3. Le 13 février de 10h à 13h, salle 109 (à confirmer). Nous finirons par une séance d’atelier dédiée à l’aspiration de données textuelles sur internet (scraping) grâce à des outils ne nécessitant pas de compétences particulières en programmation (scraping no code), puis à la mise en usage d’Active Tigger. En guise d’exemple, je présenterai notamment une base de donnée sur laquelle je travaille actuellement (sur les forums dédiés à l’agriculture), et pour laquelle je cherche à articuler scraping, annotation active par LLM et usage de la plateforme Cortext pour faire du topic modeling. Plus largement, nous encourageons particulièrement la présence de quiconque aurait envie de se former à l’usage de ces outils ou aurait le besoin d’explorer des bases de données existantes grâce à ces outils.