Que peut-on apprendre de la distribution des mots dans un texte ? Cette question traduit l'une des préoccupations centrales de la statistique textuelle : tirer, de l’observation quantitative des mots, des enseignements permettant de mieux connaitre le ou les texte(s) qu’ils composent ou plus largement les langues auxquelles ils appartiennent. Lire la suite
Que peut-on apprendre de la distribution des mots dans un texte ?
Cette question traduit l'une des préoccupations centrales de la statistique textuelle : tirer, de l’observation quantitative des mots, des enseignements permettant de mieux connaitre le ou les texte(s) qu’ils composent ou plus largement les langues auxquelles ils appartiennent. Elle intéresse donc des disciplines variées qui prennent le texte comme objet d’étude, par exemple dans le cadre de l’analyse littéraire, de la stylométrie, de l’analyse du discours politique, de la linguistique de corpus, de la classification de documents, de la recherche d’information ou encore de la fouille de texte. Comme l’illustrent les nombreux articles de cet ouvrage, la statistique textuelle, stimulée non seulement par la croissance exponentielle du volume de textes accessibles sur support numérique, mais aussi par le développement rapide d’instruments originaux et de méthodes innovantes, comme le recours à l’Intelligence Artificielle, offre également de puissants outils pour faire face aux nouveaux besoins et défis de la société de l’information.
Après 16 éditions, organisées à Barcelone (1990), Montpellier (1993 et 2020), Rome (1995, 2010 et 2018), Nice (1998 et 2016), Lausanne (2000), Saint-Malo (2002), Louvain-la-Neuve (2004), Besançon (2006), Lyon (2008), Liège (2012), Paris (2014), Naples (2022), les Journées internationales d’analyse statistique des données textuelles (JADT) 2024, organisées à Bruxelles du 25 au 27 juin, ont réuni statisticiens, linguistes, sociologues, historiens, informaticiens, spécialistes d’analyse du discours, de lexicographie et d’exploration de données textuelles. Vingt ans après la publication des JADT 2004 dans cette même collection, ce nouveau volume des Cahiers du Cental présente, en deux tomes, un panorama représentatif des tendances de la recherche dans un domaine en permanente évolution.
Damon Mayaffre
L'ADN de l'ADT. Aux limites de l'interdisciplinarité
Ramon Alvarez Esteban, Monicá Bécue-Bertaut
Comparison of latent semantic analysis and correspondence analysis as ordination methods in computational linguistics
Massimo Aria, Corrado Cuccurullo, Luca D’Aniello, Michelangelo Misuraca, Maria Spano
Breaking Barriers with TALL: A Text Analysis Shiny app for All
Laura Aubry et Aylin Pamuksaç
La presse sportive comme terrain d’étude pour les inégalités liées au genre : étude textométrique sur corpus
Yann Audin, Mathilde Verstraete, Dominic Forest, Marcello Vitali-Rosati
Le projet Intelligence artificielle littéraire (IAL) : définir formellement leconcept de variation au sein de l'Anthologie grecque ?
Alessandra Belfiore, Maria Spano, Corrado Cuccurullo, Walter Giordano
Beyond Text: Unveiling Corporate Communication Strategies Through Textual Analysis of CEO Letters
Imen Ben Sassi, Hani Guenoune, Alexandre Bazin, Marianne Huchard, Mathieu Lafourcade, Jean Sallantin
Dispositif d'apprentissage automatique collaboratif pour la pratique du débat
Yves Bestgen
Diversité lexicale et longueur du texte en évaluation du langage
Samuel Boccara, Salma Mesmoudi, Jacques Dayan, Robin Quillivic
Quantization of speech disorganization for PTSD and speech disorders detection
Baptiste Bohet, Nicole Vincent
Analyse comparée et interprétation des résultats de trois classifications de textes littéraires
Clara Bordier, Matej Martinc, Marceau Hernandez, Senja Pollak, Gaël Lejeune
Plongée dans le lexique du Conspirationnisme dans la presse nationale française
Aymeric Bouchereau, Jean-Marc Leblanc
Vœux présidentiels : un rituel discursif à l’épreuve de l’Intelligence artificielle
Pierre Bourhis, Aaron Boussidan, Céline Fournial, Philippe Gambette
Detecting semantic or structural similarities for theater play comparison
Thomas Buhler, Annabel Richeton
Les discours des plans d’urbanisme au crible de la textométrie. Retours réflexifs sur des travaux récents et perspectives d’analyses diachroniques multi-documentaires
Jaya Caporusso, Nishan Chatterjee, Zoran Fijavž, Boshko Koloski, Matej Ulčar, Matej Martinc, Andreja Vezovnik, Marko Robnik-Šikonja, Matthew Purver, Senja Pollak
Analysing Bias in Slovenian News Media: A Computational Comparison Based on Readers’ Political Orientation. A Phenomenologically-Inspired Computational Analysis of Self-Categories in T ext
Jaya Caporusso, Boshko Koloski, Maša Rebernik, Senja Pollak, Matthew Purver, Elena Catanese, Luca Valentino, Giorgia Sacco
A quantitative assessment of the impact of Valence Shifters and Emoji in lexicon for Italian Sentiment Analysis
Luigi Celardo, Michelangelo Misuraca, Maria Spano
"See Naples, then dye": Spatial Categorisation of Tourist Attractions with Reviews' Sentiment Scores
Nishan Chatterjee, Veronika Bajt, Ana Zwitter Vitez, Senja Pollak
The "Right" Discourse on Migration: Analysing Migration-Related Tweets in Right and Far-Right Political Movements
Sarah Chatti
Le discours environnemental de la Banque mondiale à l’épreuve du temps
Xiyning Chen, Miroslav Kubát, Ján Mačutek
Directions of Dependency Structures in the Czech National Corpus SYN2020: Application to Genre Classification
Rosario D’Agata, Gabriele Pocina
The godfather 'caught in net’. The social media story telling of Matteo Messina Denaro arrest
Extracting Knowledge from Scientific Literature with an Integrated Text Summarization Approach
Integrating Social Media Insights with Official Statistics for Enhanced Cultural Heritage Management Luca D’Aniello, Massimo Aria, Corrado Cuccurullo, Michelangelo Misuraca, Maria Spano, Barbara Dattilo, Paolo Di Domenico, Mariangela Sabato, Sandro Stancampiano, Francesca della Ratta-Rinaldi, Daniele Di Nunzio
La polarizzazione crescente nel mondo del lavoro italiano: risposte alla domanda aperta nell’Inchiesta nazionale su condizioni e aspettative di lavoratori e lavoratrici
Bruno Delprat, Martine Cadot, Alain Lelu
Analyse textuelle de manuscrits mayas et égyptiens : apports d’un codage par n-grammes, et de représentations multidimensionnelles graduées
Sabri Derinöz
Promouvoir ou dénoncer la diversité dans la presse belge francophone ? d’une solution à un problème (re)configuré
Sami Diaf
Ambiguity in Central Banking Communication: A Strategic Vagueness Or A Pure Randomness?
Sascha Diwersy, Hugo Dumoulin, Caroline Mellet, Cyrielle Montrichard, Frédérique Sitri
La fac et son temps : Explorations textométriques d'un corpus diachronique de comptes rendus universitaires
Catherine Dominguès, Laurence Jolivet
Analyse textométrique et spatialisée des Cahiers citoyens
Which connective fits best: 'car’ or 'parce que’?A challenge for both humans and LLMs
Louis Escouflaire, Antonin Descampe, Antoine Venant, Cédrick Fairon
La subjectivité dans le journalisme québécois et belge : Transfert de connaissances inter-médias et inter-cultures
Antonella Fadda, Rémi Cardon, Natalia Grabar, Thomas François
Approaching Semantic Text Similarity with Hybrid Methods: a Case Study on French
Matteo Farnè, Giulia Benelli
Fake news language analysis and detection via a text mining approach
Nathan Festini, Christine Jeoffrion
Analyse lexicométrique des supports de formation et d’accompagnement des managers et comparaison avec le référentiel de compétences managériales d’une grande collectivité territoriale française
Alessia Forciniti, Emma Zavarrone
Mapping the digital disruption landscape: a bibliometric analysis unveiling trends and patterns in the era of technological transformation
Lyse Gathoye, Christophe Lejeune, Valentine Vanootighem
Caractériser les souvenirs désavoués : apports respectifs des dictionnaires et des progressions thématiques
Sami Guembour, Catherine Dominguès
Désambiguïsation des mots polysémiques de la ville dans des romans de science-fiction
Daniel Henkel
Verbs of cognition in translation between English and French
Julie Humbert-Droz, Aurélie Picton
Révéler l’expertise partagée par les patientes atteintes de diabète et d’endométriose : une analyse exploratoire de forums médicaux
Domenica Fioredistella Iezzi, Roberto Monte
Building Deep-Learning Consumers' Sentiment Signals for Sales Forecasting: A Comparative Study Characterizing Misogyny in Italian Online Discourse: Consensus and Disagreement in a New Dataset of Social Media Comments
Loïc Jeanson, Guillaume Guex, Aris Xanthos
Lexical diversity measurement using subsample entropy: formalism and evaluation
Louis Escouflaire, Joanna Blochowiak, Liesbeth Degand, Marie-Catherine de Marneffe, Elisa Ignazzi, Mariona Coll, Emiliano Del Gobbo, Berta Chulvi, Paolo Rosso, Lara Fontanella, Patrick Juola, George Mikros, Lise Menn, Jean Berko Gleason, Nan Bernstein Ratner
Pseudo-Psycholinguistic Behavior of Large Language Models
Sylvia Kasparian, Lucie Loubere
Étude lexicométrique de la couverture médiatique des conflits du Haut Karabagh dans la presse française (2020-2023)
Rendre compte des séances de conseils municipaux : analyse comparative de productions françaises et suisses
Margareta Kastberg, Corinne Rossari, Laura Aubry, Virginie Lethier, Cyrielle Montrichard Imed Keraghel, Stanislas Morbieu, Mohamed Nadif
Évaluation des plongements textuels des LLMs pour la classification non supervisée de documents
Mohamed Elamine Khoudour, Abdallah Benkadja, Ismaïl Biskri, Nadia Ghazzali
Reconnaissance des caractères manuscrits au moyen d’approches hybrides
Analyse textuelle des structures d’enchaînement associatif liées aux représentations sociales du confinement et déconfinement de 2020 dans la région Grand-Nancéienne française
Marcel Kode, Martine Batt, Hélène Rousseau, Cédric Baumann,
Stéphanie Bourion-Bedes
Anaya Kumar, Anuragini Shirish, Jean Moscarola
Comparative Analysis: Classical exploratory methods vs Generative AI in extracting value from user reviews
Développement automatique de lexiques pour les concepts émergents : une exploration méthodologique
Stéphane Lamassé, Fabrice Issac 533 Édition et analyse de textes mathématiques médiévaux
Valérie Lambert
Analyse quantitative et qualitative de reformulations orales et écrites à partir d’un protocole mi-expérimental, mi-écologique
Ludovic Lebart
Des outils pour décrire certains corpus de poèmes et de chansons : les arbres additifs simultanés
Marc Le Pouliquen, Olivier Greusard
Analyse textuelle d’articles académiques traitant de la diversité au-delà du genre et de gouvernance d’entreprise
Lucie Loubere
Analyse de groupes Facebook, comparatif lexicométrique des données de crowdtangle à celles accessibles par navigation
Véronique Magri, Laurent Vanni
Détection automatique de marqueurs de registres littéraires profonds
Revekka Kyriakoglou, Anna Pappa, Jilin He, Antoine Schoen, Patricia Laurens, Markarit Vartampetian, Philippe Laredo, Tita Kyriacopoulou
Pascal Marchand, Pierre Ratinaud
Croiser ADT et NLP pour caractériser les commentaires en ligne et détecter les tendances complotistes : le cas des vaccins
The Evolution of Bias in French News Media: How Does Political Orientation Affect Semantic Change?
Damon Mayaffre, Laurent Vanni
Usages linguistiques des éléments supplémentaires dans l’Analyse factorielle des correspondances
Alessandro Meneghini, Arjuna Tuzzi
Leaving no one behind? Embeddings-based topic modelling and LLMs to explore international cooperation projects implemented in Greece
Joanna Michalak
Methodological Approaches to Sentiment Classification and their impact on Modelling the relationship between Twitter (X) and stock market
Andrea Micheletti, Nicola Orio, Elena Svalduz
The Travel Diary of Giovanni da San Foca Semi-Automatic Analysis of Textual Data
Jean Moscarola
Coupler Analyse de données textuelles et IA génératives pour « augmenter » le processus de recherche qualitative
Jean Moscarola, Zakari Chauhan
Humain Contre Robot : Différencier l’expression des IA génératives de celle d’auteurs humains en utilisant l’Analyse de Données Textuelles
Matej Martinc, Adelie Laruncet, Clara Bordier, Marceau Hernandez, Senja Pollak, Gaël Lejeune Michaela Nogolová, Ján Mačutek, Miroslav Kubát
What can be heard in the Czech Parliament
Sandrine Ollinger, Denis Maurel
Segmentation en phrases : ouvrez les guillemets sans perdre le fil
Martial Pastor, Nelleke Oostdijk, Martha Larson
The Contribution of Coherence Relations to Understanding Paratactic Forms of Communication in Social Media Comment Sections
Bénédicte Pincemin
Specificities and other applications of the Fisher’s exact test to textual data: What’s the matter with lexical frequencies?
Sophie Piron
La masculinisation du français a-t-elle eu lieu ? Le cas des noms d’êtres humains dans la lexicographie du XVIe au début du XVIIIe siècle
Robin Quillivic, Charles Payet
Semi-Structured Interview Analysis: A French NLP Approach for Social Sciences
Catherine Quiroga-Cortés, Jules Dilé-Toustou
Classification hiérarchique descendante : de l’exploration thématique à la compréhension de l’évolution du traitement médiatique des «écologistes »
Harry Ramadasse
Le cas Michelin : 114 401 réponses, 2 963 563 mots
Pierre Ratinaud, Brigitte Sebbah
Le dire ou l’écrire sur les réseaux sociaux numériques : comparaison des messages écrits et des messages audios sur la chaîne Telegram des gilets jaunes de Haute-Garonne
Wim Remysen, Myriam Paquet-Gauthier
La variation graphique intratextuelle dans les imprimés québécois, 1800-1939
Riccardo Ricciardi, Nicolò Biasetton
A language model to investigate the temporal transformation of semantics in the literature on Made in Italy
Ilaria Rodella, Andrea Sciandra, Arjuna Tuzzi
Analysis of Marie Skłodowska-Curie Actions (MSCA) evaluations and models for predicting the success of proposals
Vincent Roose, Sophie André
Les salles de consommation à moindre risque dans la presse francophone belge : analyse textométrique à l'aide du logiciel Iramuteq
Corinne Rossari, Laura Aubry, Chloé Tahar
Assumer ou diluer les responsabilités énonciatives dans la diffusion du savoir encyclopédique
Jérémie Roux, Hani Guenoune, Mathieu Lafourcade, Richard Moot
Explication de métaphores via la résolution d’analogies à l’aide d’un graphe de connaissances
Dario Sacco, Massimo Aria, Sara Moccia
Decoding Disinformation: A Comprehensive Analysis of Fake News
Eva Schaeffer-Lacroix
Adverbs as markers of women's objectification events in audio descriptions of English feature films
Définition et évolution de la qualité de vie des patients traumatisés crâniens et de leurs proches : Une étude qualitative exploratoire
Kaori Sugiyama, Patrick Drouin
Analyse sociolinguistique outillée des débats parlementaires précédant la formulation du projet de loi 96 du gouvernement du Québec
Ludovic Tanguy, Cécile Fabre, Nabil Hathout, Lydia-Mai Ho-Dac
Le sens de la famille : analyse du vocabulaire de la parenté par les plongements de mots
Ludovic Tanguy, Céline Poudat, Lydia-Mai Ho-Dac
Message du troisième type : irruption d’un tiers dans un dialogue en ligne
Ameni Tlili
Analyse lexicométrique du dire-écrire des jeunes Tunisiens sur Facebook avant, pendant et après la Révolution de 2011
Panos Tsimpoukis, Pierre Ratinaud, Nikos Smyrnaios
Évolution des fréquences et des cooccurrences des entités nommées dans les discours de la presse sur l’intelligence artificielle (2012-2022)
Linda Simon, Myriam Blanchin, Philippe Tessier, Véronique Sébille, Marianne Bourdon
Gian Piero Turchi, Christian Moro, Tommaso Arcelli, Luisa Orrù
A methodological proposal for evaluating productivity through textual analysis: results from a simulated working environment case study
Jeanne Vermeirsche, Eric SanJuan, Tania Jiménez, Christèle Lagier
Analyse thématique comparative des discours politiques et de leur diffusion dans le Wikipédia francophone
Jinyuan Xu, Pierre Magistry, Mathieu Valette
Détection des humeurs dépressives sur les réseaux sociaux chinois à partir d’une combinaison de plongements lexicaux et de méthodes textométriques