Que peut-on apprendre de la distribution des mots dans un texte ? Cette question traduit l'une des préoccupations centrales de la statistique textuelle : tirer de l'observation quantitative des mots (observation de leur présence, absence, co-occurrence ou répartition) des enseignements permettant de mieux connaître le ou les texte(s) qu'ils composent ou plus largement les langues auxquelles ils appartiennent.
La statistique des données textuelles intéresse donc des disciplines scientifiques variées qui prennent le texte comme objet d'étude, par exemple dans le cadre de l'analyse littéraire, de la stylométrie, de l'analyse du discours politique, de la linguistique de corpus, de la classification de documents, de la recherche d'information ou encore de la fouille de texte ou text mining. Comme l'illustrent de nombreux articles de cet ouvrage, la statistique textuelle, stimulée par la croissance rapide du volume de textes accessibles sur support numérique (courrier électronique, chat, forum, Web, SMS, etc.), offre également de puissants outils pour faire face aux nouveaux besoins et défis de la société de l'information.
Les Journées internationales d'analyse des données textuelles (JADT) permettent à des chercheurs travaillant dans les différents domaines concernés par les traitements automatiques et statistiques de données textuelles de se rencontrer tous les deux ans afin de confronter leurs expériences. Après les rencontres de Barcelone (1990), Montpellier (1993), Rome (1995), Nice (1998), Lausanne (2000), et St Malo (2002), les JADT 2004 de Louvain-la-Neuve ont réuni, du 10 au 12 mars 2004, statisticiens, linguistes, sociologues, spécialistes d'analyse du discours, informaticiens, spécialistes de lexicographie et d'explorations de données textuelles.
VOLUME 2
Michel JACOBSON : Corpus oraux glosés : outils logiciels d'aide à l'analyse 625
Bernard JACQUEMIN : Analyse et expansion des textes en question-réponse 633
Jean-Marie JACQUES, Nathanaël LAURENT, Anne WALLEMACQ : Paradoxes, dilemmes et contradictions : une mise en lumière au moyen du logiciel EVOQ© 644
Radwan JALAM, Jérémy CLECH, Ricco RAKOTOMALALA : Cadre pour la catégorisation de textes multilingues 650
Michèle JARDINO : Recherche de structures latentes dans des partitions de « textes » de 2 à k classes 661
Margareta KASTBERG SJÖBLOM : Analyse grammatico-métrique d'une monographie "multi-générique" ; le substantif 672
Nicolas KUMPS, Pascal FRANCQ, Alain DELCHAMBRE : Création d'un espace conceptuel par analyse de données contextuelles 682
Mathieu LAFOURCADE, Violaine PRINCE : Modélisation de l'Hyperonymie via la combinaison de réseaux sémantiqueset de vecteurs conceptuels 692
Anne-Catherine LANTIN, Philippe V. BARET, Caroline MACÉ : Phylogenetic analysis of Gregory of Nazianzus' Homily 27 700
Ludovic LEBART : Validité des visualisations de données textuelles 708
Jean-Marc LEBLANC, Pierre FIALA : Autour du Je présidentiel 716
Christophe LEJEUNE : Représentation des réseaux de mots associés 726
Alain LELU : Analyse en composantes locales et graphes de similarité entre textes 737
Dominique LONGREE, Xuan LONG, Sylvie MELLET : Temps verbaux, axe syntagmatique, topologie textuelle : analyses d'un corpus lemmatisé 743
Jean-Luc MANGUIN : L'évolution en français de l'adjectif épithète vers la postposition : réalité syntaxique ou trompe-l'oeil lexical ' 753
Chantal-Édith MASSON, Hélène CAJOLET-LAGANIERE, Pierre MARTEL : La BDTS-concordances : un outil technologique d'enrichissement de la pratique lexicographique 764
Denis MAUREL : Les mots inconnus sont-ils des noms propres ? 776
Damon MAYAFFRE : Analyse logométrique de la cohabitation Chirac/Jospin (1997-2002). Explication de la défaite de Lionel Jospin à l'élection présidentielle de 2002 785
Nicolas MAZZIOTTA : Le texte dans tous ses états. Philosophie d'encodage du projet Khartês 793
Maura MISITI, Simona CARBONE : Secondo gli esperti: Popolazione e società nelle opinioni dei testimoni privilegiati di una ricerca sugli adolescenti italiani 804
A. MOKRANE, R. AREZKI, G. DRAY, P. PONCELET : Cartographie automatique du contenu d'un corpus de documents textuels 816
Rogério MUGNAINI, Esteban FERNANDEZ TUESTA, Adalberto OTRANTO TARDELLI : Citations Titles Standardization Using Information Retrieval Techniques 824
Jean-Pierre MÜLLER : ttda ' une librairie R pour l'analyses de données textuelles 831
Takuya NAKAMURA : Analyse automatique d'un discours spécialisé au moyen de grammaires locales 837
Berthille PALLAUD, Sandrine HENRY : Amorces de mots et répétitions : des hésitations plus que des erreurs en français parlé 848
Sophie PIÉRARD, Liesbeth DEGAND, Yves BESTGEN : Vers une recherche automatique des marqueurs de la segmentation du discours 859
Bénédicte PINCEMIN : Lexicométrie sur corpus étiquetés 865
Carmen PINEIRA-TRESMONTANT : Un pas en avant, un pas en arrière (Vingt-cinq ans d'allocutions radiodiffusées du roi Juan-Carlos d'Espagne) 874
Sophie PIRON : Contraintes syntaxiques et préférences sélectionnelles du verbe entendre 885
Thierry POIBEAU : Pré-analyse de corpus 897
Jean-Luc POMMIER : Des variables tensives inscrites dans le texte : une interprétation dynamique de l'A.F.C. dans l'analyse d'Alceste 904
Yasmina QUATRAIN, Sylvaine NUGIER, Anne PERADOTTO, Damien GARROUSTE : Évaluation d'outils de Text Mining : démarches et résultats 916
Paul RAYSON, Damon BERRIDGE, Brian FRANCIS : Extending the Cochran rule for the comparison of word frequencies between corpora 926
Alex RIBA, Josep GINEBRA : Diversity of Vocabulary and Homogeneity of Style in Tirant lo Blanc 937
Mathieu ROCHE, Thomas HEITZ, Oriane MATTE-TAILLIEZ, Yves KODRATOFF : EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés 946
Maria Clelia ROMANO, Tania CAPPADOZZI : Il processo di codifica dei dati testuali dell'indagine Multiscopo 'Uso del tempo' 958
Cristelle ROUX, Alain LEFEVRE : Identification des besoins en information géographique 970
Thibault ROY, Pierre BEUST : ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus 978
André SALEM : Introduction à la résonance textuelle 987
Luiggi SANSONETTI : Apports de la statistique textuelle pour le repérage des reprises et reformulations dans les corpus d'interaction verbale entre un adulte et un enfant 994
Jacques SAVOY, Yves RASOLOFO : Hyperliens et recherche d'information sur le web 1001
Didier SCHWAB, Mathieu LAFOURCADE, Violaine PRINCE : Hypothèses pour la construction et l'exploitation conjointe d'une base lexicale sémantique basée sur les vecteurs conceptuels 1009
Gilda SENSALES, Antonio CHIRUMBOLO : Le rappresentazioni delle differenze di 'Genere' nel mondo del lavoro attraverso la comunicazione scientifica in psicologia sociale: analisi del lessico degli 'Psychological Abstracts' (1976-2002) 1020
Benedikt SZMRECSÁNYI : On Operationalizing Syntactic Complexity 1032
Cristina Alice TOMA : Cohésion informative dans le discours scientifique 1040
Carlo TOMASETTO, Patrizia SELLERI : Lessico dell'intervista, lessico degli intervistati : l'articolazione tra domande e risposte nell'analisi di Alceste 1052
Stéphane TREBUCQ : Finance organisationnelle : un essai de représentation 1062
Laurence TUERLINCKX : La lemmatisation de l'arabe non classique 1070
Jose TUMMERS, Dirk SPEELMA, Dirk GEERAERTS : Quantifying semantic effects. The impact of lexical collocations on the inflectional variation of Dutch attributive adjectives 1080
Gian Piero TURCHI, Sara MARTINAZIOLI, Luisa ORRU, Barbara LALISCIA : La 'malattia mentale' tra senso scientifico e senso comune: analisi di testi di settore e divulgativi 1090
Arjuna TUZZI, Marisa CEMIN, Marco CASTAGNA : 'Moved deeply I am'. Autistic language in texts produced with FC 1098
Mathieu VALETTE, Natalia GRABAR : Caractérisation de textes à contenus idéologiques : statistique textuelle ou extraction de syntagme ' l'exemple du projet PRINCIP 1107
Valery VANDAELE, Pascal FRANCQ, Alain DELCHAMBRE : Analyse d'hyperliens en vue d'une meilleure description des profils 1118
Lieve VANGEHUCHTEN : El uso de la estadística en la didáctica de las lenguas extranjeras con fines específicos: descripción del proceso de selección del léxico típico del discurso económico empresarial en español 1129
Sofie VAN GIJSEL, Dirk GEERAERTS, Dirk SPEELMAN : A functional analysis of the linguistic variation in Flemish spoken commercials 1037
Fabienne VENANT : Polysémie et calcul du sens 1146
Jacques VERGNE : Découverte locale des mots vides dans des corpus bruts de langues inconnues, sans aucune ressource 1158
Jean-Marie VIPREY : Analyse séquencée de la micro-distribution lexicale 1166
Hung VO TRUNG : SANDOH, un outil pour analyser des textes hétérogènes 1178
David WARTEL, Pascal FRANCQ, Alain DELCHAMBRE : Organisation d'une masse documentaire électronique présentée à des lecteurs potentiels 1186
Maria ZIMINA : Alignement textométrique des unités lexicales à correspondances multiples dans les corpus parallèles 1196
Tables rondes / Workshops
Lexicométrie et corpus multilingues 1204
Corneille et Molière 1208
Index
Index des auteurs /Authors Index 1209
Index des mots-clés / Keywords Index 1213