Projets terminés

Exploration de méthodologies hybrides pour l’extraction, l’organisation et l’exploitation de connaissances à partir de documents textuels

Chercheur principal : Dominic Forest
Organisme : Conseil de Recherche en Sciences Humaines du Canada
Programme : Petites subventions (programme institutionnel)
Montant de la subvention : 4 000$
Durée : 1 an (2007)
Assistants de recherche : H. Chopart (M.S.I.), A. Fortier (M.S.I.) et C. Lisée (M.S.I.)

Résumé du projet

Disponible sous peu.

Application de méthodes hybrides numériques et linguistiques pour la construction d’ontologies à partir de documents textuels

Chercheur principal : Dominic Forest
Organisme : Conseil de Recherche en Sciences Humaines du Canada
Programme : Bourses postdoctorales
Montant de la subvention : 75 054$
Durée : 2 ans (2006 – 2008)

Ce projet a été suspendu en décembre 2006 en raison de notre entrée en fonction comme professeur à l’École de bibliothéconomie et des sciences de l’information de l’Université de Montréal.

Catégorisation et analyse thématique de documents textuels

Chercheur principal : Jean-Guy Meunier
Organisme : Conseil de Recherche en Sciences Humaines du Canada
Programme : Subventions ordinaires de recherche
Montant de la subvention : 82 000$
Durée : 3 ans (2005 – 2008)
Nature de la participation : Étudiant-chercheur et coordonnateur des activités (2005) et chercheur-associé (2006 – 2008)

Résumé du projet

Durant les dernières années, plusieurs recherches menées dans les domaines des sciences humaines et des lettres ont tenté d’intégrer des dimensions informatiques à leurs objectifs. Ces initiatives ont entre autres permis l’émergence de recherches sur la lecture et l’analyse de textes assistées par ordinateur.

Dans ce territoire, l’un des importants axes de recherche vise à dépasser la manipulation informatique des textes afin d’accéder, sous une forme ou sous une autre, aux divers vecteurs du contenu du texte. À cet égard, l’un de ces axes les plus ciblés actuellement est celui de l’informatisation du processus d’analyse thématique des données textuelles. Or, ce type d’analyse est des plus complexes. Plusieurs travaux dans le domaine de l’analyse thématique ont clairement démontré l’importance de la variété de points de vue que peuvent apporter les différentes disciplines concernées par cette problématique. Dans cette optique, il semble donc nécessaire d’opter pour une approche pluridisciplinaire permettant de tenir compte tant des phénomènes linguistiques en jeu dans le texte que des phénomènes relevant de la textualité (processus discursif, pragmatique, etc.) sur lesquels reposent l’organisation et la structure des divers thèmes d’un corpus.

Au niveau informatique, la technologie disponible afin d’assister le chercheur dans sa tâche d’analyse thématique des documents n’est que très peu utilisée par la communauté universitaire. En effet, elle ne satisfait pas bon nombre de chercheurs, car, du point de vue de la recherche, elle présente des limites importantes. En effet, la technologie existante permettant d’assister l’analyse thématique des documents n’offre qu’un ensemble de fonctionnalités relativement fermé et limité. De plus, ces technologies ont souvent été conçues de manière autonome dans une architecture informatique ne permettant que très peu de communication entre les logiciels. Finalement, la plupart des logiciels sont soit propriétaires soit très difficilement accessibles. Commence cependant à émerger, du moins dans la recherche, une nouvelle génération de systèmes partagés visant à assister, à l’aide d’outils informatiques, les processus de lecture et d’analyse de textes. C’est dans cette perspective de partage et de diffusion que s’insère le présent projet de recherche. Il vise précisément à pallier certaines de ces limites en concevant et en validant une chaîne de traitement informatique flexible, adaptable (aux spécificités des projets des utilisateurs) et partagée par la communauté afin d’assister l’analyse thématique des documents.

Les objectifs généraux du projet sont 1) d’explorer les méthodes de classification et de catégorisation lexicale; et ceci 2) à des fins d’analyse thématique de textes théoriques dans les disciplines des sciences humaines et des lettres. Ils visent ainsi à effectuer un transfert de concepts et de méthodologies provenant, d’une part, des recherches théoriques et pluridisciplinaires sur l’analyse thématique et, d’autre part, des recherches appliquées en classification et en catégorisation des données (intelligence artificielle, apprentissage machine, forage de textes, etc.) afin de développer une méthodologie et une application flexibles visant à assister le chercheur en sciences humaines et en lettres dans son travail d’analyse thématique des textes. Le défi principal de ce projet réside donc dans l’arrimage entre ces deux objectifs : une opérationnalisation de l’analyse thématique avec les stratégies de classification et de catégorisation informatiques des textes.

L’atteinte de ces objectifs généraux implique, d’une part, une modélisation formelle de l’analyse thématique à partir des récentes recherches en sciences humaines et en lettres. Cette modélisation est à la base de l’opérationnalisation informatique du processus d’analyse thématique. D’autre part, la réalisation du projet implique de procéder à la modélisation, à la conception et à la validation empirique de chaînes de traitement adaptées à l’analyse thématique sur des corpus textuels spécifiques aux domaines des sciences humaines et des lettres. Cette étape présuppose un travail d’exploration et d’évaluation de la pertinence des méthodes de classification et de catégorisation automatiques à des fins d’analyse thématique.

Application de techniques de forage de textes de nature prédictive et exploratoire à des fins de gestion et d’analyse thématique de documents textuels non structurés (recherche doctorale)

Chercheur principal : Dominic Forest
Organisme : Conseil de Recherche en Sciences Humaines du Canada
Programme : Bourses de doctorat
Montant de la subvention : 70 800$
Durée : 4 ans (2002 – 2005)

Résumé du projet

Depuis les dix dernières années, on observe une hausse considérable du nombre d’initiatives visant à numériser et à rendre disponible le patrimoine informationnel des organisations et des différentes branches du savoir. Les conséquences découlant de ces initiatives sont importantes et très nombreuses. Elles ont entre autres conduit à l’émergence d’applications permettant différentes opérations complexes d’analyse et de gestion des documents. Malgré la diversité de ces applications, on constate que l’ensemble des disciplines reliées à l’analyse et à la gestion des documents textuels sont axées sur la compréhension et l’informatisation des processus d’identification des contenus thématiques et d’analyse thématique.

Le projet que nous présentons aborde précisément les problématiques de l’identification des thèmes et de l’assistance à l’analyse thématique des documents textuels. L’objectif général du projet est de développer et de valider deux méthodologies informatiques fondées respectivement sur la catégorisation et la classification automatiques permettant d’assister efficacement l’identification des thèmes et, surtout, l’analyse thématique des documents textuels. Il vise ainsi à effectuer un transfert de concepts et de méthodologies provenant, d’une part, des recherches théoriques et pluridisciplinaires portant sur l’analyse thématique et, d’autre part, des recherches appliquées en classification et en catégorisation automatiques des données afin de proposer une méthodologie et un prototype d’application flexible visant à assister le chercheur dans son travail d’analyse thématique des textes. Le défi principal de ce projet réside donc dans l’opérationnalisation de l’analyse thématique en employant certaines stratégies de classification et de catégorisation automatiques des textes.

Au niveau cognitif, nous proposons d’explorer la pertinence et la fécondité de certaines théories d’inspiration linguistique et littéraire ayant abordé la question du thème pour nous aider dans l’identification du contenu thématique et l’analyse thématique des documents textuels. À ce niveau, notre objectif est de démontrer comment les théories retenues, celles de Kintsch et Van Dijk, de Rimmon-Kenan et de Rastier, ont défini le thème de tel sorte qu’il est possible d’en assister informatiquement l’identification et l’analyse à l’aide de la méthodologie que nous proposons.

Au niveau informatique, un premier volet de notre démarche consiste à explorer et à comparer les performances des opérations de catégorisation et de classification automatiques à des fins d’identification du contenu thématique et d’analyse thématique des documents textuels non structurés. Les résultats sont évalués en appliquant un système de catégorisation hybride neuro-flou et un algorithme de classification neuronal non supervisé sur un corpus d’articles de journaux.

Par ailleurs, la classification et la catégorisation sont des opérations traditionnellement appliquées à des documents entiers. Nous proposons une manière alternative de réaliser ces processus : notre démarche consiste d’abord à segmenter chacun des documents puis à soumettre aux processus de regroupement les différents segments de texte. Cette démarche a l’avantage de pouvoir attribuer plusieurs catégories thématiques à chaque document, ce qui est plus difficilement réalisable lorsque les documents sont traités en entier.

Finalement, dans bon nombre d’applications d’analyse et de gestion des documents textuels, le processus de catégorisation est effectué en utilisant un plan de classification ou une taxinomie de catégories prédéfinies. Le développement de ces taxinomies, bien qu’il puisse être assisté dans certains cas par des applications informatiques, s’avère coûteux et très complexe. Dans ce projet, nous démontrerons qu’il est possible, en l’absence de taxinomies, d’employer certains termes du lexique initial du corpus comme étiquettes thématiques.

Forage de textes, catégorisation et analyse de contenu

Chercheur principal : Jean-Guy Meunier
Organisme : Conseil de Recherche en Sciences Humaines du Canada
Programme : Initiatives de développement de la recherche
Montant de la subvention : 95 000$
Durée : 3 ans (2000 – 2003)
Nature de la participation : Étudiant-chercheur et coordonnateur des activités

Résumé du projet

Depuis plusieurs années, les sciences humaines et sociales ont développé des approches informatiques complexes et rigoureuses pour l’analyse de contenu textuel. Dans la majorité des cas, ces approches se présentent comme des outils de fouille et de description, soit du lexique ou des segments textuels. Mais en raison de l’augmentation des données textuelles maintenant accessibles via l’Internet, le livre électronique, les CD-rom etc., on réclame de plus en plus des outils qui vont au delà de ces tâches. De fait, depuis quelques années, de nouvelles stratégies issues des sciences cognitives émergent. Certaines sont d’inspiration linguistique et d’autres mathématiques. Parmi celles-ci, on trouve la classification et la catégorisation du contenu des textes. Ces technologies sont souvent regroupés sous titre d’outils de "forage" de texte ou "text mining".

L’objectif du présent projet est d’appliquer ces technologies dans l’analyse du contenu textuel pratiquée par certaines sciences humaines, en particulier la philosophie, la sémiotique, la psychosociologie, l’anthropologie sociale et culturelle, la littérature.

En résume, l’objectif du projet est de comprendre, conceptualiser, modéliser des méthodes informatiques de classification catégorisante à des fins d’analyse de contenu textuel en sciences humaines. Le projet implique un travail interdisciplinaire tant dans ses méthodologies, ses outils informatiques que ces applications.