Action de recherche coopérative ESCRIRE
Présentation scientifique
Motivations
Un intranet (ou, plus généralement, l'utilisation des
technologies de
l'Internet) est l'opportunité
pour les entreprises, d'accéder et de partager la connaissance bien
souvent difficilement accessible sous forme documentaire. Les documents
numériques et numérisés
peuvent être rendus accessibles de manière standard et
transparente
auprès de tous les utilisateurs concernés. L'ambition, à
terme, est de réaliser de véritables serveurs de connaissances
permettant la recherche et la manipulation des ressources de l'entreprise.
Cependant, les limites de cette approche apparaissent rapidement :
l'organisation des sites se révèle une tâche
coûteuse et la recherche
plein texte peu efficace. La recherche et l'interrogation d'un site en
s'appuyant sur le contenu des documents est une nécessité et
les formalismes de représentation
de connaissances sont de bons candidats pour représenter
ce contenu. La représentation du contenu permettra
de le manipuler pour faire de la recherche par analogie, par
spécialisation,
par similitude, etc. Le langage XML, par ailleurs promis à un bel
avenir,
permet d'intégrer les éléments de
représentation du contenu au sein des documents.
L'un des premiers objectifs de l'ARC est
de proposer un modèle d'implémentation d'un tel dispositif.
Mais il existe différents formalismes de représentation de
connaissances et nul ne connaît exactement leurs qualités
respectives.
Le but de l'ARC consiste donc à comparer trois types de
représentations de connaissances (graphes conceptuels,
représentations
de connaissances par objets et logiques de descriptions) du point de vue
de la représentation du contenu de documents et de sa manipulation.
Cela permettra de mettre en évidence les propriétés
intéressantes pour
la recherche d'informations et de
déterminer les contextes favorables à l'exploitation de chacune
de ces représentations.
Dans le cadre de l'INRIA, cela permettra de lier et concerter les efforts
de trois projets utilisant des approches distinctes pour le même
problème intéressant actuellement de nombreuses
sociétés
qui tentent de mettre sur pied des mémoires d'entreprise ou plus
modestement des intranets.
Objectif et organisation
L'objectif de l'action consiste à comparer les apports de chacun des
types de représentation pour la représentation du contenu dans
les serveurs de connaissances. Au delà de la meilleure connaissance
des techniques impliquées par les différents projets, ce
travail fera
avancer l'état de l'art et devrait ainsi donner lieu à des
publications.
La mise à l'épreuve de ces différents formalismes
pour le traitement d'un jeu de documents (fourni sans doute par un partenaire
industriel) nécessite de mener une réflexion
méthodologique
sur le passage des textes à leur représentation formelle (de
façon suffisamment indépendante des formalismes employés)
en lien avec le type d'accès que l'on veut avoir sur ces documents.
Cette représentation formelle sera
définie conjointement et introduite (si nécéssaire
manuellement) dans un format XML (pour
« eXtensible Markup Language »).
Un ensemble de requêtes
définies de manière coordonnée sera évaluée
dans chacun des contextes.
Les différents projets impliqués devront donc spécifier
l'intégration des types de représentations formelles qu'ils
mettent en oeuvre dans un format XML. Ils devront aussi définir et
développer une stratégie d'interprétation et
d'évaluation des requêtes en fonction des
spécificités
du formalisme de représentation de connaissances.
À l'issue de ce travail, les différents formalismes seront
comparés entre eux (mais aussi à la recherche plein-texte)
selon le protocole prédéfini. Celui-ci devra apprécier des
critères tant qualitatifs (expressivité des requêtes,
accessibilité/lisibilité
des informations, etc.) que quantitatifs (temps de réponse à une
requête, taux de pertinence (ou précision)/rappel (ou
couverture) des
réponses, etc.).
Cette évaluation proposera une grille d'analyse des avantages et
inconvénients d'un langage de représentation formel
vis-à-vis de la recherche
d'informations sur le Web.
État de l'art
Cet état de l'art présente tout d'abord les formalismes
de représentation de connaissances, puis les systèmes de
gestion de documents (en particulier ceux liés au Web) avant d'aborder
les travaux réalisés sur l'association représentation
textuelle/représentation formelle.
Formalismes de représentation de connaissances
Les trois formalismes de représentation de connaissances
évalués
par l'ARC sont brièvement présentés ici avant
de les replacer dans le contexte de la gestion de documents.
Graphes conceptuels
Le modèle des graphes conceptuels (GC) simples est décrit
dans [Sowa84] et formalisé dans [Chein92]. Il permet de décrire
un domaine sous la forme de graphes dont les noeuds représentent
soit des concepts soit des relations entre concepts. Pour ce faire les
types de concepts et de relations utilisables dans ce domaine
sont décrits au préalable dans un support qui contraint alors
la forme des graphes et les manipulations sur ces graphes. Diverses
opérations ont été définies sur les graphes
conceptuels permettant de les simplifier, de les joindre ou de retrouver
les graphes partageant une certaine propriété.
Outre
les travaux théoriques sur le modèle des GC, il existe
désormais plusieurs plates-formes de gestion des
GC (par exemple COGITO, CGKEE, PEIRCE) et des outils dédiés
à
des domaines aussi variés que l'acquisition des connaissances (CGKAT
[Martin96a],
WEBKB), le traitement de la langue naturelle, la recherche d'informations ou
les bases de données.
Représentation de connaissances par objets
La représentation de connaissances par objets [Euzenat98]
permet d'exprimer la connaissance sous forme d'objets (un identifiant
associé
à un ensemble de couples attributs-valeurs). Ces objets sont
attachés
à des classes organisées en taxonomies par une relation de
spécialisation. Ce modèle est proche de celui des langages
de programmation par objets. Il est exploité à l'aide de
mécanismes de classification, de catégorisation ou
d'inférence
de taxonomies.
Sans doute grâce à leur simplicité
apparente, les représentations par objets sont très souvent
utilisées dans les serveurs de connaissances [Farquhar97,
Euzenat96] ou l'indexation de documents (SHOE,
Ontobroker).
Logiques de descriptions
Les logiques de descriptions permettent de représenter les connaissances
relatives à un domaine de référence à l'aide
de « descriptions » qui peuvent être des
concepts, des
rôles et des individus [Napoli 97]. Les
concepts modélisent des classes d'individus et les rôles des
relations entre classes. Une sémantique est associée aux
descriptions par l'intermédiaire d'une fonction d'interprétation.
La relation de subsomption permet d'organiser les concepts et les rôles
en hiérarchies ; la classification et l'instanciation sont les
opérations
qui sont alors à la base du raisonnement sur les descriptions, ou
raisonnement terminologique.
La classification permet de déterminer la position d'un concept
et d'un rôle dans leurs hiérarchies respectives, tandis que
l'instanciation permet de retrouver les concepts dont un individu est
susceptible
d'être une instance.
Il existe plusieurs systèmes opérationnels
qui implantent une logique de descriptions, en particulier CLASSIC, FACT,
DLP et LOOM. L'un de ces systèmes servira de base à la mise
en oeuvre du projet.
Gestion de documents sur intranet
La gestion de documents sur intranet demande la structuration et
la représentation des textes de manière homogène
afin de pouvoir les manipuler (indexation, génération,
édition ou mise à jour). Le standard XML vient
maintenant offrir une solution en ce qui concerne les formats de structuration
de ce type de documents.
XML permettra d'associer aux documents leur contrepartie formalisée
et d'autres informations nécessaires à leur exploitation comme
les bases de connaissances fournissant le contexte d'interprétation.
Association de textes et de représentations formelles
Plusieurs travaux ont exploité l'association de documents textuels
(voire multimédia) et représentations formelles. Selon le
cas, une telle représentation formelle peut servir à :
-
représenter la structure du document,
-
fournir des méta-informations sur le contenu du document (ce qui
peut être suffisant dans certains cas de recherche documentaire ou
de recherche d'informations sur le Web),
-
décrire des connaissances sous-jacentes au document (par exemple
à des fins d'acquisition des connaissances),
-
voire exprimer une traduction exacte du texte (dans des objectifs de traitement
automatique du langage naturel, par exemple à des fins de traduction
automatique).
Le but de l'action est principalement de s'attaquer au dernier point
de manière cependant incomplète et d'intégrer cette
traduction dans un langage formel au document en tant que
méta-information
(via XML).
Du texte à sa représentation
Le projet Orpailleur a l'expérience d'acquisition automatique de
représentation structurée à partir de texte
[Toussaint98].
Dans le cadre de l'action, les outils expérimentaux dont dispose
le projet seront certainement complétés par une analyse manuelle
pour créer les représentations nécessaires à
l'expérimentation.
L'une des retombées de cette expérimentation consiste
à analyser dans quelle mesure certaines structures linguistiques
sont mieux (resp. moins bien) prises en compte par les formalismes de
représentation proposés.
Recherche d'informations
Parmi les systèmes de recherche documentaire exploitant un formalisme
structuré, citons ELEN [Chevallet92]
où
les GC sont exploités dans un système de recherche
d'informations,
privilégiant le taux de précision des réponses. La
représentation par GC pour la recherche documentaire est
également
proposée dans [Kheiberk95, Genest97].
La recherche de documents à partir d'une requête exprimée
en GC exploite essentiellement la relation de spécialisation
calculée
entre GC : elle repose en effet sur une projection du graphe requête
sur la base de GC. Des adaptations ou extensions de la projection classique
dans les GC ont d'ailleurs été proposées à
ces fins [Genest97].
D'autres travaux récents concernent l'indexation et la recherche
d'information à partir de logiques de descriptions
[Meghini93, Sebastiani94].
Projets similaires
Le sujet tel qu'il est posé est un sujet d'actualité auquel
beaucoup de groupes s'attaquent à travers le monde, en
général
avec un choix initial en matière de représentation de
connaissances.
Ainsi, peuvent être évoqués les projets SHOE
(université du Maryland, [Luke97]), Ontobroker
(université de Karlsruhe, [Fensel97]) qui
utilisent des représentations par objets plus ou moins
élaborés et le projet Web-at-a-glance (université de
Rome (La sapienza), [Catarci98]) qui utilise les
logiques de descriptions.
En ce qui concerne l'activité
d'évaluation des différents formalismes, il existe
quelques travaux sur l'évaluation empirique d'un formalisme [Heinsohn94]
ou sur la comparaison de plusieurs formalismes [Biebow93, Nobécourt98,
Coupey98]. Nous sommes en contact avec ces
équipes.
Par contre, ces évaluations sont réalisées in
abstracto
sans application particulière en vue. Le but de l'ARC est, au contraire,
de réaliser une évaluation en contexte.
Autres coopérations
L'action pourrait être le point de départ d'un partenariat
avec sociétés (Usinor et AIS). Le sujet de ce partenariat est
plus ambitieux puisqu'il intègre l'analyse de documents en langue
naturelle
et la réalisation d'une maquette complète et d'une
application avec
cette maquette.
Individuellement, les projets ont des collaborations sur le thème
de la mémoire technique (ACACIA et Sherpa dans le cadre de Génie
avec Dassault-Aviation et Aérospatiale) ou sur le thème
de l'acquisition à partir de textes (Orpailleur avec l'INIST, Sherpa
avec Xerox).
Bibliographie
[Biebow93] B. Biébow, G. Chaty. A comparison
between conceptual graphs and KL-ONE. Proc. of the 1st ICCS, LNAI 699,
p. 75-89, Springer-Verlag, Québec, CA, 1993.
[Catarci 98] T. Catarci,
L. Iocchi, D. Nardi, G. Santucci, Accessing
the Web: exploiting the database paradigm, Actes ECAI'98
Workshop on Building, Maintaining and using Organizational Memories,
pp. 37-46, Brighton (UK), 1998
[Chein92] M. Chein, M.-L. Mugnier. Conceptual
Graphs: Fundamental Notions. Revue d'Intelligence Artificielle
6(4):365-406
, 1992.
[Chevallet92] J.-P. Chevallet. Un modèle
logique de Recherche d'Informations appliqué au formalisme des Graphes
Conceptuels. Thèse de Doctorat en Informatique, Grenoble, Mai 1992.
[Coupey98] P. Coupey, C. Faron. Towards
correspondances
between conceptual graphs and description logics, Actes 6th ICCS, Montpellier
(FR), 1998
[Euzenat96
]
J. Euzenat, Corporate memory through cooperative
creation of knowledge bases and hyper-documents, Actes 10th KAW, Banff
(CA), 1996
[Euzenat98] J. Euzenat,
Représentation de connaissance par objets, dans
Ducournau, Euzenat, Masini, Napoli (éds.), Langages
et modèles à objets: état et perspectives de la recherche,
INRIA, Rocquencourt (FR), 1998
[Farquhar97] A. Farquhar,
R. Fikes, J. Rice. The Ontolingua server: a tool for collaborative
ontology construction, Int. J. of Human-Computer Studies 46:707-727,
1997
[Fensel97]
D. Fensel, M. Erdmann, R. Studer, Ontology
Groups: Semantically Enriched Subnets of the WWW, Actes KI97 Workshop on
Intelligent Information Integration, Freiburg (DE), 1997
[Genest97] D. Genest, M. Chein. An Experiment
in Document Retrieval Using Conceptual Graphs. In Lukose & al eds,
Fulfilling Peirce's Dream, Proc. of ICCS'97, Springer-Verlag, LNAI 1257,
pp. 489-504, Seattle, USA, Août 1997.
[Luke97]
S. Luke, L. Spector, D. Rager, J. Hendler. Ontology-based Web
Agents. In Proc. of the 1st Int. Conf. on Autonomous Agents, 1997.
[Heinsohn94]
J. Heinsohn, D. Kudenko, B. Nebel, H.-J. Profitlich, An Empirical Analysis
of Terminological Representation Systems, Artificial intelligence
68(2):367-397, 1994
[Kheiberk95] A. Kheiberk, Y. Chiamarella.
Integrating Hypermedia and Information Retrieval with Conceptual Graphs.
Proc. of HIM'95, Konstanz, Germany, April 1995.
[Martin96a] P. Martin. Exploitation de Graphes
Conceptuels et de Documents Structurés et
Hypertextes pour l'Acquisition de Connaissances et la Recherche d'Informations.
Thèse de Doctorat en Informatique, Université de Nice - Sophia
Antipolis, 14 Octobre 1996.
[Meghini93] C. Meghini, F. Sebastiani, U.
Straccia and C. Thanos, A Model of Information Retrieval based on a
Terminological
Logic, Proc. of the 16th Annual Int. ACM-SIGIR
Conf. on Research and Development in Information Retrieval, Pittsburgh,
Korfhage & al eds, ACM Press, p. 298-307, 1993.
[Napoli97] A. Napoli, Une introduction aux logiques
de descriptions, Rapport de Recherche INRIA, RR 3314, 1997.
[Nobécourt98] J. Nobécourt,
Représenter la notion de propriété dans les graphes
conceptuels et les logiques de descriptions, Actes IC'98,
Pont-à-Mousson (FR), 1998
[Sebastiani94] F. Sebastiani, A Probabilistic
Terminological Logic for Modelling Information Retrieval, Proc.
of the 17th Annual Int. ACM-SIGIR Conf. on Research and Development
in Information Retrieval, Dublin, Croft & al, eds, Springer-Verlag,
pp. 122-130, 1994.
[Sowa84] J. Sowa. Conceptual Structures: Information
Processing in Mind and Machine. Addison-Wesley, Reading, MA., 1984.
[Toussaint98] Y. Toussaint, F. Namer, B. Daille,
C. Jacquemin, J. Royautée, N. Hathout, Une approche linguistique
et statistique pour l'analyse de l'information en corpus, Conf. Traitement
Automatique de la Langue Naturelle, TALN'98, Paris 1998.
http://exmo.inrialpes.fr/cooperation/escrire/esc-sci.html
Feel free to comment to Jerome .
Euzenat À inrialpes . fr,
$Id: esc-sci.html,v 1.3 2021/12/17 16:05:57 euzenat Exp $