Présents
Amedeo Napoli (O), Rim Al-Hulou (O), Emmanuel Nauer (O), Yannick
Toussaint (O), Jérôme Euzenat (E), Rose Dieng (A), Alexandre Delteil (A),
Olivier Corby (A)
L'idée de départ du projet était d'utiliser un corpus et des évaluateurs
en provenance d'Usinor. Devant le flottement côté Usinor, nous avons
décidé de choisir un corpus de rechange afin d'avancer. Plusieurs corpus
ont été présentés lors de la réunion.
On veut, pour cette partie du travail, un corpus d'essai d'environ 50
textes et un corpus d'évaluation d'au moins 50 textes.
Sujet : l'agriculture en général, restreinte aux articles parlant de chromatographie.
Corpus : Base bibliographique (en SGML) provenant de l'INIST. Le corpus
cité ci-dessus est composé de 56 textes. Il a été indexé automatiquement
(termes:FASTR+thésaurus:AGROVOC) et catégorisé avec une recherche des
prédicats à la main.
Un autre traitement qui lui a été appliqué est l'extraction d'un treillis
de Galois (Arnaud Simon): dépendance entre
termes en fonction des prédicats/dépendance entre textes -- similarité
et généralité -- en fonction des prédicats.
Ontologie : Ontologie faite à la main en fonction d'un thésaurus publié exprimé dans une logique de description (CLASSIC). Terminologie "exacte" (faite à la main à partir d'un thésaurus) "Dosage d'amine biogène dans les conserves de sardine". Celui-ci contient les predicats qui ont ete extraits manuellement de la classe chromato. C'est a dire que l'on a pris les termes impliques ds la classe et on a recherche dans quelle structure predicative ils pouvaient etre employe (a travers les textes).
Représentation : Pour chaque texte on dispose des termes (DL) correspondants à son contenu. Par exemple:
(cl-define-concept 'DETECTION-2 '(and DETECTION (ALL theme AMINE_BIOGENE) (ALL position (and CONSERVE (ALL theme SARDINE))) ))represente un segment de texte du style " la detection des amines biogenes dans les conserves de sardines" qui se trouve (ca, ce n'est pas marque car on n'avait pas garde la trace) dans le document 001262.
Évaluation : ?
La difficulté de ce corpus est son manque de régularité (pour un si petit nombre de document).
Sujet : la régulation des gènes chez la droophile (sujet de la base de connaissance Knife).
Corpus : Il s'agit d'un corpus de notice bibliographiques d'article dont on représentait le contenu des résumés. À partir de MedLine on peut tirer automatiquement un corpus sur ce sujet (50 exemplaires sont à l'URL ci-dessus, ce sont les 50 premiers d'un ensemble de 230). Denis Proux est un doctorant de François Rechenmann chez Xerox qui est a priori d'accord pour collaborer. Il disposera bientôt d'un ensemble 500 textes annotés manuellement sur ce sujet. Il devrait par ailleurs être capable d'engendrer automatiquement de telles annotation.
Ontologie : Jérôme Euzenat est capable, assez rapidement de fournir une ontologie du domaine (une ontologie peu large à extraire de la base de connaissance Knife qui est raisonnablement grande). Pour les représentations des textes, l'ontologie est composé de quelques grandes classes (GENE, GENE-CLASS, PART (de la drosophile), STAGE (du développement), CONTROL et INTERACTION). INTERACTION est principalement dôtée d'attributs (qui dans Knife sont assez nombreux et peuvent être repris ici où non) tels que promoter:, target:, occur-at:, occur-when:, affects:.
Représentation : pour chaque résumé il est possible d'isoler (JE peut le faire et se faire aider par toute une pyramide de biologistes) les interactions entre gènes où entre classes de gènes qui y sont présentes. Ceci dit, le corpus de Denys Proux serait une aubaine. Une interaction est soit
CLASS-GENE --->(CONTROL) CLASS-GENE/GENE soit GENE --->(INTERACTION[+/-,at,where,affects]) GENE
Évaluation : on peut certainement se faire aider par des biologistes compétents (A. Viari) et on aura un peu plus de difficulté avec les spécialistes (B. Jacq mais c'est jouable).
Sujet : textes sur le stress professionel (psychique et phisiologique).
Corpus : 50000 textes provenant de diverses bases de connaissances.
Ontologie/Thésaurus : UMLS (476000 concepts, très linguistique) + réseau sémantique (ASN.1): 132 type sémantiques, 53 types de relation.
Représentation : ?
Évaluation : Peut-être un spécialiste de l'INRS intéressé par le sujet.
Pour en savoir plus sur ce corpus, Emmanuel Nauer est chargé de rapidement:
La discussion sur la méthodologie a en fait été uniquement consacrée aux types de requêtes à accepter dans les expérimentations. Les résultats donnés ci-dessous seront intégrés au document de méthodologie .
Après un premier exposé d'Amedeo Napoli sur OQL (le langage de requête de l'Object Database Management Group). La discussion s'est établie à partir du fameux cadre:
SELECT FROM WHERE
De cette discussion un certain nombre de décisions ressortent.
Amedeo Napoli annonce l'intérêt marqué et renouvelé de la part d'Usinor/Irsid. Jérôme Euzenat doit donc recontacter Marie-Pierre Chouvet pour savoir si l'on peut espérer disposer de textes d'ici à juin.
Emmanuel Nauer a brièvement présent Dilib, un outil maison du LORIA: plateforme de manipulation de documents SGML/XML + génération d'XML à partir de BibTeX et réponse à query Web.