2000
9h-18h à CPE Lyon

Présents
Amedeo Napoli (O), Rim Al-Hulou (O), Emmanuel Nauer (O), Yannick Toussaint (O), Jérôme Euzenat (E), Rose Dieng (A), Alexandre Delteil (A), Olivier Corby (A)

Première partie: Choix de Corpus

L'idée de départ du projet était d'utiliser un corpus et des évaluateurs en provenance d'Usinor. Devant le flottement côté Usinor, nous avons décidé de choisir un corpus de rechange afin d'avancer. Plusieurs corpus ont été présentés lors de la réunion.
On veut, pour cette partie du travail, un corpus d'essai d'environ 50 textes et un corpus d'évaluation d'au moins 50 textes.

Yannick Toussaint: présentation du corpus de l'INIST

Sujet : l'agriculture en général, restreinte aux articles parlant de chromatographie.

Corpus : Base bibliographique (en SGML) provenant de l'INIST. Le corpus cité ci-dessus est composé de 56 textes. Il a été indexé automatiquement (termes:FASTR+thésaurus:AGROVOC) et catégorisé avec une recherche des prédicats à la main.
Un autre traitement qui lui a été appliqué est l'extraction d'un treillis de Galois (Arnaud Simon): dépendance entre termes en fonction des prédicats/dépendance entre textes -- similarité et généralité -- en fonction des prédicats.

Ontologie : Ontologie faite à la main en fonction d'un thésaurus publié exprimé dans une logique de description (CLASSIC). Terminologie "exacte" (faite à la main à partir d'un thésaurus) "Dosage d'amine biogène dans les conserves de sardine". Celui-ci contient les predicats qui ont ete extraits manuellement de la classe chromato. C'est a dire que l'on a pris les termes impliques ds la classe et on a recherche dans quelle structure predicative ils pouvaient etre employe (a travers les textes).

Représentation : Pour chaque texte on dispose des termes (DL) correspondants à son contenu. Par exemple:

(cl-define-concept 'DETECTION-2 '(and
                DETECTION
                (ALL theme AMINE_BIOGENE)
                (ALL position (and CONSERVE (ALL theme SARDINE)))
                ))

represente un segment de texte du style " la detection des amines biogenes dans les conserves de sardines" qui se trouve (ca, ce n'est pas marque car on n'avait pas garde la trace) dans le document 001262.

Évaluation : ?

La difficulté de ce corpus est son manque de régularité (pour un si petit nombre de document).

Jérôme Euzenat: corpus MedLine

Sujet : la régulation des gènes chez la droophile (sujet de la base de connaissance Knife).

Corpus : Il s'agit d'un corpus de notice bibliographiques d'article dont on représentait le contenu des résumés. À partir de MedLine on peut tirer automatiquement un corpus sur ce sujet (50 exemplaires sont à l'URL ci-dessus, ce sont les 50 premiers d'un ensemble de 230). Denis Proux est un doctorant de François Rechenmann chez Xerox qui est a priori d'accord pour collaborer. Il disposera bientôt d'un ensemble 500 textes annotés manuellement sur ce sujet. Il devrait par ailleurs être capable d'engendrer automatiquement de telles annotation.

Ontologie : Jérôme Euzenat est capable, assez rapidement de fournir une ontologie du domaine (une ontologie peu large à extraire de la base de connaissance Knife qui est raisonnablement grande). Pour les représentations des textes, l'ontologie est composé de quelques grandes classes (GENE, GENE-CLASS, PART (de la drosophile), STAGE (du développement), CONTROL et INTERACTION). INTERACTION est principalement dôtée d'attributs (qui dans Knife sont assez nombreux et peuvent être repris ici où non) tels que promoter:, target:, occur-at:, occur-when:, affects:.

Représentation : pour chaque résumé il est possible d'isoler (JE peut le faire et se faire aider par toute une pyramide de biologistes) les interactions entre gènes où entre classes de gènes qui y sont présentes. Ceci dit, le corpus de Denys Proux serait une aubaine. Une interaction est soit

	CLASS-GENE --->(CONTROL) CLASS-GENE/GENE
soit
	GENE --->(INTERACTION[+/-,at,where,affects]) GENE

Évaluation : on peut certainement se faire aider par des biologistes compétents (A. Viari) et on aura un peu plus de difficulté avec les spécialistes (B. Jacq mais c'est jouable).

Emmanuel Nauer: corpus INRS

Sujet : textes sur le stress professionel (psychique et phisiologique).

Corpus : 50000 textes provenant de diverses bases de connaissances.

Ontologie/Thésaurus : UMLS (476000 concepts, très linguistique) + réseau sémantique (ASN.1): 132 type sémantiques, 53 types de relation.

Représentation : ?

Évaluation : Peut-être un spécialiste de l'INRS intéressé par le sujet.

Pour en savoir plus sur ce corpus, Emmanuel Nauer est chargé de rapidement:

sélectionner une base et un type de texte.
exemplifier la représentation du contenu disponible.

Seconde partie: Requêtes

La discussion sur la méthodologie a en fait été uniquement consacrée aux types de requêtes à accepter dans les expérimentations. Les résultats donnés ci-dessous seront intégrés au document de méthodologie .

Après un premier exposé d'Amedeo Napoli sur OQL (le langage de requête de l'Object Database Management Group). La discussion s'est établie à partir du fameux cadre:

SELECT 
FROM
WHERE

De cette discussion un certain nombre de décisions ressortent.

On a décidé de faire porter l'effort sur le WHERE (la recherche des résultats ) plutôt que sur le SELECT (leur présentation). Ces aspects seront traités de manière minimal (retourner les documents) ou presque (une table de champs sélectionnés). Toutefois, il sera raisonnable d'ajouter une clause ORDERBY pour spécifier la préférence.
On a décidé que toutes les requêtes, implicitement, portent sur des documents (d). Elles peuvent porter soit sur des métadonnées traditionnelles (d.authors, d.date) soit sur le contenu (d.content). L'utilisation de la connaissance des contenus pour répondre à des requêtes précises pourra être examiné dans la suite.
Le contenu est un ensemble d'éléments apparaissant dans le document (dans un premier temps son résumé). Les requêtes vis-à-vis de ce contenu pourront être interprétées soit existentiellement (il existe l'objet de la recherche dans le contenu) soit universellement (tous les objets du contenu sont des objets de recherche) à l'aide d'un modifieur (EXISTS/ALL).
Les termes peuvent être construits avec des chaines (incl. expressions régulières), entiers. Les attributs peuvent être désignés par leur nom ou des chemins complets d'atributs (pour l'instant, les expressions régulières sur ces chemins sont laissés de côté).
Les termes peuvent être comparés à l'aide de l'égalité, la non-égalité, la relation d'ordre sur les entiers, sur les objects par rapport aux classes, la relation d'appartenance sur un ensemble.
Les contraintes peuvent être assemblées avec AND/OR/NOT.

Divers

Nouvelles Irsid

Amedeo Napoli annonce l'intérêt marqué et renouvelé de la part d'Usinor/Irsid. Jérôme Euzenat doit donc recontacter Marie-Pierre Chouvet pour savoir si l'on peut espérer disposer de textes d'ici à juin.

Dilib

Emmanuel Nauer a brièvement présent Dilib, un outil maison du LORIA: plateforme de manipulation de documents SGML/XML + génération d'XML à partir de BibTeX et réponse à query Web.

Actions

JE: recontacter Marie-Pierre Chouvet pour la condute de l'expérimentation Usinor.
JE: mise à jour du document méthodologique.
EN: évaluation de la possibilité de disposer d'un corpus sur le stress dont le contenu soit formellement caractérisé; collection de requêtes à ce sujet.

Prochaine réunion

Le 2/3/2000 sans doute encore à Lyon.

http://www.inrialpes.fr/exmo/cooperation/escrire/private/cr-20000119.html

Feel free to comment to Jerome . Euzenat À inrialpes . fr, $Id: cr-20000119.html,v 1.2 2003/08/20 10:41:08 euzenat Exp $

Compte rendu de la réunion Escrire du 19/01/2000 9h-18h à CPE Lyon