2000
9h-18h au LISI, Villeurbanne

Présents
Rim Al-Hulou (O), Hacène Cherfi (O), Olivier Corby (A), Rose Dieng (A), Jérôme Euzenat (E), Amedeo Napoli (O), Emmanuel Nauer (O), Jérôme Valentin (A)

Présentation du corpus stress psychologique (EN)

Sujet : Textes sur le stress professionel (réduit à l'aspect psychique).

Corpus : nombreux textes provenant de MedLine.

Ontologie : UMLS (476000 concepts, très linguistique) + réseau sémantique (ASN.1): 132 type sémantiques, 53 types de relation.
Il est aussi possible d'utiliser le Medical Subject Headings ou Unified Medical Language System en tant que source d'ontologie dans le système. MeSH étant une partie d'UMLS.

Représentation : Quelques résumés d'articles sur le stress psychologique issus de la base MedLine ont été annoté sur le modèle du corpus génétique par Corinne Ribert (INRS). Les éléments représentés sont princiapalement des liens causaux. Le corpus semble alors assez proche du corpus génétique.

Évaluation : La spécialiste de l'INRS intéressée par le sujet et qui a commencé les annotations devrait être en mesure d'évaler les résultats.

Le corpus ainsi réduit semble beaucoup plus homogène. Il devient envisageable de l'utiliser si l'on sait circonscrire une "ontologie".

Présentation du format d'échange (DTD) et exemple sur fiches génétique et ontologies

Une fiche est déjà consultable sur le serveur web. Il a été décidé d'y ajouter la distinction entre class/relation définie et descriptive (mots clefs defclass/descclass).
Il a aussi été décidé d'introduire (reste à savoir comment) des relations binaires avec les propriétés de transitivité, inverse, symmétrique.

La question de la séparation ontology/content (qui initialement devait être le pendant de support/graphes, classes/instances, tbox/abox) a aussi été abordée. C'est-à-dire que l'on retrouve des objets dans le contenu et des classes dans l'ontologie. Il y plusieurs arguments contre cela:

on peut avoir des éléments conceptuels dans les documents (et vouloir les interroger). Mais où s'arrête-t-on?
on peut faire référence à des instances dans les ontologies (et en particulier, la base de génétique aurait besoin de cela).
la décision (voir plus bas) de ne faire que des inférences locales conduit à introduire des éléments individuels dans les ontologies. C'est le cas pour les gènes qui sont tous présupposés connus dans les articles sur les interactions.

La DTD sera donc modifiée de telle sorte à admettre des éléments individuels dans l'élément ontology. En ce qui concerne les éléments conceptuels dans l'élément contenu, on attendra (il me semble que dans le jeu d'essai sur les gènes, cela n'est pas utile, mais peut-être le besoin s'en fera-t-il sentir plus tard).

Choix de corpus

Suite au retrait d'USINOR, il devient primordial de choisir un corpus d'expérimentation. Le choix entre le corpus stress et le corpus gene n'est pas simple.
Les arguments en faveur et défaveur de l'un ou l'autre des corpus sont légion. Il a été finalement décidé d'utiliser le corpus gene pour démarrer sachant que la structure envisagée à l'heure actuelle est simple, que le travail est légèrement en avance et qu'il n'est pas envisagé de se pencher sur le sens des exemples.
On pourra passer ensuite au corpus stress, sans doute avec des exemples et des ontologies structurellement plus complexes.

Dernière minute: Bernard Jacq (drosophiste phocéen) a accepté de nous fournir une base de 500 résumés annotés sur les interactions géniques. On espère qu'ils seront exploitables.

Présentation du serveur de servlet

JE en a a présenté les grandes fonctions bien qu'il ne sera sans doute opérationnel qu'à la fin du mois. Il permettra de récupérer les résumés nettoyés (Tidy), annotés et d'y incorporer les annotations dans son propre langage (GC, RCO, DL).

On peut déjà y retrouver un formulaire permettant de retrouver les 10 résumés MedLine sélectionnés (on devrait pouvoir faire l'équivalent avec nos formats...).

Par ailleurs, JE, AN et Raphael Troncy ont eu le droit le lendemain à une démo impromptue de Jose Kahan (W3C) sur une technique d'annotation (via RDF) des pages Web en externe cette fois-ci (c'est-à-dire que les pages ne sont pas modifiées mais que le client fait la fusion entre les annotation dans un serveur mySQL et les pages). La solution n'est pas encore tout à fait au point (nous sommes passés entre deux compilations) mais on peut parfaitement envisager d'en utiliser une partie dés qu'elle le sera (après discussion avec Jose, le W3C est intéressé).

Discussion sur les requêtes

La discussion sur les requêtes a été très riche, elle est décomposée ci-dessous:

Exemples de requêtes

Questions (Stress, EN en a communiqué tout un ensemble):

Le stress a-t-il un effet sur la performance?
effet(stress, performance)
Est-ce que l'émotion consomme des ressource cognitives?
consomation(émotion, resource cognitives)
Questions (Génétique):
- interaction(A,B)
- interaction(A,X) AND interaction(B,X)

On note que les questions posées naturellement par les utilisateurs consistent à demander les réponses aux questions qu'ils se posent et non les documents évoquant certains sujets. Il est décidé que les requêtes doivent être cependant interprétées de cette manière.

Inférences locales/globales

La force des systèmes à base de connaissance consiste à faire des inférences pour coller à la sémantique des langages ce qui n'est pas le cas par exemple de XQL car XML est structurel. Il est possible d'imaginer répondre aux requêtes en faisant des inférences uniquement en fonction du contenu d'un document ou en fonction du contenu de tous les documents connus. Dans cette éventualité, on retourne les groupes de documents permettant de répondre par l'affirmative à une requête. Dans l'ordre d'inclusion:

C doc0				A -> C, B-> C
D doc1, doc2, doc3		X -> Y / A -> X / B -> X
      | doc2, doc7		X -> Y / A -> X / B -> X
      | doc4, doc8, doc3	Z -> Y / A -> Z / B -> X

Mais, indexer les documents par le contenu n'est pas la même chose que construire une base de connaissance (OC), par ailleurs dans le cas général la base obtenue ne sera ni consensuelle, ni consistante.
On prend donc la décision (éventuellement révisable après expérience) que les inférences ne sont que locales.

Langage de requête RDF (OC)

Le langage décrit dans le rapport http://www.ics.forth.gr/proj/isst/RDF/rdfquerying.pdf permet d'interroger du RDF ainsi que le schema.

Structure des requêtes

On en reste au schéma précisé précédement:

SELECT K.name
FROM K:gene, Z:interaction, W:interaction
WHERE Z.target = K, W.target = K, Z.promoter = A, W.promoter = B
ORDER BY K.name

Les réponses seront rendues sous la forme:

nom1	url1.1
	url1.2
	url1.3
nom2	url2.1
	url2.2

où les nom1,... sont les objets définis dans le SELECT et les url ceux des documents permettant de répondre à la question (à noter que l'on pourrait imaginer SELECT FROM K:gene, R:interaction WHERE R.target=K).

Présentations à venir

La méthodologie du projet risque d'être présentée à:

Toulouse (CNES, 16-17/3): Séminaire "?" (AN, JE)
Dagstuhl (20-25/3): Séminaire "Semantics for the web" (JE)

Par ailleurs, une courte présentation a été proposée pour insertion dans le prochain Ercim News.

Point sur Usinor (AN, JE)

Ca bouge du côté "fouille de texte" plutôt que représentation du contenu (et recherche). On garde donc un lien par Amedeo mais sans impliquer Usinor dans le projet.

Actions

JE: mise à jour méthodologie
JE: annotation rapide de 10 résumés
JE: compléter l'ontologie
EN: créer progressivement un corpus sur le stress.

Prochaine réunion

Le 5 mai à Lyon ou Grenoble.

http://www.inrialpes.fr/exmo/cooperation/escrire/private/cr-20000302.html

Feel free to comment to Jerome . Euzenat À inrialpes . fr, $Id: cr-20000302.html,v 1.2 2003/08/20 10:42:31 euzenat Exp $

Compte rendu de la réunion Escrire du 02/03/2000 9h-18h au LISI, Villeurbanne