Présents
Rim Al-Hulou (O), Hacène Cherfi (O), Olivier Corby (A), Rose Dieng (A),
Jérôme Euzenat (E), Amedeo Napoli (O), Emmanuel Nauer (O),
Jérôme Valentin (A)
Sujet : Textes sur le stress professionel (réduit à l'aspect psychique).
Corpus : nombreux textes provenant de MedLine.
Ontologie : UMLS (476000 concepts, très
linguistique)
+ réseau sémantique (ASN.1): 132 type sémantiques,
53 types de relation.
Il est aussi possible d'utiliser le Medical
Subject Headings ou Unified Medical Language System en tant que source
d'ontologie dans le système. MeSH étant une partie d'UMLS.
Représentation : Quelques résumés d'articles sur le stress psychologique issus de la base MedLine ont été annoté sur le modèle du corpus génétique par Corinne Ribert (INRS). Les éléments représentés sont princiapalement des liens causaux. Le corpus semble alors assez proche du corpus génétique.
Évaluation : La spécialiste de l'INRS intéressée par le sujet et qui a commencé les annotations devrait être en mesure d'évaler les résultats.
Le corpus ainsi réduit semble beaucoup plus homogène. Il devient envisageable de l'utiliser si l'on sait circonscrire une "ontologie".
Une fiche est déjà consultable sur le serveur web.
Il a été décidé d'y ajouter la distinction entre class/relation définie et descriptive (mots
clefs defclass/descclass).
Il a aussi été décidé d'introduire (reste à savoir comment) des relations binaires avec les propriétés de transitivité, inverse, symmétrique.
La question de la séparation ontology/content (qui initialement devait être le pendant de support/graphes, classes/instances, tbox/abox) a aussi été abordée. C'est-à-dire que l'on retrouve des objets dans le contenu et des classes dans l'ontologie. Il y plusieurs arguments contre cela:
Suite au retrait d'USINOR, il devient primordial de choisir un corpus d'expérimentation.
Le choix entre le corpus stress et le corpus gene n'est pas simple.
Les arguments en faveur et défaveur de l'un ou l'autre des corpus sont légion.
Il a été finalement décidé d'utiliser le corpus gene pour
démarrer sachant que la structure envisagée à l'heure actuelle est
simple, que le travail est légèrement en avance et qu'il n'est pas envisagé
de se pencher sur le sens des exemples.
On pourra passer ensuite au corpus stress, sans doute avec des exemples et des ontologies
structurellement plus complexes.
Dernière minute: Bernard Jacq (drosophiste phocéen) a accepté de nous fournir une base de 500 résumés annotés sur les interactions géniques. On espère qu'ils seront exploitables.
JE en a a présenté les grandes fonctions bien qu'il ne sera sans doute opérationnel qu'à la fin du mois. Il permettra de récupérer les résumés nettoyés (Tidy), annotés et d'y incorporer les annotations dans son propre langage (GC, RCO, DL).
On peut déjà y retrouver un formulaire permettant de retrouver les 10 résumés MedLine sélectionnés (on devrait pouvoir faire l'équivalent avec nos formats...).
Par ailleurs, JE, AN et Raphael Troncy ont eu le droit le lendemain à une démo impromptue de Jose Kahan (W3C) sur une technique d'annotation (via RDF) des pages Web en externe cette fois-ci (c'est-à-dire que les pages ne sont pas modifiées mais que le client fait la fusion entre les annotation dans un serveur mySQL et les pages). La solution n'est pas encore tout à fait au point (nous sommes passés entre deux compilations) mais on peut parfaitement envisager d'en utiliser une partie dés qu'elle le sera (après discussion avec Jose, le W3C est intéressé).
La discussion sur les requêtes a été très riche, elle est décomposée ci-dessous:
La force des systèmes à base de connaissance consiste à faire des inférences pour coller à la sémantique des langages ce qui n'est pas le cas par exemple de XQL car XML est structurel. Il est possible d'imaginer répondre aux requêtes en faisant des inférences uniquement en fonction du contenu d'un document ou en fonction du contenu de tous les documents connus. Dans cette éventualité, on retourne les groupes de documents permettant de répondre par l'affirmative à une requête. Dans l'ordre d'inclusion:
C doc0 A -> C, B-> C D doc1, doc2, doc3 X -> Y / A -> X / B -> X | doc2, doc7 X -> Y / A -> X / B -> X | doc4, doc8, doc3 Z -> Y / A -> Z / B -> XMais, indexer les documents par le contenu n'est pas la même chose que construire une base de connaissance (OC), par ailleurs dans le cas général la base obtenue ne sera ni consensuelle, ni consistante.
Le langage décrit dans le rapport http://www.ics.forth.gr/proj/isst/RDF/rdfquerying.pdf permet d'interroger du RDF ainsi que le schema.
On en reste au schéma précisé précédement:
SELECT K.name FROM K:gene, Z:interaction, W:interaction WHERE Z.target = K, W.target = K, Z.promoter = A, W.promoter = B ORDER BY K.nameLes réponses seront rendues sous la forme:
nom1 url1.1 url1.2 url1.3 nom2 url2.1 url2.2où les nom1,... sont les objets définis dans le SELECT et les url ceux des documents permettant de répondre à la question (à noter que l'on pourrait imaginer SELECT FROM K:gene, R:interaction WHERE R.target=K).
La méthodologie du projet risque d'être présentée à:
Par ailleurs, une courte présentation a été proposée pour insertion dans le prochain Ercim News.
Ca bouge du côté "fouille de texte" plutôt que représentation du contenu (et recherche). On garde donc un lien par Amedeo mais sans impliquer Usinor dans le projet.
Le 5 mai à Lyon ou Grenoble.