XML est présenté par son contexte historique puis sa philosophie avant de
passer
aux aspects techniques. On présente un document puis une DTD qui peut lui
correspondre.
On définit les notions de documents bien formés et valide et on explique
pourquoi les
documents XML ne sont pas des bases de connaissance.
On présente ensuite brièvement les deux technologies d'analyse (SAX et
DOM).
On dit deux mots de chaque élément de la galaxie XML:
RDF (Resource Description Framework) est une application de XML dédiée à l'annotation de ressources (par ressource, on entends tout ce qui peut être désigné par une URI). Il permet de décrire une structure de graphe orienté étiquetté dont les noeuds sont des ressources ou des chaînes de caractères. Peut-on envisager d'utiliser RDF comme point de départ pour un langage de représentation des connaissances basé sur XML ? D'une analyse plus simple, XML présente également l'avantage d'avoir une syntaxe très liée à la structure de données sous-jacentes. Ainsi, des manipulations structurelles (grâce à XSLT, par exemple), permettent de manipuler simplement la structure de données - ce qui est moins évident avec RDF. En contrepartie, ce dernier fournit des structures plus évoluées pour la représentation des conteneurs et la réification d'énoncés. D'autre part, RDF-Schema introduit la notion de classe, et la spécialisation de classe ou de propriété. Les valideurs RDF utilisent ces notions pour effectuer un minimum d'inférences. On a pu vérifier que ces inférences, associées à de nouveaux schémas RDF, pouvaient être généralisées, et ainsi augmenter ainsi le pouvoir d'expression du langage. En revanche, d'autres extensions pourraient avoir un coût plus important en terme de complexité et de compatibilité.
Le contexte du projet SESAME est l'indexation de séquences Video par le contenu. Pour cela on a défini un modèle de représentation du contenu des videos et de sa référence à la vidéo: le modèle STRATES-IA. Dans ce travail, on étudie comment utiliser XML pour encoder ce modèle. Mais il y a beaucoup de façons différentes de le faire. On a donc développé un ensemble d'encodages correspondants à des caractéristiques différentes et on les a évaluées en fonction de leur taille, de leur lisibilité et de la complexité des opérations possibles.
Présentation de diverses manières de définir un balisage XML pour décrire
des graphes conceptuels, avec ou sans DTD générique.
Présentation d'un modèle d'interprétation et de traitement de RDF et RDF
Schema (RDFS) à l'aide des graphes conceptuels. Mise en correspondance des
classes et propriétés RDFS avec les types de concept et de relation des
GC. Domain et range des propriétés s'expriment à l'aide des signatures des
relations. Une description RDF s'exprime sous forme d'un graphe
conceptuel. Les assertions étant rendues à l'aide de cadres typés.
On exploite l'opérateur de projection pour rechercher des graphes en
réponse à une requête de recherche d'information.
Un prototype logiciel implante cette mise en correspondance, à l'aide du
parser RDF Sirpac du W3C et de la plate-forme de graphes conceptuels Notio.
Les limites de l'approche sont les suivantes:
On expose pourquoi XML n'est pas un langage de représentation de connaissance. Il y a trois raisons principales: (a) l'absence de typage extensible, précisable et de collecteurs, (b) l'absence de structure élaborée (comme la spécialisation) et surtout (c) l'absence de sémantique dénotationelle du formalisme. On présente d'abord les avantages et les inconvénients de deux encodages d'une représentation de connaissance par objets en XML (DTDMaker/XMI et Troeps). On détaille ensuite les efforts réalisés pour résoudre les deux premiers points tant au sein du W3C (DCD, XML Schema) qu'au sein de la représentation de connaissance (SHOE, OML, CKML...).