Font Size: a A A

Reformulation automatique de requetes par integration d'elements syntaxiques dans le cadre du reperage de l'information en francais sur le Web

Posted on:2008-09-15Degree:Ph.DType:Dissertation
University:Universite du Quebec a Montreal (Canada)Candidate:Chieze, EmmanuelFull Text:PDF
GTID:1445390005476540Subject:Computer Science
Abstract/Summary:
Notre these s'inscrit dans le cadre du reperage de l'information ad hoc sur le Web, dont l'enjeu principal reside dans l'amelioration de la precision dans les premiers resultats des requetes. Nous proposons une methode originale de reformulation automatique de requetes visant a l'amelioration de la precision des requetes sur le Web, et qui fonctionne sans utiliser de connaissances a priori sur un quelconque domaine de connaissances. Notre methode repose sur l'hypothese que la specification explicite des liens syntaxiques entre les termes de la requete permet de reduire l'ambiguite de cette derniere, et donc d'en augmenter la precision. Elle consiste a reformuler une requete sous forme de liste de mots en une requete constituee d'une ou plusieurs expressions. Elle se deroule en trois etapes extraction d'expressions des resultats de la requete initiale, regroupement de ces termes en classes semantiques selon des heuristiques simples, puis reformulation de la requete par substitution des expressions obtenues aux termes simples de la requete initiale les composant. Les deux premieres etapes utilisent certaines connaissances linguistiques generales du francais, et sont donc specifiques a cette langue, quoiqu'elles pourraient certainement etre facilement adaptees a d'autres langues. Aucune ressource lexicale n'est utilisee dans ce processus, qui est egalement independant de toute theorie ou formalisme specifique de la linguistique computationnelle. Cette methode de reformulation de requetes repose en revanche sur certains parametres, qui dependent du cadre experimental utilise pour mettre en ceuvre la methode. Nous avons decide d'utiliser directement la portion du Web indexee par un moteur de recherche generaliste populaire pour proceder a notre experimentation. Nous avons alors utilise un jeu de requetes de tests afin de fixer experimentalement la valeur des parametres utilises dans notre methode d'extraction d'expressions et de reformulation de requetes. Pour proceder a l'evaluation de notre methode, nous avons utilise une echelle d'evaluation de la pertinence a 4 niveaux associee a une mesure proposee recemment, le DCG, pour evaluer la performance de notre reformulation par rapport a l'execution de la requete initiale par le moteur de recherche. Nous avons alors constitue un jeu de requetes d'evaluation distinct de celui utilise pour parametrer la methode.; Nous avons montre que le processus de reformulation de requetes que nous avons etudie est efficace, au sens ou il genere des reformulations non triviales, de qualite et en general aisement interpretables par un etre humain. Du point de vue de l'amelioration de la precision toutefois, nous n'avons pas pu montrer que notre methode visant a expliciter directement des relations syntaxiques entre les termes de la requete initiale etait globalement plus performante que la methode implicite employee par le moteur de recherche, qui prend en compte la proximite des termes de la requete dans les documents pour trier ces derniers. Notre methode ameliore les resultats de certaines requetes, mais nous n'avons trouve aucun critere caracterisant ces dernieres. Il existe toutefois des requetes que notre methode ne peut traiter: ce sont celles pour lesquelles il n'existe aucune configuration syntaxique recurrente entre les termes de la requete. Et inversement, il existe de nombreuses requetes ou la specification explicite de la configuration syntaxique semble inutile, car une seule configuration naturelle semble exister. La prise en compte de la proximite des termes dans les documents suffit donc dans ces cas-la. Nous avons identifie quelques ameliorations possibles a notre processus de reformulation de requetes, mais avons montre que leur prise en compte ne changerait pas les conclusions auxquelles nous sommes arrive. En effet, nous avons observe que les requetes du jeu d'evaluation etaient souvent sous-specifiees, mais rarement ambigues. L'amelioration de la precision des requetes sur le Web...
Keywords/Search Tags:Sur le, Requetes, Le web, De la, Dans, Des, Reformulation, Les
Related items