Font Size: a A A

Classification non supervisee des donnees de hautes dimensions et extraction des connaissances dans les services Web de question-reponse

Posted on:2010-01-02Degree:Ph.DType:Dissertation
University:Universite de Sherbrooke (Canada)Candidate:Bouguessa, MohamedFull Text:PDF
GTID:1448390002988042Subject:Information Science
Abstract/Summary:PDF Full Text Request
Cette these a publication propose d'etudier deux problematiques differentes: (1) la classification non supervisee (clustering) des donnees de hautes dimensions, et (2) l'extraction des connaissances dans les services Web de question-reponse. Nos contributions sont presentees a travers trois chapitres. Dans le premier chapitre, nous proposons un algorithme de projected clustering nomme PCKA (Projected Clustering based on the K-means Algorithm). Contrairement a la vaste majorite des approches existantes, PCKA est capable de decouvrir des structures de clusters qui existent dans differents sous-espaces de faibles dimensionnalites et ce en utilisant une mesure de similarite bien adaptee aux caracteristiques particulieres des donnees multidimensionnelles. La fiabilite de PCKA est illustree a travers des tests et des comparaisons avec les approches existantes sur une variete de donnees synthetiques et reelles. Le deuxieme chapitre aborde le probleme de l'identification des utilisateurs experts dans les forums Internet de question-reponse. Notre contribution inclut le developpement d'une approche probabiliste qui se base sur le modele de melange de distributions de la loi Gamma. Notre approche permet de separer, de facon systematique, les utilisateurs experts des non-experts alors que les approches existantes fournissent une liste ordonnee d'utilisateurs seulement. Le troisieme chapitre etudie le probleme de l'identification des communautes dans les forums Internet de question-reponse. Notre contribution inclut l'introduction du nouveau concept de "communaute de partage des connaissances". Ces communautes sont definies par les interactions entre les utilisateurs experts et non-experts. Pour identifier ce type de communaute nous representons notre environnement sous la forme des donnees transactionnelles et nous proposons un algorithme de clustering nomme TRANCLUS (TRAnsaction CLUStering). Les clusters identifies par TRANCLUS representent les communautes que nous cherchons a decouvrir. Notre approche est validee sur des donnees extraites de plusieurs forums de Yahoo! Answers.
Keywords/Search Tags:Des, Les, De question-reponse, Clustering, Notre, Nous
PDF Full Text Request
Related items