Contribution à la Recherche Intelligente sur le Web : Indexation S émantique des T ext es Non - S tructurés

Abderrezak, BRAHMI

Contribution à la Recherche Intelligente sur le Web : Indexation S émantique des T ext es Non - S tructurés

Files

Brahmi_These6.pdf (2.85 MB)

Date

2013-04-17

Authors

Abderrezak, BRAHMI

Publisher

usto

Abstract

Depuis sa promotion au grand public au début des années 1990, le Web a connu une croissance extraordinaire aussi bien dans son contenu que dans son utilisation. Malheureusement, l a nature non - structurée, des larges volumes d’information disponibles sur la toile mondiale, a rendu de plus en plus difficile de cibler et retrouver l’information pertinente. Dans les systèmes classiques de recherche d’information, basés sur les mots - clés , les utilisateurs trouvent souvent des difficultés à exprimer leur besoin d’information. Parmi les nouvelles approches, qui ont été proposés pour promouvoir la recherche intelligente d’information, celle introduisant la dimension sémantique dans la modéli sation des documents. La recherche sémantique sur le Web peut être réalisée selon trois approches principales : (i) Organiser la recherche (indexation de documents et/ou analyse de requêtes) autour de connaissances conceptuelles (thésaurus ou ontologie), (ii) Ut iliser un système d’annotation documenté par des expe rts ou une masse d’utilisateurs pour promouvoir la recherche collaborative, (iii) Développer des méthodes d’indexation sémantique des textes non - structurés. C’est dans cette dernière approche que la présente étude s’inscrit en essayant d’analyser les modèles de thèmes suivant trois axes d’investigation : 1 . Quelle est la faisabilité d’utiliser un modèle de thème comme approche d’indexation sémantique des textes pour les tâches de recherche d’informati on ? 2 . Comment évaluer et interpréter le modèle de thème pour l’analyse sémantique du contenu d’une collection ? 3 . Dans quelle mesure peut - on appliquer les modèles de thème dans le texte non - structuré non - anglais (l’arabe comme exemple d’étude) ? Comme contri bution majeure dans cette étude, il intéressant de citer : 1 . L’analyse et l’évaluation du modèle d’allocation latente de Dirichlet dans les tâches de recherche et de catégorisation des textes sur des corpus réels. 2 . La proposition d’une nouvelle mesure, à base de la divergence de Kullback - Leibler, pour le paramétrage de l’apprentissage des thèmes dans une collection donnée. 3 . Le développement d’un nouvel algorithme de stemming à base de lemme pour l’analyse et l’indexation du texte arabe. 4 . L’élaboration de trois collections arabes, à base d’articles de presse relatifs à la période 2007 - 2010, pour les expérimentations de tâches de la recherche d’information. Par aill eurs, les modèles de documents générés, par l’allocation latente de Dirichlet dans des espace s rédu it s de thèmes, ont été utilisés efficacement dans la catégorisation des textes et la recherche ad - hoc. En plus, nos travaux ont montré l’efficacité de considérer les aspects morphologiques et les variations typographiques dans l’indexation sémantique des l ang ue s hautement flexionnelles tel le s que l’arabe

Keywords

Recherche d’information, indexation sémantique, modèle de thème, catégorisation des textes, analyse du texte arabe, mesures d’évaluation, co llections de test

URI

https://dspace.univ-usto.dz/handle/123456789/118

Collections

Thèses doctorat

Full item page

Contribution à la Recherche Intelligente sur le Web : Indexation S émantique des T ext es Non - S tructurés

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By