Contribution à la Recherche Intelligente sur le Web : Indexation S émantique des T ext es Non - S tructurés
No Thumbnail Available
Date
2013-04-17
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
usto
Abstract
Depuis sa promotion au grand public au début des années 1990, le Web a connu une croissance
extraordinaire
aussi
bien
dans son contenu que dans son utilisation. Malheureusement, l
a nature non
-
structurée, des larges volumes d’information disponibles sur la toile mondiale, a rendu de plus en plus
difficile de cibler et retrouver l’information pertinente. Dans les systèmes classiques de recherche
d’information, basés sur les mots
-
clés
, les utilisateurs trouvent souvent des difficultés
à
exprimer leur
besoin d’information. Parmi les nouvelles approches, qui ont été proposés pour
promouvoir
la
recherche
intelligente
d’information, celle introduisant la dimension sémantique dans la modéli
sation
des documents.
La recherche sémantique sur le Web peut être réalisée selon trois approches principales
:
(i) Organiser la recherche (indexation de documents et/ou analyse de requêtes) autour de
connaissances conceptuelles (thésaurus ou ontologie),
(ii) Ut
iliser un système d’annotation documenté
par des expe
rts ou une masse d’utilisateurs
pour promouvoir la recherche collaborative, (iii)
Développer des méthodes d’indexation sémantique des textes non
-
structurés. C’est dans cette dernière
approche que
la présente étude s’inscrit en essayant d’analyser les modèles de thèmes suivant trois
axes d’investigation
:
1
.
Quelle est la faisabilité d’utiliser un modèle de thème comme approche d’indexation
sémantique des textes pour les tâches de recherche d’informati
on
?
2
.
Comment évaluer et interpréter le modèle de thème pour l’analyse sémantique du contenu
d’une collection
?
3
.
Dans quelle mesure peut
-
on appliquer les modèles de thème dans le texte non
-
structuré
non
-
anglais (l’arabe comme exemple d’étude)
?
Comme contri
bution majeure dans cette étude,
il intéressant de
citer
:
1
.
L’analyse et l’évaluation du modèle d’allocation latente de Dirichlet dans les tâches de
recherche et de catégorisation des textes sur des corpus réels.
2
.
La proposition d’une nouvelle mesure, à base
de la divergence de Kullback
-
Leibler, pour
le paramétrage de l’apprentissage des thèmes dans une collection donnée.
3
.
Le développement d’un nouvel algorithme de stemming à base de lemme pour l’analyse
et l’indexation du texte arabe.
4
.
L’élaboration de trois
collections arabes, à base d’articles de presse relatifs à la période
2007
-
2010, pour les expérimentations de tâches de la recherche d’information.
Par aill
eurs, les modèles de documents générés, par l’allocation latente de Dirichlet dans
des
espace
s
rédu
it
s
de thèmes, ont été utilisés efficacement dans la catégorisation des textes et la recherche
ad
-
hoc. En plus, nos travaux ont montré l’efficacité de considérer les aspects morphologiques et les
variations typographiques dans l’indexation sémantique des l
ang
ue
s hautement flexionnelles tel
le
s que
l’arabe
Description
Keywords
Recherche d’information, indexation sémantique, modèle de thème, catégorisation des textes, analyse du texte arabe, mesures d’évaluation, co llections de test
