Discrimination parole/musique et etude de nouveaux parametres et modeles pour un systeme d'identification du locuteur dans le contexte de conferences telephoniques (French text)

Posted on:2003-08-26

Degree:Ph.D

Type:Dissertation

University:Universite du Quebec a Chicoutimi (Canada)

Candidate:Ezzaidi, Hassan

Full Text:PDF

GTID:1466390011982613

Subject:Engineering

Abstract/Summary:

PDF Full Text Request

La mise en oeuvre de systèmes de compréhension automatique de parole pouvant fonctionner dans des conditions réelles implique de reproduire certaines aptitudes de l'être humain. Outre les aptitudes à comprendre la parole même lorsqu'elle est cor rompue par du bruit, nous sommes capables de tenir une conversation impliquant plusieurs interlocuteurs. Ce dernier point est lié au fait que nous identifions implicitement les interlocuteurs. Cette caractérisation du locuteur nous permet par exemple de réaliser des conversations téléphoniques en mode conférence. En plus de la reconnaissance du vocabulaire ou de l'identification du locuteur, on est également capable de distinguer les séquences de la musique (en alternance, en arrière plan, etc.) qui peuvent apparaître lorsqu'un des correspondants se place en mode attente.; En partant de ce contexte, on s'est intéressé à développer un système capable d'une part de discriminer entre les séquences de Parole/Musique et d'autre part d'identifier le locuteur dans des conditions téléphoniques fonctionnant en mode conférence avec une variabilité des combinés. Autrement dit, cette thèse s'intéresse à deux sujets du domaine du traitement de la parole. Le premier sujet porte sur la recherche de nouveaux paramètres pour améliorer les performances des algorithmes qui identifient les locuteurs en mode téléphonique. Le deuxième sujet est consacré à la proposition de nouvelles approches en discrimination de la parole, de la musique et de la musique chantée.; En discrimination du locuteur, on présentera une première étude visant à caractériser le locuteur par des paramètres AM-FM synchrones à la glotte, extraits à la sortie d'un banc de filtres cochléaires. L'objectif visé est de trouver de nouveaux paramètres plus robustes aux bruits et à la variabilité des combinés téléphoniques. Comme résultats, on a obtenu des scores presque similaires entre le système proposé et le système de référence. Les meilleures performances ont été enregistrées lorsque le système utilise une architecture parallèle composée de deux reconnaisseurs qui se basent respectivement sur les paramètres MFCC et AM-FM. (Abstract shortened by UMI.)...

Keywords/Search Tags:

Les, Du locuteur, Tres, De nouveaux, Dans, Des, De la

PDF Full Text Request

Related items

1	Le role de la proteine BRD8 dans le ciblage de p400 et l'incorporation de H2A.Z aux regions regulatrices des genes regules par PPAR gamma pendant l'adipogenese
2	L'implication des hemispheres cerebraux dans la production de la parole lors du test d'amobarbital sodique intracarotidien
3	'Usted no es mujer': El concepto del genero sexual en tres obras de benito perez galdos
4	Integration socioculturelle dans le developpement des regions: Cas des enjeux socioculturels de l'immigration a Rimouski
5	Politique et religion dans la philosophie de Thomas Hobbes (French text)
6	Le theme de l'avortement dans le cadre de l'Encyclopedie Virtuelle d'Ethique (French text)
7	Etude des facteurs culturels et sociaux dans l'abandon du processus de succession au sein des entreprises agricoles familiales: Analyse des logiques et des strategies des partenaires a partir de la perspective des predecesseurs familiaux
8	Onomasiologie et semasiologie dans le 'Vocabulaire de l'administration publique et de la gestion/Public Administration and Management Vocabulary'
9	Relation entre la violence familiale, la resolution de conflits et la violence dans les frequentations des adolescents (French text)
10	Caracterisation d'un element riboregulateur implique dans la regulation du metabolisme de l'adenine