Canalblog
Editer l'article Suivre ce blog Administration + Créer mon blog
Publicité
INGENIEUR 3A JOUR PIGIER 2005
9 février 2005

Devoir

LA RECONNAISSANCE DE LA PAROLE

      
PRESENTATION

a) Les techniques de reconnaissance vocale

Deux approches, l'une plus globale, l'autre plus analytique permettent d'appréhender la reconnaissance des mots.

Dans l'approche globale , l'unité de base sera le plus souvent le mot considéré comme une entité globale, c'est à dire non décomposée. L'idée de cette méthode est de donner au système une image acoustique de chacun des mots qu'il devra identifier par la suite. Cette opération est faite lors de la phase d'apprentissage, où chacun des mots est prononcé une ou plusieurs fois. Cette méthode a pour avantage d'éviter les effets de coarticulation, c'est à dire l'influence réciproque des sons à l'intérieur des mots. Elle est cependant limitée aux petits vocabulaires prononcés par un nombre restreint de locuteurs.

L'approche analytique , qui tire parti de la structure linguistique des mots, tente de détecter et d'identifier les composantes élémentaires ( phonèmes , syllabes, …). Celles-ci sont les unités de base à reconnaître. Cette approche a un caractère plus général que la précédente : pour reconnaître de grands vocabulaires, il suffit d'enregistrer dans la mémoire de la machine les principales caractéristiques des unités de base.

Pour la reconnaissance de mots isolés à grand vocabulaire , la méthode globale ne convient plus car la machine nécessiterait une mémoire et une puissance considérable pour respectivement stocker les images acoustiques de tous les mots du vocabulaire et comparer un mot inconnu à l'ensemble des mots du dictionnaire. Il est de plus impensable de faire dicter à l'utilisateur l'ensemble des mots que l'ordinateur a en mémoire. C'est donc la méthode analytique qui est utilisée : les mots ne sont pas mémorisés dans leur intégralité, mais traités en tant que suite de phonèmes .

b) Principe général de la méthode globale pour un système monolocuteur

Le principe est le même que ce soit pour l’approche analytique ou l’approche global, ce qui différencie ces deux méthodes est l’entité à reconnaître : pour la première il s’agit du phonème, pour l’autre du mot.

La structure d'un système de reconnaissance de mots isolés est représentée sur la figure n°9. Dans l'utilisation d'un tel système, on peut distinguer deux phases:

  • La phase d'apprentissage : un locuteur prononce l'ensemble du vocabulaire, souvent plusieurs fois, de façon à créer en machine le dictionnaire de références acoustiques. Pour l’approche analytique, l'ordinateur demande à l'utilisateur d'énoncer des phrases souvent dépourvues de toute signification, mais qui présentent l'intérêt de comporter des successions de phonèmes bien particuliers. Pour un système multilocuteur, cette phase n’existe pas, c’est la principale différence.

  • La phase de reconnaissance : un locuteur (le même que précédemment car nous sommes dans le cas d'un système monolocuteur ) prononce un mot du vocabulaire. Ensuite la reconnaissance du mot est un problème typique de reconnaissance de formes. Tout système de reconnaissance des formes comporte toujours les trois parties suivantes:

    • Un capteur permettant d'appréhender le phénomène physique considéré (dans notre cas un microphone),

    • Un étage de paramétrisation des formes (par exemple un analyseur spectral),

    • Un étage de décision chargé de classer une forme inconnue dans l'une des catégories possibles.

Description des différentes phases de reconnaissance

i) Le capteur

Un signal électrique est issu du microphone lorsque le locuteur parle (cf. détail précédemment).

ii) Paramétrisation du signal

Cet étage, dont le rôle est d'analyser et de paramétrer le signal vocal du locuteur, consiste en un traitement mathématique du signal. Cette étape vient d’être développée dans la partie précédente. Le signal suite à ce traitement est sous une forme :

  • Temps

  • Fréquence

  • Intensité

Difficulté rencontrée : comme nous sommes dans le cas de mots isolés, les frontières des mots (début et fin de mot) sont généralement déterminées en repérant les intersections de la courbe d'énergie du signal avec un ou plusieurs seuils évalués expérimentalement. Si la prise de son est effectuée dans un local bruité, le bruit de fond additionné au signal vocal peut dégrader les performances du système de reconnaissance, notamment, en perturbant le fonctionnement de l'algorithme chargé de positionner les frontières des mots.

Dans ce cas, comment séparer le bruit du signal reçu par le microphone afin d'en extraire le signal vocal émis par le locuteur ?

Solution : Une approche couramment utilisée est d'estimer le signal dû au locuteur en soustrayant la densité spectrale du bruit de fond de la densité spectrale du signal mesuré au microphone. Le spectre du bruit de fond étant approximé par la moyenne des spectres de bruit mesurés durant les silences séparant les énoncés. Cette méthode suppose que le bruit de fond est localement stationnaire, c'est à dire que sa densité spectrale mesurée immédiatement avant l'énoncé d'un mot reste identique durant l'énoncé de ce mot.

iii) Prise de décision du choix du mot

Principe : Le signal vocal émis par l'utilisateur, une fois paramétré, va pouvoir être comparé aux mots du dictionnaire de référence (cf. phase d'apprentissage) en terme d'images acoustiques. L'algorithme de reconnaissance permet de choisir le mot le plus ressemblant, par calcul d'un taux de similitude - au sens d'une distance à définir - entre le mot prononcé et les diverses références. Pour simplifier le problème et si l’on prend l’exemple de la figure n°10, le programme va comparer le mot prononcé par le locuteur avec ceux qui sont en mémoire depuis la phase d’apprentissage : dans ce cas la comparaison consiste à soustraire les nuances de gris des pixels du mot prononcé à ceux des mots en mémoire et de répéter cette opération pour chaque ligne et colonne. Ainsi selon le résultat de cette comparaison, on pourra mathématiquement dire quel signal est le plus ressemblant.

Difficulté rencontrée : Ce calcul n'est pas simple, même pour un locuteur unique, car les mots, donc les formes, à comparer ont des durées et des rythmes différents . En effet, un locuteur même entraîné ne peut prononcer plusieurs fois une même séquence vocale avec exactement le même rythme et la même durée. Les échelles temporelles de deux occurrences d'un même mot ne coïncident donc pas, et les formes acoustiques issues de l'étage de paramétrisation ne peuvent être simplement comparé point à point.

Solutions : il existe différentes solutions pour résoudre le problème de l'alignement temporel entre un mot inconnu et une référence :

  • Une solution très efficace consiste en un algorithme de comparaison dynamique qui va mettre en correspondance optimale les échelles temporelles des deux mots. On démontre que cette méthode fournit la solution optimale du problème. Elle nécessite, en revanche, beaucoup de calculs. C'est pourquoi pour fonctionner en temps réel, il faut soit réaliser des composants spécialisés de programmation dynamique (plusieurs firmes proposent des systèmes de reconnaissance intégrant un tel processeur), soit simplifier l'algorithme initial. Le principe de la comparaison dynamique est expliqué par la figure n°5, où l’action de l’algorithme est symbolisée par les traits entre chaque mot :

Les méthodes de comparaison par programmation dynamique ont été largement utilisées pour la reconnaissance de mots isolés. De plus, elles ont été étendues à la reconnaissance de séquences de mots enchaînés sans pause entre eux.

Il existe cependant d'autres solutions à ce problème de recalage temporel :

  • La modélisation stochastique, en particulier sous forme de modèles markoviens . Dans cette approche, chaque mot du vocabulaire est représenté par une source de Markov capable d'émettre le signal vocal correspondant au mot. Les paramètres de cette source sous-jacente au processus d'émission d'un mot sont ajustés au cours d'une phase préalable d'apprentissage sur de très gros corpus de parole. La reconnaissance d'un mot inconnu consiste à déterminer la source ayant la probabilité la plus forte d'avoir émis ce mot. (Cf. p68-70 du livre "reconnaissance automatique de la parole" aux éditions DUNOD informatique pour une explication plus détaillée de cette méthode).

  • Les modèles neuro-mimétiques qui sont constitués par l'interconnexion d'un très grand nombre de processeurs élémentaires inspirés du fonctionnement du neurone. (Cf. livre " reconnaissance automatique de la parole ")

Avec la méthode analytique, l'ordinateur procède de la même manière que précédemment pour décoder le message parlé (paramétrisation du signal, programmation dynamique, …) sauf que cette fois-ci il s'agit de repérer une suite de phonèmes afin d'associer le mot au mot qui s'y rapporte dans le dictionnaire.

D’autre part, pour identifier un phonème , la machine procède par analyse statistique : elle sélectionne, à partir du dernier phonème identifié, le groupe de phonèmes qui ont la plus forte probabilité de lui succéder immédiatement. Ce premier tri réalisé, l'écart entre le phonème prononcé et chacun des phonèmes retenus est estimé. C'est celui présentant le moins d'écart qui est conservé. Cette analyse statistique est aussi utilisée pour la méthode globale, où elle intervient dans le choix d’un mot en fonction de ce qu’il y a avant (par exemple, on ne peut pas trouver deux verbes conjugués successivement…).

Pour que le taux d'erreur soit aussi faible que possible, les logiciels actuels utilisent également des dictionnaires au vocabulaire spécialisé, choisis selon le type d'activités.

DOMAINE D’APPLICATION

De façon générale, le choix d’une application doit faire l’objet d’une étude attentive, fondée sur un ensemble de critères objectifs. En particulier, il est important d’examiner si la voix apporte véritablement un accroissement des performances ou un meilleur confort d’utilisation. Par ailleurs, il ne faut pas trop attendre de la commande vocale mais la considérer, en tout état de cause, comme un moyen complémentaire parmi d’autres moyens d’interaction homme-machine plus traditionnels.

Bien entendu, à chaque type d’application correspondent des critères de performance différents. Ainsi, pour des applications en reconnaissance de la parole, on jugera la qualité d’une application sur les quatre critères principaux suivants :

  • le débit du flux de parole correctement reconnu. Si le locuteur prononce les mots séparément avec de petites pauses (environ 200 ms) entre chaque mot, on parlera de reconnaissance par mots isolés, sinon ce sera de la reconnaissance de parole continue.

  • la taille du vocabulaire correctement reconnu. Ce vocabulaire variera de quelques mots (la cabine téléphonique à entrée vocale) à plusieurs milliers de mots (la machine à écrire à entrée vocale).

  • les contraintes imposées par le système sur l’environnement de fonctionnement : acceptation de bruits de fond et parasites divers. Des critères de qualité positifs dans certaines applications peuvent être négatifs dans d’autres : l’indifférence au locuteur est recherchée pour une cabine téléphonique à numérotation vocale alors qu’au contraire c’est la capacité de discrimination entre locuteurs qui déterminera la qualité d’une serrure à commande vocale.

  • les contraintes imposées par le système sur l’utilisateur : est-il unique ou multiple, doit-il s’astreindre à une phase d’apprentissage préalable ?

a) Reconnaissance de petits vocabulaires de mots isolés

La reconnaissance de mots isolés, le plus souvent monolocuteur , pour des vocabulaires de quelques dizaines jusqu’à quelques centaines de mots est un problème assez bien résolu. Les premiers systèmes commerciaux de cette catégorie sont apparus il y a un peu plus de vingt ans. D’importants progrès ont été réalisés sur la reconnaissance de petits vocabulaires de mots isolés, multilocuteur , dans des conditions difficiles (par exemple la reconnaissance de chiffres à travers le réseau téléphonique ).

L’avionique et l’automobile

L’avionique est un domaine d’application important des commandes vocales. Des systèmes de reconnaissance par mots ont été utilisés avec succès dans des avions de chasse pour permettre au pilote déjà suroccupé de commander diverses fonctions ( radio, radar,…), notamment aux Etats-Unis, en France (Sextant Avionique), et en Grande Bretagne. La voix a également servi au contrôle d’un bras articulé lors de la mission de la navette spatiale américaine.

En effet, à bord d’avion comme à bord d’automobile, les tâches étant complexes et le tableau de bord réduit, la parole permet au pilote ou au conducteur d’avoir à sa disposition un moyen supplémentaire d’intéraction avec la machine, sans cependant gêner l’accomplissement des tâches courantes qui requièrent de sa part toute son attention visuelle. En voiture, les infrastructures nouvelles de communication par satellite (projets IRIDIUM et GlobalStar) pour la transmission à haut débit d’images et de sons, la norme européenne de téléphone mobile GSM, et le système GPS (Global Positioning Satellite System) qui permet de connaître le positionnement du véhicule, offrent au conducteur une connaissance dynamique de l’évolution de la circulation et de la météorologie, et lui permet non seulement d’établir la planification de son itinéraire et d’être guidé par des messages vocaux, mais encore d’accéder à tout moment à des bases de données touristiques et à des services variés.

Dans le domaine de l’avionique les études menées dans ce domaine par Sextant Avionique en France (système TOP-VOICE) [Pastor,1993], par Marconi et Smith Industries en Angleterre, en Allemagne (système CASSY, [Gerlach, 1993]) visent à rendre les systèmes de reconnaissance plus robustes aux bruits (moteur d’avion, masque à oxygène, etc.).

En ce qui concerne l’aide à la navigation à bord de voiture, ces systèmes s’appuient sur la mise en place de réseaux de radiodiffusion RDS-TMC (Radio Data System Traffic Message Channel) et font l’objet de plusieurs projets nationaux et européens. Le produit CARIN [Cardeilhac, 1995], développé par Philips et Lernout & Hauspie devrait s’adresser à terme aussi bien à des professionnels (routiers) qu’au grand public. La synthèse de haute qualité multilingue [Van Coile, 1997] (français, anglais, allemand et hollandais) permet de dispenser à bord du véhicule des informations dans la langue du conducteur, quel que soit le pays traversé. Un service régulier de diffusion TMC pour la langue allemande en Allemagne a été mis en place en 1997 et devrait être étendu à d’autres pays et d’autres langues bientôt. Le système utilise de la synthèse à partir du texte pour la diffusion des messages, afin de garantir un encombrement mémoire réduit et une certaine flexibilité pour toute modification ultérieure.

On peut citer plusieurs autres projets : le projet CARMINAT avec comme partenaires Renault, Peugeot, Philips, TDF et Sagem ; en Italie, le système Route Planner de Tecmobility Magneti Marelli [Pallme, 1995] ; en Angleterre le système d’interrogation des informations diffusées par le satellite Inmersat-C, étudié par Marconi [Abbott, 1993]... Dans la plupart des cas, il est prévu d’adjoindre au système une interrogation vocale (système AudioNav de reconnaissance de courtes phrases et mots-clés développé par Lernout & Hauspie en Belgique intégré dans le projet VODIS auquel participent Renault et PSA.

Télécommunications

L’apparition récente de systèmes multilocuteurs présentant de bonnes performances à travers le réseau téléphonique commuté ( jusqu’à 99% de reconnaissance pour de petits vocabulaires ) ouvre de nouveaux champs d’applications : serveurs d’informations, réservations, autorisations bancaires… De tels systèmes sont par exemple commercialisés par Voice Processing, Scott Instruments,… Des tests en vraie grandeur ont été menés avec succès avec le grand public, en particulier en France et au Canada. Dans le secteur de la téléphonie, les grandes sociétés de télécommunication ont engagé une course à l’innovation. Ainsi, il suffit de dire le nom du correspondant désiré dans le récepteur, à condition de l’avoir préalablement encodé, pour obtenir la communication souhaitée. Ceci peut-être très utile pour téléphoner depuis une voiture.

L’information au public est aussi un domaine concerné par la numérisation de la parole. Dans les gares ou les aéroports, par exemple, on pourra bientôt voir des bornes interactives qui remplaceront les agents préposés aux renseignements. Pour connaître l’horaire d’un train, il suffira de demander de vive voix à la machine où on veut aller et quand, et elle répondra dans la langue de notre choix, avant de nous souhaiter un agréable voyage.

Plus précisément, aujourd’hui, deux gammes de services dominent le marché des services de Télécommunication à commande vocale : ce sont les services à opérateurs partiellement automatisés et les services de répertoires vocaux, évoluant progressivement vers des services plus complets d’assistants téléphoniques.

L’automatisation des services à opérateurs (assistance aux opérateurs)

Ces services représentaient en 1997 environ 25% du marché, mais leur part devrait décroître dans les prochaines années, du fait de leur saturation et de l’augmentation beaucoup plus forte des autres gammes. L’intérêt de ces services est d’ordre économique. Quand un utilisateur appelle un service à opérateur, toute seconde de conversation avec l’opérateur qui peut être gagnée par un dialogue automatisé avec un serveur vocal se traduit par des gains d’exploitation très importants. Parmi les nombreux enseignements apportés par ces premiers services grand public de grande ampleur (plusieurs millions d’appels par jour), le besoin de systèmes très robustes a été mis clairement en évidence (Nortel utilise 200 modèles différents pour reconnaître les mots " oui " et " non " et leurs synonymes en deux langues), ainsi que la nécessité d’éducation et de communication autour de la commande vocale auprès du grand public, et la nécessité d’enrichir progressivement les modèles utilisés par des données d’exploitation réelle.

Les répertoires vocaux

Cette gamme de services représente aujourd’hui, au niveau mondial, environ 50% du marché des services à commande vocale. Ici, la reconnaissance vocale sert à associer un numéro de téléphone au nom du correspondant désigné, offrant ainsi un naturel et une rapidité de numérotation accrus par rapport au clavier. Cette gamme de services est principalement justifiée dans l’environnement mobile (mains occupés, yeux occupés) où la numérotation par clavier est peu commode, voire dangereuse. Le service est souvent couplé, pour les mobiles, à un service de numérotation vocale (de plus en plus souvent en parole continue), permettant d’établir tout appel sans intervention manuelle.

Exemple concret :

Dragon Naturally Speaking

La société américaine Dragon Systems, créée en 1982, est spécialisée depuis son origine dans les systèmes de reconnaissance vocale. Depuis, elle est constamment à la pointe de la technologie, accumulant les premières mondiales qui ont marqué les avancées les plus significatives en reconnaissance vocale sur PC. On peut ainsi citer en 1984 le premier logiciel de reconnaissance vocale utilisable sur un portable, en 1990 le premier logiciel commercialisable de reconnaissance vocale à grand vocabulaire, en 1993 le premier logiciel de reconnaissance vocale travaillant avec des cartes son standard du marché et dans la plupart des applications Windows, et en 1997 le premier logiciel de reconnaissance vocale en dictée continu et à grand vocabulaire.

Le Dragon Naturally Speaking permet de dicter de la façon la plus naturelle au monde à une incroyable vitesse et une précision extrême : sans avoir à marquer de pause entre les mots, à 130 mots par minute et plus. Ses atouts sont entre autres :

  • Un dictionnaire de 240 000 mots qui le rend immédiatement adapté au vocabulaire des professions les plus variées.

  • C’est le logiciel qui s’adapte à vous, pas le contraire : pas besoin de faire de pause, ni de modifier son accent, ni de supprimer les liaisons.

  • On peut ajouter des termes spécialisés à son dictionnaire.

  • Pour mettre en forme le document, on peut utiliser la souris, ou bien le faire à la voix par des ordres simples comme " mettre en gras ". 

  • On peut automatiser l’écriture de phrases que l’on utilise fréquemment, une formule de politesse par exemple, en déclenchant leur rédaction par la simple énonciation d’un mot clé.

  • Pour indiquer la prononciation, il suffit de la dicter par des ordres naturels comme " point à la ligne ".

  • On peut dicter directement avec son propre traitement de texte, sa messagerie Internet, son logiciel de gestion…

  • Il est possible d’enregistrer plusieurs utilisateurs sur un même poste de travail.

  • Pour pouvoir utiliser ce logiciel, il faut un ordinateur multimédia, Windows 95/98 ou NT 4, un processeur Pentium 133, une mémoire vive de 32 Mo sous Windows 95/98, 48 Mo sous Windows NT, il faut ajouter 16 Mo pour l’intégration dans Word 97 et la synthèse vocale. L’occupation sur le disque est de 87 Mo.

Les systèmes présentés par IBM, Kuzweil et Dragon Systems sont le plus souvent fondés sur une modélisation stochastique de la parole, méthode actuellement la plus performante (1992).

L’avenir est aux systèmes continus et à l’indépendance vis à vis du locuteur, sans phase d’apprentissage. Ces caractéristiques demeurent difficiles à mettre en œuvre sur ordinateur, que ce soit en raison de l’absence d’algorithmes linguistiques sophistiqués ou, plus logiquement, parce que les processeurs sont encore trop peu puissants. Les recherches sur le traitement du langage naturel et sur le traitement du signal (notamment NSP-Native Signal Processing chez Intel et Microsoft ) aboutiront très certainement à des solutions complètement logicielles, qui s’intègreront aux systèmes d’exploitation. On sait déjà que les prochaines versions de Windows proposeront des fonctions de synthèse et de reconnaissance de la parole. (1996)

Les données sur ces systèmes évoluant très rapidement, nous avons joint en annexe 1 et 2 les données récentes trouvées sur Internet, comme notamment leur prix actuels.

En conclusion, les technologies vocales ont de fait déjà pénétré des domaines d’activité de la vie courante (serveurs interactifs vocaux, aide à la navigation à bord de voiture et aide à la formation). Outre ces domaines en expansion, la dictée automatique de documents écrits, notamment de rapports médicaux, semble constituer un domaine particulièrement prometteur du fait de systèmes pouvant traiter un nombre croissant de langues. L’expansion de ces nouveaux modes de communication ne deviendra cependant effective que si les performances des systèmes atteignent un niveau acceptable pour le grand public, en termes de fiabilité mais aussi de facilité d’utilisation. L’effort entrepris par la communauté scientifique pour se doter d’outils linguistiques adaptés à une meilleure évaluation des systèmes constitue une première étape. Des études socio-économiques pour identifier les besoins réels des utilisateurs doivent conduire à une plus large concertation pour convenablement intégrer les technologies vocales dans des applications réalistes.

AVANTAGES

L'utilisation de la parole dans une interface Homme-Machine peut avoir de gros avantages:

  • Pendant qu'elle parle, la personne peut recevoir des informations visuelles, plus généralement la parole peut-être simultanée à une autre activité périphérique].

  • Elle permet de communiquer loin d'une machine (via un téléphone par exemple).

  • La parole peut servir à la confirmation (d'un message écrit par exemple).

  • Cette modalité est particulièrement adaptée aux commandes du type : « mets ça là », « calcule », « passe à l'autre fenêtre », « repeints en rouge », etc... Elle peut (doit) être utilisée facilement avec les autres modalités du système. C'est ainsi qu'il faut différencier les commandes vocales qui se suffisent à elles-mêmes (« Efface tout », « Arrêt », « Mets le carré en haut à gauche sous le triangle en bas à droite », etc...) et celles qui demandent la collaboration d'une autre modalité (« mets le cercle ici », « détruits ça », etc...) servant le plus souvent à compléter une commande (désigner un objet ou un lieu).

L'émission de bruits par l'utilisateur à l'attention de sa machine peut ne pas sembler primordiale. Toutefois il y existe des cas, tout à fait spécifiques, où l'étude de ces sons est vraiment très utile (certains handicapés ne peuvent communiquer avec leur entourage que par d es sons inarticulés

L'utilisation de la reconnaissance de la parole dans une interface Homme-Machine s'avère souvent très utile. En effet, les sons peuvent prévenir d'un événement spécifique (arrivée d'un courrier électronique) ou peuvent fournir des informations meilleures que les informations graphiques (l'icône heurte la poubelle avec un « gling », signifiant que l'on est dessus, on lâche l'icône, il y a un « crash », signifiant que l'objet représenté par l'icône est détruit). Une interface de ce type a été développée et testée dans les bureaux d'Apple.).

INCONVENIENTS

Le problème majeur de la reconnaissance de parole est son utilisabilité dans des conditions réelles : les systèmes ne sont pas encore suffisamment robustes aux conditions acoustiques sévères. Il faut donc améliorer les systèmes pour prendre en compte la parole spontanée accompagnée de tous les phénomènes de variabilité dus aux différents locuteurs et aux environnements instables (bruits, canal de transmission). Cette robustesse doit être recherchée en utilisant toutes les informations disponibles dans l?environnement (rehaussement et prétraitement du signal), dans la tâche ou l'application (dialogue finalisé) ou dans la langue (modèles de langage et détection de thèmes). De plus, pour des applications réalistes d'interaction homme-machine, il est indispensable de fonctionner en ?temps réel?. Afin d'améliorer la robustesse dans le domaine acoustique, GEOD suit actuellement plusieurs pistes de recherche pour le développement d'un ensemble de modules servant au prétraitement et au rehaussement de la parole : localisation du locuteur grâce à une antenne de microphones (technique d'acquisition multicapteur et d'inter-corrélation des signaux), méthode de séparation aveugle de sources, annulation des réverbérations acoustiques par estimation de la réponse fréquentielle de la salle. Tous ces algorithmes sont implantés sur des cartes de développement à base de processeurs rapides spécialisés (DSP) pour réaliser des démonstrateurs temps réel et autonomes (cf. travaux de Q-C. Nguyen et D. Istrate, thèses en cours

Cependant, dans le cas de très grands vocabulaires (> 50000 mots), un problème subsiste pour obtenir de bons scores de reconnaissance. Une voie de recherche consiste à contraindre l'espace de reconnaissance par la détection de thèmes, ce qui permet de restreindre temporairement le vocabulaire du système de reconnaissance. La difficulté est alors transposée sur l'élaboration d'une technique de détection de thèmes, fiable et robuste. La méthode proposée consiste à essayer, dans le cadre d'un dialogue, de détecter le thème au cours d'un seul énoncé et non pas au cours du dialogue. Elle est fondée sur le re-calcul dynamique des probabilités du modèle de langage en fonction du thème.

Les deux problèmes contrôle du dialogue et gestion des buts sont intimement liés dans le dialogue homme-machine dit finalisé, c'est-à-dire orienté par la tâche. Dans ce cadre, le locuteur dialogue avec la machine pour effectuer des tâches (résoudre des problèmes, renseigner, aider à la conception, assister l'enseignement, etc.), ce qui place le dialogue dans une relation opérateur/tâche où la machine a un rôle collaboratif. Les travaux précédents de l'équipe (depuis une dizaine d'années maintenant) ont permis de mettre au point une logique dialogique fondée sur une logique de l'action doublée d'une logique épistémique.

Le travail de thèse de J. Rouillard (2000), s?est focalisé sur une réalisation de dialogue homme-machine pour la recherche documentaire à travers le Web : le système Halpin. La modélisation, appuyée sur un automate à états finis, s?est particulièrement attachée à la robustesse du dialogue. Ce travail a abouti à la réalisation d'un système de dialogue homme- machine opérationnel.

Le travail de thèse de Luis Villaseñor (1999) a quant à lui, validé l'approche logique de la gestion des buts en dialogue homme-machine. Une autre ambition de ce travail était de considérer la machine comme un apprenant, au cours de dialogue, de manière à lui faire apprendre de nouvelles tâches et de nouvelles expressions linguistiques. La limite de tels systèmes de dialogue homme-machine adaptatifs, est celle de l'utilisabilité : l'utilisateur est souvent désorienté par le processus d'apprentissage et de généralisation des concepts de la machine, ou surchargé de travail pendant les phases d'apprentissage de la machine qu?il doit coordonner.

:

  • La capacités des systèmes de reconnaissance actuels oblige à se contenter de vocabulaires limités et de grammaires très contraintes.

  • « Ca fait du bruit... ». Ce qui n'est guère agréable dans une salle commune de travail].

                                                                                          Fait par les étudiants :

                                                                                               

                                                                                ·Niécoté  olivier camy

                                                                                                ·

Belem

nabi s.

                                                                                               ·Bedia b.

Anderson

                                                                                                 ·Ahipo valery

Publicité
Publicité
Commentaires
INGENIEUR 3A JOUR PIGIER 2005
Publicité
Publicité