Modele de parole

Au cours des dernières années, la synthèse vocale statistique a émergé comme une alternative à la synthèse de la parole basée sur le corpus. La modélisation HMM dépendante du haut-parleur constitue la base d`une telle approche. Les avantages annoncés de la synthèse vocale statistique sont la possibilité de faire face à de petites quantités de ressources vocales et la souplesse d`adaptation des modèles (pour les nouvelles émotions ou de nouveaux orateurs), cependant, la qualité n`est pas aussi bonne que celle de la synthèse vocale basée sur la concaténation. Les raisons sont doubles: Premièrement, les paramètres (F0, spectre, durée…) sont modélisés indépendamment et les modèles, même en tenant compte de la dynamique, ne parviennent pas à générer des paramètres avec une bonne précision. Deuxièmement, le HMM génère des séquences de vecteurs d`entités à partir desquels les signaux vocaux réels sont reconstruits, ce qui influe sur sa qualité. MULTISPEECH se concentrera sur une approche hybride, combinant la synthèse basée sur le corpus, pour sa sortie de signal vocal de haute qualité, et la synthèse vocale basée sur HMM pour sa souplesse pour conduire la sélection, et le principal défi sera sur son application à la production discours audio-visuel expressif. Un objectif secondaire sera d`unifier les approches basées sur les HMM et les concaténations. Furui, S. (1989), traitement de la parole numérique, synthèse et reconnaissance, Marcel Dekker, New York. Dans l`aperçu de Furui (1989), les techniques de synthèse sont divisées en trois classes principales: codage de forme d`onde, synthèse d`analyse et synthèse par règle.

La méthode d`analyse-synthèse est définie comme une méthode dans laquelle la parole humaine est transformée en séquences de paramètres, qui sont stockés. La sortie est créée par une synthèse basée sur la concaténation des paramètres préstockés. Dans un système de synthèse par règle, la sortie est générée à l`aide de règles de transformation qui contrôlent le modèle de synthèse tel qu`un modèle de tractus vocal, un analogue de terminal ou une sorte de codage. Flanagan, J. L., K. Ishizaka, et K. L. Shipley (1975), «synthèse du discours d`un modèle dynamique des cordes vocales et des voies vocales», le juge Bell syst.

Tech, 54:485-506. Van LEEWEN, H. C., et E. te Lindert (1993), «Speech Maker: un cadre flexible et général pour la synthèse du texte à la parole, et son application au Néerlandais, comput. Speech lang., 7 (2): 149-168. Cette direction de recherche est concernée par l`étude de modèles statistiques complexes pour les données vocales. Les modèles acoustiques sont utilisés pour représenter la prononciation des sons ou d`autres événements acoustiques tels que les bruits. Qu`ils soient utilisés pour la séparation des sources, pour la reconnaissance vocale, pour la transcription de la parole, ou pour la synthèse vocale, les performances obtenues dépendent fortement de la précision de ces modèles, qui est un aspect critique qui est étudié dans le projet. Au niveau linguistique, MULTISPEECH enquête sur des modèles de gestion du contexte (au-delà des quelques mots précédents actuellement traités par les modèles n-Gram) et des lexiques évolutifs nécessaires lors du traitement de documents audio diachronique afin de surmonter les taille limitée des lexiques statiques actuels utilisés, en particulier en ce qui concerne les noms propres. Les approches statistiques sont également utiles pour générer des signaux vocaux.

Dans cette direction, MULTISPEECH considère principalement les techniques de transformation vocale, avec leur application aux voix pathologiques, et la synthèse de la parole statistique appliquée à la synthèse expressive de la parole multimodale. Un gant analogue de terminal formant (Carlson et coll., 1991a), basé sur le synthétiseur OVE (Liljencrants, 1968), a été développé à KTH et est utilisé dans la modélisation de la synthèse vocale actuelle (Carlson et coll., 1982, 1991b). La principale différence entre ces modèles et le modèle Klatt est la manière dont les consonnes sont modélisées. Dans l`OVE, un fricatif est filtré par une configuration à pôle zéro plutôt que par un système parallèle. La même chose est vraie pour la branche nasale du synthétiseur.