ES2288897T3 - Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion. - Google Patents
Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion. Download PDFInfo
- Publication number
- ES2288897T3 ES2288897T3 ES01115523T ES01115523T ES2288897T3 ES 2288897 T3 ES2288897 T3 ES 2288897T3 ES 01115523 T ES01115523 T ES 01115523T ES 01115523 T ES01115523 T ES 01115523T ES 2288897 T3 ES2288897 T3 ES 2288897T3
- Authority
- ES
- Spain
- Prior art keywords
- speaker
- sequence
- training
- neural network
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Procedimiento para la adaptación explícita al orador de las transcripciones fonéticas de un diccionario de pronunciación de transcripciones fonéticas elegidas como formas canónicas de un vocabulario en un formato predeterminado y ejecutando una adaptación al orador mediante un reconocedor de fonemas, que a partir de cada palabra pronunciada por un orador específico genera una secuencia de fonemas, caracterizado porque - para cada orador y para cada palabra pronunciada, la secuencia de fonemas P generada en asociación con una forma canónica K memorizada en el diccionario de pronunciación, se memoriza como bloque K-P, - la asociación memorizada se lleva a un nudo de entrada de una red neuronal definido por la forma canónica K y - en la red neuronal se realiza el entrenamiento con la adaptación al orador, prescribiéndose la secuencia de fonemas P a la red neuronal como valor de destino para nudos de salida.
Description
Adaptación específica al orador de las
transcripciones fonéticas de un diccionario de pronunciación.
La invención se refiere a un procedimiento para
la adaptación específica al orador de las transcripciones fonéticas
de un diccionario de pronunciación de transcripciones fonéticas
según el preámbulo de la reivindicación 1.
Para la aplicación práctica de sistemas de
reconocimiento de voz es irrenunciable una adaptación al orador
efectiva y flexible, es decir, la adaptación del sistema a la
tonalidad concreta de voz y a la pronunciación y a los hábitos
fonéticos de oradores reales. Además de la flexibilidad citada, es
decir, de la capacidad de adaptación para oradores con
pronunciación muy distinta salvaguardando una elevada precisión de
reconocimiento, el tiempo de entrenamiento necesario es un criterio
de utilización esencial de los procedimientos y los sistemas para
el reconocimiento de voz. En este contexto, tiene un gran valor una
cierta capacidad de aprendizaje del sistema.
Los sistemas de reconocimiento de voz conocidos
utilizan diccionarios de pronunciación como base de conocimiento
para el reconocimiento de voz independiente del orador. En tales
diccionarios de pronunciación se indica para cada palabra del
vocabulario una transcripción fonética en un determinado formato
(por ejemplo el formato Sampa). Al respecto se trata de las
llamadas "formas canónicas", que corresponden a un estándar de
pronunciación. También es posible la memorización y utilización de
varias transcripciones fonéticas para una palabra. Esta posibilidad
se utiliza en especial para palabras para las que existen varias
variantes de pronunciación reconocidas en general. El estándar de
pronunciación que sirve de base a las formas canónicas sólo se
mantiene condicionadamente con los oradores reales, debido a su
tonalidad de voz, su dialecto o características personales de la
voz.
Es por lo tanto necesario adaptar las formas
canónicas de las transcripciones en un diccionario de pronunciación
para un usuario (o para múltiples usuarios) de un sistema de
reconocimiento de voz tal que el sistema de reconocimiento de voz
tenga en cuenta en medida muy amplia las características específicas
del orador y logre resultados de reconocimiento óptimos.
Según el estado de la técnica se realizan
adaptaciones o bien procesos de entrenamiento específicos del orador
predominantemente a nivel de sonidos. Aquí, se entrena en un
sistema de reconocimiento de voz basado en modelos
Hidden-Markov (HMN) con fonemas o segmentos de
fonemas como estados en el modelo Hidden-Markov. En
una etapa posterior pronuncia un orador respecto al que hay que
entrenar al sistema textos predeterminados, y el sistema de
reconocimiento de voz realiza la adaptación al nivel de estados HMM
en base a este texto de modelo.
Otra solución conocida consiste en la
utilización de un reconocedor de fonemas. Aquí no se someten las
manifestaciones verbales a adaptar a una búsqueda integrada de
palabras y frases con un modelo lingüístico, sino que como
resultado de un proceso de búsqueda especial sólo se emite la
secuencia de fonemas más probable para la correspondiente
manifestación verbal. Con ello puede determinarse para cada palabra
adaptada una secuencia de fonemas y, en lugar de la forma canónica
o alternativamente a ésta, inscribirse en el diccionario de
pronunciación. Un inconveniente de este método es que el sistema de
reconocimiento de voz no recibe ninguna información sobre las
modificaciones de las pronunciaciones canónicas por parte del
orador especial y por lo tanto tampoco puede utilizarlas en el
marco de un proceso de autoaprendizaje. Esto da lugar a que cada
palabra adaptada deba ser inscrita como una variante de
pronunciación adicionalmente en el diccionario de pronunciación. El
diccionario de pronunciación como base del conocimiento para el
reconocimiento de voz se vuelve pronto muy voluminoso, lo cual
reduce la velocidad de reconocimiento del sistema.
La invención tiene por lo tanto como tarea
básica indicar un procedimiento mejorado para el reconocimiento de
voz del tipo genérico que en particular permita un entrenamiento
rápido, así como una elevada velocidad de reconocimiento del
sistema entrenado (adaptado).
Esta tarea se resuelve mediante un procedimiento
con las particularidades de la reivindicación 1.
La invención incluye la idea básica de utilizar
para el entrenamiento de un sistema de reconocimiento de voz, en el
marco de la adaptación al orador, una red neuronal. La misma incluye
además la idea de procesar en el sistema las modificaciones de las
formas canónicas de un diccionario de pronunciación debidas al
correspondiente orador. Para ello se presentan - lo cual es
conocido de por sí - las manifestaciones verbales de un orador a un
reconocedor de fonemas, que a partir de ello genera en cada caso una
secuencia de fonemas. No obstante, en lugar de inscribir las
secuencias de fonemas generadas como tales directamente en el
diccionario de pronunciación, se memoriza más bien para cada
palabra adaptada o bien entrenada un bloque K-P de
la forma canónica K de la pronunciación y de la secuencia de
fonemas P generada por el reconocedor de fonemas.
En la evolución del entrenamiento se presentan a
continuación los bloques K-P de todas las palabras
pronunciadas a la red neuronal, y ésta se entrena, prescribiéndose
la secuencia de fonemas P generadas por el reconocedor de fonemas
en la representación análoga como valores de destino para nudos de
salida de la red. Como nudos de entrada, se elige una
representación adecuada de la forma canónica K de la pronunciación
de la palabra correspondiente.
El procedimiento propuesto tiene como una
ventaja esencial que en el entrenamiento o bien la adaptación no se
aprenden solamente contextos cortos en el tiempo en base a fonemas,
sino que se procesa específicamente para cada orador la típica
pronunciación de contextos más grandes, en particular sílabas. Una
ventaja adicional reside en que una asociación aprendida por la red
neuronal entre forma canónica y secuencia de fonemas especifica del
orador (representación K-P*) puede utilizarse no
sólo para palabras que se den durante la fase de entrenamiento. Más
bien pueden generarse también para palabras que durante la
adaptación aún no eran parte del vocabulario, es decir, no estaban
contenidas en el diccionario de pronunciación, transcripciones
específicas del orador y finalmente inscribirse en el diccionario
de pronunciación.
Para la red neuronal se utiliza en particular un
llamado "perceptrón multicapa" (MLP). Al respecto se trata de
una red orientada a capas, dirigida hacia delante ("feed
forward") con enmallado completo entre las distintas capas.
Como función de activación se utiliza la función
sigmoidal Sc(x) o la función tangente hiperbólica
tanh(x), no tratándose de la elección concreta de la función
de activación, así como de la cantidad de capas de la red neuronal.
Para lograr una elevada precisión de entrenamiento, debe ser desde
luego suficientemente grande la cantidad de los parámetros
variables. Esta viene determinada por la cantidad de capas, así como
la cantidad de neuronas en la capa oculta o bien capas ocultas.
La capa de entrada de la red neuronal presenta
múltiples nudos como ventanas (canónicas) de fonemas, en las que se
"inserta" la correspondiente forma canónica K. Un nudo central
de la capa de entrada es en cada caso el fonema a considerar, para
el que se realiza el entrenamiento de la asignación al
correspondiente fonema de la secuencia de fonemas P (especifica del
orador) en la fase de entrenamiento o bien en la fase de aplicación.
Otros nudos de la capa de entrada contienen los fonemas (canónicos)
contiguos en el tiempo a la forma canónica considerada, es decir,
precedentes y siguientes en el tiempo. Estos son necesarios para
lograr una elevada precisión en la adaptación del fonema
considerado como conocimiento del contexto (por ejemplo en relación
con la pronunciación de una sílaba).
Para una conducción óptima del procedimiento, es
importante que como tamaño de la ventana de la capa de entrada se
elija sólo el tamaño que sea necesario para la captación del
conocimiento de contexto mencionado. El tamaño de la ventana se
elige razonablemente tal que no se procesa la forma canónica de una
palabra completa, sino solamente el conocimiento contextual a nivel
de sílaba. De esta manera se asegura en especial que pueden
trasladarse correctamente los fonemas de nuevas palabras, aún
desconocidas para el sistema, que por lo tanto no son parte
integrante del entrenamiento.
La capa de salida contiene ante todo una
cantidad de nudos de salida correspondiente a la cantidad de
posibles fonemas, con los que por lo tanto se cubre el
"inventario de fonemas" completo. Además, hay para la capa de
salida un "conservador de lugar", para poder reproducir
distintas longitudes de fonemas del bloque (K, P).
La red neuronal se entrena en particular
mediante un procedimiento iterativo, en el que se utiliza como regla
de aprendizaje especialmente la llamada "retropropagación del
error" ("Error Backpropagation"). En este procedimiento se
minimiza el error cuadrático medio. Con esta regla de aprendizaje es
posible el cálculo de probabilidades de deducciones, y durante el
aprendizaje se calculan estas probabilidades de deducciones para
todos los nudos de salida (fonemas) para la ventana de fonemas
canónica prescrita de la capa de entrada. La red se entrena con los
modelos de entrenamiento en varias iteraciones, determinándose
ventajosamente de manera aleatoria para cada iteración la secuencia
de entrenamiento. Tras cada iteración se comprueba con una secuencia
de validación independiente del material de entrenamiento la
precisión de transcripción lograda. El proceso de entrenamiento
prosigue mientras tras cada siguiente iteración se logre un aumento
de la precisión de la transcripción. Por lo tanto, en el momento en
el que ya no aumente la precisión de la transcripción para la
secuencia de validación, finaliza el entrenamiento.
Tras finalizar el entrenamiento, es decir, una
vez que la red neuronal ha aprendido la reproducción de las formas
canónicas K sobre secuencias de fonemas P específicos del orador, se
actualiza el diccionario de pronunciación. Las transcripciones allí
inscritas con formas canónicas K se complementan con transcripciones
con secuencias de fonemas específicas P* (como variante de
pronunciación). En particular, se presenta tras el cierre de un
ciclo de entrenamiento para cada palabra en el diccionario de
pronunciación la correspondiente forma canónica a la red neuronal,
a partir de los valores de salida de los correspondientes nudos de
salida se genera la transcripción P* específica del orador y se
inscribe la misma bajo la correspondiente palabra en el vocabulario
de pronunciación.
La utilización de sistemas de reconocimiento de
voz conocidos presupone por lo general la ejecución de un llamado
"Enrollment" (inclusión) por parte de un orador que planifica
la utilización. Este Enrollment contiene por lo general la
pronunciación de textos predeterminados por parte del orador y el
sistema ejecuta sobre esta base la adaptación específica del orador
de la base de conocimiento. En el marco de esta pronunciación se
aprende la reproducción K-P* antes descrita por
parte de la red neuronal utilizada según la invención y se utiliza
directamente para mejorar el diccionario de pronunciación que se
suministra a la vez. En la utilización práctica que sigue del
sistema de reconocimiento de voz, se prevé por lo general - en el
marco de un "entrenamiento de perfeccionamiento" - la
corrección de palabras incorrectamente reconocidas por parte del
usuario. Los resultados de las correcciones se reúnen para una
siguiente etapa de adaptación. También en el marco de la ampliación
del vocabulario, cuando se utiliza el sistema de reconocimiento de
voz por parte del usuario, se solicita con frecuencia al mismo
introducir nuevas palabras no sólo como texto, es decir,
ortográficamente, sino también como muestra oral. Las nuevas
inscripciones reunidas de esta manera a lo largo de un periodo de
tiempo determinado pueden utilizarse en combinación con las
manifestaciones verbales de la fase de Enrollment (inclusión) para
mejorar el entrenamiento de la red neuronal.
Las ventajas y aspectos convenientes de la
invención resultan por lo demás de las reivindicaciones
subordinadas.
La invención no queda limitada a las mejoras y
aspectos preferentes antes mencionados, sino que puede ejecutarse
en el marco de las exigencias también en una serie de variantes que
se encuentran en el mercado especializado.
Claims (9)
1. Procedimiento para la adaptación explícita al
orador de las transcripciones fonéticas de un diccionario de
pronunciación de transcripciones fonéticas elegidas como formas
canónicas de un vocabulario en un formato predeterminado y
ejecutando una adaptación al orador mediante un reconocedor de
fonemas, que a partir de cada palabra pronunciada por un orador
específico genera una secuencia de fonemas,
caracterizado porque
- -
- para cada orador y para cada palabra pronunciada, la secuencia de fonemas P generada en asociación con una forma canónica K memorizada en el diccionario de pronunciación, se memoriza como bloque K-P,
- -
- la asociación memorizada se lleva a un nudo de entrada de una red neuronal definido por la forma canónica K y
- -
- en la red neuronal se realiza el entrenamiento con la adaptación al orador, prescribiéndose la secuencia de fonemas P a la red neuronal como valor de destino para nudos de salida.
2. Procedimiento según la reivindicación 1,
caracterizado porque
la red neuronal es tal que se minimiza el error
cuadrático medio, utilizándose como función de activación en
particular la función sigmoidal Sc(x) o la función de
tangente hiperbólica tanh(x).
3. Procedimiento según la reivindicación 1 ó
2,
caracterizado porque
como red neuronal se utiliza una red orientada a
capas, orientada hacia delante, con enmallado completo entre las
distintas capas, cuya capa de entrada presenta múltiples nudos como
ventanas canónicas de fonemas.
4. Procedimiento según la reivindicación 3,
caracterizado porque
la capa de entrada presenta un nudo central para
un fonema a considerar de la secuencia de fonemas y otros nudos que
contienen los fonemas contiguos a ambos lados en el tiempo al fonema
a considerar de la forma canónica considerada como conocimiento
contextual.
5. Procedimiento según la reivindicación 3 ó
4,
caracterizado porque
el tamaño de ventana de las ventanas de fonemas
se determina previamente tal que esencialmente asume el conocimiento
contextual a nivel de sílaba.
6. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque
el entrenamiento se realiza como proceso
iterativo, en particular en base a la regla de aprendizaje de la de
la retroprogamación del error ("Error Backpropagation").
7. Procedimiento según la reivindicación 6,
caracterizado porque
- -
- para cada iteración se determina una secuencia de modelos de entrenamiento mediante un generador aleatorio,
- -
- tras cada iteración en base a una secuencia de validación independiente del material de entrenamiento, se averigua la precisión de transcripción lograda y
- -
- las iteraciones prosiguen mientras con cada nueva iteración se logre un aumento de la precisión de transcripción de la secuencia de validación.
8. Procedimiento según una de las
reivindicaciones precedentes,
caracterizado porque tras un proceso de
entrenamiento en el diccionario de la pronunciación de la
transcripción ya con el entrenamiento en forma canónica, se añade
al menos una secuencia de fonemas especifica del orador.
9. Procedimiento según la reivindicación 8,
caracterizado porque
tras un ciclo de entrenamiento para cada palabra
del diccionario de pronunciación, se presenta la correspondiente
forma canónica a la red neuronal y a partir del correspondiente
valor de salida de los nudos de salida, se genera la
correspondiente transcripción especifica del orador y se memoriza en
la palabra.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10034249 | 2000-07-14 | ||
DE10034249 | 2000-07-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2288897T3 true ES2288897T3 (es) | 2008-02-01 |
Family
ID=7648906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES01115523T Expired - Lifetime ES2288897T3 (es) | 2000-07-14 | 2001-06-27 | Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion. |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP1172802B1 (es) |
DE (1) | DE50112815D1 (es) |
ES (1) | ES2288897T3 (es) |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2733955B2 (ja) * | 1988-05-18 | 1998-03-30 | 日本電気株式会社 | 適応型音声認識装置 |
JPH0642157B2 (ja) * | 1990-10-15 | 1994-06-01 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 話者適応化装置 |
AU5738296A (en) * | 1995-05-26 | 1996-12-11 | Applied Language Technologies | Method and apparatus for dynamic adaptation of a large vocab ulary speech recognition system and for use of constraints f rom a database in a large vocabulary speech recognition syst em |
-
2001
- 2001-06-27 ES ES01115523T patent/ES2288897T3/es not_active Expired - Lifetime
- 2001-06-27 EP EP20010115523 patent/EP1172802B1/de not_active Expired - Lifetime
- 2001-06-27 DE DE50112815T patent/DE50112815D1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE50112815D1 (de) | 2007-09-20 |
EP1172802B1 (de) | 2007-08-08 |
EP1172802A3 (de) | 2002-11-13 |
EP1172802A2 (de) | 2002-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Haffner et al. | Integrating time alignment and neural networks for high performance continuous speech recognition. | |
ES2233002T3 (es) | Sistema de reconocimiento de habla con lexico actualizable mediante introduccion de palabras deletreadas. | |
Woodland et al. | The 1994 HTK large vocabulary speech recognition system | |
ES2281626T3 (es) | Procedimiento de funcionamiento de un reconocedor automatico de voz para el reconocimiento por voz, independiente del orador, de palabras en distintos idiomas y reconocedor automatico de voz. | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
US7275034B2 (en) | Word-specific acoustic models in a speech recognition system | |
Hazen et al. | Pronunciation modeling using a finite-state transducer representation | |
Gauvain et al. | The LIMSI continuous speech dictation system: evaluation on the ARPA Wall Street Journal task | |
Zue et al. | The SUMMIT speech recognition system: Phonological modelling and lexical access | |
Livescu et al. | Subword modeling for automatic speech recognition: Past, present, and emerging approaches | |
US20060058996A1 (en) | Word competition models in voice recognition | |
Hwang et al. | Online keyword spotting with a character-level recurrent neural network | |
ES2244499T3 (es) | Procedimiento para el reconocimiento de manifestaciones verbales de oradores que no hablan su propio idioma en un sistema de procesamiento de voz. | |
Mariani | Recent advances in speech processing | |
Klusácek et al. | Conditional pronunciation modeling in speaker detection | |
US6430532B2 (en) | Determining an adequate representative sound using two quality criteria, from sound models chosen from a structure including a set of sound models | |
Schmid et al. | Automatically generated word pronunciations from phoneme classifier output | |
rn Svendsen et al. | Optimizing baseforms for HMM-based speech recognition | |
Lamel et al. | Continuous speech recognition at LIMSI | |
Fanty et al. | City name recognition over the telephone | |
ES2288897T3 (es) | Adaptacion especifica al orador de las transcripciones foneticas de un diccionario de pronunciacion. | |
Tian | Data-driven approaches for automatic detection of syllable boundaries. | |
Beaufays et al. | Learning linguistically valid pronunciations from acoustic data. | |
Siniscalchi et al. | A phonetic feature based lattice rescoring approach to LVCSR | |
Rotovnik et al. | A comparison of HTK, ISIP and julius in slovenian large vocabulary continuous speech recognition. |