DE69519229T2 - Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten - Google Patents
Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvariantenInfo
- Publication number
- DE69519229T2 DE69519229T2 DE69519229T DE69519229T DE69519229T2 DE 69519229 T2 DE69519229 T2 DE 69519229T2 DE 69519229 T DE69519229 T DE 69519229T DE 69519229 T DE69519229 T DE 69519229T DE 69519229 T2 DE69519229 T2 DE 69519229T2
- Authority
- DE
- Germany
- Prior art keywords
- language
- model
- fundamental tone
- input
- dialect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 36
- 238000013518 transcription Methods 0.000 claims description 9
- 230000035897 transcription Effects 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 3
- 238000010438 heat treatment Methods 0.000 claims description 2
- 238000005086 pumping Methods 0.000 claims description 2
- 238000010616 electrical installation Methods 0.000 claims 2
- 230000004807 localization Effects 0.000 claims 2
- 238000009434 installation Methods 0.000 claims 1
- 230000004044 response Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1807—Speech classification or search using natural language modelling using prosody or stress
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
- Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Erkennen von gesprochener Sprache und insbesondere die Erkennung von verschiedenen Dialekten in der Sprache.
- Verschiedene Typen von Spracherkennungssystemen sind bekannt. Es ist bei solchen Systemen für die Spracherkennungsausrüstung üblich, daß sie trainiert wird, um Sprache von einer großen Anzahl von Personen zu erkennen. Auch folgt das Sprachtraining einem besonderen Dialekt oder Dialekten. Die Information, die durch dieses Vorgehen gesammelt wird, wird dann durch das System benutzt, um Eingangssprache zu interpretieren. Solche Systeme können daher normalerweise Dialektvariationen in der Sprache nicht erkennen, die außerhalb des besonderen Dialekts oder der besonderen Dialekte liegen, für die das System trainiert ist.
- In Sprachen mit Ton/Wort-Akzenten und Tonsprache bildet das Intonationsmuster der Sprache einen wichtigen Teil beim Verstehen der Sprache; bekannte Systeme berücksichtigen jedoch nicht diese Sprachcharakteristiken. Als Konsequenz hiervon kann die Erkennung von Worten und Redewendungen bei bekannten Spracherkennungssystemen Anlaß zur Fehlinterpretationen geben. Die bekannten Spracherkennungssysteme, die dazu ausgebildet sind, Dialekte in der Sprache zu berücksichtigen, sind besonders für diesen besonderen Dialekt ausgebildet und sind daher nicht dazu ausgebildet, unterschiedliche Dialekte in einer Sprache zu erkennen.
- In SPEECH PROCESSING, Minneapolis, April 1993, Band 2, IEEE, Seiten II-211-214 werden Analyse und das Modellieren von Wortakzent und Satzintonation in der schwedischen Sprache diskutiert. Es wird ein Modell vorgeschlagen, in dem Redewendungsbefehle als Impulse angenommen werden und Akzentbefehle als schrittweise Funktionen angenommen werden. Diese werden liniearisiert, und die Komponenten werden addiert und auf einer Grundlinie überlagert, um eine FO (Fundamentalfrequenz) - Kontur zu bilden.
- In Zukunft werden Spracherkennungsausrüstungen in immer größerem Ausmaß bei sehr viel verschiedenen Anwendungen benutzt werden, wo die Notwendigkeit besteht, daß man im Stande ist, unterschiedliche Dialekte in einer Sprache zu erkennen. Die dialektischen Variationen in einer Sprache waren in der Vergangenheit schwer zu bestimmen, und als Ergebnis hiervon erfuhr man Schwierigkeiten, ein richtiges Verständnis von künstlich erzeugter Sprache zu erhalten. Darüber hinaus können die bekannten Spracherkennungsausrüstungen allgemein nicht mit unterschiedlichen Sprachen benutzt werden.
- Obwohl bekannte Spracherkennungssysteme dazu ausgebildet sind, durch Training einen besonderen Dialekt in einer Sprache zu erkennen, so ist es doch für solche Systeme nicht möglich, unterschiedliche Dialekte in der Sprache oder Dialekte unterschiedlichen Sprachen ohne weiteres Training zu erkennen, indem dieselbe Spracherkennungsausrüstung benutzt wird.
- Es ist daher schwierig oder unmöglich gewesen, die künstliche Interpretation von Sprache mit bekannten Spracherkennungsausrüstungen durchzuführen, und zwar aufgrund der Unfähigkeit solcher Systeme, Dialektvariationen zu erkennen.
- Abgesehen vom technischen Problem, Sprache richtig zu interpretieren, ist es bei Sprachsteuersystemen notwendig, daß die verbalen Instruktionen oder Befehle richtig interpretiert werden; anders würde es nicht möglich sein, richtige Steuerung von unterschiedlichen Typen von Ausrüstungen und/oder Diensten zu bewirken, zum Beispiel in einem Fernmeldenetzwerk.
- Es ist eine Aufgabe der vorliegenden Erfindung, die vorgenannten Probleme zu überwinden, indem ein Verfahren und eine Vorrichtung zum Erkennen von gesprochener Sprache und insbesondere von unterschiedlichen Dialekten in einer Sprache unter Benutzung der Fundamentaltonkurve der Sprache geschaffen wird.
- Die Erfindung schafft ein Verfahren zum Erkennen einer gesprochenen Sprache, in der eine Anzahl von Phonemen von einem Segment von Eingangssprache identifiziert und als mögliche Worte oder Wortkombinationen interpretiert werden, um ein Modell der Sprache zu erstellen, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisiertem Muster für die betreffende Sprache hat, wobei das Verfahren die Schritte aufweist: Bestimmung der Fundamentaltonkurve der Eingangssprache; Bestimmung des Intonationsmusters des Fundamentaltons der Eingangssprache und damit der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiligen Positionen; Bestimmung des Intonationsmusters der Fundamentaltonkurve des Sprachmodells und damit der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiliger Positionen, dadurch gekennzeichnet, daß das Verfahren die Schritte aufweist: vergleichen des Intonationsmusters der Eingangssprache mit dem Intonationsmuster des Sprachmodells, um eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimalwerte der Fundamentaltonkurve der Eingangssprache in Beziehung zu den Maximal- und Minimalwerten der Fundamentaltonkurve des Sprachmodells zu identifizieren, wobei die identifizierte Zeitdifferenz eine Anzeige für Dialektcharakteristiken der Eingangssprache ist; und Einstellen des Intonationsmusters des Sprachmodells unter Verwendung der identifizierten Zeitdifferenz, um das Sprachmodell in Übereinstimmung mit der Eingangssprache und damit den Dialektcharakteristiken der Eingangssprache zu bringen.
- Durch die Erfindung wird auch eine Vorrichtung zum Erkennen einer gesprochenen Sprache geschaffen, mit Spracherkennungsmitteln zum Identifizieren einer Anzahl von Phonemen aus einem Segment der Eingangssprache; und Interpretationsmitteln zum Interpretieren der Phoneme als mögliche Wörter oder Wortkombinationen zum Erstellen eines Modells der Sprache, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisierten Muster für die betreffende Sprache aufweist, mit Extraktionsmitteln zum Extrahieren der Fundamentaltonkurve der Eingangssprache; ersten Analysiermitteln zum Bestimmen des Intonationsmuster des Fundamentaltons der Eingangssprache und damit der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiligen Positionen; zweiten Analysiermitteln zum Bestimmen des Intonationsmusters der Fundamentaltonkurve des Sprachsmodells und dadurch der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiligen Positionen; dadurch gekennzeichnet, daß die Vorrichtung weiter aufweist, Vergleichsmittel zum Vergleichen des Intonationsmusters der Eingangssprache mit dem Intonationsmuster der Sprachmodells zum Identifizieren einer Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimalwerte der Fundamentaltonkurven der Eingangssprache in Bezug auf die Maximal- und Minimalwerte der Fundamentaltonkurve des Sprachmodells, wobei die identifizierte Zeitdifferenz die Dialektcharakteristiken der Eingangssprache anzeigt; und Korrigiermittel zum Einstellen des Intonationsmusters des Sprachmodells unter der Verwendung der identifizierten Zeitdifferenz, um das Sprachmodell in Übereinstimmung mit der Eingangssprache und damit mit den Dialektcharakteristiken der Eingangssprache zu bringen.
- Bei einem bevorzugten Verfahren und einer bevorzugten Vorrichtung, wie sie in den Ansprüchen 2 und 10 beansprucht werden, werden die identifizierten Phoneme zu Allophonsträngen kombiniert, die zusammen mit der Fundamentaltonkurve dazu benutzt werden, die Maximal- und Minimalwerte des Fundamentaltons der Eingangssprache zu identifizieren und dadurch deren Positionen zu detektieren. Bei der bevorzugten Ausführungsform sind die ersten Analysiermittel dazu ausgebildet, als Reaktion auf dem Empfang der Allophonstränge von den Spracherkennungsmitteln die Positionen der Maximal- und Minimalwerte des Fundamentaltons des Eingangssprache zu identifizieren und dadurch zu detektieren.
- Mit dem Verfahren und der Vorrichtung der vorliegenden Erfindung, wie sie in den Ansprüchen 3 und 11 beansprucht werden, wird die Zeitdifferenz vorzugsweise in Bezug auf einen Intonationsmusterbezugspunkt bestimmt, zum Beispiel den Punkt, an dem eine Konsonant/Vokal-Grenze, d. h. eine CV-Grenze auftritt. Weitere bevorzugte Ausführungsformen der Erfindung werden in den abhängigen Ansprüchen 4 bis 8 und 12 bis 21 beansprucht.
- Das Spracherkennungsverfahren und die Spracherkennungsvorrichtung der vorliegenden Erfindung können also Variationen in einer Sprache detektieren, indem die Maximal- und Minimalwerte der Fundamentaltonkurve von gesprochener Sprache mit entsprechenden Werten in einem Sprachmodell verglichen werden und Details der Zeitdifferenz dazwischen erhalten werden, wobei die Zeitdifferenz, die den Dialekt der gesprochenen Sprache anzeigt, dazu verwendet wird, das Modell einzustellen, damit es dem betreffenden Dialekt entspricht.
- Ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung der vorliegenden Erfindung sind daher dazu ausgebildet, unterschiedliche Dialekte einer Sprache zu erkennen. Im wesentlichen wird die Fundamentaltonkurve der Eingangssprache extrahiert, und ihre Maximal- und Minimalwerte werden identifiziert. Ein Modell der Sprache wird während des Spracherkennungsvorgangs geschaffen, indem eine lexikalische und Syntaxanalyse durchgeführt wird. Dem Sprachmodell wird eine Standardintonation gegeben. Es wird dann ein Vergleich zwischen dem Maximal- und Minimalwerten der Fundamentaltonkurve der Eingangssprache und des Sprachmodells durchgeführt. Eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimalwerte der Fundamentaltonkurve der Eingangssprache und den Maximal- und Minimalwerten der Fundamentaltonkurve des Sprachmodells wird identifiziert.
- Die identifizierte Zeitdifferenz, die den Dialekt der Eingangssprache anzeigt, wird benutzt, um das Sprachmodell abzuwandeln, d. h., daß die Intonation des Sprachmodells in Übereinstimmung mit dem Intonationsmuster der ankommenden Sprache gebracht wird. Es kann so ein Modell der Sprache erhalten werden, die, was Sprachcharakteristiken betrifft (einschließlich Dialekt) der Eingangssprache entspricht.
- Die vorliegende Erfindung schafft daher ein verbessertes Verfahren und eine verbesserte Vorrichtung zum Interpretieren einer vorgegebenen Eingangssprache. Das Sprachmodell, das von diesem Vorgang resultiert, wird für Spracherkennung verwendet und erhöht die Möglichkeit, unterschiedliche Dialekte in der Sprache zu verstehen.
- Bei einer weiteren Ausbildung der Erfindung wird eine Bezugsgröße verwendet, insbesondere eine CV-Grenze (Consonent/Vowel -boundary, Konsonant/Vokal-Grenze), um die Zeitdifferenz zwischen den Extremwerten des Intonationsmusters der Eingangssprache und des Sprachmodells zu bestimmen. Weiter beruht, wie dies oben angegeben wurde, die Kontur oder der Umriß des Fundamentaltons des Sprachmodells auf lexikalischer und Syntaxinformation. Anfänglich hat das Sprachmodell Wort- und Satzakzente gemäß einem Standardmuster für die betreffende Sprache. Die lexikalische Information schließt Informationen ein, die Orthographie und phonetische Transkription betrifft. Die Transkriptionsinformation schließt lexikalisch abstrahierte Akzentinformationen von Typen betonten Silben, zum Beispiel tonale Wortakzente I und II und Information ein, die sich auf den Ort des sekundären Akzents bezieht, d. h. Informationen, die zum Beispiel in Wörterbüchern gegeben wird.
- Die Klassifikation der Intonationsmuster der Fundamentaltonkurven der Eingangssprache in unterschiedliche Dialektkategorien wird aufgrund der gespeicherten Intonationsbeschreibung bewirkt.
- Die vorstehenden und weiteren Merkmale der Erfindung werden besser aus der folgenden Beschreibung unter Bezugnahme auf die beigefügten Zeichnungen verstanden werden. Es zeigen:
- Fig. 1 schematisch in Form eines Blockdiagramms eine erfindungsgemäße Spracherkennungseinrichtung;
- Fig. 2 schematisch die Orte der Maximal- und Minimalwerte der Fundamentaltonkurve für eine Sprache mit einem Dialekt "A"; und
- Fig. 3 schematisch die Orte der Maximal- und Minimalwerte der Fundamentaltonkurve für eine Sprache mit einem Dialekt "B".
- Obwohl die Spracherkennungseinrichtung der vorliegenden Erfindung besonders geeignet für Sprachen mit tonalen Wortakzenten und für tonale Sprachen geeignet ist, kann sie für jede Sprache benutzt werden.
- Die folgende Beschreibung spezieller Ausführungsformen der vorliegenden Erfindung beziehen sich auf die schwedische Sprache, wo detaillierte Kenntnisse vorhanden sind, wie Wortakzente und Satzakzente in verschiedenen Dialekten realisiert werden. Die Beschreibung des Intonationsmusters in der schwedischen Sprache ist direkt anwendbar zum Beispiel auf die norwegische Sprache.
- Wie dies schematisch in Fig. 1 der beigefügten Zeichnungen dargestellt ist, schließt die Spracherkennungseinrichtung der vorliegenden Erfindung eine Spracherkennungseinheit 1, von der ein Eingang der Eingang der Spracherkennungseinrichtung ist, und eine Extraktionseinheit 2 ein, in der der Fundamentalton FO der Eingangssprache extrahiert wird. Der Eingang der Spracheingangseinrichtung ist auch mit einem Eingang der Extraktionseinheit 2 verbunden.
- Es wird also ein Segment der Sprache, die an dem Eingang der Spracherkennungseinrichtung zum Beispiel zur Umwandlung in einen entsprechenden Text oder für die Benutzung bei anderen Anwendungen angelegt wird, parallel an die Eingänge der Einheiten 1 und 2 angelegt. Die Spracherkennungseinheit 2, die in bekannter Weise arbeitet, zum Beispiel unter Verwendung eines Hidden-Markov-Modells oder eines äquivalenten Modells arbeitet, identifiziert eine Anzahl von Phonemen von der Eingangssprache, die in Allophonstränge, d. h. in einen, zwei oder mehr Formen desselben Phonems an einem der Ausgänge der Spracherkennungseinheit 1 kombiniert werden.
- Der Fundamentalton FO, der von der Eingangssprache durch die Extraktionseinheit 2 extrahiert ist, wird an einen Eingang einer Analysiereinheit 6 angelegt, die dazu ausgebildet ist, das Intonationsmuster der Fundamentaltonkurve FO(t) der Eingangssprache und dadurch die Maximal-, FO-max, und Minimal-, Fo-min. -werte der Fundamentaltonkurve FO(t) zu bestimmen. Die Anlegung des Allophonstrangs am Ausgang der Spracherkennungseinheit 1 an einen anderen Eingang der Analysiere inheit 6 ermöglicht es, daß die Extremwerte FO-max und FO-min der Fundamentaltonkurve FO der Eingangssprache und ihrer entsprechenden Positionen bestimmt werden können. Es wird also der Allophonstrang in Verbindung mit der Fundamentaltonkurve benutzt, um die Positionen der Extremwerte des Fundamentaltons der Eingangssprache zu identifizieren und dabei zu detektieren.
- Die Information, die die erkannten Worte und Wortkombinationen, d. h. Redewendungen betrifft und durch die Spracherkennungseinheit 1 erzeugt wird, wird an ein Lexikon 3, d. h. ein Wörterbuch mit Orthographie und Transkription angelegt, in dem die Worte lexikalisch geprüft werden. Jedes der Worte, das in der betreffenden Sprache nicht existiert, wird ausgeschlossen. Die Wortkombinationen oder Redewendungen an einem Ausgang des Lexikons 3 werden durch eine Syntaxanalyseeinheit 4 geprüft. Irgendwelche Redewendungen, deren Syntax nicht der betreffenden Sprache entspricht, werden während dieser Syntaxüberprüfung ausgeschlossen.
- So ermöglicht, wie dies in Fig. 1 der beigefügten Zeichnungen dargestellt ist, die Wechselwirkung zwischen den Einheiten 1 und 3 und zwischen den Einheiten 3 und 4, daß Wörter und Wortkombinationen, von denen herausgefunden wurde, daß sie durch das Lexikon 3 und die Syntaxanalyseeinheit 4 akzeptiert werden können, an die Sprachmodellerzeugungseinheit 5 angelegt werden können.
- Die lexikalische und die Syntaxinformation, die durch die Einheiten 3 und 4 erzeugt werden, wird durch die Einheit 5 verwendet, um ein Modell der Eingangssprache zu erzeugen. Das Intonationsmuster des Sprachmodells, das durch die Einheit 5 erzeugt ist, ist ein standardisiertes Intonationsmuster für die betreffende Sprache oder ein Intonationsmuster, das durch Trainieren oder ausdrückliche Kenntnis unter Verwendung einer Anzahl von Dialekten der betreffenden Sprache erstellt worden ist.
- Was die Information betreffend der Zeitpunkte betrifft, zu denen die Extremwerte FO-max und FO-min des Fundamentaltons FO auftreten, ist es für die Sprachmodellerzeugungseinheit 5 möglich, die Eingangssprache in Dialektkategorien in Übereinstimmung mit gespeicherten Beschreibungen von betreffenden Dialekten, d. h. gespeicherten Intonationsbeschreibungen einzuordnen.
- Das Intonationsmuster des Sprachmodells, d. h. die Maximal- und Minimalwerte und ihre Positionen wird an eine Vergleichereinheit 7 angelegt, was auch mit dem Intonationsmusterausgang der Analysiereinheit 6 geschieht. Es werden so die Maximal- und Minimalwerte der Fundamentaltonkurven der Eingangssprache und des Sprachmodells durch die Vergleichereinheit 7 verglichen. Der Zweck dieses Vergleichs besteht darin, eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimalwerte der Fundamentaltonkurve der Eingangssprache und den Maximal- und Mininmalwerten der Fundamentaltonkurve des Sprachmodells zu identifizieren.
- Man wird aus der folgenden Beschreibung unter Bezugnahme auf die Fig. 2 und 3 der beigefügten Zeichnungen ersehen, daß die Bezugsgröße, gegen die die Zeitdifferenz gemessen wird, bei einer bevorzugten Ausführungsform der Punkt ist, an dem die Konsonanten/Vokal-Grenze, d. h. die CV-Grenze auftritt.
- Die identifizierte Zeitdifferenz, die den Dialekt der Eingangssprache anzeigt, d. h. die gesprochene Sprache, wird an die Sprachmodellerzeugungseinheit 5 angelegt, damit das Intonationsmuster des Sprachmodells korrigiert werden kann, so daß es dem Intonationsmuster der entsprechenden Wörter und/oder Wortkomplexen der Eingangssprache entspricht. So ermöglicht dieses Korrekturverfahren, daß die Dialektinformation in der Eingangssprache in das Sprachmodell eingebaut werden kann.
- So beruht die Fundamentaltonkurve des Sprachmodells am Ausgang der Einheit 5 auf Information vom Lexikon 3 (Orthographie und Transkription) und Syntaxinformation. Die Transkriptioninformation schließt lexikalisch abstrahierte Akzentinformation vom Typ betonter Silben, d. h. tonaler Wortakzente I und II und Information ein, die sich auf den Ort des Sekundärakzents bezieht, d. h. Information die zum Beispiel in Diktionären gegeben wird. Nach Korrektur des Sprachmodells auf den fraglichen Dialekt kann die betreffende Fundamentaltoninformation benutzt werden, um die Auswahl durch die Spracherkennungseinheit 1 von möglichen Kandidaten zu erleichtern, zum Beispiel zur Verwendung in einem Sprache-Text- Umwandlungsverfahren. Anders gesagt wird die Dialektinformation an einem Ausgang der Sprachmodellerzeugungseinheit 5 an einen Eingang (nicht dargestellt) der Spracherkennungseinheit 1 angelegt und benutzt, um das Erkennungsmuster des Spracherkennungsmodells, zum Beispiel das Hidden-Markov-Modell einzustellen, um die Dialektinformation zu berücksichtigen.
- Eine weitere Konsequenz dieses Sprachmodellkorrekturverfahrens besteht darin, daß mit der Zeit die Sprachmodellerzeugungseinheit 5 trainiert werden wird unter Verwendung einer Anzahl unterschiedlicher Dialekte der betreffenden Sprache, so daß das ursprünglich erzeugte Sprachmodell ein Intonationsmuster haben wird, das durch das Trainingsverfahren erstellt worden ist.
- Darüber hinaus kann die Dialektinformation an einem Ausgang der Sprachmodellerzeugungseinheit 5 für andere Zwecke verwendet werden, zum Beispiel in einer Kunstspracheerzeugungseinheit (nicht dargestellt), um die Erzeugung von künstlicher Sprache in dem betreffenden Dialekt zu erleichtern. Eine Spracherzeugungseinheit, die die Fähigkeit hat, Sprache in jedem gewünschten Dialekt zu erzeugen, könnte bei vielen unterschiedlichen Anwendungen verwendet werden, zum Beispiel um eine ohne weiteres verständliche Antwort für Benutzer von auf Sprache reagierenden Systemen zu schaffen, die eine Spracherkennungseinheit der vorliegenden Erfindung einschließen, d. h. das System würde dazu ausgebildet sein, den Dialekt der verbalen Antwort so zu bearbeiten, daß er mit dem Dialekt der Eingangssprache übereinstimmt. Dies würde ein nutzerfreundliches System schaffen, da die Sprache des Mensch-Maschine- Dialogs in Übereinstimmung mit dem Dialekt des betreffenden Benutzers stehen würde.
- Das Sprachmodell, das durch die Spracherkennungseinrichtung der vorliegenden Erfindung erzeugt ist, das im Dialekt der Eingangssprache entspricht, d. h. daß die Dialektcharakteristik der Eingangssprache in die Sprachmodelle eingebaut wird, ist im Bezug auf den Stand der Technik eine genauere Interpretation der Eingangssprache.
- Fig. 2 und 3 der beigefügten Zeichnungen stellen schematisch dar, wie der Wortakzent (Akzent II d. h. schwer), zum Beispiel schematisch in zwei unterschiedlichen schwedischen Dialekten realisiert werden kann, d. h. Dialekt "A" (Fig. 2) und Dialekt "B" (Fig. 3). In der schwedischen Sprache kann der Unterschied, was das Intonationsmuster betrifft, zwischen unterschiedlichen Dialekten durch unterschiedliche Zeitpunkte für Wort- und Satzakzent beschrieben werden.
- Wie dies in Fig. 2 der Zeichnungen dargestellt ist, sind die Orte der Maximal- und Minimalwerte für die Fundamentaltonkurve für Sprache (Dialekt "A") zeitlich relativ zur CV-Grenze für den Wortakzent (Akzent II) um die Zeiten t1 und t2 verschoben. Für Dialekt "B" (Fig. 3) sind die entsprechenden Zeitunterschiede relativ zur selben CV-Grenze t1+k und. t2+k. Die Maximal- und Minimalwerte der Fundamentaltonkurve für die Sprache mit dem Dialekt "B" sind zeitlich von den entsprechenden Werten der Fundamentaltonkurve für die Sprache mit dem Dialekt "A" also um die Zeit k verschoben. Es daher möglich, die Dialekte zu identifizieren, indem Information verwendet wird, die sich auf die Zeitpunkte bezieht, bei denen sich die Extremwerte FO-max und FO-min der Intonationsmuster der betreffenden Sprache auftreten.
- Die Dialektinformation, die auf diese Weise erhalten ist, kann für die Interpretation von Sprache verwendet werden, d. h. die Information kann in der oben erwähnten Weise verwendet werden, um das Intonationsmuster des Sprachmodells in Übereinstimmung mit der Eingangssprache zu bringen. Da das korrigierte Sprachmodell die Sprachcharakteristiken (einschließlich Dialektinformation) der Eingangssprache aufweist, kann es benutzt werden, ein verbessertes Verständnis der Eingangssprache zu erhalten.
- Die Fähigkeit, unterschiedliche Dialekte in einer Sprache unter Verwendung von Fundamentaltonkurveninformation ohne weiteres zu interpretieren, ist ziemlich beträchtlich, da solche Interpretationen bewirkt werden können, ohne daß man das Spracherkennungssystem trainieren muß. Das Ergebnis hiervon ist, daß die Größe und damit die Kosten eines Spracherlsennungssystems, das entsprechend der vorliegenden Erfindung hergestellt ist, sehr viel kleiner sein können, als dies mit bekannten Systemen möglich wäre. Man erhält auch eine Raumersparnis. Die vorliegende Erfindung ermöglicht es auch, besondere Dialekte zu identifizieren und andere als Teil des Spracherkennungsverfahren auszuschließen. Dies sind daher doch etliche Vorteile über bekannte Spracherkennungssysteme.
- Die Fähigkeit, Sprache zu detektieren, und zwar unabhängig von Dialektvariationen entsprechend dem Verfahren und der Vorrichtung der vorliegenden Erfindung, ermöglicht es auch, Sprache in sehr unterschiedlichen auf Sprache reagierenden Anwendungen zu verwenden. Zum Beispiel könnte das Spracherkennungsverfahren und die Spracherkennungsvorrichtung der vorliegenden Erfindung benutzt werden, um unterschiedliche Ausrüstungen zu steuern, zum Beispiel den Betrieb von Verkaufsautomaten oder um elektrische Ausrüstungen wie zum Beispiel einer Heizausrüstung, Pumpstationen und dergleichen unabhängig vom Dialekt des Benutzers ein- und auszuschalten.
- Die Erfindung könnte auch benutzt werden, um den Betrieb von Fernmeldeteilnehmerausrüstungen zu steuern und/oder deren Betrieb zu bewirken, wie zum Beispiel Telefonen, Faxgeräten, Anrufbeantwortern und dergleichen.
- Die vorliegende Erfindung kann auch wie oben erwähnt in Systemen verwendet werden, die Mann-Maschine Kommunikation in beiden Richtungen aufweisen, zum Beispiel unbemannte auf Sprache reagierende auf Computern beruhende Systeme, die auf gesprochene Instruktionen/Befehle reagieren, und zwar unabhängig vom Dialekt, und die dazu ausgebildet sind, eine Antwort oder eine Bestätigung im Dialekt des Benutzers zu geben. Typische Anwendungen für solche Systeme sind Fernmeldedienste wie zum Beispiel Einkaufen mit dem Telefon und Bankdienste.
- Wie dies in Fig. 1 der beigefügten Zeichnungen dargestellt ist, kann die vorliegende Erfindung für Sprache-Text- Umwandlung verwendet werden. Zum Beispiel könnte der Ausgang der Spracherkennungseinheit 1 in der Form eines Ausdrucks der Worte und/oder Wortkombinationen sein, von denen das Sprachmodell gebildet wird. Alternativ kann der Ausgang der Einheit 1 in anderen Formen, zum Beispiel eine visuelle Darstellung dargestellt werden.
- Mit dem Sprache-Text-Umwandlungverfahren könnte der Ausgang der Einheit 1 für viele Anwendungen verwendet werden, zum Beispiel zur Erstellung von Berichten oder Textnachrichten oder Übersetzung in eine andere Sprache unter Verwendung der Sprachumwandlungstechnik. Die Sprache-Text-Umwandlungssysteme könnten ideal geeignet für die Verwendung in persönlichen Übesetzungssystemen sein, da es die Kommunikation Angesicht zu Angesicht zwischen Individuen erleichtern würde, die unterschiedliche Sprachen sprechen aber nicht diejenigen des anderen, und würde nicht durch die Dialekte beeinflußt werden, die durch die betreffenden Individuen gesprochen werden. Es würde auch möglich sein, landesweite Verwendung von Sprache für viele Anwendungen und/oder Dienste zu machen, zum Beispiel Nachrichtenübermittlungsdienste und Bankdienste unterschiedlicher Arten, ohne die Notwendigkeit, spezielle Codes zu verwenden oder mögliche Unterschiede in Dialekten in unterschiedlichen Teilen des Landes zu bieten.
- Andere mögliche Anwendungen sind Erziehungs-/Sprachtrainingssysteme.
- Die vorliegende Erfindung ist nicht auf die oben beschriebenen Ausführungsformen begrenzt, sondern kann innerhalb des Bereichs der beigefügten Patentansprüche und des Erfindungskonzepts abgewandelt werden.
Claims (21)
1. Verfahren zum Erkennen einer gesprochenen Sprache, bei
dem eine Anzahl von Phonemen aus einem Segment von
Eingangssprache identifiziert und als mögliche Wörter oder
Wortkombinationen interpretiert werden, um ein Modell der
Sprache zu erstellen, wobei das Sprachmodell Wort- und
Satzakzente gemäß einem standardisiertem Muster für die
betreffende Sprache hat, wobei das Verfahren die Schritte
aufweist: Bestimmung der Fundamentaltonkurve der
Eingangssprache; Bestimmung des Intonationsmusters des
Fundamentaltones der Eingangssprache und damit der Maximal-
und Minimalwerte der Fundamentaltonkurve und deren
jeweiligen Positionen; Bestimmung des Intonationsmusters der
Fundamentaltonkurve des Sprachmodells und damit der
Maximal- und Minimalwerte der Fundamentaltonkurve und deren
jeweiliger Positionen, dadurch gekennzeichnet, daß das
Verfahren die folgenden Schritte aufweist: Vergleichen
des Intonationsmusters der Eingangssprache mit dem
Intonationsmuster des Sprachmodells, um eine Zeitdifferenz
zwischen dem Auftreten der Maximal- und Minimalwerte der
Fundamentaltonkurve der ankommenden Sprache in Relation
zu den die Maximal- und Minimalwerten der
Fundamentaltonkurve des Sprachmodells zu identifizieren, wobei die
identifizierte Zeitdifferenz eine Anzeige für
Dialektbesonderheiten der Eingangssprache ist; und Adjustieren des
Intonationsmusters des Sprachmodells unter Verwendung der
identifizierten Zeitdifferenz, um das Sprachmodell in
Übereinstimmung mit der Eingangssprache und dadurch mit
den Dialektbesonderheiten der Eingangssprache zu bringen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die identifizierten Phoneme zu allophonen Strängen
kombiniert werden und daß die allophonen Stränge zusammen mit
der Fundamentaltonkurve dazu benutzt werden, um die
Maximal- und Minimalwerte des Fundamentaltons der
Eingangssprache zu identifizieren und dadurch deren Positionen zu
detektieren.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet,
daß die Zeitdifferenz bestimmt wird in Bezug auf einen
Referenzpunkt des Intonationsmusters, welches der Punkt
ist, an dem eine Konsonant/Vokal-Grenze auftritt.
4. Verfahren nach einem der vorangehenden Ansprüche, dadurch
gekennzeichnet, daß die Wörter in dem Sprachmodell
lexikalisch geprüft werden, daß die Satzteile in dem
Sprachmodell syntaktisch geprüft werden, und daß Wörter und
Satzteile, die nicht lexikalisch identifiziert und
syntaktisch analysiert werden, aus dem Sprachmodell
ausgeschlossen werden, und daß die autographische und
phonetische Transkription der Wörter in dem Sprachmodell geprüft
wird.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß
die Transkriptionsinformation lexikalisch abstrahierte
Akzentinformation von typusbetonten Silben, und
Information bezüglich der Lokalisierung von sekundären Akzenten
enthält, und daß die Akzentinformation sich auf tonale
Wortakzente I und Akzente II bezieht.
6. Verfahren nach einem der vorangehenden Ansprüche, dadurch
gekennzeichnet, daß die Intonationsmuster der
Fundamentaltonkurven der Eingangssprache in Dialektkategorien
klassifiziert werden entsprechend gespeicherten
Beschreibungen der in Frage kommenden Dialekte.
7. Verfahren nach einem der vorangehenden Ansprüche, dadurch
gekennzeichnet, daß die Identifizierung einer Anzahl von
Phonemen von der Eingangssprache mittels eines
Spracherkennungsmodells erfolgt und daß die identifizierte
Zeitdifferenz verwendet wird, um das Erkennungsmuster des
Spracherkennungsmodells so anzupassen, daß es
Dialektinformation berücksichtigt, und daß das erstellte
Sprachmodell Wort- und Satzakzente gemäß einem Muster aufweist,
das durch einen Lernprozeß oder durch ausdrückliche
Kenntnis erstellt wurde, wobei identifizierte
Zeitdifferenzen für eine Anzahl von verschiedenen Dialekten der
betreffenden Sprache verwendet werden.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß
das Spracherkennungsmodell ein Hidden-Markov-Modell ist.
9. Vorrichtung zum Erkennen einer gesprochenen Sprache, mit
Spracherkennungsmitteln (1) zum Identifizieren einer
Anzahl von Phonemen aus einem Segment der Eingangssprache;
und Interpretationsmitteln zum Interpretieren der Phoneme
als mögliche Wörter oder Wortkombinationen zur Erstellung
eines Modells der Sprache, wobei das Sprachmodell
Wortu. Satzakzente gemäß einem standardisierten Muster für
die betreffende Sprache aufweist, Extraktionsmitteln (2)
zum Extrahieren der Fundamentaltonkurve der
Einganssprache; ersten Analysiermitteln (6) zum Bestimmen des
Intonationsmusters des Fundamentaltons der Eingangssprache
und damit der Maximal- und Minimalwerte der
Fundamentaltonkurve und deren jeweiligen Positionen; zweite
Analysiermittel (5) zum Bestimmen des Intonationsmusters der
Fundamentaltonkurve des Sprachmodells und dadurch der
Maximal- und Minimalwerte der Fundamentaltonkurve und deren
jeweiligen Positionen; dadurch gekennzeichnet, daß die
Vorrichtung ferner aufweist Vergleichsmittel (7) zum
Vergleichen des Intonationsmusters der Eingangssprache mit
dem Intonationsmuster des Sprachmodells zum
Identifizieren einer Zeitdifferenz zwischen dem Auftreten der
Maximal- und Minimalwerte der Fundamentaltonkurve der
Eingangssprache in Bezug auf die Maximal- und Minimalwerte
der Fundamentaltonkurve des Sprachmodells, wobei die
identifizierte Zeitdifferenz Dialektbesonderheiten der
Eingangssprache anzeigt; und Korrigiermittel zum
Einstellen des Intonationsmusters des Sprachmodells unter
Verwendung der identifizierten Zeitdifferenz, um das
Sprachmodell in Übereinstimmung mit der Eingangssprache und
dadurch mit den Dialektbesonderheiten der Eingangssprache
zu bringen.
10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, daß
die identifizierten Phoneme durch die
Spracherkennungsmittel (1) zu allophonen Strängen kombiniert werden und
daß die ersten Analysiermittel (6) so angepaßt sind, daß
sie bei Empfang der allophonen Stränge von den
Spracherkennungsmitteln (1) die Maximal- und Minimalwerte des
Fundamentaltones der Eingangssprache identifizieren und
dadurch deren Positionen detektieren.
11. Vorrichtung nach Anspruch 9 oder 10, dadurch
gekennzeichnet, daß die Zeitdifferenz in Bezug auf einen
Referenzpunkt des Intonationsmusters bestimmt wird, welcher der
Punkt ist, bei dem eine Konsonant/Vokal-Grenze auftritt.
12. Vorrichtung nach einem der Ansprüche 9-11, dadurch
gekennzeichnet, daß die Vorrichtung Überprüfungsmittel (3,
4) aufweist, um die Wörter in dem Sprachmodell
lexikalisch zu prüfen und die Satzteile des Sprachmodells
syntaktisch zu prüfen, und daß Wörter- und Satzteile, die
nicht lexikalisch identifiziert und syntaktisch
analysiert wurden, aus dem Sprachmodell ausgeschlossen werden,
wobei die Überprüfungsmittel (3) die Orthographie und
phonetische Transkription der Wörter in dem Sprachmodell
prüfen.
13. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, daß
die Transkriptionsinformation lexikalisch abstrahierte
Akzentinformation von typusbetonten Silben sowie
Informationen bezüglich der Lokalisierung eines Sekundärakzentes
aufweist, und daß die Akzentinformation sich auf tonale
Wortakzente I und Akzente II bezieht.
14. Vorrichtung nach einem der Ansprüche 9-13, dadurch
gekennzeichnet, daß die Vorrichtung Mittel zum
Klassifizieren der Intonationsmuster der Fundamentaltonkurven der
Eingangssprache in Dialektkategorien entsprechend
gespeicherten Beschreibungen der in Frage kommenden Dialekte
umfaßt.
15. Vorrichtung nach einem der Ansprüche 9-14, dadurch
gekennzeichnet, daß die Identifizierung einer Anzahl von
Phonemen aus der Eingangssprache mit einem
Spracherkennungsmodell erfolgt, daß die identifizierte Zeitdifferenz
den Spracherkennungsmitteln (1) zugeführt wird, und daß
die Spracherkennungsmittel (1) so eingerichtet sind, daß
sie die identifizierte Zeitdifferenz dazu verwenden, das
Erkennungsmuster des Sprachmodells so anzupassen, daß es
Dialektinformation berücksichtigt, und wobei die
Interpretationsmittel trainiert werden können unter Verwendung
der identifizierten Zeitdifferenzen einer Anzahl von
verschiedenen Dialekten der betreffenden Sprache, und daß
das von den Interpretationsmitteln erstellte Sprachmodell
ein durch den Trainingsprozeß etabliertes
Intonationsmuster hat.
16. Vorrichtung nach Anspruch 15, dadurch gekennzeichnet, daß
das Spracherkennungsmodell ein Hidden-Markov-Modell ist.
17. Sprache-Text-Umwandlungssystem mit einer Vorrichtung nach
einem der Ansprüche 9-16, oder mit Mitteln zum
Durchführen der Schritte gemäß einem der Ansprüche 1-8.
18. Sprache-Sprache-Umwandlungssystem mit einer Vorrichtung
nach einem der Ansprüche 9-16, oder mit Mitteln zum
Durchführen der Schritte nach einem der Ansprüche 1-8.
19. Auf gesprochene Wörter reagierendes System, unabhängig
vom Dialekt des Sprechers, mit einer Vorrichtung nach
einem der Ansprüche 9-16 oder mit Mitteln zur Durchführung
der Schritte nach einem der Ansprüche 1-8.
20. System nach Anspruch 19, dadurch gekennzeichnet, daß das
auf Stimme reagierende System eine elektrische
Installation oder eine Telekommunikations-Kundeninstallation oder
Teil einer solchen ist, wobei die elektrische
Installation von einer Zentralheizungsanlage oder einer Pumpstation
gebildet wird oder Teil einer solchen ist.
21. System nach Anspruch 19, mit einer
Kunstsprache-Erzeugeeinheit, die geeignet ist, in Abhängigkeit von Empfang
der identifizierten Zeitdifferenz künstliche Sprache im
Dialekt der gesprochenen Instruktionen zu erzeugen.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
SE9402284A SE504177C2 (sv) | 1994-06-29 | 1994-06-29 | Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk |
PCT/SE1995/000710 WO1996000962A2 (en) | 1994-06-29 | 1995-06-13 | Method and device for adapting a speech recognition equipment for dialectal variations in a language |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69519229D1 DE69519229D1 (de) | 2000-11-30 |
DE69519229T2 true DE69519229T2 (de) | 2001-05-23 |
Family
ID=20394556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69519229T Expired - Fee Related DE69519229T2 (de) | 1994-06-29 | 1995-06-13 | Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten |
Country Status (7)
Country | Link |
---|---|
US (1) | US5694520A (de) |
EP (1) | EP0767950B1 (de) |
JP (1) | JPH10504404A (de) |
DE (1) | DE69519229T2 (de) |
ES (1) | ES2152411T3 (de) |
SE (1) | SE504177C2 (de) |
WO (1) | WO1996000962A2 (de) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE516526C2 (sv) * | 1993-11-03 | 2002-01-22 | Telia Ab | Metod och anordning vid automatisk extrahering av prosodisk information |
SE514684C2 (sv) * | 1995-06-16 | 2001-04-02 | Telia Ab | Metod vid tal-till-textomvandling |
SE9601811L (sv) * | 1996-05-13 | 1997-11-03 | Telia Ab | Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation |
SE519273C2 (sv) * | 1996-05-13 | 2003-02-11 | Telia Ab | Förbättringar av , eller med avseende på, tal-till-tal- omvandling |
EP1051701B1 (de) * | 1998-02-03 | 2002-11-06 | Siemens Aktiengesellschaft | Verfahren zum übermitteln von sprachdaten |
US6343270B1 (en) * | 1998-12-09 | 2002-01-29 | International Business Machines Corporation | Method for increasing dialect precision and usability in speech recognition and text-to-speech systems |
US6687665B1 (en) | 1999-10-29 | 2004-02-03 | Matsushita Electric Industrial Co., Ltd. | Device for normalizing voice pitch for voice recognition |
CN1159702C (zh) | 2001-04-11 | 2004-07-28 | 国际商业机器公司 | 具有情感的语音-语音翻译系统和方法 |
US20040266337A1 (en) * | 2003-06-25 | 2004-12-30 | Microsoft Corporation | Method and apparatus for synchronizing lyrics |
US7940897B2 (en) * | 2005-06-24 | 2011-05-10 | American Express Travel Related Services Company, Inc. | Word recognition system and method for customer and employee assessment |
JP4264841B2 (ja) * | 2006-12-01 | 2009-05-20 | ソニー株式会社 | 音声認識装置および音声認識方法、並びに、プログラム |
JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
US8077836B2 (en) * | 2008-07-30 | 2011-12-13 | At&T Intellectual Property, I, L.P. | Transparent voice registration and verification method and system |
JP2015087649A (ja) * | 2013-10-31 | 2015-05-07 | シャープ株式会社 | 発話制御装置、方法、発話システム、プログラム、及び発話装置 |
CN104464423A (zh) * | 2014-12-19 | 2015-03-25 | 科大讯飞股份有限公司 | 一种口语考试评测的校标优化方法及系统 |
CN107170454B (zh) * | 2017-05-31 | 2022-04-05 | Oppo广东移动通信有限公司 | 语音识别方法及相关产品 |
US11545132B2 (en) | 2019-08-28 | 2023-01-03 | International Business Machines Corporation | Speech characterization using a synthesized reference audio signal |
CN110716523A (zh) * | 2019-11-06 | 2020-01-21 | 中水三立数据技术股份有限公司 | 一种基于语音识别的泵站智能决策系统及方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE12386C1 (de) | 1901-05-04 | |||
SE13680C1 (de) | 1902-02-01 | |||
US5268990A (en) * | 1991-01-31 | 1993-12-07 | Sri International | Method for recognizing speech using linguistically-motivated hidden Markov models |
SE516526C2 (sv) * | 1993-11-03 | 2002-01-22 | Telia Ab | Metod och anordning vid automatisk extrahering av prosodisk information |
JP3450411B2 (ja) * | 1994-03-22 | 2003-09-22 | キヤノン株式会社 | 音声情報処理方法及び装置 |
-
1994
- 1994-06-29 SE SE9402284A patent/SE504177C2/sv unknown
-
1995
- 1995-06-13 WO PCT/SE1995/000710 patent/WO1996000962A2/en active IP Right Grant
- 1995-06-13 ES ES95925191T patent/ES2152411T3/es not_active Expired - Lifetime
- 1995-06-13 DE DE69519229T patent/DE69519229T2/de not_active Expired - Fee Related
- 1995-06-13 US US08/532,823 patent/US5694520A/en not_active Expired - Lifetime
- 1995-06-13 JP JP8503055A patent/JPH10504404A/ja not_active Ceased
- 1995-06-13 EP EP95925191A patent/EP0767950B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP0767950B1 (de) | 2000-10-25 |
DE69519229D1 (de) | 2000-11-30 |
SE504177C2 (sv) | 1996-12-02 |
WO1996000962A2 (en) | 1996-01-11 |
ES2152411T3 (es) | 2001-02-01 |
EP0767950A2 (de) | 1997-04-16 |
SE9402284L (sv) | 1995-12-30 |
WO1996000962A3 (en) | 1996-02-22 |
US5694520A (en) | 1997-12-02 |
SE9402284D0 (sv) | 1994-06-29 |
JPH10504404A (ja) | 1998-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69519229T2 (de) | Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten | |
DE69519328T2 (de) | Verfahren und Anordnung für die Umwandlung von Sprache in Text | |
DE60216069T2 (de) | Sprache-zu-sprache erzeugungssystem und verfahren | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
EP1466317B1 (de) | Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner | |
DE3337353C2 (de) | Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE60004862T2 (de) | Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE60000138T2 (de) | Erzeugung von mehreren Aussprachen eines Eigennames für die Spracherkennung | |
DE69220825T2 (de) | Verfahren und System zur Spracherkennung | |
DE69618503T2 (de) | Spracherkennung für Tonsprachen | |
EP1273003B1 (de) | Verfahren und vorrichtung zum bestimmen prosodischer markierungen | |
DE4310190A1 (de) | Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn | |
DE69427717T2 (de) | Sprachdialogsystem | |
DE202017106303U1 (de) | Bestimmen phonetischer Beziehungen | |
DE102006006069A1 (de) | Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon | |
DE602004006641T2 (de) | Audio-dialogsystem und sprachgesteuertes browsing-verfahren | |
DE69512961T2 (de) | Spracherkennung auf Grundlage von "HMMs" | |
EP1182646A2 (de) | Verfahren zur Zuordnung von Phonemen | |
DE69425874T2 (de) | Verfahren und Anordnung zur automatischen Extraktion prosodischer Information | |
WO2000005709A1 (de) | Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache | |
EP0987682A2 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
DE112006000225T5 (de) | Dialogsystem und Dialogsoftware | |
WO2001086634A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |