[go: up one dir, main page]

DE69519229T2 - Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten - Google Patents

Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten

Info

Publication number
DE69519229T2
DE69519229T2 DE69519229T DE69519229T DE69519229T2 DE 69519229 T2 DE69519229 T2 DE 69519229T2 DE 69519229 T DE69519229 T DE 69519229T DE 69519229 T DE69519229 T DE 69519229T DE 69519229 T2 DE69519229 T2 DE 69519229T2
Authority
DE
Germany
Prior art keywords
language
model
fundamental tone
input
dialect
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69519229T
Other languages
English (en)
Other versions
DE69519229D1 (de
Inventor
Bertil Lyberg
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telia Co AB
Original Assignee
Telia AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telia AB filed Critical Telia AB
Application granted granted Critical
Publication of DE69519229D1 publication Critical patent/DE69519229D1/de
Publication of DE69519229T2 publication Critical patent/DE69519229T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zum Erkennen von gesprochener Sprache und insbesondere die Erkennung von verschiedenen Dialekten in der Sprache.
  • Verschiedene Typen von Spracherkennungssystemen sind bekannt. Es ist bei solchen Systemen für die Spracherkennungsausrüstung üblich, daß sie trainiert wird, um Sprache von einer großen Anzahl von Personen zu erkennen. Auch folgt das Sprachtraining einem besonderen Dialekt oder Dialekten. Die Information, die durch dieses Vorgehen gesammelt wird, wird dann durch das System benutzt, um Eingangssprache zu interpretieren. Solche Systeme können daher normalerweise Dialektvariationen in der Sprache nicht erkennen, die außerhalb des besonderen Dialekts oder der besonderen Dialekte liegen, für die das System trainiert ist.
  • In Sprachen mit Ton/Wort-Akzenten und Tonsprache bildet das Intonationsmuster der Sprache einen wichtigen Teil beim Verstehen der Sprache; bekannte Systeme berücksichtigen jedoch nicht diese Sprachcharakteristiken. Als Konsequenz hiervon kann die Erkennung von Worten und Redewendungen bei bekannten Spracherkennungssystemen Anlaß zur Fehlinterpretationen geben. Die bekannten Spracherkennungssysteme, die dazu ausgebildet sind, Dialekte in der Sprache zu berücksichtigen, sind besonders für diesen besonderen Dialekt ausgebildet und sind daher nicht dazu ausgebildet, unterschiedliche Dialekte in einer Sprache zu erkennen.
  • In SPEECH PROCESSING, Minneapolis, April 1993, Band 2, IEEE, Seiten II-211-214 werden Analyse und das Modellieren von Wortakzent und Satzintonation in der schwedischen Sprache diskutiert. Es wird ein Modell vorgeschlagen, in dem Redewendungsbefehle als Impulse angenommen werden und Akzentbefehle als schrittweise Funktionen angenommen werden. Diese werden liniearisiert, und die Komponenten werden addiert und auf einer Grundlinie überlagert, um eine FO (Fundamentalfrequenz) - Kontur zu bilden.
  • In Zukunft werden Spracherkennungsausrüstungen in immer größerem Ausmaß bei sehr viel verschiedenen Anwendungen benutzt werden, wo die Notwendigkeit besteht, daß man im Stande ist, unterschiedliche Dialekte in einer Sprache zu erkennen. Die dialektischen Variationen in einer Sprache waren in der Vergangenheit schwer zu bestimmen, und als Ergebnis hiervon erfuhr man Schwierigkeiten, ein richtiges Verständnis von künstlich erzeugter Sprache zu erhalten. Darüber hinaus können die bekannten Spracherkennungsausrüstungen allgemein nicht mit unterschiedlichen Sprachen benutzt werden.
  • Obwohl bekannte Spracherkennungssysteme dazu ausgebildet sind, durch Training einen besonderen Dialekt in einer Sprache zu erkennen, so ist es doch für solche Systeme nicht möglich, unterschiedliche Dialekte in der Sprache oder Dialekte unterschiedlichen Sprachen ohne weiteres Training zu erkennen, indem dieselbe Spracherkennungsausrüstung benutzt wird.
  • Es ist daher schwierig oder unmöglich gewesen, die künstliche Interpretation von Sprache mit bekannten Spracherkennungsausrüstungen durchzuführen, und zwar aufgrund der Unfähigkeit solcher Systeme, Dialektvariationen zu erkennen.
  • Abgesehen vom technischen Problem, Sprache richtig zu interpretieren, ist es bei Sprachsteuersystemen notwendig, daß die verbalen Instruktionen oder Befehle richtig interpretiert werden; anders würde es nicht möglich sein, richtige Steuerung von unterschiedlichen Typen von Ausrüstungen und/oder Diensten zu bewirken, zum Beispiel in einem Fernmeldenetzwerk.
  • Es ist eine Aufgabe der vorliegenden Erfindung, die vorgenannten Probleme zu überwinden, indem ein Verfahren und eine Vorrichtung zum Erkennen von gesprochener Sprache und insbesondere von unterschiedlichen Dialekten in einer Sprache unter Benutzung der Fundamentaltonkurve der Sprache geschaffen wird.
  • Die Erfindung schafft ein Verfahren zum Erkennen einer gesprochenen Sprache, in der eine Anzahl von Phonemen von einem Segment von Eingangssprache identifiziert und als mögliche Worte oder Wortkombinationen interpretiert werden, um ein Modell der Sprache zu erstellen, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisiertem Muster für die betreffende Sprache hat, wobei das Verfahren die Schritte aufweist: Bestimmung der Fundamentaltonkurve der Eingangssprache; Bestimmung des Intonationsmusters des Fundamentaltons der Eingangssprache und damit der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiligen Positionen; Bestimmung des Intonationsmusters der Fundamentaltonkurve des Sprachmodells und damit der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiliger Positionen, dadurch gekennzeichnet, daß das Verfahren die Schritte aufweist: vergleichen des Intonationsmusters der Eingangssprache mit dem Intonationsmuster des Sprachmodells, um eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimalwerte der Fundamentaltonkurve der Eingangssprache in Beziehung zu den Maximal- und Minimalwerten der Fundamentaltonkurve des Sprachmodells zu identifizieren, wobei die identifizierte Zeitdifferenz eine Anzeige für Dialektcharakteristiken der Eingangssprache ist; und Einstellen des Intonationsmusters des Sprachmodells unter Verwendung der identifizierten Zeitdifferenz, um das Sprachmodell in Übereinstimmung mit der Eingangssprache und damit den Dialektcharakteristiken der Eingangssprache zu bringen.
  • Durch die Erfindung wird auch eine Vorrichtung zum Erkennen einer gesprochenen Sprache geschaffen, mit Spracherkennungsmitteln zum Identifizieren einer Anzahl von Phonemen aus einem Segment der Eingangssprache; und Interpretationsmitteln zum Interpretieren der Phoneme als mögliche Wörter oder Wortkombinationen zum Erstellen eines Modells der Sprache, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisierten Muster für die betreffende Sprache aufweist, mit Extraktionsmitteln zum Extrahieren der Fundamentaltonkurve der Eingangssprache; ersten Analysiermitteln zum Bestimmen des Intonationsmuster des Fundamentaltons der Eingangssprache und damit der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiligen Positionen; zweiten Analysiermitteln zum Bestimmen des Intonationsmusters der Fundamentaltonkurve des Sprachsmodells und dadurch der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiligen Positionen; dadurch gekennzeichnet, daß die Vorrichtung weiter aufweist, Vergleichsmittel zum Vergleichen des Intonationsmusters der Eingangssprache mit dem Intonationsmuster der Sprachmodells zum Identifizieren einer Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimalwerte der Fundamentaltonkurven der Eingangssprache in Bezug auf die Maximal- und Minimalwerte der Fundamentaltonkurve des Sprachmodells, wobei die identifizierte Zeitdifferenz die Dialektcharakteristiken der Eingangssprache anzeigt; und Korrigiermittel zum Einstellen des Intonationsmusters des Sprachmodells unter der Verwendung der identifizierten Zeitdifferenz, um das Sprachmodell in Übereinstimmung mit der Eingangssprache und damit mit den Dialektcharakteristiken der Eingangssprache zu bringen.
  • Bei einem bevorzugten Verfahren und einer bevorzugten Vorrichtung, wie sie in den Ansprüchen 2 und 10 beansprucht werden, werden die identifizierten Phoneme zu Allophonsträngen kombiniert, die zusammen mit der Fundamentaltonkurve dazu benutzt werden, die Maximal- und Minimalwerte des Fundamentaltons der Eingangssprache zu identifizieren und dadurch deren Positionen zu detektieren. Bei der bevorzugten Ausführungsform sind die ersten Analysiermittel dazu ausgebildet, als Reaktion auf dem Empfang der Allophonstränge von den Spracherkennungsmitteln die Positionen der Maximal- und Minimalwerte des Fundamentaltons des Eingangssprache zu identifizieren und dadurch zu detektieren.
  • Mit dem Verfahren und der Vorrichtung der vorliegenden Erfindung, wie sie in den Ansprüchen 3 und 11 beansprucht werden, wird die Zeitdifferenz vorzugsweise in Bezug auf einen Intonationsmusterbezugspunkt bestimmt, zum Beispiel den Punkt, an dem eine Konsonant/Vokal-Grenze, d. h. eine CV-Grenze auftritt. Weitere bevorzugte Ausführungsformen der Erfindung werden in den abhängigen Ansprüchen 4 bis 8 und 12 bis 21 beansprucht.
  • Das Spracherkennungsverfahren und die Spracherkennungsvorrichtung der vorliegenden Erfindung können also Variationen in einer Sprache detektieren, indem die Maximal- und Minimalwerte der Fundamentaltonkurve von gesprochener Sprache mit entsprechenden Werten in einem Sprachmodell verglichen werden und Details der Zeitdifferenz dazwischen erhalten werden, wobei die Zeitdifferenz, die den Dialekt der gesprochenen Sprache anzeigt, dazu verwendet wird, das Modell einzustellen, damit es dem betreffenden Dialekt entspricht.
  • Ein Spracherkennungsverfahren und eine Spracherkennungsvorrichtung der vorliegenden Erfindung sind daher dazu ausgebildet, unterschiedliche Dialekte einer Sprache zu erkennen. Im wesentlichen wird die Fundamentaltonkurve der Eingangssprache extrahiert, und ihre Maximal- und Minimalwerte werden identifiziert. Ein Modell der Sprache wird während des Spracherkennungsvorgangs geschaffen, indem eine lexikalische und Syntaxanalyse durchgeführt wird. Dem Sprachmodell wird eine Standardintonation gegeben. Es wird dann ein Vergleich zwischen dem Maximal- und Minimalwerten der Fundamentaltonkurve der Eingangssprache und des Sprachmodells durchgeführt. Eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimalwerte der Fundamentaltonkurve der Eingangssprache und den Maximal- und Minimalwerten der Fundamentaltonkurve des Sprachmodells wird identifiziert.
  • Die identifizierte Zeitdifferenz, die den Dialekt der Eingangssprache anzeigt, wird benutzt, um das Sprachmodell abzuwandeln, d. h., daß die Intonation des Sprachmodells in Übereinstimmung mit dem Intonationsmuster der ankommenden Sprache gebracht wird. Es kann so ein Modell der Sprache erhalten werden, die, was Sprachcharakteristiken betrifft (einschließlich Dialekt) der Eingangssprache entspricht.
  • Die vorliegende Erfindung schafft daher ein verbessertes Verfahren und eine verbesserte Vorrichtung zum Interpretieren einer vorgegebenen Eingangssprache. Das Sprachmodell, das von diesem Vorgang resultiert, wird für Spracherkennung verwendet und erhöht die Möglichkeit, unterschiedliche Dialekte in der Sprache zu verstehen.
  • Bei einer weiteren Ausbildung der Erfindung wird eine Bezugsgröße verwendet, insbesondere eine CV-Grenze (Consonent/Vowel -boundary, Konsonant/Vokal-Grenze), um die Zeitdifferenz zwischen den Extremwerten des Intonationsmusters der Eingangssprache und des Sprachmodells zu bestimmen. Weiter beruht, wie dies oben angegeben wurde, die Kontur oder der Umriß des Fundamentaltons des Sprachmodells auf lexikalischer und Syntaxinformation. Anfänglich hat das Sprachmodell Wort- und Satzakzente gemäß einem Standardmuster für die betreffende Sprache. Die lexikalische Information schließt Informationen ein, die Orthographie und phonetische Transkription betrifft. Die Transkriptionsinformation schließt lexikalisch abstrahierte Akzentinformationen von Typen betonten Silben, zum Beispiel tonale Wortakzente I und II und Information ein, die sich auf den Ort des sekundären Akzents bezieht, d. h. Informationen, die zum Beispiel in Wörterbüchern gegeben wird.
  • Die Klassifikation der Intonationsmuster der Fundamentaltonkurven der Eingangssprache in unterschiedliche Dialektkategorien wird aufgrund der gespeicherten Intonationsbeschreibung bewirkt.
  • Die vorstehenden und weiteren Merkmale der Erfindung werden besser aus der folgenden Beschreibung unter Bezugnahme auf die beigefügten Zeichnungen verstanden werden. Es zeigen:
  • Fig. 1 schematisch in Form eines Blockdiagramms eine erfindungsgemäße Spracherkennungseinrichtung;
  • Fig. 2 schematisch die Orte der Maximal- und Minimalwerte der Fundamentaltonkurve für eine Sprache mit einem Dialekt "A"; und
  • Fig. 3 schematisch die Orte der Maximal- und Minimalwerte der Fundamentaltonkurve für eine Sprache mit einem Dialekt "B".
  • Obwohl die Spracherkennungseinrichtung der vorliegenden Erfindung besonders geeignet für Sprachen mit tonalen Wortakzenten und für tonale Sprachen geeignet ist, kann sie für jede Sprache benutzt werden.
  • Die folgende Beschreibung spezieller Ausführungsformen der vorliegenden Erfindung beziehen sich auf die schwedische Sprache, wo detaillierte Kenntnisse vorhanden sind, wie Wortakzente und Satzakzente in verschiedenen Dialekten realisiert werden. Die Beschreibung des Intonationsmusters in der schwedischen Sprache ist direkt anwendbar zum Beispiel auf die norwegische Sprache.
  • Wie dies schematisch in Fig. 1 der beigefügten Zeichnungen dargestellt ist, schließt die Spracherkennungseinrichtung der vorliegenden Erfindung eine Spracherkennungseinheit 1, von der ein Eingang der Eingang der Spracherkennungseinrichtung ist, und eine Extraktionseinheit 2 ein, in der der Fundamentalton FO der Eingangssprache extrahiert wird. Der Eingang der Spracheingangseinrichtung ist auch mit einem Eingang der Extraktionseinheit 2 verbunden.
  • Es wird also ein Segment der Sprache, die an dem Eingang der Spracherkennungseinrichtung zum Beispiel zur Umwandlung in einen entsprechenden Text oder für die Benutzung bei anderen Anwendungen angelegt wird, parallel an die Eingänge der Einheiten 1 und 2 angelegt. Die Spracherkennungseinheit 2, die in bekannter Weise arbeitet, zum Beispiel unter Verwendung eines Hidden-Markov-Modells oder eines äquivalenten Modells arbeitet, identifiziert eine Anzahl von Phonemen von der Eingangssprache, die in Allophonstränge, d. h. in einen, zwei oder mehr Formen desselben Phonems an einem der Ausgänge der Spracherkennungseinheit 1 kombiniert werden.
  • Der Fundamentalton FO, der von der Eingangssprache durch die Extraktionseinheit 2 extrahiert ist, wird an einen Eingang einer Analysiereinheit 6 angelegt, die dazu ausgebildet ist, das Intonationsmuster der Fundamentaltonkurve FO(t) der Eingangssprache und dadurch die Maximal-, FO-max, und Minimal-, Fo-min. -werte der Fundamentaltonkurve FO(t) zu bestimmen. Die Anlegung des Allophonstrangs am Ausgang der Spracherkennungseinheit 1 an einen anderen Eingang der Analysiere inheit 6 ermöglicht es, daß die Extremwerte FO-max und FO-min der Fundamentaltonkurve FO der Eingangssprache und ihrer entsprechenden Positionen bestimmt werden können. Es wird also der Allophonstrang in Verbindung mit der Fundamentaltonkurve benutzt, um die Positionen der Extremwerte des Fundamentaltons der Eingangssprache zu identifizieren und dabei zu detektieren.
  • Die Information, die die erkannten Worte und Wortkombinationen, d. h. Redewendungen betrifft und durch die Spracherkennungseinheit 1 erzeugt wird, wird an ein Lexikon 3, d. h. ein Wörterbuch mit Orthographie und Transkription angelegt, in dem die Worte lexikalisch geprüft werden. Jedes der Worte, das in der betreffenden Sprache nicht existiert, wird ausgeschlossen. Die Wortkombinationen oder Redewendungen an einem Ausgang des Lexikons 3 werden durch eine Syntaxanalyseeinheit 4 geprüft. Irgendwelche Redewendungen, deren Syntax nicht der betreffenden Sprache entspricht, werden während dieser Syntaxüberprüfung ausgeschlossen.
  • So ermöglicht, wie dies in Fig. 1 der beigefügten Zeichnungen dargestellt ist, die Wechselwirkung zwischen den Einheiten 1 und 3 und zwischen den Einheiten 3 und 4, daß Wörter und Wortkombinationen, von denen herausgefunden wurde, daß sie durch das Lexikon 3 und die Syntaxanalyseeinheit 4 akzeptiert werden können, an die Sprachmodellerzeugungseinheit 5 angelegt werden können.
  • Die lexikalische und die Syntaxinformation, die durch die Einheiten 3 und 4 erzeugt werden, wird durch die Einheit 5 verwendet, um ein Modell der Eingangssprache zu erzeugen. Das Intonationsmuster des Sprachmodells, das durch die Einheit 5 erzeugt ist, ist ein standardisiertes Intonationsmuster für die betreffende Sprache oder ein Intonationsmuster, das durch Trainieren oder ausdrückliche Kenntnis unter Verwendung einer Anzahl von Dialekten der betreffenden Sprache erstellt worden ist.
  • Was die Information betreffend der Zeitpunkte betrifft, zu denen die Extremwerte FO-max und FO-min des Fundamentaltons FO auftreten, ist es für die Sprachmodellerzeugungseinheit 5 möglich, die Eingangssprache in Dialektkategorien in Übereinstimmung mit gespeicherten Beschreibungen von betreffenden Dialekten, d. h. gespeicherten Intonationsbeschreibungen einzuordnen.
  • Das Intonationsmuster des Sprachmodells, d. h. die Maximal- und Minimalwerte und ihre Positionen wird an eine Vergleichereinheit 7 angelegt, was auch mit dem Intonationsmusterausgang der Analysiereinheit 6 geschieht. Es werden so die Maximal- und Minimalwerte der Fundamentaltonkurven der Eingangssprache und des Sprachmodells durch die Vergleichereinheit 7 verglichen. Der Zweck dieses Vergleichs besteht darin, eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimalwerte der Fundamentaltonkurve der Eingangssprache und den Maximal- und Mininmalwerten der Fundamentaltonkurve des Sprachmodells zu identifizieren.
  • Man wird aus der folgenden Beschreibung unter Bezugnahme auf die Fig. 2 und 3 der beigefügten Zeichnungen ersehen, daß die Bezugsgröße, gegen die die Zeitdifferenz gemessen wird, bei einer bevorzugten Ausführungsform der Punkt ist, an dem die Konsonanten/Vokal-Grenze, d. h. die CV-Grenze auftritt.
  • Die identifizierte Zeitdifferenz, die den Dialekt der Eingangssprache anzeigt, d. h. die gesprochene Sprache, wird an die Sprachmodellerzeugungseinheit 5 angelegt, damit das Intonationsmuster des Sprachmodells korrigiert werden kann, so daß es dem Intonationsmuster der entsprechenden Wörter und/oder Wortkomplexen der Eingangssprache entspricht. So ermöglicht dieses Korrekturverfahren, daß die Dialektinformation in der Eingangssprache in das Sprachmodell eingebaut werden kann.
  • So beruht die Fundamentaltonkurve des Sprachmodells am Ausgang der Einheit 5 auf Information vom Lexikon 3 (Orthographie und Transkription) und Syntaxinformation. Die Transkriptioninformation schließt lexikalisch abstrahierte Akzentinformation vom Typ betonter Silben, d. h. tonaler Wortakzente I und II und Information ein, die sich auf den Ort des Sekundärakzents bezieht, d. h. Information die zum Beispiel in Diktionären gegeben wird. Nach Korrektur des Sprachmodells auf den fraglichen Dialekt kann die betreffende Fundamentaltoninformation benutzt werden, um die Auswahl durch die Spracherkennungseinheit 1 von möglichen Kandidaten zu erleichtern, zum Beispiel zur Verwendung in einem Sprache-Text- Umwandlungsverfahren. Anders gesagt wird die Dialektinformation an einem Ausgang der Sprachmodellerzeugungseinheit 5 an einen Eingang (nicht dargestellt) der Spracherkennungseinheit 1 angelegt und benutzt, um das Erkennungsmuster des Spracherkennungsmodells, zum Beispiel das Hidden-Markov-Modell einzustellen, um die Dialektinformation zu berücksichtigen.
  • Eine weitere Konsequenz dieses Sprachmodellkorrekturverfahrens besteht darin, daß mit der Zeit die Sprachmodellerzeugungseinheit 5 trainiert werden wird unter Verwendung einer Anzahl unterschiedlicher Dialekte der betreffenden Sprache, so daß das ursprünglich erzeugte Sprachmodell ein Intonationsmuster haben wird, das durch das Trainingsverfahren erstellt worden ist.
  • Darüber hinaus kann die Dialektinformation an einem Ausgang der Sprachmodellerzeugungseinheit 5 für andere Zwecke verwendet werden, zum Beispiel in einer Kunstspracheerzeugungseinheit (nicht dargestellt), um die Erzeugung von künstlicher Sprache in dem betreffenden Dialekt zu erleichtern. Eine Spracherzeugungseinheit, die die Fähigkeit hat, Sprache in jedem gewünschten Dialekt zu erzeugen, könnte bei vielen unterschiedlichen Anwendungen verwendet werden, zum Beispiel um eine ohne weiteres verständliche Antwort für Benutzer von auf Sprache reagierenden Systemen zu schaffen, die eine Spracherkennungseinheit der vorliegenden Erfindung einschließen, d. h. das System würde dazu ausgebildet sein, den Dialekt der verbalen Antwort so zu bearbeiten, daß er mit dem Dialekt der Eingangssprache übereinstimmt. Dies würde ein nutzerfreundliches System schaffen, da die Sprache des Mensch-Maschine- Dialogs in Übereinstimmung mit dem Dialekt des betreffenden Benutzers stehen würde.
  • Das Sprachmodell, das durch die Spracherkennungseinrichtung der vorliegenden Erfindung erzeugt ist, das im Dialekt der Eingangssprache entspricht, d. h. daß die Dialektcharakteristik der Eingangssprache in die Sprachmodelle eingebaut wird, ist im Bezug auf den Stand der Technik eine genauere Interpretation der Eingangssprache.
  • Fig. 2 und 3 der beigefügten Zeichnungen stellen schematisch dar, wie der Wortakzent (Akzent II d. h. schwer), zum Beispiel schematisch in zwei unterschiedlichen schwedischen Dialekten realisiert werden kann, d. h. Dialekt "A" (Fig. 2) und Dialekt "B" (Fig. 3). In der schwedischen Sprache kann der Unterschied, was das Intonationsmuster betrifft, zwischen unterschiedlichen Dialekten durch unterschiedliche Zeitpunkte für Wort- und Satzakzent beschrieben werden.
  • Wie dies in Fig. 2 der Zeichnungen dargestellt ist, sind die Orte der Maximal- und Minimalwerte für die Fundamentaltonkurve für Sprache (Dialekt "A") zeitlich relativ zur CV-Grenze für den Wortakzent (Akzent II) um die Zeiten t1 und t2 verschoben. Für Dialekt "B" (Fig. 3) sind die entsprechenden Zeitunterschiede relativ zur selben CV-Grenze t1+k und. t2+k. Die Maximal- und Minimalwerte der Fundamentaltonkurve für die Sprache mit dem Dialekt "B" sind zeitlich von den entsprechenden Werten der Fundamentaltonkurve für die Sprache mit dem Dialekt "A" also um die Zeit k verschoben. Es daher möglich, die Dialekte zu identifizieren, indem Information verwendet wird, die sich auf die Zeitpunkte bezieht, bei denen sich die Extremwerte FO-max und FO-min der Intonationsmuster der betreffenden Sprache auftreten.
  • Die Dialektinformation, die auf diese Weise erhalten ist, kann für die Interpretation von Sprache verwendet werden, d. h. die Information kann in der oben erwähnten Weise verwendet werden, um das Intonationsmuster des Sprachmodells in Übereinstimmung mit der Eingangssprache zu bringen. Da das korrigierte Sprachmodell die Sprachcharakteristiken (einschließlich Dialektinformation) der Eingangssprache aufweist, kann es benutzt werden, ein verbessertes Verständnis der Eingangssprache zu erhalten.
  • Die Fähigkeit, unterschiedliche Dialekte in einer Sprache unter Verwendung von Fundamentaltonkurveninformation ohne weiteres zu interpretieren, ist ziemlich beträchtlich, da solche Interpretationen bewirkt werden können, ohne daß man das Spracherkennungssystem trainieren muß. Das Ergebnis hiervon ist, daß die Größe und damit die Kosten eines Spracherlsennungssystems, das entsprechend der vorliegenden Erfindung hergestellt ist, sehr viel kleiner sein können, als dies mit bekannten Systemen möglich wäre. Man erhält auch eine Raumersparnis. Die vorliegende Erfindung ermöglicht es auch, besondere Dialekte zu identifizieren und andere als Teil des Spracherkennungsverfahren auszuschließen. Dies sind daher doch etliche Vorteile über bekannte Spracherkennungssysteme.
  • Die Fähigkeit, Sprache zu detektieren, und zwar unabhängig von Dialektvariationen entsprechend dem Verfahren und der Vorrichtung der vorliegenden Erfindung, ermöglicht es auch, Sprache in sehr unterschiedlichen auf Sprache reagierenden Anwendungen zu verwenden. Zum Beispiel könnte das Spracherkennungsverfahren und die Spracherkennungsvorrichtung der vorliegenden Erfindung benutzt werden, um unterschiedliche Ausrüstungen zu steuern, zum Beispiel den Betrieb von Verkaufsautomaten oder um elektrische Ausrüstungen wie zum Beispiel einer Heizausrüstung, Pumpstationen und dergleichen unabhängig vom Dialekt des Benutzers ein- und auszuschalten.
  • Die Erfindung könnte auch benutzt werden, um den Betrieb von Fernmeldeteilnehmerausrüstungen zu steuern und/oder deren Betrieb zu bewirken, wie zum Beispiel Telefonen, Faxgeräten, Anrufbeantwortern und dergleichen.
  • Die vorliegende Erfindung kann auch wie oben erwähnt in Systemen verwendet werden, die Mann-Maschine Kommunikation in beiden Richtungen aufweisen, zum Beispiel unbemannte auf Sprache reagierende auf Computern beruhende Systeme, die auf gesprochene Instruktionen/Befehle reagieren, und zwar unabhängig vom Dialekt, und die dazu ausgebildet sind, eine Antwort oder eine Bestätigung im Dialekt des Benutzers zu geben. Typische Anwendungen für solche Systeme sind Fernmeldedienste wie zum Beispiel Einkaufen mit dem Telefon und Bankdienste.
  • Wie dies in Fig. 1 der beigefügten Zeichnungen dargestellt ist, kann die vorliegende Erfindung für Sprache-Text- Umwandlung verwendet werden. Zum Beispiel könnte der Ausgang der Spracherkennungseinheit 1 in der Form eines Ausdrucks der Worte und/oder Wortkombinationen sein, von denen das Sprachmodell gebildet wird. Alternativ kann der Ausgang der Einheit 1 in anderen Formen, zum Beispiel eine visuelle Darstellung dargestellt werden.
  • Mit dem Sprache-Text-Umwandlungverfahren könnte der Ausgang der Einheit 1 für viele Anwendungen verwendet werden, zum Beispiel zur Erstellung von Berichten oder Textnachrichten oder Übersetzung in eine andere Sprache unter Verwendung der Sprachumwandlungstechnik. Die Sprache-Text-Umwandlungssysteme könnten ideal geeignet für die Verwendung in persönlichen Übesetzungssystemen sein, da es die Kommunikation Angesicht zu Angesicht zwischen Individuen erleichtern würde, die unterschiedliche Sprachen sprechen aber nicht diejenigen des anderen, und würde nicht durch die Dialekte beeinflußt werden, die durch die betreffenden Individuen gesprochen werden. Es würde auch möglich sein, landesweite Verwendung von Sprache für viele Anwendungen und/oder Dienste zu machen, zum Beispiel Nachrichtenübermittlungsdienste und Bankdienste unterschiedlicher Arten, ohne die Notwendigkeit, spezielle Codes zu verwenden oder mögliche Unterschiede in Dialekten in unterschiedlichen Teilen des Landes zu bieten.
  • Andere mögliche Anwendungen sind Erziehungs-/Sprachtrainingssysteme.
  • Die vorliegende Erfindung ist nicht auf die oben beschriebenen Ausführungsformen begrenzt, sondern kann innerhalb des Bereichs der beigefügten Patentansprüche und des Erfindungskonzepts abgewandelt werden.

Claims (21)

1. Verfahren zum Erkennen einer gesprochenen Sprache, bei dem eine Anzahl von Phonemen aus einem Segment von Eingangssprache identifiziert und als mögliche Wörter oder Wortkombinationen interpretiert werden, um ein Modell der Sprache zu erstellen, wobei das Sprachmodell Wort- und Satzakzente gemäß einem standardisiertem Muster für die betreffende Sprache hat, wobei das Verfahren die Schritte aufweist: Bestimmung der Fundamentaltonkurve der Eingangssprache; Bestimmung des Intonationsmusters des Fundamentaltones der Eingangssprache und damit der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiligen Positionen; Bestimmung des Intonationsmusters der Fundamentaltonkurve des Sprachmodells und damit der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiliger Positionen, dadurch gekennzeichnet, daß das Verfahren die folgenden Schritte aufweist: Vergleichen des Intonationsmusters der Eingangssprache mit dem Intonationsmuster des Sprachmodells, um eine Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimalwerte der Fundamentaltonkurve der ankommenden Sprache in Relation zu den die Maximal- und Minimalwerten der Fundamentaltonkurve des Sprachmodells zu identifizieren, wobei die identifizierte Zeitdifferenz eine Anzeige für Dialektbesonderheiten der Eingangssprache ist; und Adjustieren des Intonationsmusters des Sprachmodells unter Verwendung der identifizierten Zeitdifferenz, um das Sprachmodell in Übereinstimmung mit der Eingangssprache und dadurch mit den Dialektbesonderheiten der Eingangssprache zu bringen.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die identifizierten Phoneme zu allophonen Strängen kombiniert werden und daß die allophonen Stränge zusammen mit der Fundamentaltonkurve dazu benutzt werden, um die Maximal- und Minimalwerte des Fundamentaltons der Eingangssprache zu identifizieren und dadurch deren Positionen zu detektieren.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Zeitdifferenz bestimmt wird in Bezug auf einen Referenzpunkt des Intonationsmusters, welches der Punkt ist, an dem eine Konsonant/Vokal-Grenze auftritt.
4. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Wörter in dem Sprachmodell lexikalisch geprüft werden, daß die Satzteile in dem Sprachmodell syntaktisch geprüft werden, und daß Wörter und Satzteile, die nicht lexikalisch identifiziert und syntaktisch analysiert werden, aus dem Sprachmodell ausgeschlossen werden, und daß die autographische und phonetische Transkription der Wörter in dem Sprachmodell geprüft wird.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation von typusbetonten Silben, und Information bezüglich der Lokalisierung von sekundären Akzenten enthält, und daß die Akzentinformation sich auf tonale Wortakzente I und Akzente II bezieht.
6. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Intonationsmuster der Fundamentaltonkurven der Eingangssprache in Dialektkategorien klassifiziert werden entsprechend gespeicherten Beschreibungen der in Frage kommenden Dialekte.
7. Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, daß die Identifizierung einer Anzahl von Phonemen von der Eingangssprache mittels eines Spracherkennungsmodells erfolgt und daß die identifizierte Zeitdifferenz verwendet wird, um das Erkennungsmuster des Spracherkennungsmodells so anzupassen, daß es Dialektinformation berücksichtigt, und daß das erstellte Sprachmodell Wort- und Satzakzente gemäß einem Muster aufweist, das durch einen Lernprozeß oder durch ausdrückliche Kenntnis erstellt wurde, wobei identifizierte Zeitdifferenzen für eine Anzahl von verschiedenen Dialekten der betreffenden Sprache verwendet werden.
8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, daß das Spracherkennungsmodell ein Hidden-Markov-Modell ist.
9. Vorrichtung zum Erkennen einer gesprochenen Sprache, mit Spracherkennungsmitteln (1) zum Identifizieren einer Anzahl von Phonemen aus einem Segment der Eingangssprache; und Interpretationsmitteln zum Interpretieren der Phoneme als mögliche Wörter oder Wortkombinationen zur Erstellung eines Modells der Sprache, wobei das Sprachmodell Wortu. Satzakzente gemäß einem standardisierten Muster für die betreffende Sprache aufweist, Extraktionsmitteln (2) zum Extrahieren der Fundamentaltonkurve der Einganssprache; ersten Analysiermitteln (6) zum Bestimmen des Intonationsmusters des Fundamentaltons der Eingangssprache und damit der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiligen Positionen; zweite Analysiermittel (5) zum Bestimmen des Intonationsmusters der Fundamentaltonkurve des Sprachmodells und dadurch der Maximal- und Minimalwerte der Fundamentaltonkurve und deren jeweiligen Positionen; dadurch gekennzeichnet, daß die Vorrichtung ferner aufweist Vergleichsmittel (7) zum Vergleichen des Intonationsmusters der Eingangssprache mit dem Intonationsmuster des Sprachmodells zum Identifizieren einer Zeitdifferenz zwischen dem Auftreten der Maximal- und Minimalwerte der Fundamentaltonkurve der Eingangssprache in Bezug auf die Maximal- und Minimalwerte der Fundamentaltonkurve des Sprachmodells, wobei die identifizierte Zeitdifferenz Dialektbesonderheiten der Eingangssprache anzeigt; und Korrigiermittel zum Einstellen des Intonationsmusters des Sprachmodells unter Verwendung der identifizierten Zeitdifferenz, um das Sprachmodell in Übereinstimmung mit der Eingangssprache und dadurch mit den Dialektbesonderheiten der Eingangssprache zu bringen.
10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, daß die identifizierten Phoneme durch die Spracherkennungsmittel (1) zu allophonen Strängen kombiniert werden und daß die ersten Analysiermittel (6) so angepaßt sind, daß sie bei Empfang der allophonen Stränge von den Spracherkennungsmitteln (1) die Maximal- und Minimalwerte des Fundamentaltones der Eingangssprache identifizieren und dadurch deren Positionen detektieren.
11. Vorrichtung nach Anspruch 9 oder 10, dadurch gekennzeichnet, daß die Zeitdifferenz in Bezug auf einen Referenzpunkt des Intonationsmusters bestimmt wird, welcher der Punkt ist, bei dem eine Konsonant/Vokal-Grenze auftritt.
12. Vorrichtung nach einem der Ansprüche 9-11, dadurch gekennzeichnet, daß die Vorrichtung Überprüfungsmittel (3, 4) aufweist, um die Wörter in dem Sprachmodell lexikalisch zu prüfen und die Satzteile des Sprachmodells syntaktisch zu prüfen, und daß Wörter- und Satzteile, die nicht lexikalisch identifiziert und syntaktisch analysiert wurden, aus dem Sprachmodell ausgeschlossen werden, wobei die Überprüfungsmittel (3) die Orthographie und phonetische Transkription der Wörter in dem Sprachmodell prüfen.
13. Vorrichtung nach Anspruch 12, dadurch gekennzeichnet, daß die Transkriptionsinformation lexikalisch abstrahierte Akzentinformation von typusbetonten Silben sowie Informationen bezüglich der Lokalisierung eines Sekundärakzentes aufweist, und daß die Akzentinformation sich auf tonale Wortakzente I und Akzente II bezieht.
14. Vorrichtung nach einem der Ansprüche 9-13, dadurch gekennzeichnet, daß die Vorrichtung Mittel zum Klassifizieren der Intonationsmuster der Fundamentaltonkurven der Eingangssprache in Dialektkategorien entsprechend gespeicherten Beschreibungen der in Frage kommenden Dialekte umfaßt.
15. Vorrichtung nach einem der Ansprüche 9-14, dadurch gekennzeichnet, daß die Identifizierung einer Anzahl von Phonemen aus der Eingangssprache mit einem Spracherkennungsmodell erfolgt, daß die identifizierte Zeitdifferenz den Spracherkennungsmitteln (1) zugeführt wird, und daß die Spracherkennungsmittel (1) so eingerichtet sind, daß sie die identifizierte Zeitdifferenz dazu verwenden, das Erkennungsmuster des Sprachmodells so anzupassen, daß es Dialektinformation berücksichtigt, und wobei die Interpretationsmittel trainiert werden können unter Verwendung der identifizierten Zeitdifferenzen einer Anzahl von verschiedenen Dialekten der betreffenden Sprache, und daß das von den Interpretationsmitteln erstellte Sprachmodell ein durch den Trainingsprozeß etabliertes Intonationsmuster hat.
16. Vorrichtung nach Anspruch 15, dadurch gekennzeichnet, daß das Spracherkennungsmodell ein Hidden-Markov-Modell ist.
17. Sprache-Text-Umwandlungssystem mit einer Vorrichtung nach einem der Ansprüche 9-16, oder mit Mitteln zum Durchführen der Schritte gemäß einem der Ansprüche 1-8.
18. Sprache-Sprache-Umwandlungssystem mit einer Vorrichtung nach einem der Ansprüche 9-16, oder mit Mitteln zum Durchführen der Schritte nach einem der Ansprüche 1-8.
19. Auf gesprochene Wörter reagierendes System, unabhängig vom Dialekt des Sprechers, mit einer Vorrichtung nach einem der Ansprüche 9-16 oder mit Mitteln zur Durchführung der Schritte nach einem der Ansprüche 1-8.
20. System nach Anspruch 19, dadurch gekennzeichnet, daß das auf Stimme reagierende System eine elektrische Installation oder eine Telekommunikations-Kundeninstallation oder Teil einer solchen ist, wobei die elektrische Installation von einer Zentralheizungsanlage oder einer Pumpstation gebildet wird oder Teil einer solchen ist.
21. System nach Anspruch 19, mit einer Kunstsprache-Erzeugeeinheit, die geeignet ist, in Abhängigkeit von Empfang der identifizierten Zeitdifferenz künstliche Sprache im Dialekt der gesprochenen Instruktionen zu erzeugen.
DE69519229T 1994-06-29 1995-06-13 Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten Expired - Fee Related DE69519229T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
SE9402284A SE504177C2 (sv) 1994-06-29 1994-06-29 Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk
PCT/SE1995/000710 WO1996000962A2 (en) 1994-06-29 1995-06-13 Method and device for adapting a speech recognition equipment for dialectal variations in a language

Publications (2)

Publication Number Publication Date
DE69519229D1 DE69519229D1 (de) 2000-11-30
DE69519229T2 true DE69519229T2 (de) 2001-05-23

Family

ID=20394556

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69519229T Expired - Fee Related DE69519229T2 (de) 1994-06-29 1995-06-13 Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten

Country Status (7)

Country Link
US (1) US5694520A (de)
EP (1) EP0767950B1 (de)
JP (1) JPH10504404A (de)
DE (1) DE69519229T2 (de)
ES (1) ES2152411T3 (de)
SE (1) SE504177C2 (de)
WO (1) WO1996000962A2 (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
SE514684C2 (sv) * 1995-06-16 2001-04-02 Telia Ab Metod vid tal-till-textomvandling
SE9601811L (sv) * 1996-05-13 1997-11-03 Telia Ab Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation
SE519273C2 (sv) * 1996-05-13 2003-02-11 Telia Ab Förbättringar av , eller med avseende på, tal-till-tal- omvandling
EP1051701B1 (de) * 1998-02-03 2002-11-06 Siemens Aktiengesellschaft Verfahren zum übermitteln von sprachdaten
US6343270B1 (en) * 1998-12-09 2002-01-29 International Business Machines Corporation Method for increasing dialect precision and usability in speech recognition and text-to-speech systems
US6687665B1 (en) 1999-10-29 2004-02-03 Matsushita Electric Industrial Co., Ltd. Device for normalizing voice pitch for voice recognition
CN1159702C (zh) 2001-04-11 2004-07-28 国际商业机器公司 具有情感的语音-语音翻译系统和方法
US20040266337A1 (en) * 2003-06-25 2004-12-30 Microsoft Corporation Method and apparatus for synchronizing lyrics
US7940897B2 (en) * 2005-06-24 2011-05-10 American Express Travel Related Services Company, Inc. Word recognition system and method for customer and employee assessment
JP4264841B2 (ja) * 2006-12-01 2009-05-20 ソニー株式会社 音声認識装置および音声認識方法、並びに、プログラム
JP4882899B2 (ja) * 2007-07-25 2012-02-22 ソニー株式会社 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム
US8077836B2 (en) * 2008-07-30 2011-12-13 At&T Intellectual Property, I, L.P. Transparent voice registration and verification method and system
JP2015087649A (ja) * 2013-10-31 2015-05-07 シャープ株式会社 発話制御装置、方法、発話システム、プログラム、及び発話装置
CN104464423A (zh) * 2014-12-19 2015-03-25 科大讯飞股份有限公司 一种口语考试评测的校标优化方法及系统
CN107170454B (zh) * 2017-05-31 2022-04-05 Oppo广东移动通信有限公司 语音识别方法及相关产品
US11545132B2 (en) 2019-08-28 2023-01-03 International Business Machines Corporation Speech characterization using a synthesized reference audio signal
CN110716523A (zh) * 2019-11-06 2020-01-21 中水三立数据技术股份有限公司 一种基于语音识别的泵站智能决策系统及方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE12386C1 (de) 1901-05-04
SE13680C1 (de) 1902-02-01
US5268990A (en) * 1991-01-31 1993-12-07 Sri International Method for recognizing speech using linguistically-motivated hidden Markov models
SE516526C2 (sv) * 1993-11-03 2002-01-22 Telia Ab Metod och anordning vid automatisk extrahering av prosodisk information
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置

Also Published As

Publication number Publication date
EP0767950B1 (de) 2000-10-25
DE69519229D1 (de) 2000-11-30
SE504177C2 (sv) 1996-12-02
WO1996000962A2 (en) 1996-01-11
ES2152411T3 (es) 2001-02-01
EP0767950A2 (de) 1997-04-16
SE9402284L (sv) 1995-12-30
WO1996000962A3 (en) 1996-02-22
US5694520A (en) 1997-12-02
SE9402284D0 (sv) 1994-06-29
JPH10504404A (ja) 1998-04-28

Similar Documents

Publication Publication Date Title
DE69519229T2 (de) Verfahren und vorrichtung zur anpassung eines spracherkenners an dialektische sprachvarianten
DE69519328T2 (de) Verfahren und Anordnung für die Umwandlung von Sprache in Text
DE60216069T2 (de) Sprache-zu-sprache erzeugungssystem und verfahren
DE69427083T2 (de) Spracherkennungssystem für mehrere sprachen
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE3337353C2 (de) Sprachanalysator auf der Grundlage eines verborgenen Markov-Modells
EP0925578B1 (de) Sprachverarbeitungssystem und verfahren zur sprachverarbeitung
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE69315374T2 (de) Spracherkennungssystem zur naturgetreuen Sprachübersetzung
DE60000138T2 (de) Erzeugung von mehreren Aussprachen eines Eigennames für die Spracherkennung
DE69220825T2 (de) Verfahren und System zur Spracherkennung
DE69618503T2 (de) Spracherkennung für Tonsprachen
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
DE4310190A1 (de) Sprecher-Verifizierungssystem unter Verwendung der Abstandsmessung nächster Nachbarn
DE69427717T2 (de) Sprachdialogsystem
DE202017106303U1 (de) Bestimmen phonetischer Beziehungen
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon
DE602004006641T2 (de) Audio-dialogsystem und sprachgesteuertes browsing-verfahren
DE69512961T2 (de) Spracherkennung auf Grundlage von "HMMs"
EP1182646A2 (de) Verfahren zur Zuordnung von Phonemen
DE69425874T2 (de) Verfahren und Anordnung zur automatischen Extraktion prosodischer Information
WO2000005709A1 (de) Verfahren und vorrichtung zur erkennung vorgegebener schlüsselwörter in gesprochener sprache
EP0987682A2 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE112006000225T5 (de) Dialogsystem und Dialogsoftware
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee