DE19510083C2 - Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen - Google Patents
Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden SprachenInfo
- Publication number
- DE19510083C2 DE19510083C2 DE19510083A DE19510083A DE19510083C2 DE 19510083 C2 DE19510083 C2 DE 19510083C2 DE 19510083 A DE19510083 A DE 19510083A DE 19510083 A DE19510083 A DE 19510083A DE 19510083 C2 DE19510083 C2 DE 19510083C2
- Authority
- DE
- Germany
- Prior art keywords
- composite
- speech recognition
- word
- probability
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
Die vorliegende Erfindung betrifft zum einen ein für
Wortkomposita geeignetes Spracherkennungsverfahren, das bei
sowohl diskretem als auch kontinuierlichem Diktat einsetzbar
ist und das sich insbesondere zur Echtzeit-Spracherkennung
eignet. Des weiteren bezieht sich die Erfindung auf eine
Spracherkennungsanordnung zur Anwendung dieses Verfahrens.
Der Erfindung liegt das seitens der Anmelderin entwickelte
Spracherkennungssystem TANGORA zugrunde. TANGORA ist ein
Echtzeit-Spracherkennungssystem für große Vokabulare mit mehr
als 20.000 Wortformen, das mit geringem Aufwand vom Benutzer
sprecherspezifisch trainiert werden kann.
Ausgangspunkt bei diesem bekannten System ist die Aufteilung
des Spracherkennungsprozesses in einen auf akustischen Daten
basierenden Teil (Decodierung) und einen auf Sprach- bzw.
Textkorpora eines bestimmten Anwendungsbereichs
zurückgreifenden sprachstatistischen Teil (Sprachmodell). Die
Entscheidung über Wortkandidaten ergibt sich somit jeweils aus
einer Decoder- sowie einer Sprachmodell-Wahrscheinlichkeit. Für
den Anwender ist primär die aufgrund dieser Architektur
mögliche Anpassung des vom Erkennungssystem verarbeiteten
Wortschatzes an branchenspezifische oder sogar individuelle
Anforderungen von besonderer Bedeutung.
Bei diesem Spracherkennungssystem liefert die akustische
Decodierung zunächst Worthypothesen. Bei der weiteren Bewertung
miteinander konkurrierender Worthypothesen werden nun die
Sprachmodelle zugrundegelegt. Diese stellen aus
anwendungsspezifischen Textkorpora gewonnene Schätzungen von
Wortfolgenhäufigkeiten dar und basieren auf einer Sammlung von
Textproben aus einem gewünschten Anwendungsbereich. Aus diesen
Textproben werden die häufigsten Wortformen und
Wortfolgestatistiken generiert.
Bei dem hier angewandten Verfahren zur Häufigkeitsschätzung von
Wortfolgen werden die Häufigkeiten für das Auftreten von
sogenannten Wortform-Trigrammen in einem gegebenen Textkorpus
geschätzt (siehe u. a. Nadas, A., "On Turing′s Formula for Word
Probabilities", IEEE Proc. ASSP, 33, 6, 1985, pp. 1414-1416).
Bei einem Wortschatz von 20.000 Wortformen, wie er derzeit in
dem Spracherkennungssystem TANGORA genutzt wird, wären
allerdings etwa 8 Billionen Trigramme möglich. Die in der
Praxis gesammelten Korpora sind also immer noch um einige
Zehnerpotenzen zu klein, um überhaupt alle Trigramme auch nur
beobachten zu können.
Diesem Problem des begrenzten Wortschatzes wird a.a.O. mit der
Bildung sogenannter Objektklassen, die in dem Sprachkorpus mit
gleicher Häufigkeit vorkommen, begegnet. Die Schätzung basiert
dabei auf der Annahme einer Binomialverteilung einer
Zufallsvariablen, welche allgemein die Ziehung eines Objektes
aus einer Häufigkeitsklasse beschreibt.
In bekannten Spracherkennungssystemen wird für diese zu
schätzenden Wahrscheinlichkeiten häufig das sogenannte Hidden-Markov-Modell
angewendet. Hierbei werden mehrere im Textkorpus
beobachtete Häufigkeiten zugrundegelegt. Für ein Trigramm "uvw"
sind dies ein Nullgramm-Term f₀, ein Unigramm-Term f(w), ein
Bigramm-Term f (w|v) sowie ein Trigramm-Term f (w|uv). Diese
Terme entsprechen den im Textkorpus beobachteten relativen
Häufigkeiten, wobei dem Nullgramm-Term lediglich eine
korrektive Bedeutung zukommt.
Faßt man diese Terme als Wahrscheinlichkeiten des Wortes w
unter verschiedenen Bedingungen auf, so kann man eine
sogenannte latente Variable zufügen, von der aus durch
Zustandsübergänge eine der vier Bedingungen erreicht wird, die
das Wort w erzeugen. Bezeichnet man die
Übergangswahrscheinlichkeiten für die betreffenden Terme mit λ₀
λ₁ λ₂ λ₃, so ergibt sich folgender Ansatz für die Darstellung
der gesuchten Trigrammwahrscheinlichkeit
Pr(w|uv) = λ₀ f₀ + λ₁ f(w) + λ₂ f(w|v) + λ₃ f(w|uv) (1)
Die eigentliche Schätzung der Übergangswahrscheinlichkeiten
erfolgt mittels der Methode der sogenannten "deleted
estimation" (s. Jelinek, F. und Mercer, R., "Interpolated
Estimation of Markov Source Parameters from Sparse Data", in
Pattern Recognition in Practice, Amsterdam, North Holland,
1980, pp. 381-397). Bei diesem Verfahren werden durch
Weglassung von Korpusteilmengen mehrere kleinere
Textstichproben erzeugt. Für jede Stichprobe erfolgt eine
Bewertung nach der oben genannten Methode, die auf den
Wortfolgestatistiken beruht.
Die bekannten Spracherkennungssysteme haben den Nachteil, daß
jedes Wort als eine Wortform im Wortschatz dieser Systeme
auftritt. Aus diesem Grunde werden relativ hohe Anforderungen
an die Speicherkapazität der Systeme gestellt. Die im
allgemeinen sehr umfangreichen Wortschätze wirken sich zudem
nachteilig auf die Schnelligkeit der Erkennungsverfahren aus.
In dem Aufsatz "Halbsilben als Bearbeitungseinheiten bei der
automatischen Spracherkennung", G. Ruske, Journal "Sprache und
Datenverarbeitung", 8. Jahrgang 1984, Heft 1/2, S. 5-16, wird
zur Lösung dieses Problems vorgeschlagen, bei der automatischen
Spracherkennung zur Festlegung kleinster Bearbeitungseinheiten
im Bereich der akustisch-phonetischen Analyse eine
Segmentierung des Wortschatzes in Halbsilben vorzunehmen.
Gegenüber Systemen, denen Silben als Grundelemente
zugrundeliegen und die aus diesen Grundelementen jede
sprachliche Äußerung "bausteinartig" aufbauen, weist diese
Vorgehensweise hinsichtlich der Speicheranforderungen etc.
Vorteile auf. Denn beispielsweise im Deutschen beträgt die
Zahl der verschiedenen Silben bereits etwa 5.000. Ferner
werden in dem Aufsatz die Vorzüge der silbenorientierten
Segmentierung auch für die höheren Bearbeitungsstufen der
Spracherkennung angesprochen, wobei von relativ sicher
erkannten Silben ausgehend Worthypothesen generiert werden.
Auf die Umsetzung dieser Hypothese in ein Sprachmodell wird
dort allerdings nicht eingegangen.
Ein besonderes Problem bei der Spracherkennung stellen die in
vielen Sprachen relativ häufig auftretenden Komposita dar.
Beispielsweise treten im medizinischen Bereich häufig
zusammengesetzte Fachtermini auf, die nur in einigen Sprachen
durch Genitivattribute ausgedrückt werden können. Bei den
bekannten Spracherkennungssytemen tritt jedes Kompositum als
eine eigene Wortform im Wortschatz der Systeme auf, woraus
sich Nachteile bezüglich der Performance dieser Systeme,
beispielsweise aufgrund der erhöhten Anforderungen an den
Speicher, ergeben.
In der internationalen Patentanmeldung WO 93/18506, DRAGON
SYSTEMS INC., USA, ist ein Spracherkennungssystem für
Komposita enthaltende Sprachen vorveröffentlicht, dem das
vorgenannte Problem des Speicherzuwachses zugrundeliegt und
das die Aufnahme von Komposita in das aktive Vokabular
vermeiden will. Zur Lösung wird vorgeschlagen, eine spezielle
Erkennungseinrichtung für Komposita einzusetzen. Bei einem
möglicherweise vorliegenden Kompositum wechselt diese
Einrichtung in einen besonderen Betriebsmodus, in dem mögliche
Kompositum-Kandidaten in Form einer Liste angezeigt werden,
aus der der Benutzer das richtige Kompositum manuell
auszuwählen hat.
Der vorliegenden Erfindung liegt somit die bereits in dem in
Studientexte zur Sprachkommunikation ISSN 0940-6832, Heft 11,
S. 190-197, vorveröffentlichten Aufsatz von M. Spies mit dem
Titel "Die Behandlung von Wortkomposita in der maschinellen
Spracherkennung", genannte Aufgabe zugrunde, ein
Verfahren bzw. eine
Anordnung zur Spracherkennung bereitzustellen, bei
denen vermieden wird, daß Komposita jeweils als Ganzes im
Sprachmodell berücksichtigt werden müssen. Im Gegensatz dazu
sollen nur Bestandteile von Komposita Berücksichtigung finden.
Darüber hinaus soll eine voll maschinelle Erkennung auch von
Komposita ermöglicht werden.
Diese Aufgabe wird bei dem erfindungsgemäßen
Spracherkennungsverfahren gelöst durch die im Patentanspruch 1
vorgeschlagenen Verfahrensschritte.
Das erfindungsgemäße Spracherkennungsverfahren geht von dem
Ansatz aus, im Sprachmodell nicht vollständige Komposita zu
speichern, sondern lediglich Kompositabestandteile in Form von
Einzelwörtern. Das Erkennungssystem hat demnach nur diese
Bestandteile im Vokabular zu verwalten. Ein wesentlicher
Gesichtspunkt dieses Lösungsgedankens ist, bei der Erkennung
möglicher Komposita für die entsprechenden
Kompositabestandteile sowie für die möglichen Einzelwörter
getrennte Bearbeitungspfade einzurichten, d. h. eine jeweils
unterschiedliche Weiterverarbeitung der hypothetischen
zeitlichen Abfolgen von Wortkandidaten, die im Verlauf der
Spracherkennung aus einer Folge phonetischer Transkriptionen
von Wörtern und Kompositabestandteilen generiert werden. Auf
diesen Bearbeitungspfaden werden dann für Komposita spezifische
Sprachmodellstatistiken zur Bewertung der Worthypothesen
berechnet.
Bei den N-Gramm Statistiken hat es sich als besonders
vorteilhaft erwiesen, Wortform-Trigramme zu verwenden. Die
Verwendung von Trigrammen im Sprachmodell hat den Vorteil, daß
ein idealer Kompromiß zwischen Speicherbelastung und
Verarbeitungsgeschwindigkeit geschaffen wird.
Bei dem erfindungsgemäßen Spracherkennungsverfahren können
ferner für einen Kompositumendteil-Kandidaten W, gegeben einen
Kontext C, im Sprachmodell distante N-Grammhäufigkeiten Pr(W/C)
nicht unmittelbar benachbarter Teile einer Wortfolge gebildet
werden. Grundlage dieser Sprachmodellstatistik ist eine
Zerlegung der Wahrscheinlichkeiten, bei der der vorausgehende
Kontext und die Bestandteile eines Kompositums getrennt
berücksichtigt werden. Einen Schlüssel zur Lösung dieses
Problems liefert wieder die in der Linguistik bekannte
Tatsache, daß grammatisch bestimmende Teile eines Kompositums
in der Regel am Kompositumende aufzufinden sind, wobei diese
Bestandteile Auskunft über Genus, Casus, Numerus geben, sofern
das Kompositum ein Substantiv ist. Analoges gilt jedoch auch
bei aus mehreren Wörtern zusammengesetzten Verben.
Eine Verallgemeinerung dieser Tatsache führt zu der
Sprachmodellannahme, daß der einem Kompositum vorausgehende
Kontext die Wahrscheinlichkeit des letzten
Kompositumbestandteils stark beeinflußt und daß umgekehrt,
kennt man diesen letzten Bestandteil, der vorausgehende Kontext
wenig über die übrigen Kompositumbestandteile aussagt. Im
Sprachmodell entspricht dies einer N-Grammhäufigkeit Pr(W/C),
d. h. der Wahrscheinlichkeit des letzten Bestandteils W eines
Kompositums, gegeben den Kontext C. Der letzte Bestandteil W
und der Kontext C sind dabei nicht unmittelbar benachbarte
Teile der betrachteten Wortfolge.
Bei dem erfindungsgemäßen Spracherkennungsverfahren können
ferner für einen Kompositumendteil-Kandidaten W, gegeben einen
Kompositumanfang A, im Sprachmodell interne N-Grammhäufigkeiten
Pr(A/W) mit inverser zeitlicher Abfolge der
Kompositumbestandteile gebildet werden. Die sogenannte interne
N-Grammhäufigkeit Pr(A/W) repräsentiert dabei die Häufigkeit
des Kompositumanfangs A, gegeben das Kompositumende W. Die hier
in umgekehrter Zeitrichtung verlaufende
Wahrscheinlichkeitsannahme beruht wiederum auf der bereits
genannten Tatsache, daß in den meisten Sprachen die grammatisch
bestimmenden Teile eines Kompositumes regelmäßig am
Kompositumende stehen.
Bei dem erfindungsgemäßen Spracherkennungsverfahren kann ferner
vorgesehen sein, daß die Bewertung des Sprachkontextes sowohl
auf Komposita als auch auf Kompositabestandteilen beruht. Unter
der oben genannten Wahrscheinlichkeitsannahme läßt sich hiermit
die Einbeziehung des Kontextes in dem der Erfindung
zugrundeliegenden Sprachmodell vielseitiger gestalten. Eine
Bewertung basierend auf Kompositabestandteilen bietet sich
insbesondere dann an, wenn der Kontext Mehrfachkomposita
enthält.
Bei dem erfindungsgemäßen Spracherkennungsverfahren kann weiter
vorgesehen sein, daß akustische Verschleifungen oder
Kontraktionen benachbarter Wörter mittels einer Kontextfunktion
berücksichtigt werden. Bei benachbarten Wortanfängen und
Wortenden, insbesondere bei Kompositaanfängen und
Kompositaenden, tritt regelmäßig eine gegenseitige
Beeinflussung der jeweiligen Aussprache dieser Wortteile auf.
Dies rührt letztlich daher, daß in den meisten Sprachen
grundsätzlich ein Bestreben festzustellen ist, bei der
Aussprache benachbarter Wörter bzw. Kompositabestandteile diese
möglichst übergangslos und ohne Pausen aneinanderzureihen.
Dieses Problem wird aufgrund der vorgeschlagenen
Kontextfunktion sehr vorteilhaft gelöst.
Bei dem erfindungsgemäßen Spracherkennungsverfahren kann ferner
vorgesehen sein, daß für Kompositumkandidaten ein
Bearbeitungspfad bereits dann angelegt wird, wenn ein
potentieller Anfangsteil aufgrund einer spezifischen
Pfadbewertung zu einer Kompositumhypothese beobachtet wird.
Daher kann ein sogenanntes Likelihoodprofil unter der
Hypothese, es handle sich um ein Kompositum, berechnet werden.
Das Likelihoodprofil stellt ein Maß für die Qualität eines
Bearbeitungspfades dar. Trifft die Kompositumhypothese zu,
sollte dieses Profil günstiger ausfallen als das alternativer
Pfade. Hierdurch wird die Automatisierung des
Spracherkennungsprozesses erheblich vereinfacht.
Bei dem erfindungsgemäßen Spracherkennungsverfahren kann ferner
vorgesehen sein, daß das Sprachsignal mittels einer
Grobabstimmung zur Ermittlung wahrscheinlicher Wort- bzw.
Kompositumgrenzen ausgewertet wird, und daran anschließend eine
Feinabstimmung zwischen dem akustischen Signal und den
jeweiligen Wort- bzw. Kompositumkandidaten vorgenommen wird.
Bei der Grobabstimmung werden Wort- bzw. Kompositumkandidaten
sowie Zeitpunkte wahrscheinlicher Grenzen von Wörtern und/oder
Kompositabestandteilen ermittelt und diese Ergebnisse
dahingehend geprüft, ob Annäherungen an Kompositumbestandteile
vorliegen und inwieweit die Kompositumkandidaten anhand der
Sprachmodellwahrscheinlichkeiten mit den gegebenen
Bearbeitungspfaden übereinstimmen. Bei der im Anschluß daran
durchgeführten Feinabstimmung wird die Gesamtabfolge etwa
ermittelter Komposita - eventuell unter Berücksichtigung von
Verschleifungen anhand der Kontextfunktion - nochmals mit dem
akustischen Sprachsignal verglichen und deren Übereinstimmung
geprüft.
Bei dem erfindungsgemäßen Spracherkennungsverfahren kann ferner
vorgesehen sein, daß für jeden Bearbeitungspfad Zugriffe auf
relevante Sprachmodelldatenblöcke erfolgen. Hierdurch wird
verhindert, daß bei jeder Prüfung auf einem Bearbeitungspfad
ständig das vollständige Sprachmodell bereitgestellt werden
muß. Aufgrund dieses Zugriffs auf Datenblöcke wird demnach die
Verarbeitungsgeschwindigkeit des Erkennungssystems weiter
erhöht.
Die Vorzüge der weiteren, in den Unteransprüchen 9 bis 11
charakterisierten Ausführungsbeispiele der Erfindung gegenüber
dem Stand der Technik werden in der figurativen Beschreibung
ausführlich erörtert.
Gegenstand der vorliegenden Erfindung ist zudem eine
Spracherkennungsanordnung, bei der das erfindungsgemäße
Spracherkennungsverfahrens zur Anwendung kommt. Diese Anordnung
weist erfindungsgemäß eine Einrichtung zur Erfassung des
akustischen Sprachsignals, eine Einrichtung zur Digitalisierung
des analogen akustischen Sprachsignals, eine Einrichtung zur
Erstellung einer Menge von phonetischen Transkriptionen von
Wörtern und Kompositabestandteilen, eine Einrichtung zur
Erstellung von Listen bezüglich einfacher Wörter,
Kompositumanfangsteile und Kompositumendteile, eine Einrichtung
zur Ermittlung der jeweiligen Sprachmodellwahrscheinlichkeiten
auf einem Bearbeitungspfad für diese drei Listen, eine
Einrichtung zur Ermittlung von Wahrscheinlichkeits-Profilen für
hypothetische Folgen von Wort- und/oder Kompositionskandidaten und eine Einrichtung
zur Erzeugung und Vernichtung von Bearbeitungspfaden sowie zur
Entscheidung über die Erzeugung und die Vernichtung von
Bearbeitungspfaden auf. Im Rahmen des Spracherkennungsprozesses
wird jede Liste unter verschiedenen Bedingungen, z. B.
Kontexten, geprüft.
Ein Vorteil dieser Anordnung gegenüber
Spracherkennungssystemen nach dem Stand der Technik ist die
vollständige Automatisierbarkeit des Spracherkennungsprozesses,
unabhängig von den Diktatbedingungen. Weiterhin kann die
Spracherkennung in Echtzeit erfolgen. Weitere Vorteile der
Erfindung ergeben sich aus der figurativen Beschreibung.
Bei der erfindungsgemäßen Spracherkennungsanordnung kann ferner
eine Einrichtung zur Kennzeichnung von Kompositabestandteilen
als Anfangs- oder Schlußteile vorgesehen sein. Die
Kennzeichnung kann beispielsweise in Form einer Flagge
erfolgen. Ein Vorteil dieser Anordnung ist die Erhöhung der
Schnelligkeit dieses Erkennungs-Teilprozesses, wodurch auch die
Performance des gesamten Systems gesteigert wird.
Auf die vorteilhaften Ausgestaltungen der erfindungsgemäßen
Spracherkennungsanordnung gemäß den Unteransprüchen 14 bis 16
wird im figurativen Beschreibungsteil näher eingegangen.
Das Spracherkennungsverfahren sowie die Anordnung zur
Spracherkennung gemäß der Erfindung werden nachfolgend anhand
von Zeichnungen am Beispiel der Kompositabehandlung in der
deutschen Sprache eingehender beschrieben.
Im einzelnen zeigen:
Fig. 1 eine schematische Darstellung der erfindungsgemäßen
Spracherkennungsanordnung; und
Fig. 2 die Funktionsweise der Spracherkennungsanordnung
gemäß Fig. 1 bei der Erkennung von deutschsprachigen
Wortkomposita anhand eines schematischen
Blockdiagramms.
Bei der in Fig. 1 dargestellten Spracherkennungsanordnung wird
das Sprachsignal zunächst mittels eines Mikrofons 1 erfaßt.
Anstelle der Verwendung eines Mikrofons kann das Sprachsignal
allerdings auch vorab auf einem Speichermedium, beispielsweise
einem Diktiergerät, zwischengespeichert sein. Dieses Signal
wird mittels eines Analog/Digital-Wandlers 2 in ein
elektronisch weiterverarbeitbares digitales Signal
umgewandelt.
Die Weiterverarbeitung des digitalen Signals erfolgt mittels
einer Prozessoreinheit 3. Über einen Eingangskanal 4 gelangt
das digitale Signal auf eine Sammelleitung 5 der
Prozessoreinheit 3, über die eine Prozessor-Zentraleinheit 6,
Speicher 7, 8, 9, 10, ein Decoder 11 und ein Likelihood-Prozessor
12 miteinander kommunizieren.
Die Speicher 7, 8, 9, 10 können jedoch auch in eine einzelne
Speichereinheit integriert sein. Im Speicher 7 sind die bei der
akustischen Signalverarbeitung im Decoder 11 zugrundegelegten
phonetischen Transkriptionen abgelegt. Letztere stellen
akustisch-phonetische Abbilder gesprochener Worte dar. Im
Speicher 8 sind beispielsweise mittels der Zentraleinheit 6
vorab erstellte Listen einfacher Wörter, Kompositumsanfangs- und
-endteile abgelegt. Die dem Sprachmodell zugrundeliegenden
N-Gramm Häufigkeiten befinden sich im Speicher 9 und wurden
vorab aus für den jeweiligen Anwendungsbereich spezifischen
Textkorpora gebildet. Im Speicher 10 wird schließlich das zu
untersuchende digitale Sprachsignal gespeichert.
Bei der Spracherkennung von Komposita gemäß der
Blockdarstellung in Fig. 2 sei zunächst angenommen, daß die
Kompositabestandteile zusammenhängend diktiert werden, wobei
die Übergänge zwischen Kompositabestandteilen akustisch anders
ausfallen werden, als bei einem diskreten Diktat. Mittels einer
Grobabstimmung 20, die in erster Annäherung aufgrund eines
vorgegebenen Vokabulars Kompositakandidaten identifiziert,
werden zunächst Zeitpunkte wahrscheinlicher Wort- bzw.
Kompositagrenzen ermittelt. Da die Kompositabestandteile als
einzelne Wörter im Vokabular auftreten, kann die Grobabstimmung
20 am Ende eines jeden Bestandteils einen derartigen
Kompositumgrenzzeitpunkt ausmachen.
Im Anschluß daran wird anhand der
Sprachmodellwahrscheinlichkeit geprüft 21, wie die bei der
Grobabstimmung ermittelten Kandidaten in die gegebenen
Bearbeitungspfade passen. Im Rahmen dieser Prüfung 21 kann es
dann zur Anlegung von Verzweigungen 22 des Bearbeitungspfades
zur Prüfung möglicher Komposita kommen. Die Verzweigung in zwei
unterschiedliche Pfade stellt lediglich eine vorteilhafte
Ausführungsform der Erfindung dar. Selbstverständlich sind auch
Verzweigungen in drei oder mehrere Pfade denkbar.
Im weiteren wird für jeden Bearbeitungspfad 23, 24 eine
Feinabstimmung 25, 26 zwischen akustischem Signal und
Kompositumkandidat vorgenommen. Im Falle eines
Bearbeitungspfades für eine Kompositumhypothese
("Kompositumpfad") wird dabei nach der durch die akustische
Aneinanderkettung der Kompositumbestandteile des Kompositums
gegebenen akustischen Symbolfolge gesucht, und nicht nach der
für die einzelnen Bestandteile. Für die Berücksichtigung von
Verschleifungen benachbarter Kompositumteile ist zudem eine
Kontextfunktion 27 vorhanden.
Gemäß dem der Erfindung zugrundeliegenden Sprachmodell hängt
die bedingte Wahrscheinlichkeit eines Kompositumbestandteils
einerseits vom vorausgehenden Kontext, d. h. den dem Kompositum
vorausgehenden Wörtern, andererseits von den Anfangsteilen des
Kompositums selbst, ab. Die bedingte Wahrscheinlichkeit eines
Kompositumanfangsteils wird dabei nicht von der desselben
Wortes als Einzelwort unterschieden. Es werden lediglich je ein
Bearbeitungspfad für die Einzelworthypothese sowie ein
Bearbeitungspfad für die Kompositumhypothese angelegt.
Es erfolgt demnach eine Zerlegung der Wahrscheinlichkeiten, bei
der der einem Kompositum vorangehende Kontext und die
Bestandteile eines Kompositums getrennt berücksichtigt werden
können. Ausgangspunkt für die Lösung dieses Problems liefert
die von der Linguistik her bekannte Tatsache, daß im Deutschen
die grammatisch bestimmenden Teile eines Kompositums regelmäßig
am Kompositumende angeordnet sind. Der am Ende befindliche
Bestandteil eines Kompositums gibt dabei Auskunft über Genus,
Casus, Numerus, wenn das Kompositum ein Substantiv ist.
Analoges gilt für Verbkomposita.
Zur Verallgemeinerung dieser Tatsache wird weiterhin
angenommen, daß der vorausgehende Kontext, in dem ein
Kompositum auftritt, die Wahrscheinlichkeit des letzten
Bestandteils des Kompositums stark beeinflußt und daß
umgekehrt, sofern der letzte Bestandteil bekannt ist, der
vorausgehende Kontext wenig über die übrigen
Kompositumbestandteile aussagt.
Unter der aus der Wahrscheinlichkeitstheorie abgeleiteten
Annahme unabhängiger Ereignisse bedeutet dies, daß gegeben den
letzten Kompositumbestandteil, die vorausgehenden Bestandteile
und der vorausgehende Kontext bedingt unabhängig sind.
Bezeichnet man mit W den letzten Kompositumbestandteil, mit A
die vorausgehenden Bestandteile und mit C den vorausgehenden
Kontext, so läßt sich eine Trigramm-Wahrscheinlichkeit des
Wortes W als Kompositumendteil hinter dem Anfangsteil A im
Kontext C ausdrücken als:
In diesem Ausdruck treten zwei unterschiedliche Trigramm-
Wahrscheinlichkeiten auf: Pr(A|W) und Pr(W|C), d. h. die
Wahrscheinlichkeit des Kompositumanfanges A, gegeben den
letzten Kompositumbestandteil W sowie die des letzten
Bestandteils W, gegeben den Kontext C. Insbesondere wird
hierbei ein sogenanntes distantes Trigramm (C, W) über nicht
unmittelbar benachbarte Teile der Sprachäußerung gebildet.
Weiterhin tritt in dem mathematischen Ausdruck (2) eine
Wahrscheinlichkeit Pr(A|W) auf. Diese Wahrscheinlichkeit des
Kompositumanfangsteils A, gegeben den Kompositumendteil W,
entspricht demnach einer innerhalb des Kompositums
durchgeführten Wahrscheinlichkeitsbetrachtung. Bemerkenswert
ist hierbei, daß diese Wahrscheinlichkeiten nicht in der
zeitlichen Reihenfolge der Wörter aufeinander stehen.
Bei der Implementierung dieses Sprachmodells wird ein
kompositainternes Bigramm-Sprachmodell erstellt, das sogenannte
Schätzer für die genannten Wahrscheinlichkeiten aus
Sprachkorpora enthält, die in einem Speicher mit
zugriffseffizienten Formaten abgelegt sind. Das Neuartige an
diesem Modell ist, daß die kompositainternen
Wahrscheinlichkeiten separat geschätzt werden, und daß diese
Schätzung gegen die Zeitrichtung der gesprochenen Sprache
verläuft.
Bei der technischen Ausführung des kompositainternen Modells
werden drei Routinen unterschieden: Ein Zugriff auf
Datenblöcke, ein Zugriff auf Daten für einzelne Kandidaten und
die Berechnung der jeweiligen Pfadbewertung.
Der Zugriff auf Datenblöcke erfolgt zu Beginn der mittels eines
Decoders ausgeführten akustischen Signalverarbeitung. Es liegt
danach zunächst eine Reihe von Bearbeitungspfaden vor. Für
jeden Pfad werden zunächst diejenigen Sprachmodelldatenblöcke
gesucht, die dem vorausgehenden Kontext entsprechen. Im Falle
des Kompositummodells werden, wenn ein Pfad mit einem
Kompositumanfangsteil-Kandidaten endet, Datenblöcke mit den
bedingten Wahrscheinlichkeiten dieses Kandidaten unter allen
möglichen Schlußteilen eingelesen. Sowohl für
Kompositumanfangsteile als auch für Kompositumendteile werden
geeignete Flaggen eingeführt. Hiermit kann das erfindungsgemäße
Spracherkennungssystem erkennen, daß ein Kompositumpfad
vorliegt und für diesen Fall die entsprechenden Datenblöcke für
diesen Pfad laden.
Für aktuell untersuchte Teile der Sprachäußerung wird jeweils
zunächst mittels einer Grobabstimmung eine Kandidatenliste
erzeugt. Dabei sind die folgenden Fälle zu unterscheiden:
- 1. Ist der Kompositumkandidat Anfangsteil eines potentiellen Kompositums, wird die Standard-Trigramm-Wahrscheinlichkeit unter dem Kontext berücksichtigt. Ist diese hinreichend hoch, so wird der Bearbeitungspfad, an dessen Ende der Kompositumkandidat steht, verzweigt. Auf einem Zweig wird dann die Kompositumhypothese geprüft, auf dem anderen die des Einzelwortes.
- 2. Ist der Kompositumkandidat ein zweiter oder weiterer Kompositumteil eines bereits begonnen Kompositumpfades, gibt das Trigramm-Modell eine Bewertung von Null zurück. Das Kompositum-Bigramm-Modell gibt die Wahrscheinlichkeit des neuen Anfangsteils, gegeben den vorhergehenden Teil, zurück. Hierbei ist die Berechnung des sogenannten Bayesschen Theorems (Spies, M., "Unsicheres Wissen", Berlin, Heidelberg, 1993, Spektrum Akademischer Verlag) erforderlich, da die Wahrscheinlichkeiten in umgekehrter Bedingungsreihenfolge abgelegt sind.
- 3. Ist der Kompositumkandidat Schlußteil eines Kompositums, gibt das Trigramm-Modell die Sprachmodellwahrscheinlichkeiten des entsprechenden distanten Trigramms an. Das Kompositum-Bigramm-Modell liefert die kompositainterne Wahrscheinlichkeit des Schlußteils, gegeben dem zuletzt beobachteten Anfangsteil.
- 4. Kann der Kompositumkandidat sowohl Anfangsteil als auch Schlußteil sein, muß der aktuelle Bearbeitungspfad wieder verzweigt werden, zum einen für die Prüfung des Kompositumendteils, zum anderen für die des mindestens zweiten Kompositumanfangsteils. Ist diese Verzweigung vorgenommen, erfolgt für die jeweiligen Bearbeitungspfade eine Sprachmodellbewertung wie in den zuvor beschriebenen Fällen.
- 5. Ist der Kompositumkandidat schließlich weder Anfangs- noch Schlußteil, liefert das Kompositum-Bigrammodell eine Bewertung von Null zurück; dies führt im weiteren zum Abbruch des Kompositumpfades anhand einer Entscheidungsfunktion, die im Decoder bereits vorhanden ist.
Es wird zunächst angenommen, daß sich der Einfluß der
Kontextwörter und der Anfangsteile eines Kompositums aus den
folgenden unabhängigen Teilstücken zusammensetzt:
- a) Schlußteil des Kompositums, gegeben den Kontext; und
- b) Anfangsteile des Kompositums, gegeben dessen Schlußteil.
Diese Zerlegung der Wahrscheinlichkeiten ist äquivalent mit der
Annahme, daß bei gegebenem Kompositumschlußteil der Anfang des
Kompositums unabhängig vom Kontext ist. Unter diesen Prämissen
gilt mit den Anfangsteilen h1 . . . hn des Kompositums, dem
Schlußteil t des Kompositums, und den beiden unmittelbar dem
Kompositum vorausgehenden Wörter w1 und w2, die Beziehung
Eine weitere Annahme besagt, daß ein Anfangsteil eines
Mehrfachkompositums, der nicht zugleich Wortanfang ist, in der
komposituminternen Statistik hinreichend gut durch die
Wahrscheinlichkeit unter der Bedingung des unmittelbar
vorausgehenden Anfangs teils beschrieben werden kann. Es gilt
demnach:
Pr (hi|hi-1 . . . h₁ w₁ w₂) = Pr (hi|hi-1) (n i < 1) (4)
Schließlich wird angenommen, daß sich der Einfluß des
Kompositumschlußteils auf alle Anfangsteile des Kompositums in
unabhängige Beiträge des Schlußteils auf den letzten
Anfangsteil und der übrigen Anfangsteile auf ihre jeweiligen
Vorgänger zerlegen läßt.
Pr (h₁ . . . hn|t) = Pr (h₁|h₂) . . . Pr (hn-1|hn) Pr (hn|t) (5)
Aus diesen Annahmen läßt sich eine für die Implementierung
wichtige Aussage ableiten, nämlich, daß für den ersten
Kompositumanfangsteil eine Standardtrigramm-Wahrscheinlichkeit
heranzuziehen ist, und daß für die
darauffolgenden Anfangsteile die Wahrscheinlichkeit sich aus
dem Produkt einzelner komposituminterner Bigramm-Wahrscheinlichkeiten
zusammensetzt. Die entsprechende
mathematische Beziehung lautet:
Bei der Bearbeitung eines Mehrfachkompositums ist demnach für
jeden Bestandteil jeweils nur eine vergleichsweise leicht
auf suchbare Wahrscheinlichkeit in Betracht zu ziehen. Mit
diesem Verfahren lassen sich somit die Bearbeitungspfade jedes
Kompositumbestandteiles korrekt bewerten.
Unter den vorgenannten Annahmen folgt schließlich die
Beziehung:
Zur Berechnung der normierten Wahrscheinlichkeit des
Kompositumschlußteils müssen demnach nur die auf dem
Bearbeitungspfad durch das gesamte Kompositum auftretenden
Koeffizienten Pr(hi|hi-1) multipliziert werden, wodurch die
Implementierung dieses Verfahrens erheblich vereinfacht wird.
Claims (16)
1. Verfahren zur Spracherkennung bei Wortkomposita
enthaltenden Sprachen mit folgenden Schritten:
Speichern einer Menge von phonetischen Transkriptionen von Wörtern und Kompositabestandteilen;
Berechnen einer Menge von N-Gramm Häufigkeiten (Sprachmodell) für die Wahrscheinlichkeit des Auftretens eines Kompositums innerhalb einer aus N Wörtern zusammengesetzten Wort folge unter Heranziehung eines vorab verarbeiteten Textkorpus′, und Speichern dieser Menge;
Erfassen und Digitalisieren des akustischen Sprachsignals sowie Speichern des digitalisierten Sprachsignals, wobei mittels einer Signalverarbeitung auf der Grundlage der phonetischen Transkriptionen näherungsweise Wörter und Kompositumbegrenzungen ermittelt werden, aus denen hypothetische Folgen von Wort- und/oder Kompositumkandidaten abgeleitet werden;
Errichten von getrennten Bearbeitungspfaden für Folgen von Kompositumkandidaten und für Folgen von Wortkandidaten;
Statistische Auswertung der Bearbeitungspfade mittels der gespeicherten N-Gramm Häufigkeiten, wobei aus der Folge der N-Gramm Häufigkeiten der Wörter bzw. Kompositabestandteile jedes Bearbeitungspfades Wahrscheinlichkeits-Profile gebildet werden; sowie
Gesamtbewertung der Bearbeitungspfade unter Heranziehung der ermittelten Wahrscheinlichkeits-Profile.
Speichern einer Menge von phonetischen Transkriptionen von Wörtern und Kompositabestandteilen;
Berechnen einer Menge von N-Gramm Häufigkeiten (Sprachmodell) für die Wahrscheinlichkeit des Auftretens eines Kompositums innerhalb einer aus N Wörtern zusammengesetzten Wort folge unter Heranziehung eines vorab verarbeiteten Textkorpus′, und Speichern dieser Menge;
Erfassen und Digitalisieren des akustischen Sprachsignals sowie Speichern des digitalisierten Sprachsignals, wobei mittels einer Signalverarbeitung auf der Grundlage der phonetischen Transkriptionen näherungsweise Wörter und Kompositumbegrenzungen ermittelt werden, aus denen hypothetische Folgen von Wort- und/oder Kompositumkandidaten abgeleitet werden;
Errichten von getrennten Bearbeitungspfaden für Folgen von Kompositumkandidaten und für Folgen von Wortkandidaten;
Statistische Auswertung der Bearbeitungspfade mittels der gespeicherten N-Gramm Häufigkeiten, wobei aus der Folge der N-Gramm Häufigkeiten der Wörter bzw. Kompositabestandteile jedes Bearbeitungspfades Wahrscheinlichkeits-Profile gebildet werden; sowie
Gesamtbewertung der Bearbeitungspfade unter Heranziehung der ermittelten Wahrscheinlichkeits-Profile.
2. Spracherkennungsverfahren nach Anspruch 1, dadurch
gekennzeichnet, daß für einen Kompositumendteil-Kandidaten
W, gegeben einen Kontext C, im Sprachmodell distante N-Grammhäufigkeiten
Pr(W/C) nicht unmittelbar benachbarter
Teile einer Wortfolge gebildet werden.
3. Spracherkennungsverfahren nach Anspruch 1 und/oder 2,
dadurch gekennzeichnet, daß für einen Kompositumendteil-Kandidaten
W, gegeben einen Kompositumanfang A, im
Sprachmodell interne N-Grammhäufigkeiten Pr(A/W) mit
inverser zeitlicher Abfolge der Kompositumbestandteile
gebildet werden.
4. Spracherkennungsverfahren nach einem oder mehreren der
Ansprüche 1 bis 3, dadurch gekennzeichnet, daß die
Bewertung des Sprachkontextes sowohl auf Komposita als
auch auf Kompositabestandteilen beruht.
5. Spracherkennungsverfahren nach einem oder mehreren der
vorhergehenden Ansprüche, dadurch gekennzeichnet, daß
akustische Verschleifungen oder Kontraktionen benachbarter
Wörter mittels einer Kontextfunktion berücksichtigt
werden.
6. Spracherkennungsverfahren nach einem oder mehreren der
vorhergehenden Ansprüche, dadurch gekennzeichnet, daß für
Kompositumkandidaten ein Bearbeitungspfad bereits dann
angelegt wird, wenn ein potentieller Anfangsteil aufgrund
einer spezifischen Pfadbewertung zu einer
Kompositumhypothese beobachtet wird.
7. Spracherkennungsverfahren nach einem oder mehreren der
vorhergehenden Ansprüche, dadurch gekennzeichnet, daß das
Sprachsignal mittels einer Grobabstimmung zur Ermittlung
wahrscheinlicher Wort- bzw. Kompositumgrenzen ausgewertet
wird, und daran anschließend eine Feinabstimmung zwischen
dem akustischen Signal und den jeweiligen Wort- bzw.
Kompositumkandidaten vorgenommen wird.
8. Spracherkennungsverfahren nach einem oder mehreren der
vorhergehenden Ansprüche, dadurch gekennzeichnet, daß für
jeden Bearbeitungspfad Zugriffe auf relevante
Sprachmodelldatenblöcke erfolgen.
9. Spracherkennungsverfahren nach einem oder mehreren der
vorhergehenden Ansprüche, dadurch gekennzeichnet, daß zur
Berechnung der Wahrscheinlichkeit eines Kompositumendteils
von dem vorausgehenden Kontext und dem Anfangsteil des
Kompositums ausgegangen wird.
10. Spracherkennungsverfahren nach Anspruch 9, dadurch
gekennzeichnet, daß eine Wahrscheinlichkeit Pr(W/CA) eines
Kompositumbestandteils W als Kompositumendteil hinter
einem Kompositumanfangsteil A unter Berücksichtigung des
vorausgehenden, aus zwei Wörtern bzw. Komposita
zusammengesetzten Kontextes C, aus dem normierten Produkt
einer innerhalb des Kompositums gebildeten inneren
Bigrammwahrscheinlichkeit Pr(A/W) und einer außerhalb des
Kompositums gebildeten distanten
Trigrammwahrscheinlichkeit Pr (W/C) ermittelt wird.
11. Spracherkennungsverfahren nach Anspruch 9 und/oder 10, bei
Mehrfachkomposita enthaltenden Sprachen, dadurch
gekennzeichnet, daß unter den Annahmen, daß bei gegebenem
Schlußteil der Anfang eines Kompositums unabhängig vom
Kontext ist, daß ein nicht am Kompositumanfang stehender
Anfangsteil eines Mehrfachkompositums durch die
Wahrscheinlichkeit Pr(Ai/Ai-1) seiner Folge auf den
unmittelbar vorausgehenden Anfangsteil bestimmt ist, und
daß sich der Einfluß des Schlußteils auf alle Anfangsteile
des Kompositums in unabhängige Beiträge des Schlußteils
auf den letzten Anfangsteil und der übrigen Anfangsteile
auf ihre jeweiligen Vorgänger zerlegen läßt, zur
Berechnung der normierten Wahrscheinlichkeit des
Kompositumschlußteils auf einem Bearbeitungspfad durch das
Kompositum auftretende Pfadkoeffizienten multipliziert
werden.
12. Anordnung zur Spracherkennung bei Wortkomposita
enthaltenden Sprachen mittels eines
Spracherkennungsverfahrens gemäß einem oder mehreren der
vorhergehenden Ansprüche, mit
einer Einrichtung (1) zur Erfassung des akustischen Sprachsignals;
einer Einrichtung (2) zur Digitalisierung des akustischen Sprachsignals;
einer Einrichtung zur Erstellung einer Menge von phonetischen Transkriptionen von Wörtern und Kompositabestandteilen;
einer Einrichtung (6) zur Erstellung von Listen bezüglich einfacher Wörter, Kompositumanfangsteile und Kompositumendteile;
einer Einrichtung (12) zur Ermittlung der jeweiligen Sprachmodellwahrscheinlichkeiten auf einem Bearbeitungspfad für diese drei Listen;
einer Einrichtung zur Ermittlung (21) von Wahrscheinlichkeits-Profilen für hypothetische Folgen von Wort- und/oder Kompositionskandidaten; und
einer Einrichtung zur Erzeugung und Vernichtung von Bearbeitungspfaden (22) sowie zur Entscheidung über die Erzeugung und die Vernichtung von Bearbeitungspfaden.
einer Einrichtung (1) zur Erfassung des akustischen Sprachsignals;
einer Einrichtung (2) zur Digitalisierung des akustischen Sprachsignals;
einer Einrichtung zur Erstellung einer Menge von phonetischen Transkriptionen von Wörtern und Kompositabestandteilen;
einer Einrichtung (6) zur Erstellung von Listen bezüglich einfacher Wörter, Kompositumanfangsteile und Kompositumendteile;
einer Einrichtung (12) zur Ermittlung der jeweiligen Sprachmodellwahrscheinlichkeiten auf einem Bearbeitungspfad für diese drei Listen;
einer Einrichtung zur Ermittlung (21) von Wahrscheinlichkeits-Profilen für hypothetische Folgen von Wort- und/oder Kompositionskandidaten; und
einer Einrichtung zur Erzeugung und Vernichtung von Bearbeitungspfaden (22) sowie zur Entscheidung über die Erzeugung und die Vernichtung von Bearbeitungspfaden.
13. Spracherkennungsanordnung nach Anspruch 12, mit einer
Einrichtung zur Kennzeichnung von
Kompositabestandteilen als Anfangs- oder Schlußteile.
14. Spracherkennungsanordnung nach Anspruch 12 und/oder
13, mit einer Einrichtung zum Erstellen und Laden von
Datenblöcken von Sprachmodellwahrscheinlichkeiten.
15. Spracherkennungsanordnung nach einem oder mehreren
der Ansprüche 12 bis 14, mit einer Einrichtung zur
Bereitstellung beliebig vieler Kompositamodelle in
Form von Sprachmodellklassen.
16. Spracherkennungsanordnung nach einem oder mehreren
der Ansprüche 12 bis 15, mit einer Einrichtung zur
Erstellung einer Kontextfunktion.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19510083A DE19510083C2 (de) | 1995-03-20 | 1995-03-20 | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen |
JP08528007A JP3086260B2 (ja) | 1995-03-20 | 1995-06-07 | 複合語を有する言語における音声認識の方法及びシステム |
US08/737,840 US5797122A (en) | 1995-03-20 | 1995-06-07 | Method and system using separate context and constituent probabilities for speech recognition in languages with compound words |
PCT/EP1995/002184 WO1996029695A1 (de) | 1995-03-20 | 1995-06-07 | Verfahren und anordnung zur spracherkennung bei wortkomposita enthaltenden sprachen |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19510083A DE19510083C2 (de) | 1995-03-20 | 1995-03-20 | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19510083A1 DE19510083A1 (de) | 1996-09-26 |
DE19510083C2 true DE19510083C2 (de) | 1997-04-24 |
Family
ID=7757181
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19510083A Expired - Fee Related DE19510083C2 (de) | 1995-03-20 | 1995-03-20 | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen |
Country Status (4)
Country | Link |
---|---|
US (1) | US5797122A (de) |
JP (1) | JP3086260B2 (de) |
DE (1) | DE19510083C2 (de) |
WO (1) | WO1996029695A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
Families Citing this family (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983177A (en) * | 1997-12-18 | 1999-11-09 | Nortel Networks Corporation | Method and apparatus for obtaining transcriptions from multiple training utterances |
DE19842404A1 (de) * | 1998-09-16 | 2000-03-23 | Philips Corp Intellectual Pty | Verfahren zur Schätzung von Auftrittswahrscheinlichkeiten für Sprachvokabularelemente |
US6393399B1 (en) * | 1998-09-30 | 2002-05-21 | Scansoft, Inc. | Compound word recognition |
US6928404B1 (en) * | 1999-03-17 | 2005-08-09 | International Business Machines Corporation | System and methods for acoustic and language modeling for automatic speech recognition with large vocabularies |
US6349282B1 (en) * | 1999-04-20 | 2002-02-19 | Larnout & Hauspie Speech Products N.V. | Compound words in speech recognition systems |
US7120582B1 (en) | 1999-09-07 | 2006-10-10 | Dragon Systems, Inc. | Expanding an effective vocabulary of a speech recognition system |
EP1083545A3 (de) * | 1999-09-09 | 2001-09-26 | Xanavi Informatics Corporation | Eigennamen Spracherkennung in einem Navigationssystem |
JP3364631B2 (ja) * | 1999-09-17 | 2003-01-08 | 株式会社国際電気通信基礎技術研究所 | 統計的言語モデル生成装置及び音声認識装置 |
US20030009331A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Grammars for speech recognition |
US7610189B2 (en) * | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
DE10220522B4 (de) * | 2002-05-08 | 2005-11-17 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse |
DE10220520A1 (de) * | 2002-05-08 | 2003-11-20 | Sap Ag | Verfahren zur Erkennung von Sprachinformation |
EP1361740A1 (de) * | 2002-05-08 | 2003-11-12 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachinformationen eines Dialogs |
DE10220521B4 (de) * | 2002-05-08 | 2005-11-24 | Sap Ag | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen |
US7680649B2 (en) * | 2002-06-17 | 2010-03-16 | International Business Machines Corporation | System, method, program product, and networking use for recognizing words and their parts of speech in one or more natural languages |
USH2187H1 (en) | 2002-06-28 | 2007-04-03 | Unisys Corporation | System and method for gender identification in a speech application environment |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
JP4943335B2 (ja) * | 2004-09-23 | 2012-05-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 話者に依存しない堅牢な音声認識システム |
WO2005057425A2 (en) * | 2005-03-07 | 2005-06-23 | Linguatec Sprachtechnologien Gmbh | Hybrid machine translation system |
WO2005057424A2 (en) * | 2005-03-07 | 2005-06-23 | Linguatec Sprachtechnologien Gmbh | Methods and arrangements for enhancing machine processable text information |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US7475344B1 (en) | 2008-05-04 | 2009-01-06 | International Business Machines Corporation | Genders-usage assistant for composition of electronic documents, emails, or letters |
US9053708B2 (en) * | 2012-07-18 | 2015-06-09 | International Business Machines Corporation | System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment |
GB201321927D0 (en) | 2013-12-11 | 2014-01-22 | Touchtype Ltd | System and method for inputting text into electronic devices |
KR102413693B1 (ko) * | 2015-07-23 | 2022-06-27 | 삼성전자주식회사 | 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL8702359A (nl) * | 1986-10-03 | 1988-05-02 | Ricoh Kk | Taal analyse inrichting. |
JPH03120598A (ja) * | 1989-10-03 | 1991-05-22 | Canon Inc | 音声認識方法及び装置 |
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
JP3508114B2 (ja) * | 1992-03-05 | 2004-03-22 | セイコーエプソン株式会社 | 液晶装置及びその駆動方法並びに駆動回路 |
WO1993018506A1 (en) * | 1992-03-06 | 1993-09-16 | Dragon Systems, Inc. | Speech recognition system for languages with compound words |
JPH0772840B2 (ja) * | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
-
1995
- 1995-03-20 DE DE19510083A patent/DE19510083C2/de not_active Expired - Fee Related
- 1995-06-07 US US08/737,840 patent/US5797122A/en not_active Expired - Fee Related
- 1995-06-07 JP JP08528007A patent/JP3086260B2/ja not_active Expired - Fee Related
- 1995-06-07 WO PCT/EP1995/002184 patent/WO1996029695A1/de active Application Filing
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7343288B2 (en) | 2002-05-08 | 2008-03-11 | Sap Ag | Method and system for the processing and storing of voice information and corresponding timeline information |
US7406413B2 (en) | 2002-05-08 | 2008-07-29 | Sap Aktiengesellschaft | Method and system for the processing of voice data and for the recognition of a language |
Also Published As
Publication number | Publication date |
---|---|
DE19510083A1 (de) | 1996-09-26 |
JPH09509509A (ja) | 1997-09-22 |
JP3086260B2 (ja) | 2000-09-11 |
WO1996029695A1 (de) | 1996-09-26 |
US5797122A (en) | 1998-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19510083C2 (de) | Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen | |
DE69311303T2 (de) | Sprachtrainingshilfe für kinder. | |
DE69832393T2 (de) | Spracherkennungssystem für die erkennung von kontinuierlicher und isolierter sprache | |
DE69625950T2 (de) | Verfahren und Vorrichtung zur Spracherkennung und Übersetzungssystem | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE60124842T2 (de) | Rauschrobuste Mustererkennung | |
DE60026637T2 (de) | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems | |
DE69315374T2 (de) | Spracherkennungssystem zur naturgetreuen Sprachübersetzung | |
DE69225371T2 (de) | Schlüsselwörtererkennung in einem zusammenhängenden Text mittels zweier "Hidden Markov" Modelle | |
DE69908254T2 (de) | System zur Suchoptimierung und Verfahren zur kontinuierlichen Spracherkennung | |
EP0925579B1 (de) | Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem | |
DE69324428T2 (de) | Verfahren zur Sprachformung und Gerät zur Spracherkennung | |
DE69009522T2 (de) | Diagrammanalysator für stochastische Unifikationsgrammatik. | |
DE69725802T2 (de) | Vorfilterung mittels lexikalischer Bäumen für die Spracherkennung | |
DE69524036T2 (de) | Vorrichtung zur erkennung von gesprächsthemen | |
DE69818231T2 (de) | Verfahren zum diskriminativen training von spracherkennungsmodellen | |
DE69321656T2 (de) | Verfahren zur Spracherkennung | |
DE60124559T2 (de) | Einrichtung und verfahren zur spracherkennung | |
DE69613556T2 (de) | Schlüsselworterkennung | |
DE20004416U1 (de) | Spracherkennungsvorrichtung unter Verwendung mehrerer Merkmalsströme | |
DE68924134T2 (de) | Spracherkennungssystem. | |
DE69738116T2 (de) | Lokalisierung eines Musters in einem Signal | |
DE60318385T2 (de) | Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm | |
EP1078355B1 (de) | Verfahren und anordnung zur einführung zeitlicher abhängigkeit in hidden-markov-modellen für die spracherkennung | |
DE60018696T2 (de) | Robuste sprachverarbeitung von verrauschten sprachmodellen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |