DE10311581A1 - Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen - Google Patents
Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen Download PDFInfo
- Publication number
- DE10311581A1 DE10311581A1 DE10311581A DE10311581A DE10311581A1 DE 10311581 A1 DE10311581 A1 DE 10311581A1 DE 10311581 A DE10311581 A DE 10311581A DE 10311581 A DE10311581 A DE 10311581A DE 10311581 A1 DE10311581 A1 DE 10311581A1
- Authority
- DE
- Germany
- Prior art keywords
- database
- text
- speech recognition
- recognition system
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Die Erfindung betrifft ein Verfahren zum Aufbau und/oder zur Erweiterung einer Wortschatzdatenbank (2) eines Spracherkennungssystems (1) durch akustisches Trainieren des Spracherkennungssystems (1), bei dem das Spracherkennungssystem (1) durch ein computergestütztes Audiomodul trainiert wird. Die Erfindung betrifft weiterhin ein Spracherkennungssystem mit einer Wortschatzdatenbank und einer Sprachsynthese-Einheit (14), der zum Aufbau und/oder zur Erweiterung der Wortschatzdatenbank (2) durch akustisches Vorsprechen Textdaten aus einer Textdatenbank (13) zuführbar sind, die durch eine automatische Suche nach Textdaten zu einem vorgegebenen Suchbegriff in einem Telekommunikationsnetzwerk (4) generiert ist.
Description
- Die Erfindung betrifft ein Verfahren zum Aufbau und/oder zur Erweiterung einer Wortschatzdatenbank eines Spracherkennungssystems durch akustisches Trainieren des Spracherkennungssystems. Die Erfindung betrifft weiterhin ein Spracherkennungssystem mit einer Wortschatzdatenbank.
- Spracherkennungssysteme sind allgemein bekannt und werden mittlerweile in verschiedenen Anwendungsgebieten eingesetzt. Beispielsweise kann ein Spracherkennungssystem eingesetzt werden, um in Abkehr von einer manuellen Bedienung eine Datenverarbeitungsanlage oder eine jegliche Maschine mittels Sprachbefehlen zu bedienen.
- Ebenso gibt es Anwendungen in Form von sogenannten Diktierprogrammen, bei dem ein Spracherkennungssystem die von einem Benutzer in ein Mikrofon eingesprochenen Worte analysiert, erkennt und in Textdaten umsetzt, so dass hierdurch ein direktes Diktieren von Text in eine Textverarbeitung eines Rechnersystems ermöglicht wird.
- Die Grundlage eines jeglichen solchen Spracherkennungssystemes bildet eine Wortschatzdatenbank, die für einen Vergleich des von einem Benutzer gesprochenen Wortes mit dem gespeicherten Wortschatz herangezogen wird, um mit einer hohen Genauigkeit feststellen zu können, welches Wort ein Benutzer gesprochen hat und dementsprechend im Text umzusetzen ist.
- Eine derartige Wortschatzdatenbank enthält nicht die Worte im eigentlichen Sinn, sondern Daten/Parameter, die aus gesprochenen Worten ermittelt wurden und grundsätzlich von der Art des Erkennungsalgorithmus abhängig sind, der einer Spracherkennung zugrunde gelegt wird.
- So ist es bekannt, verschiedene Methoden der Spracherkennung einzusetzen, die beispielsweise häufig auf den sogenannten Hidden-Markov-Modellen oder dem „dynamic pattern matching" bzw. „dynamic time warping" beruhen, bei dem ein untersuchtes Wort mit Referenzwörtern verglichen wird, die im Wortschatz gespeichert sind.
- Häufig haben die verschiedenen Möglichkeiten der Spracherkennung gemeinsam, dass ein erhaltenes Sprachsignal einer akustische Vorverarbeitung unterzogen wird, bei der die Wörter in Phoneme unterteilt werden, d.h. in sprachlich kleinste Einheiten. Hierzu wird eine funktionelle Analyse der verschiedenen möglichen Laute einer Sprache vorgenommen.
- Es können z.B. in einem ersten Schritt einer Spracherkennung Kurzzeitspektren eines akustischen Signals aufgenommen werden, die in einer Analyse direkt oder nach einer Datenverarbeitung als Muster dienen für einen Vergleich mit in einer Wortschatzdatenbank abgespeicherten Referenzmustern.
- Unabhängig von der Art des Algorithmus bedarf es dementsprechend immer einer Wortschatzdatenbank bzw. deren Parameter mit einem für den verwendeten Algorithmus wortschatztypischen Aufbau, die zur Erkennung von gesprochenen Worten verwendet wird. Hierbei wird in Verbindung mit Spracherkennungsprogrammen oder -systemen üblicherweise eine Standardwortschatzdatenbank mitgeliefert, mit der bereits eine hohe Erkennungsquote der von einem Benutzer gesprochenen Worte möglich ist.
- Häufig besteht jedoch noch die Notwendigkeit eine Wortschatzdatenbank für ein neues Sprachfeld zu erweitern, insbesondere dann, wenn Fachworte verwendet werden, die bislang in der Wortschatzdatenbank nicht zur Verfügung standen. Zur Aufnahme derartiger Fachworte bzw. allgemein von neu zu erlernenden Worten ist es üblicherweise vorgesehen ein Spracherkennungssystem akustisch zu trainieren, was bedeutet, dass dem Spracherkennungssystem die neu zu lernenden Worte vorgesprochen werden. Durch Aufnahme dieser neu vorgesprochenen Worte in die Wortschatzdatenbank wird dementsprechend die Wortschatzdatenbank kontinuierlich vergrößert, so dass das Spracherkennungssystem einen neuen Wortschatz erlernen kann.
- Im Stand der Technik ist es bekannt derartige Wortschatzdatenbanken üblicherweise durch hohen personellen Aufwand aufzubauen bzw. zu erarbeiten. Hierfür werden die neu aufzunehmenden Worte zusammengestellt, bearbeitet und in mühevoller personeller Arbeit durch Menschen z.B. in eine akustische Datenbank aufgesprochen, mit der dann ein Spracherkennungssystem auf die bekannte Art und Weise akustisch trainiert wird.
- Hierbei wird unter einem akustischen Trainieren nicht nur verstanden, dass neu zu lernende Worte zunächst in akustische Schallwellen gewandelt werden und über einen Mikrofoneingang einem Spracherkennungssystem zur Verfügung gestellt werden. Grundsätzlich kann beim akustischen Trainieren eines Spracherkennungssystems eine Schallwandlung unterbleiben und dem Spracherkennungssystem sofortig die akustischen Daten elektronisch zur Verfügung gestellt werden.
- Dies ist z.B. der Fall, wenn eine Tonbandaufzeichnung direkt in den Mikrofoneingang eines Spracherkennungssystems elektronisch eingespielt wird, ohne vorher eine Schallwandlung vorzunehmen. Auch ein derartiges Trainieren eines Spracherkennungssystems wird im Sinne dieser Erfindung als akustisches Trainieren verstanden, da das Training auf akustischen, wenn auch nur elektronisch vorliegenden Signalen beruht.
- Das Aufbauen und Erweitern einer Wortschatzdatenbank und deren Parameter, wie im Stand der Technik bekannt, stellt dementsprechend einen großen manuellen und personellen Aufwand dar, so dass derartige Datenbanken nur unter Einsatz großer Kosten erstellt, erarbeitet und erweitert werden können.
- Aufgabe der Erfindung ist es ein Verfahren und ein System zum Aufbau und/oder zur Erweiterung einer Wortschatzdatenbank eines Spracherkennungssystems bereitzustellen, mit dem auf kostengünstige Art und Weise ohne personellen Einsatz eine Wortschatzdatenbank aufgebaut oder eine bestehende erweitert werden kann.
- Aufgrund des hohen personellen Aufwandes durch viele verschiedene Menschen ergeben sich im Stand der Technik auch Probleme im Trainingsprozeß des Spracherkennungssystem, da jeder Mensch ein anderes Stimmbild hat, welches mit dem der später bedienenden Person nicht übereinstimmt.
- Diese Aufgabe wird gemäß der Erfindung dadurch gelöst, dass das Spracherkennungssystem durch ein computergestütztes Audiomodul trainiert wird.
- Der Grundgedanke der Erfindung liegt darin, ein Spracherkennungssystem statt durch eine Person zu trainieren bzw. die Wortschatzdatenbank durch Personen zu erstellen/erweitern, die neu zu erlernenden Worte automatisiert vorzusprechen.
- Gemäß der Erfindung ist es vorgesehen, dass dieses Vorsprechen neu zu erlernender Worte durch ein computergestütztes Audiomodul erfolgt. Dementsprechend kann hier der personelle Aufwand minimiert werden, so dass die Wortschatzdatenbanken mittels des erfindungsgemäßen Verfahrens äußerst kostengünstig und standarisiert erstellt werden können.
- Gemäß der Erfindung ist es bevorzugt vorgesehen, dass dem Audiomodul Wortschatzinformationen zugeführt werden, die das Audiomodul dem Spracherkennungssystem automatisch zur Erweiterung der Wortschatzdatenbank vorspricht. Wie oben erwähnt, setzt dieses Vorsprechen nicht notwendigerweise eine Wandlung der Wortschatzinformationen mittels eines Lautsprechersystems in Schall voraus, der dann anschließend mit einem Mikrofonsystem wiederum in ein elektrisches Signal gewandelt wird, sondern es besteht auch hier die Möglichkeit die Schallwandlung zu umgehen und sofortig das akustische elektrische Signal dem Spracherkennungssystem zur Verfügung zu stellen.
- Besonders bevorzugt wird bei dem erfindungsgemäßen Verfahren das Audiomodul die Wortschatzinformationen von einer Sprachdatenbank und/oder über ein Telekommunikationsnetzwerk erhalten. Gerade bei einer Lieferung der Wortschatzinformationen über ein Telekommunikationsnetzwerk besteht beispielsweise die Möglichkeit im sogenannten streaming modus die Daten zur Verfügung zu stellen. Dies kann beispielsweise über das Internet erfolgen, wenn z.B. Radiosendungen über das Internet empfangen werden. So besteht z.B. die Möglichkeit über das Internet das in einer Radiosendung verwendete Fachvokabular zu einem bestimmten Thema einem Spracherkennungssystem automatisch beizubringen, indem diese Streamingdaten dem Audiomodul zur Verfügung gestellt werden, welches sodann automatisch diese Sprachdaten dem Spracherkennungssystem vorspricht.
- In einer weiteren bevorzugten Ausführung des erfindungsgemäßen Verfahrens kann es vorgesehen sein, dass die genannte Sprachdatenbank durch eine automatisierte Sprachsynthese von Textinformationen in einer Sprachsyntheseeinheit erzeugt wird. Hierbei können die Textinformationen z.B. einer Textdatenbank entnommen werden. Es besteht somit die Möglichkeit auf beliebige bestehende Textdatenbanken Rückgriff zu nehmen und die darin gespeicherten Textdaten durch eine Sprachsyntheseeinheit in Sprachinformationen umzuwandeln, die sodann in eine Sprachdatenbank eingeschrieben werden, welche ihrerseits dann wiederum dem Spracherkennungssystem zum Training zur Verfügung gestellt wird, wofür die in der Sprachdatenbank gespeicherten Sprachdaten z.B. über das Audiomodul dem Spracherkennungssystem vorgesprochen werden.
- In einer besonders bevorzugten Ausführung kann das Audiomodul eines Spracherkennungssystems selbst eine derartige Sprachsyntheseeinheit umfassen, so dass Textinformationen, insbesondere aus einer Textdatenbank, direkt von dem Spracherkennungssystem in Sprachinformationen gewandelt werden können, um anhand dieser Informationen das Training und somit die Erweiterung der Wortschatzdatenbank durchzuführen.
- Die künstliche Sprachsynthese hat hier den Vorteil, dass das Spracherkennungssystem die Wortschatzinformationen immer mit einer „genormten" Stimme vorgesprochen erhält, so dass weniger Probleme beim akustischen Trainieren vorkommen. Hierbei kann es vorgesehen sein, dass der Sprachsyntheseeinheit bestimmte gewünschte Sprach-Parameter bzw. Stimm-Parameter vorgegeben werden, z.B. hinsichtlich Geschlecht, der künstlichen Stimme, Alter, Körperbau, Dialekt, etc., um eine möglichst nahe Anpassung an den späteren tatsächlichen Benutzer des Spracherkennungssystems zu erreichen.
- Visuelle textliche Informationen können dem System automatisiert vorgegeben werden, z.B. durch ein Einscannen von Textdarstellungen.
- Neben der Möglichkeit vorhandene Textdatenbanken einzusetzen, kann das erfindungsgemäße Verfahren auch derart durchgeführt werden, dass die Textinformationen der Sprachsyntheseeinheit von einer automatisch erzeugten Textdatenbank zugeführt werden.
- Eine derartig automatisch erzeugte Textdatenbank kann für einen spezifischen Fall automatisch generiert werden, beispielsweise wenn Vokabular einer bestimmten Fachrichtung gezielt dem Spracherkennungssystem beigebracht werden soll. Hierfür kann es gemäß dem erfindungsgemäßen Verfahren bevorzugt vorgesehen sein, dass in der Textdatenbank automatisch die Textdaten zu wenigstens einer Textdatenquelle gespeichert werden, die über wenigstens eine Suchmaschine in einem internen oder externen Telekommunikationsnetzwerk, insbesondere dem Internet, zu wenigstens einem vorgegebenen Suchbegriff ermittelt werden.
- Bekannt ist es, dass z.B. im Internet als einem möglichen externen Kommunikationsnetzwerk durch Eingabe eines gewünschten Suchbegriffes in einer Suchmaschine eine Vielzahl sogenannter Links aufgefunden werden, unter denen Textdaten zu finden sind, die in engem Zusammenhang mit dem eingegebenen Suchbegriff stehen. Insofern können auf diese Art und Weise sehr schnell und vor allen Dingen kostengünstig erhebliche, z.B. statistisch relevante Mengen von Textdaten aufgefunden werden, die thematisch mit dem Suchbegriff in Verbindung stehen und im Rahmen des erfindungsgemäßen Verfahrens dem Spracherkennungssystem zum Training zur Verfügung gestellt werden.
- Hierfür kann es vorgesehen sein, dass durch eine Datenverarbeitungsanlage, gegebenenfalls durch das Spracherkennungssystem selbst, automatisch die Textdaten von den ermittelten Textdatenquellen, also im Internet z.B. unter den verlinkten Adressen, gelesen und in der Textdatenbank gespeichert werden. So wird auf einfache und schnelle Art und Weise eine sehr große Textdatenbank aufgebaut, deren Inhalt mit dem Suchbegriff korreliert.
- Da diese Textdaten gegebenenfalls auch solche Daten umfassen, die keinen Beitrag zur Wortschatzdatenbank liefern sollen, wie beispielsweise übliche Füllworte oder Standardvokabular, kann es vorgesehen sein, dass die Textdaten in der Textdatenbank vor einer Sprachsynthese analysiert und bearbeitet werden. Neben dem Entfernen von Füllworten kann es auch vorgesehen sein z.B. Mehrfachnennungen aus der Textdatenbank zu streichen und auch Informationen hinsichtlich einer Häufigkeitsverteilung bestimmter Worte zu erstellen, wobei diese Informationen ebenfalls in den Trainingsprozess des Spracherkennungssystems mit einfließen können, ebenso wie Informationen über Wahrscheinlichkeiten, mit denen bestimmte Textdaten untereinander in Verbindung stehen.
- So ist es beispielsweise bekannt bei einer Spracherkennung auch eine sogenannte Kontextprüfung durchzuführen, bei der ermittelt wird, mit welcher Wahrscheinlichkeit auf ein ermitteltes Wort ein anderes Wort folgt, um aus mehreren möglichen Varianten eine sinnvolle Variante herauszusuchen. Dies wird beispielsweise durchgeführt, um Probleme mit Homophonen zu vermeiden, d.h. mit Worten, die gleich klingen, aber unterschiedliche Bedeutung haben.
- Derartige Informationen z.B. über Kontextwahrscheinlichkeiten oder auch andere weitere Informationen jeglicher Art können gemäß der Erfindung vor der Durchführung einer Sprachsynthese aus den ermittelten Textdaten gewonnen und ergänzend einem Spracherkennungssystem zur Verfügung gestellt werden.
- Gemäß der Erfindung umfasst dementsprechend im einfachsten Fall ein Spracherkennungssystem eine Wortschatzdatenbank sowie eine Sprachsyntheseeinheit, der zum Aufbau und/oder zur Erweiterung der Wortschatzdatenbank durch ein akustisches Vorsprechen Textdaten aus einer Textdatenbank zuführbar sind, wobei diese Textdatenbank erfindungsgemäß durch eine automatische Suche nach Textdaten zu einem vorgegebenen Suchbegriff in einem Telekommunikationsnetzwerk generiert ist.
- Ein Ausführungsbeispiel der Erfindung ist in den nachfolgenden Zeichnungen näher erläutert. Es zeigen:
-
1 ein Spracherkennungssystem mit einem Anschluss an das Internet; -
2 eine genauere schematische Darstellung eines Spracherkennungssystems - Die
1 zeigt ein Spracherkennungssystem1 , welches Zugriff auf eine Wortschatzdatenbank2 hat und von einem Benutzer3 bedient wird. Ein derartiges System kann z. B. durch einen Heim-PC mit einem Diktierprogramm gebildet sein. - Neben der hier nicht weiter erläuterten Möglichkeit zur Spracherkennung z.B. im Rahmen einer Diktierfunktion innerhalb eines Textverarbeitungsprogramms ist gemäß der Erfindung das Spracherkennungssystem
1 über entsprechende Telekommunikationsleitungen mit dem Internet4 verbunden. - Möchte nun ein Benutzer
3 den Sprachwortschatz in der Wortschatzdatenbank2 z. B. durch spezifisches Fachvokabular erweitern, so kann der Benutzer3 z. B. über ein Computerterminal dem Spracherkennungssystem einen Suchbegriff vorgeben, der in dem entsprechenden, neu zu erlernenden Fachbereich typisch ist. Über das erfindungsgemäße Spracherkennungssystem1 wird mittels des Internets4 z. B. eine erste Suchmaschine5 angesprochen, in die der Suchbegriff eingetragen wird, woraufhin die Suchmaschine 5 im Internet bzw. in einer ihr zugeordneten Datenbank6 nach Textdaten bzw. Hyperextdaten sucht, in denen der Suchbegriff vorkommt, woraufhin diese Textdaten ebenfalls wiederum über das Internet dem Spracherkennungssystem zur Verfügung gestellt werden. - Hier kann es auch vorgesehen sein, dass das Spracherkennungssystem
1 über das Internet zunächst eine zentrale Suchmaschine7 mit der Suche nach dem gewünschten Begriff beauftragt, die ihrerseits auf mehrere Datenbanken8 und9 Zugriff hat und darüber hinaus noch weitere dezentrale Suchmaschinen10 und11 beauftragt, die ihrerseits in entsprechend zugeordneten Datenbanken nach dem Suchbegriff recherchieren. So kann also auch durch das Spracherkennungssystem eine sogenannte Meta-Suchmaschine beauftragt werden, die die Suche auf weitere Suchmaschinen unterverteilt. - Die insgesamt erhaltenen Textdatenmengen können dezentral oder auch zentral im Spracherkennungssystem gesammelt werden und gegebenenfalls nach einer Vorverarbeitung zum Trainieren des Spracherkennungssystems mittels einer Sprachsyntheseeinheit herangezogen werden. Dieses Vorgehen ist in der
2 näher erläutert. - Gemäß der
2 kann ein Benutzer3 über ein Computersystem12 eine Suchbegriffsanfrage starten z.B. über eine Telekommunikationsverbindung in das Internet4 an eine oder mehrere Suchmaschinen5 , die z.B. Dantenbanken6 Zugriff haben. - Die ermittelten Textquellen, im Internet als Links bezeichnet, werden gemäß dem erfindungsgemäßen Verfahren z.B. bevorzugt durch das Computersystem
12 automatisch aufgerufen, so dass die darin enthaltenen Textdaten gesammelt und in eine Textdatenbank13 übermittelt werden können, wo diese Textdaten gesammelt und gegebenenfalls überarbeitet werden, z.B. in dem Sinne, dass Füllworte gestrichen, Mehrfachnennungen eliminiert und gegebenenfalls Kontextzusammenhänge festgestellt werden. - Die gesammelten, in der Textdatenbank
13 vorgehaltenen Textdaten können sodann einer Sprachsyntheseeinheit14 zugeführt werden, wodurch die Textdaten in Sprachinformationen konvertiert werden und in der Datenbank2 abgelegt werden. - Nach dieser Sprachkonversion erfolgt die eigentliche Lernphase, d.h. dem Spracherkennungssystem
1 werden intern gegebenenfalls ohne eine Schallwandlung nur auf elektronischem Wege die Sprachdaten aus der Datenbank2 vorgesprochen, wobei eine interne Datenbank des Spracherkennungssystem1 erweitert wird. - Die einzelnen Elemente
1 ,12 ,13 ,14 und2 können auch zu einem Modul15 zusammengefasst werden. - Das erfindungsgemäße Verfahren bietet dementsprechend zusammenfassend eine sehr kostengünstige Möglichkeit eine bestehende Wortschatzdatenbank eines Spracherkennungssystems bzw. eine neu aufzubauende Wortschatzdatenbank zu generieren, in dem automatisch auf eine Fülle von Textdaten der entsprechenden Datenbanken Rückgriff genommen wird, wobei diese Textdaten bevorzugt durch eine Sprachsyntheseeinheit dem Spracherkennungssystem vorgesprochen werden, um den Lernprozess auszuführen.
Claims (10)
- Verfahren zum Aufbau und/oder zur Erweiterung einer Wortschatzdatenbank (
2 ) eines Spracherkennungssystems (1 ) durch akustisches Trainieren des Spracherkennungssystems (1 ), dadurch gekennzeichnet, dass das Spracherkennungssystem (1 ) durch ein computergestütztes Audiomodul trainiert wird. - Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass dem Audiomodul Wortschatz-Informationen zugeführt werden, die das Audiomodul dem Spracherkennungssystem (
1 ) automatisiert zur Erweiterung der Wortschatzdatenbank (2 ) vorspricht. - Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Audiomodul die Wortschatz-Informationen von einer Sprachdatenbank und/oder über ein Telekommunikationsnetzwerk (
4 ), insbesondere im Streaming-Modus, erhält. - Verfahren nach Anspruch 3, dadurch gekennzeichnet, dass die Sprachdatenbank durch automatisierte Sprachsynthese von Textinformationen in einer Sprachsynthese-Einheit (
14 ), insbesondere aus einer Textdatenbank (13 ), erzeugt wird. - Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass das Audiomodul eine Sprachsynthese-Einheit (
14 ) umfasst, die Textinformationen, insbesondere aus einer Textdatenbank (13 ), in Sprachinformationen wandelt. - Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Textinformationen der Sprachsynthese-Einheit (
14 ) von einer automatisch erzeugten Textdatenbank (13 ) zugeführt werden. - Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass in der Textdatenbank (
13 ) automatisch die Textdaten zu wenigstens einer Textdatenquelle gespeichert werden, die über wenigstens eine Suchmaschine (5 ,7 ,10 ,11 ) in einem internen oder externen Telekommunikationsnetzwerk (4 ), insbesondere dem Internet, zu wenigstens einem vorgegebenen Suchbegriff ermittelt werden. - Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass durch eine Datenverarbeitungsanlage automatisch die Textdaten von den ermittelten Textdatenquellen gelesen und in der Textdatenbank (
13 ) gespeichert werden. - Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, dass die Textdaten in der Textdatenbank (
13 ) vor einer Sprachsynthese (14 ) analysiert und bearbeitet werden. - Spracherkennungssystem mit einer Wortschatzdatenbank, gekennzeichnet durch eine Sprachsynthese-Einheit (
14 ), der zum Aufbau und/oder zur Erweiterung der Wortschatzdatenbank (2 ) durch akustisches Vorsprechen Textdaten aus einer Textdatenbank (13 ) zuführbar sind, die durch eine automatische Suche nach Textdaten zu einem vorgegebenen Suchbegriff in einem Telekommunikationsnetzwerk (4 ) generiert ist.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10311581A DE10311581A1 (de) | 2003-03-10 | 2003-03-10 | Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen |
US10/797,382 US20040181407A1 (en) | 2003-03-10 | 2004-03-10 | Method and system for creating speech vocabularies in an automated manner |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10311581A DE10311581A1 (de) | 2003-03-10 | 2003-03-10 | Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen |
Publications (1)
Publication Number | Publication Date |
---|---|
DE10311581A1 true DE10311581A1 (de) | 2004-09-23 |
Family
ID=32892265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10311581A Ceased DE10311581A1 (de) | 2003-03-10 | 2003-03-10 | Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040181407A1 (de) |
DE (1) | DE10311581A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2325836A1 (de) * | 2009-11-24 | 2011-05-25 | Deutsche Telekom AG | Verfahren und System für das Training von Sprachverarbeitungseinrichtungen |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8090082B2 (en) | 2006-01-23 | 2012-01-03 | Icall, Inc. | System, method and computer program product for extracting user profiles and habits based on speech recognition and calling history for telephone system advertising |
WO2009055819A1 (en) * | 2007-10-26 | 2009-04-30 | Honda Motor Co., Ltd. | Improving free-speech command classification for car navigation system |
US11048765B1 (en) | 2008-06-25 | 2021-06-29 | Richard Paiz | Search engine optimizer |
US10922363B1 (en) * | 2010-04-21 | 2021-02-16 | Richard Paiz | Codex search patterns |
US8949124B1 (en) * | 2008-09-11 | 2015-02-03 | Next It Corporation | Automated learning for speech-based applications |
US11741090B1 (en) | 2013-02-26 | 2023-08-29 | Richard Paiz | Site rank codex search patterns |
US11809506B1 (en) | 2013-02-26 | 2023-11-07 | Richard Paiz | Multivariant analyzing replicating intelligent ambience evolving system |
US10769184B2 (en) | 2015-06-05 | 2020-09-08 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
US11423023B2 (en) | 2015-06-05 | 2022-08-23 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
US10360902B2 (en) * | 2015-06-05 | 2019-07-23 | Apple Inc. | Systems and methods for providing improved search functionality on a client device |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
DE69420801T2 (de) * | 1993-09-06 | 2000-07-06 | Alcatel, Paris | Verfahren zur Erzeugung von Komponenten einer Sprachdatenbasis unter Verwendung der Sprachsynthesetechnik und Gerät zur automatischen Spracherkennung |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6279029B1 (en) * | 1993-10-12 | 2001-08-21 | Intel Corporation | Server/client architecture and method for multicasting on a computer network |
US5835667A (en) * | 1994-10-14 | 1998-11-10 | Carnegie Mellon University | Method and apparatus for creating a searchable digital video library and a system and method of using such a library |
DE69635015T2 (de) * | 1995-11-17 | 2006-03-30 | At & T Corp. | Automatische vokabularerzeugung für auf einem telekommunikationsnetzwerk basierte sprachgesteuerte wahl |
US5809471A (en) * | 1996-03-07 | 1998-09-15 | Ibm Corporation | Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary |
US6185530B1 (en) * | 1998-08-14 | 2001-02-06 | International Business Machines Corporation | Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system |
DE60026637T2 (de) * | 1999-06-30 | 2006-10-05 | International Business Machines Corp. | Verfahren zur Erweiterung des Wortschatzes eines Spracherkennungssystems |
US20020049848A1 (en) * | 2000-06-12 | 2002-04-25 | Shaw-Yueh Lin | Updatable digital media system and method of use thereof |
US6934756B2 (en) * | 2000-11-01 | 2005-08-23 | International Business Machines Corporation | Conversational networking via transport, coding and control conversational protocols |
US7035804B2 (en) * | 2001-04-26 | 2006-04-25 | Stenograph, L.L.C. | Systems and methods for automated audio transcription, translation, and transfer |
US7093277B2 (en) * | 2001-05-30 | 2006-08-15 | Digeo, Inc. | System and method for improved multi-stream multimedia transmission and processing |
US20030007609A1 (en) * | 2001-07-03 | 2003-01-09 | Yuen Michael S. | Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers |
US20040049389A1 (en) * | 2002-09-10 | 2004-03-11 | Paul Marko | Method and apparatus for streaming text to speech in a radio communication system |
-
2003
- 2003-03-10 DE DE10311581A patent/DE10311581A1/de not_active Ceased
-
2004
- 2004-03-10 US US10/797,382 patent/US20040181407A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE69420801T2 (de) * | 1993-09-06 | 2000-07-06 | Alcatel, Paris | Verfahren zur Erzeugung von Komponenten einer Sprachdatenbasis unter Verwendung der Sprachsynthesetechnik und Gerät zur automatischen Spracherkennung |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2325836A1 (de) * | 2009-11-24 | 2011-05-25 | Deutsche Telekom AG | Verfahren und System für das Training von Sprachverarbeitungseinrichtungen |
Also Published As
Publication number | Publication date |
---|---|
US20040181407A1 (en) | 2004-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60124842T2 (de) | Rauschrobuste Mustererkennung | |
DE60005326T2 (de) | Erkennungseinheiten mit komplementären sprachmodellen | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE69427083T2 (de) | Spracherkennungssystem für mehrere sprachen | |
DE60216069T2 (de) | Sprache-zu-sprache erzeugungssystem und verfahren | |
DE60124225T2 (de) | Verfahren und Vorrichtung zur Erkennung von Emotionen | |
EP0925578B1 (de) | Sprachverarbeitungssystem und verfahren zur sprachverarbeitung | |
DE69127818T2 (de) | System zur verarbeitung kontinuierlicher sprache | |
DE69722980T2 (de) | Aufzeichnung von Sprachdaten mit Segmenten von akustisch verschiedenen Umgebungen | |
DE60201262T2 (de) | Hierarchische sprachmodelle | |
DE602004012909T2 (de) | Verfahren und Vorrichtung zur Modellierung eines Spracherkennungssystems und zur Schätzung einer Wort-Fehlerrate basierend auf einem Text | |
DE102017124264B4 (de) | Computerimplementiertes Verfahren und Rechensystem zum Bestimmen phonetischer Beziehungen | |
DE60313706T2 (de) | Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium | |
DE602004006641T2 (de) | Audio-dialogsystem und sprachgesteuertes browsing-verfahren | |
DE10058811A1 (de) | Verfahren zur Identifizierung von Musikstücken | |
DE10334400A1 (de) | Verfahren zur Spracherkennung und Kommunikationsgerät | |
DE10042944A1 (de) | Graphem-Phonem-Konvertierung | |
DE112006000322T5 (de) | Audioerkennungssystem zur Erzeugung von Antwort-Audio unter Verwendung extrahierter Audiodaten | |
EP3010014B1 (de) | Verfahren zur interpretation von automatischer spracherkennung | |
DE10220521B4 (de) | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen | |
DE60128372T2 (de) | Verfahren und system zur verbesserung der genauigkeit in einem spracherkennungssystem | |
DE10311581A1 (de) | Verfahren und System zum automatisierten Erstellen von Sprachwortschätzen | |
DE10040063A1 (de) | Verfahren zur Zuordnung von Phonemen | |
EP1282897B1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8110 | Request for examination paragraph 44 | ||
R016 | Response to examination communication | ||
R002 | Refusal decision in examination/registration proceedings | ||
R003 | Refusal decision now final |