[go: up one dir, main page]

DE60207742T2 - Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes - Google Patents

Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes Download PDF

Info

Publication number
DE60207742T2
DE60207742T2 DE60207742T DE60207742T DE60207742T2 DE 60207742 T2 DE60207742 T2 DE 60207742T2 DE 60207742 T DE60207742 T DE 60207742T DE 60207742 T DE60207742 T DE 60207742T DE 60207742 T2 DE60207742 T2 DE 60207742T2
Authority
DE
Germany
Prior art keywords
correction
word
words
recognized
kwi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60207742T
Other languages
English (en)
Other versions
DE60207742D1 (de
Inventor
Wolfgang Gschwendtner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Austria GmbH
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Application granted granted Critical
Publication of DE60207742D1 publication Critical patent/DE60207742D1/de
Publication of DE60207742T2 publication Critical patent/DE60207742T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf eine Korrektureinrichtung zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen Worten des gesprochenen Textes richtig erkannte Worte und falsch erkannte Worte enthält.
  • Die vorliegende Erfindung bezieht sich ebenfalls auf ein Korrekturverfahren zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen Worten des gesprochenen Textes richtig erkannte Worte und falsch erkannte Worte enthält.
  • Eine solche Korrektureinrichtung und ein solches Korrekturverfahren sind aus dem Dokument US 5.909.667 bekannt, in dem eine Diktiereinrichtung offenbart ist. Die bekannte Diktiereinrichtung ist durch einen Computer gebildet, der eine Spracherkennungssoftware und eine Textverarbeitungssoftware abarbeitet. Ein Benutzer der bekannten Diktiereinrichtung kann einen gesprochenen Text in ein an den Computer angeschlossenes Mikrophon sprechen. Die eine Spracherkennungseinrichtung bildende Spracherkennungssoftware ordnet jedem gesprochenen Wort des gesprochenen Textes ein erkanntes Wort zu, wodurch ein zu dem gesprochenen Text erkannter Text erhalten wird. Der erkannte Text enthält so genannte richtig erkannte Worte, die mit den Worten die der Benutzer tatsächlich gesprochen hat übereinstimmen, und so genannte falsch erkannte Worte, die nicht mit den Worten übereinstimmen, die der Benutzer tatsächlich gesprochen hat. Der erkannte Text wird von der eine Textverarbeitungseinrichtung bildenden Textverarbeitungssoftware an einem an den Computer angeschlossenen Bildschirm dargestellt.
  • US-A1-2001/0018653 beschreibt die synchrone Wiedergabe von Audiodaten und entsprechendem erkanntem Text.
  • Die bekannte Diktiereinrichtung bildet auch eine Korrektureinrichtung, die sowohl die Textverarbeitungssoftware als auch die Spracherkennungssoftware beinhaltet und mit der falsch erkannte Worte durch Korrekturworte ersetzt werden können. Hierfür markiert der Benutzer das falsch erkannte Worte, gibt das oder die Korrekturworte mit einer Tastatur des Computers ein und gibt anschließend eine Bestätigungsinformation ein, wodurch die Ersetzung des markierten falsch erkannten Wortes durch das eingegebene Korrekturwort durchgeführt wird.
  • Zur Vereinfachung des Markierens des zu ersetzenden falsch erkannten Wortes kann der Benutzer der bekannten Diktiereinrichtung das zu ersetzende falsch erkannte Wort – ein so genanntes Markierwort – nochmals in das Mikrophon sprechen. Hierauf erkennt die Spracherkennungssoftware zu diesem gesprochenen Markierwort ein erkanntes Markierwort und die Textverarbeitungssoftware sucht das erkannte Markierwort in den Worten des erkannten Textes. Wenn das erkannte Markierwort durch Vergleich von Buchstabenfolgen der Worte in dem erkannten Text gefunden wird, dann markiert die Textverarbeitungseinrichtung dieses Markierwort. Der Benutzer muss nach dem Sprechen des Markierwortes kontrollieren, ob tatsächlich das zu ersetzende Wort markiert wurde. Wenn dies der Fall ist, dann gibt der Benutzer mittels der Tastatur das Korrekturwort und eine Bestätigungsinformation ein, um die Ersetzung durchzuführen.
  • Bei der bekannten Diktiereinrichtung hat sich als Nachteil ergeben, dass gerade die in dem erkannten Text enthaltenen falsch erkannten Worte für die Spracherkennungssoftware schwierig zu erkennen sind, weshalb auch bei dem Erkennen der Markierworte eine hohe Fehlerrate auftritt. Hierdurch werden relativ oft nicht die zu ersetzenden falsch erkannten Worte sondern andere Worte der erkannten Textinformation markiert, was einen zusätzlichen Arbeitsaufwand bedeutet. Als weiterer Nachteil der bekannten Diktiereinrichtung hat sich ergeben, dass der Benutzer relativ viele unterschiedliche Handlungen (Mikrophon und Tastatur) durchführen muss, um ein falsch erkanntes Worte zu ersetzen.
  • Die vorliegende Erfindung hat sich zur Aufgabe gestellt, einen Korrektureinrichtung gemäß der in dem ersten Absatz angegebenen Gattung und ein Korrekturverfahren gemäß der in dem zweiten Absatz angegebenen Gattung zu schaffen, bei der vorstehend angegebene Nachteile vermieden sind.
  • Zur Lösung der vorstehend angegebenen Aufgabe sind bei einer solchen Korrektureinrichtung erfindungsgemäße Merkmale vorgesehen, so dass die Korrektureinrichtung durch die nachstehend angegebene Weise charakterisierbar ist. Eine Korrektureinrichtung zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen Worten des gesprochenen Textes richtig erkannte Worte und falsch erkannte Worte enthält, mit
    Eingangsmitteln zum Empfangen zumindest eines manuell eingegebenen Korrekturwortes, um zumindest eines der falsch erkannten Worte durch das zumindest eine Korrekturwort zu ersetzten, und mit
    Transkriptionsmitteln zum phonetischen Transkribieren zumindest des eingegebenen Korrekturwortes in eine Phonemfolge und mit
    Suchmitteln zum Suchen der Phonemfolge des zumindest einen Korrekturwortes in Phonemfolgen der Worte des erkannten Textes und zum Abgeben einer Positionsinformation, die die Position zumindest eines Wortes innerhalb des erkannten Textes kennzeichnet, dessen Phonemfolge mit der Phonemfolge des zumindest einen Korrekturwortes im wesentlichen übereinstimmt, und mit
    Abgabemitteln zum Abgeben der Positionsinformation, um ein Markieren des zumindest einen durch die Positionsinformation gekennzeichneten Wortes in der erkannten Textinformation zu ermöglichen.
  • Zur Lösung vorstehend angegebener Aufgabe sind bei einem solchen Korrekturverfahren erfindungsgemäße Merkmale vorgesehen, so dass das Korrekturverfahren durch die nachstehend angegebene Weise charakterisierbar ist.
  • Ein Korrekturverfahren zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen Worten des gesprochenen Textes richtig erkannte Worte und falsch erkannte Worte enthält, wobei folgende Schritte abgearbeitet werden:
    • – Empfangen zumindest eines manuell eingegebenen Korrekturwortes, um zumindest eines der falsch erkannten Worte durch das zumindest eine Korrekturwort zu ersetzten;
    • – phonetisches Transkribieren zumindest des eingegebenen Korrekturwortes in eine Phonemfolge;
    • – Suchen der Phonemfolge des zumindest einen Korrekturwortes in Phonemfolgen der Worte des erkannten Textes und Abgeben einer Positionsinformation, die die Position zumindest eines Wortes innerhalb des erkannten Textes kennzeichnet, dessen Phonemfolge mit der Phonemfolge des zumindest einen Korrekturwortes im wesentlichen übereinstimmt;
    • – Abgeben der Positionsinformation, um ein Markieren des zumindest einen durch die Positionsinformation gekennzeichneten Wortes in der erkannten Textinformation zu ermöglichen.
  • Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass die von einer Spracherkennungseinrichtung falsch erkannten Worte und die Worte die eigentlich hätten erkannt werden sollen – also die richtig zu erkennenden Worte – sehr oft sehr ähnlich klingen. Gerade bei solchen ähnlich klingenden gesprochenen Worten wie beispielsweise „four" und „for" ist die Fehlerrate bekannter Spracherkennungseinrichtungen besonders hoch.
  • Durch die erfindungsgemäßen Merkmale ist erreicht, dass der Benutzer ein falsch erkanntes Wort, das er durch ein Korrekturwort ersetzen möchte, das eigentlich hätte erkannt werden sollen, nicht markieren muss. Die Korrektureinrichtung ermittelt die Phonemfolge des eingegebenen Korrekturwortes mit statistischen Methoden, welche Phonemfolge den Klang des Korrekturwortes repräsentiert. Anschließend sucht die Korrektureinrichtung durch Vergleich der Phonemfolgen nach einem ähnlich wie das Korrekturwort klingenden Wort in dem erkannten Text.
  • Vorteilhafterweise wird somit durch die Eingabe des Korrekturwortes das mit großer Wahrscheinlichkeit zu ersetzende falsch erkannte Wort in der erkannten Textinformation automatisch markiert. Der Benutzer kann durch Eingabe einer Bestätigungsinformation die Ersetzung des markierten Wortes veranlassen oder durch Eingabe einer Nächsteninformation das Markieren eines weiteren ähnlich klingenden Wortes der erkannten Textinformation veranlassen.
  • Bekannte Korrektureinrichtungen von Spracherkennungseinrichtungen ermöglichen zur Korrektur falsch erkannter Worte eine synchrone Wiedergabe der gesprochenen Worte und der zugehörigen erkannten Worte des erkannten Textes. Wenn der Benutzer dieser bekannten Korrektureinrichtung ein falsch erkanntes Wort bemerkt, dann unterbricht er die synchrone Wiedergabe und führt die Ersetzung des falsch erkannten Wortes durch ein von dem Benutzer eingegebenes Wort durch. Anschließend aktiviert der Benutzer wieder die synchrone Wiedergabe, um weitere falsch erkannte Worte des erkannten Textes zu finden und zu korrigieren.
  • Gemäß den Maßnahmen des Anspruchs 2 und des Anspruchs 9 ist der Vorteil erhalten, dass die synchrone Wiedergabe automatisch unterbrochen wird, sobald der Benutzer beginnt ein Korrekturwort einzugeben.
  • Gemäß den Maßnahmen des Anspruchs 3 und des Anspruchs 10 ist der Vorteil erhalten, dass das Unterbrechen der synchrone Wiedergabe automatisch wieder beendet wird, sobald der Benutzer durch Eingabe der Bestätigungsinformation bestätigt, dass das automatisch markierte Wort durch das eingegebene Korrekturwort ersetzt werden soll.
  • Der Benutzer einer Korrektureinrichtung erkennt bei der synchronen Wiedergabe ein falsch erkanntes Wort in der Umgebung des Wortes, das während der synchronen Wiedergabe gerade akustisch wiedergegeben und optisch markiert wird. Gemäß den Maßnahmen des Anspruchs 4 und des Anspruchs 11 ist der Vorteil erhalten, dass die Suchmittel vorerst in der näheren Umgebung um das zum Zeitpunkt der Unterbrechung markierten Wortes des erkannten Textes nach einem ähnlich klingenden Wort suchen und vorerst dieses markieren. Sollte der Benutzer durch Eingabe der Nächsteninformation eine weitere Suche veranlassen, dann wird der Suchbereich erweitert.
  • Die Spracherkennungseinrichtung ermittelt bei einem Spracherkennungsverfahren vorerst eine dem gesprochenen Text zugehörige Phonemfolge und erkennt basierend auf dieser Phonemfolge den erkannten Text. Gemäß den Maßnahmen des Anspruchs 5 und des Anspruchs 12 ist der Vorteil erhalten, dass die Suchmittel die bereits von der Spracherkennungseinrichtung ermittelte Phonemfolge bei ihrer Suche nach der Phonemfolge des Korrekturwortes verwenden. Dies ist insbesondere dann vorteilhaft, wenn die Korrektureinrichtung ein Teil der Spracherkennungseinrichtung ist.
  • Um die Zuverlässigkeit der Suchmittel zu erhöhen hat es sich als vorteilhaft erwiesen, dass Phoneme, die sehr ähnlich klingen, bei der Suche als gleiche Phoneme beurteilt werden. So werden beispielsweise in Phonemfolgen englischsprachiger Worte die Phoneme „v" und „f"` sowie „t" und „D" bei der Suche durch die Suchmittel als identisch angenommen.
  • Die Erfindung wird im Folgenden anhand eines Ausführungsbeispiels näher erläutert, auf das die Erfindung aber nicht beschränkt ist.
  • 1 zeigt eine Computer, der eine Spracherkennungssoftware und eine Textverarbeitungssoftware abarbeitet und der eine Korrektureinrichtung zum Korrigieren eines von der Spracherkennungseinrichtung zu einem gesprochenen Text erkannten Textes bildet.
  • 2 bis 5 zeigen von der Korrektureinrichtung des Computer gemäß 1 an einem Monitor dargestellte Bildinformationen.
  • 1 zeigt einen Computer 1 der eine Spracherkennungseinrichtung 2, eine Textverarbeitungseinrichtung 3 und eine Korrektureinrichtung 4 bildet. Die Spracherken nungseinrichtung 2 und die Korrektureinrichtung 4 werden durch eine von dem Computer 1 abgearbeitete Spracherkennungssoftware und die Textverarbeitungseinrichtung 3 wird durch eine von dem Computer 1 abgearbeitete Textverarbeitungssoftware gebildet.
  • An den Computer 1 ist ein Mikrophon 5, ein Lautsprecher 6, ein Monitor 7 und eine Tastatur 8 angeschlossen. Ein Benutzer des Computers 1 kann einen Text in das Mikrophon 1 sprechen, worauf diesen gesprochenen Text enthaltende gesprochene Textinformationen GTI als analoges Audiosignal an Spracherkennungsmittel 9 der Spracherkennungseinrichtung 2 abgegeben werden.
  • Die Spracherkennungsmittel 9 sind zum Erkennen von der gesprochenen Textinformationen GTI zuzuordnenden erkannten Textinformationen ETI ausgebildet, wie dies seit langem bekannt ist. Hierfür speichern die Spracherkennungsmittel 9 die gesprochenen Textinformationen GTI als digitale Audiodaten in einer ersten Speicherstufe 10 ab. Bei der Abarbeitung eines Spracherkennungsverfahrens durch die Spracherkennungsmittel 9 ordnen die Spracherkennungsmittel 9 den gesprochenen Textinformationen GTI vorerst Phoneme enthaltende Phonemfolgen zu. Wie allgemein bekannt ist, sind Phoneme kleine akustische Einheiten und eine Phonemfolge eines Wortes gibt den akustischen Eindruck des gesprochenen Wortes wieder. Dem Wort „DAYS" ist beispielsweise die Phonemfolge „d Y z" zugeordnet.
  • Bei der weiteren Abarbeitung des Spracherkennungsverfahrens werden die aus der gesprochenen Textinformation GTI ermittelten Phonemfolgen in einem Lexikonspeicher gesucht, in dem zu einer Vielzahl von Worten jeweils eine Phonemfolge zugeordnete gespeichert ist. Wenn in dem Lexikonspeicher eine ermittelte Phonemfolge gefunden wurde, dann wird das zugeordnet gespeicherte Worte als mögliches erkanntes Wort ermittelt. Die Abfolgen möglicher erkannter Worte zu den ermittelten Phonemfolgen werden anschließend in einem Sprachmodellspeicher gesucht und die wahrscheinlichste Abfolge möglicher erkannter Worte wird als zu den gesprochenen Textinformationen GTI erkannte Textinformationen in einer zweiten Speicherstufe 11 gespeichert.
  • Die erkannten Textinformationen ETI enthalten richtig erkannte Textinformationen RETI von so genannten richtig erkannten Worten, die mit den Worten die der Benutzer tatsächlich gesprochen hat übereinstimmen. Die erkannten Textinformationen ETI enthalten weiters falsch erkannte Textinformationen FETI von so genannten falsch erkannten Worten, die nicht mit den Worten übereinstimmen, die der Benutzer tatsächlich gespro chen hat. Von der Spracherkennungseinrichtung 9 falsch erkannte Worte und die Worte die eigentlich hätten erkannt werden sollen – also die gesprochenen Worte – klingen oft sehr ähnlich, worauf nachfolgend noch näher eingegangen ist.
  • Bei dem Spracherkennungsverfahren werden weiters Linkinformationen LI ermittelt und in einer dritten Speicherstufe 12 gespeichert. Die Linkinformationen LI kennzeichnen zu jedem Wort der gesprochenen Textinformationen GTI das zughörig erkannte Wort der erkannten Textinformationen TI und ermöglichen eine synchrone Wiedergabebetriebsart, worauf nachfolgend noch näher eingegangen ist. Das beschriebene Spracherkennungsverfahren ist seit langem bekannt, weshalb hierauf nicht näher eingegangen ist.
  • Die Textverarbeitungseinrichtung 3 ist zum Auslesen der in der zweiten Speicherstufe 11 gespeicherten erkannten Textinformationen ETI und zum Abgeben von die erkannten Textinformationen ETI enthaltenen Bildinformationen BI an den Monitor 7 ausgebildet. Von der Tastatur 8 sind über Eingangsmittel 13 der Korrektureinrichtung 4 Korrekturinformationen an die Textverarbeitungseinrichtung 3 abgebbar, um die erkannten Textinformationen ETI zu editieren beziehungsweise zu verändern, wodurch korrigierte Textinformationen KTI ermittelt werden, die in einer vierten Speicherstufe 14 der Korrektureinrichtung 4 speicherbar sind.
  • Der Computer 1 ist bei aktivierter synchroner Wiedergabebetriebsart zum automatischen Markieren eines Wortes der mit dem Monitor 7 dargestellten erkannten Textinformationen ETI und zum synchronen also zum gleichzeitigen akustischen Wiedergeben des durch die Linkinformationen LI zugeordneten gesprochenen Wortes mit dem Lautsprecher 6 ausgebildet. Hierfür liest die Textverarbeitungseinrichtung 3 sowohl die erkannten Textinformationen ETI, die gesprochenen Textinformationen GTI als auch die Linkinformationen LI aus den entsprechenden Speicherstufen 10, 11 und 12 aus.
  • Bei aktivierter synchroner Wiedergabebetriebsart kann der Benutzer kontrol lieren, ob zu dem gerade akustisch wiedergegebenen gesprochenen Wort das markierte dargestellte Wort richtig erkannt wurde. Dieses Feature ist als „Synchronous Playback" bekannt und beispielsweise in US 5.031.113 beschrieben, weshalb hierauf nicht näher eingegangen ist.
  • Die Korrektureinrichtung 4 enthält nunmehr die Eingangsmittel 13, die vierte Speicherstufe 14, eine fünfte Speicherstufe 15, Transkriptionsmittel 16 und Suchmittel 17. Die Transkriptionsmittel 16 sind zum phonetischen Transkribieren eines Wortes gemäß statistischer Methoden ausgebildet. Hierbei werden die gespeicherten Phonemfolgen, die Worten in dem Lexikonspeicher zugeordnet sind, von diesen Mitteln ausgelesen. Worte, die nicht im Lexikonspeicher gespeichert sind, werden in einzelne Silben zerlegt und die zugehörige Phonemfolge wird durch Zusammensetzen der Phoneme der Einzelsilben aus dem Lexikonspeicher ermittelt.
  • Wenn in dem Computer 1 durch Betätigung einer Taste der Tastatur 8 die synchrone Wiedergabebetriebsart aktiviert wird, dann lesen die Transkriptionsmittel 16 die erkannten Textinformationen ETI aus der zweiten Speicherstufe 11 aus und führen die phonetische Transkription der gesamten erkannten Textinformationen ETI durch. Als Ergebnis der phonetischen Transkription der erkannten Textinformationen ETI geben die Transkriptionsmittel 16 Phoneminformationen PI(ETI) der erkannten Textinformationen ETI ab, die Phonemfolgen der Worte des erkannten Textes enthalten und die in der fünften Speicherstufe 15 gespeichert werden.
  • Die Eingangsmittel 13 sind nunmehr zum Empfangen von Korrekturinformationen KWI eines mit der Tastatur 8 manuell eingegebenen Korrekturwortes ausgebildet, um ein falsch erkanntes Wort des erkannten Textes durch das Korrekturwort zu ersetzen. Die Transkriptionsmittel 16 sind weiters zum phonetischen Transkribieren der Korrekturinformationen KWI und zum Abgeben von Phoneminformationen PI(KWI) der Korrekturinformationen KWI ausgebildet, wofür den Transkriptionsmitteln 16 die Korrekturinformationen KWI zuführbar sind.
  • Die Transkriptionsmittel 16 sind zum Abgeben der Phoneminformationen PI(KWI) der Korrekturinformationen KWI an die Suchmittel 17 ausgebildet. Die Suchmittel 17 sind nunmehr zum Suchen der Phonemfolge des zumindest einen Korrekturwortes in den Phonemfolgen der Worte des erkannten Textes und zum Abgeben einer Positionsinformation PI ausgebildet, die die Position zumindest eines Wortes innerhalb des erkannten Textes kennzeichnet, dessen Phonemfolge mit der Phonemfolge des zumindest einen Korrekturwortes im wesentlichen übereinstimmt.
  • Die Suchmittel 17 bilden weiters Abgabemittel zum Abgeben der Positionsinformation PI, um ein Markieren des zumindest einen durch die Positionsinformation PI gekennzeichneten Wortes in der erkannten Textinformation ETI zu ermöglichen. Hierfür geben die Suchmittel die Positionsinformation PI des oder der zu markierenden Worte an die Textverarbeitungsmittel 3 ab, die ihrerseits eine entsprechende Bildinformation BI an den Monitor 7 abgeben. Die weitere Funktionsweise und die Vorteile der erfindungsgemäßen Korrektureinrichtung sind im Folgenden anhand eines in 2 bis 5 dargestellten Anwendungsbeispiels des Computers 1 näher erläutert.
  • Gemäß dem Anwendungsbeispiel ist angenommen, dass der Benutzer des Computers 1 die Worte „ONE TWO THREE FOUR FIVE SIX SEVEN EIGHT NINE TEN" in das Mikrophon 5 spricht. Den entsprechenden gesprochenen Textinformationen GTI werden bei dem Spracherkennungsverfahren der Spracherkennungsmittel 9 die erkannten Textinformationen ETI der erkannten Worte „1 2 3 FOR 5 6 7 DAYS 9 THEN" zugeordnet.
  • Die erkannten Textinformationen ETI enthalten falsch erkannte Textinformationen FETI der falsch erkannten Worten „FOR"; „DAYS" und „THEN". Wie anhand einer Tabelle 1 ersichtlich sind die Phonemfolgen der falsch erkannten Worte und der eigentlich zu erkennenden gesprochenen Worte sehr ähnlich, weshalb die Spracherkennungsmittel 9 Fehler bei der Erkennung gemacht hat.
  • Figure 00090001
    Tabelle 1
  • Gemäß dem Anwendungsbeispiel ist nunmehr weiters angenommen, dass der Benutzer durch Betätigen einer Taste der Tastatur 8 die synchrone Wiedergabebetriebsart aktiviert. Hierauf wird die in der 2 dargestellte Bildinformation BI an dem Monitor 7 dargestellt. Bei aktivierter synchroner Wiedergabebetriebsart ist die Darstellung mit dem Monitor 7 in einen CORRECTION EDITOR und in ein CORRECTION WINDOW aufgeteilt. In dem CORRECTION EDITOR wird die korrigierte Textinformation KTI des korrigierte Textes dargestellt, die unmittelbar nach dem Aktivieren der synchronen Wiedergabebetriebsart mit der erkannten Textinformation ETI des erkannten Textes überein stimmt. In dem CORRECTION WINDOW werden von dem Benutzer mit der Tastatur 8 eingegebene Korrekturworte dargestellt, worauf nachfolgend näher eingegangen ist.
  • Unmittelbar nach dem Aktivieren der synchronen Wiedergabebetriebsart beginnen die Textverarbeitungsmittel 3 mit der akustischen Wiedergabe des ersten Wortes „ONE" der gesprochenen Textinformation GTI und markieren das zugehörig erkannte Wort „1" der erkannten Textinformation ETI mit einer Markierinformation MI. Der Benutzer kann somit sehr leicht erkennen, dass das erkannte Wort tatsächlich mit dem gesprochenen Wort übereinstimmt.
  • Während das vierte Wort „FOUR" der gesprochenen Textinformation GTI akustisch wiedergegeben und optisch markiert wird, erkennt der Benutzer, dass dieses Wort falsch erkannt wurde und gibt das Wort „4" – das eigentlich erkannt hätte werden sollen – als Korrekturwort beziehungsweise als Korrekturinformation KWI mit der Tastatur 8 ein.
  • Die Korrektureinrichtung 4 ist nunmehr vorteilhafterweise zum automatischen Unterbrechen der synchronen Wiedergabebetriebsart ausgebildet, wenn der Benutzer beginnt ein Korrekturwort mit der Tastatur 8 einzugeben. Hierdurch ist erreicht, dass die akustische Wiedergabe der gesprochenen Textinformationen GTI unterbrochen wird und an der aktuellen Position der Markierinformation MI eine Cursorinformation CI dargestellt wird, wie dies in 3 zu sehen ist. Der Benutzer muss daher vorteilhafterweise keine zusätzliche Taste zur Unterbrechung der synchronen Wiedergabebetriebsart betätigen.
  • Unmittelbar nach dem Aktivieren der synchronen Wiedergabebetriebsart haben die Transkriptionsmittel 16 die erkannten Textinformationen ETI transkribiert und die so ermittelten Phoneminformationen PI(ETI) der erkannten Textinformationen ETI in der fünften Speicherstufe 15 abgespeichert. Sobald der Benutzer das Korrekturwort eingegeben hat, transkribieren die Transkriptionsmittel 16 die eingegebenen Korrekturinformationen KWI und geben die ermittelten Phoneminformationen PI(KWI) der Korrekturinformationen KWI an die Suchmittel 17 ab.
  • Die Suchmittel 17 beginnen nunmehr in einem einstellbaren Suchbereich von M = 5 Worten vor und N = 3 Worten nach der aktuellen Position der Cursorinformation CI die Phoneminformationen PI(KWI) der Korrekturinformationen KWI des Korrekturwortes in den Phoneminformationen PI(ETI) der erkannten Textinformationen ETI zu suchen. Da die Phoneminformationen PI(KWI) = „for" mit den Phoneminformationen PI(ETI) „for" der falsch erkannten Textinformation FETI innerhalb des Suchbereichs der erkannten Textinformation ETI übereinstimmt, ermitteln die Suchmittel 17 die Position des vierten Wortes der erkannten Textinformation ETI als Positionsinformation PI. Hierauf geben die Suchmittel 17 die ermittelte Positionsinformation PI an die Textverarbeitungseinrichtung 3 ab, worauf das falsch erkannte Wort „FOR" – wie in 4 dargestellt – mit der Markierinformation MI markiert wird.
  • Hierdurch ist der Vorteil erhalten, dass der Benutzer – nachdem er ein falsch erkanntes Wort bemerkt und die synchrone Wiedergabebetriebsart unterbrochen hat – das falsch erkannte und zu ersetzende Wort nicht markieren muss. Vorteilhafterweise muss der Benutzer zur Ersetzung des falsch erkannten Wortes „FOR" durch das eingegebene Korrekturwort „4" nur mehr eine Bestätigungsinformation eingeben, die beispielsweise durch Betätigung der Taste „ENTER" der Tastatur 8 eingegeben werden kann. Hierdurch ist somit das Ersetzen von falsch erkannten Worten durch das Wort, das eigentlich erkannt hätte werden sollen besonders einfach und rasch durchführbar.
  • Vorteilhafterweise wird durch das Eingeben der Bestätigungsinformation zusätzlich auch die Unterbrechung der synchronen Wiedergabebetriebsart beendet, worauf die synchrone akustische Wiedergabe und das optische Markieren zugehöriger erkannter Worte der erkannten Textinformation ETI fortgesetzt wird.
  • Durch das Suchen der Phoneminformationen PI(KWI) der Korrekturinformationen KWI innerhalb eines Suchbereiches der Phoneminformationen PI(ETI) der erkannten Textinformationen ETI ist der Vorteil erhalten, dass das zu ersetzende falsch erkannte Wort auch dann besonders zuverlässig gefunden wird, wenn das gleiche Wort an einer anderen Stelle des erkannten Textes nochmals vorkommt. Wenn die Suche in dem Suchbereich nicht erfolgreich ist, dann sind die Suchmittel 17 vorteilhafterweise zum schrittweisen Erweitern des Suchbereichs ausgebildet.
  • Wenn das in 4 markierte Wort nicht das Wort ist, das der Benutzer durch das eingegebene Korrekturwort ersetzen möchte, dann kann er durch Eingabe einer Nächsteinformation NI erreichen, dass die Suchmittel 17 nochmals in einem gegebenenfalls erweiterten Suchbereich suchen. Sobald die Suchmittel 17 eine ausreichende Übereinstimmung der Phoneminformationen PI(ETI) und PI(KWI) eines anderen noch nicht zuvor markierten Wortes festgestellt haben, geben die Suchmittel 17 eine die Position dieses ermittelten Wortes als Positionsinformation PI an die Textverarbeitungseinrichtung 3 ab.
  • Hierdurch ist der Vorteil erhalten, dass, wenn das von der Korrektureinrichtung 4 automatisch markierte Wort nicht das Wort ist, das der Benutzer durch das eingegebene Korrekturwort ersetzen möchte, der Benutzer durch Betätigung nur einer Taste der Tastatur 8 das automatische Markieren eines anderen Wortes innerhalb des Suchbereichs veranlassen kann, dessen Phoneminformation PI(ETI) eine große Übereinstimmung mit der Phoneminformation PI(KWI) des Korrekturwortes aufweist.
  • Die Suchmittel 17 sind nunmehr bei der Suche von im wesentlichen übereinstimmenden Phonemfolgen zum Vernachlässigen von die verglichenen Phonemfolgen unterscheidenden jedoch ähnlich klingenden Phonemen ausgebildet. Hierbei werden beispielsweise die Phoneme „o" und „@" als so ähnlich klingend eingestuft, dass verglichene Phonemfolgen, die sich nur durch diese beiden Phoneme unterscheiden, als übereinstimmend beurteilt werden.
  • Hierdurch ist der Vorteil erhalten, dass die Suchmittel 17 auch bei kleinen Unterschieden der zu vergleichenden Phonemfolgen zu einem Ergebnis kommen, um ein Wort der erkannten Textinformation ETI zu markieren.
  • Es kann erwähnt werden, dass die Suchmittel 17 als Phoneminformationen PI(ETI) der erkannten Textinformationen ETI auch die von den Spracherkennungsmitteln bei der Abarbeitung des Spracherkennungsverfahrens ermittelten Phoneminformationen verwenden könnten. Hierdurch wäre der Vorteil erhalten, dass die Transkriptionsmittel die erkannten Textinformationen ETI nicht transkribieren müssten und auf das Vorsehen der fünften Speicherstufe verzichtet werden könnte.
  • Besonders vorteilhaft ist es auch, die Korrektureinrichtung als Teil der Spracherkennungseinrichtung vorzusehen und die synchrone Wiedergabebetriebsart durch die Korrektureinrichtung zu ermöglichen. Hierdurch könnte als Textverarbeitungseinrichtung eine handelsübliche Textverarbeitungssoftware wie beispielsweise „Word for Windows®" verwendet werden.
  • Es kann erwähnt werden, dass auch mehrere Worte als Korrekturinformationen KWI eingegeben werden können, um ein oder mehrere falsch erkannte Worte auf einmal zu ersetzen. Es kann erwähnt werden, dass der Suchbereich von dem Benutzer des Computers einstellbar ist. So kann der Benutzer praktisch beliebigen Werte beispielsweise innerhalb der Bereiche N = 1 bis N = 500 und M = 1 bis M = 500 einstellen.
  • Es kann erwähnt werden, dass die phonetische Transkription vorteilhafterweise nur für die in dem Suchbereich befindlichen Worte der erkannten Textinformationen ETI durchgeführt werden könnte.
  • Es kann erwähnt werden, dass eine erfindungsgemäße Korrektureinrichtung besonders bei professionellen Transkriptionsservices vorteilhaft einsetzbar ist, da Trankskriptionisten solcher Transkriptionsservices ausschließlich von der Spracherkennungseinrichtung falsch erkannte Worte manuell korrigieren und somit die Bedingung praktisch immer erfüllt ist, dass die Phonemfolgen der falsch erkannten Worte und der eigentlich zu erkennenden gesprochenen Worte sehr ähnlich sind.
  • Text in der Zeichnung
  • 2
    • Korrektureditor
    • Korrekturfenster
  • 3
    • Korrektureditor
    • Korrekturfenster
  • 4
    • Korrektureditor
    • Korrekturfenster
  • 5
    • Korrektureditor
    • Korrekturfenster

Claims (13)

  1. Korrekturanordnung (4) zum Korrigieren eines mit Hilfe einer Spracherkennungsanordnung (2) für einen gesprochenen Text (GTI) erkannten Textes (ETI), wobei der erkannte Text (ETI) für gesprochene Worte des gesprochenen Textes (GTI) einwandfrei erkannte Worte und falsch erkannte Worte (FETI) aufweist, wobei diese Korrekturanordnung die nachfolgenden Elemente umfasst: – Eingabemittel (13) zum Empfangen wenigstens eines manuell eingegebenen Korrekturwortes (KWI), um wenigstens eines der fehlerhaft erkannten Worte (FETI) durch das wenigstens eine Korrekturwort (KWI) zu ersetzen, und – Transkriptionsmittel (16) zum phonetischen Transkribieren wenigstens des eingegebenen Korrekturwortes (KWI) zu einer Phonemfolge (PI(KWI)) und – Suchmittel (17) zum Herausfinden der Phonemfolge (PI(KWI)) des wenigstens einen Korrekturwortes (KWI) in Phonemfolgen (PI(KTI) der Worte des erkannten Textes und zum Liefern von Positionsinformation (PI), welche die Position wenigstens eines Wortes innerhalb des erkannten Textes (ETI) identifiziert, dessen Phonemfolge im Wesentlichen der Phonemfolge (PI(KWI)) des wenigstens einen Korrekturwortes (KWI) entspricht, und – Ausgangsmittel (17) zum Liefern der genannten Positionsinformation (PI), damit es ermöglicht wird, das wenigstens eine Wort zu markieren, das durch die Positionsinformation (PI) in der erkannten Textinformation (ETI) identifiziert worden ist.
  2. Korrekturanordnung (4) nach Anspruch 1, wobei die Korrekturanordnung (4) zum Unterbrechen einer synchronen Wiedergabe entworfen worden ist, wobei die gesprochenen Worte (GTI) des gesprochenen Textes akustisch wiedergegeben werden und die erkannten Worte des erkannten Textes (ETI) für die gesprochenen Worte (GTI) optisch synchron markiert werden, wenn ein Korrekturwort manuell von dem Benutzer eingegeben wird.
  3. Korrekturanordnung (4) nach Anspruch 2, wobei die Korrekturanordnung (4) zum Beenden der Unterbrechung der synchronen Wiedergabe entworfen worden ist, wenn der Ersatz des wenigstens einen durch die Positionsinformation (PI) identifizierten Wortes durch das wenigstens eine Korrekturwort (KWI) durch eine manuelle Eingabe einer Bestätigung bestätigt worden ist.
  4. Korrekturanordnung (4) nach Anspruch 2, wobei die Suchmittel (17) dazu entworfen worden sind, die Phonemfolge (PI(KWI)) des wenigstens einen Korrekturwortes (KWI) in der Phonemfolge (PI(ETI) der Worte in einem Suchgebiet des erkannten Textes zu suchen, wobei das genannte Suchgebiet durch eine Anzahl M Worte vor und eine Anzahl N Worte nach dem letzten markierten Wort in dem erkannten Text (ETI) vor der Unterbrechung der synchronen Wiedergabe definiert ist.
  5. Korrekturanordnung (4) nach Anspruch 1, wobei die Suchmittel (17) dazu entworfen worden sind, nach der Phonemfolge (PI(KWI)) des wenigstens einen Korrekturwortes (KWI) in den Phonemfolgen zu suchen, die durch die Spracherkennungsanordnung (2) aus den gesprochenen Worten des gesprochenen Textes (GTI) ermittelt worden sind.
  6. Korrekturanordnung (4) nach Anspruch 5, wobei die Korrekturanordnung (4) dazu entworfen worden sind, einen Teil der Spracherkennungsanordnung (2) zu bilden.
  7. Korrekturanordnung (4) nach Anspruch 1, wobei die Suchmittel (17) dazu entworfen worden sind, Phoneme zu ignorieren, die von den verglichenen Phonemfolgen abweichen, aber in der Suche nach im Wesentlichen übereinstimmenden Phonemfolgen ähnlich klingen.
  8. Korrekturverfahren zum Korrigieren eines Textes (GTI), der von einer Spracherkennungsanordnung (2) für einen gesprochenen Text erkannt worden ist, wobei der erkannte Text (ETI) für gesprochene Worte des gesprochenen Textes (GTI) einwandfrei erkannte Worte und falsch erkannte Worte (FETI) aufweist, wobei die nachfolgenden Verfahrensschritte durchgeführt werden: – das Empfangen wenigstens eines manuell eingegebenen Korrekturwortes (KWI) um zumindest eines der falsch erkannten Worte (FETI) durch das zumindest eine Korrekturwort (KWI) zu ersetzten; – das phonetisches Transkribieren zumindest des eingegebenen Korrekturwortes (KWI) in eine Phonemfolge (PI(KWI)); – das Suchen der Phonemfolge des zumindest einen Korrekturwortes (KWI) in Phonemfolgen (PI(ETI)) der Worte des erkannten Textes (ETI) und das Abgeben einer Positionsinformation (PI), welche die Position zumindest eines Wortes innerhalb des erkannten Textes (ETI) kennzeichnet, dessen Phonemfolge mit der Phonemfolge des zumindest einen Korrekturwortes (KWI) im wesentlichen übereinstimmt; – das Abgeben der Positionsinformation (PI), um ein Markieren des zumindest einen durch die Positionsinformation (PI) gekennzeichneten Wortes in der erkannten Textinformation (ETI) zu ermöglichen.
  9. Korrekturverfahren nach Anspruch 8, wobei folgender weiterer Schritt abgearbeitet wird: – das Unterbrechen einer synchronen Wiedergabe, bei der die gesprochenen Worte des gesprochenen Textes (GTI) akustisch wiedergegeben und zu den gesprochenen Worten (GTI) die erkannten Worte des erkannten Textes (ETI) synchron optisch markiert werden, wenn ein Korrekturwort (KWI) manuell eingegeben wird.
  10. Korrekturverfahren nach Anspruch 9, wobei folgender weiterer Schritt abgearbeitet wird: – das Beenden des Unterbrechens der synchronen Wiedergabe, wenn durch manuelle Eingabe einer Bestätigungsinformation die Ersetzung des zumindest einen durch die Positionsinformation (PI) gekennzeichneten Wortes durch das zumindest eine Korrekturwort (KWI) bestätigt wurde.
  11. Korrekturverfahren nach Anspruch 9, wobei folgender weiterer Schritt abgearbeitet wird: – das Suchen der Phonemfolge des zumindest einen Korrekturwortes (KWI) in den Phonemfolgen der in einem Suchbereich des erkannten Textes (ETI) enthaltenen Worte, wobei der Suchbereich durch eine Anzahl von M Worten vor und N Worten nach dem vor der Unterbrechung der synchronen Wiedergabe zuletzt markierte Wort des erkannten Textes (ETI) festgelegt ist.
  12. Korrekturverfahren nach Anspruch 8, wobei folgender weiterer Schritt abgearbeitet wird: – das Suchen der Phonemfolge (PI(KWI)) des zumindest einen Korrekturwortes (KWI) in von der Spracherkennungseinrichtung (2) aus den gesprochenen Worten des gesprochenen Textes (GTI) ermittelten Phonemfolgen.
  13. Korrekturverfahren nach Anspruch 8, wobei folgender weiterer Schritt abgearbeitet wird: – das Suchen von im wesentlichen übereinstimmenden Phonemfolgen, wobei die verglichenen Phonemfolgen unterscheidende jedoch ähnlich klingende Phoneme vernachlässigt werden.
DE60207742T 2001-09-17 2002-09-10 Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes Expired - Lifetime DE60207742T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP01000468 2001-09-17
EP01000468 2001-09-17
PCT/IB2002/003688 WO2003025904A1 (en) 2001-09-17 2002-09-10 Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word

Publications (2)

Publication Number Publication Date
DE60207742D1 DE60207742D1 (de) 2006-01-05
DE60207742T2 true DE60207742T2 (de) 2006-08-03

Family

ID=8176063

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60207742T Expired - Lifetime DE60207742T2 (de) 2001-09-17 2002-09-10 Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes

Country Status (7)

Country Link
US (1) US6735565B2 (de)
EP (1) EP1430474B1 (de)
JP (1) JP4241376B2 (de)
CN (1) CN1235188C (de)
AT (1) ATE311650T1 (de)
DE (1) DE60207742T2 (de)
WO (1) WO2003025904A1 (de)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7263483B2 (en) * 2003-04-28 2007-08-28 Dictaphone Corporation USB dictation device
US7310602B2 (en) * 2004-09-27 2007-12-18 Kabushiki Kaisha Equos Research Navigation apparatus
JP4784120B2 (ja) * 2005-03-23 2011-10-05 日本電気株式会社 音声書き起こし支援装置及びその方法ならびにプログラム
US9020811B2 (en) * 2006-10-13 2015-04-28 Syscom, Inc. Method and system for converting text files searchable text and for processing the searchable text
US8543393B2 (en) * 2008-05-20 2013-09-24 Calabrio, Inc. Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US8494852B2 (en) 2010-01-05 2013-07-23 Google Inc. Word-level correction of speech input
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP5638479B2 (ja) * 2011-07-26 2014-12-10 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
US8423366B1 (en) * 2012-07-18 2013-04-16 Google Inc. Automatically training speech synthesizers
CN103714048B (zh) 2012-09-29 2017-07-21 国际商业机器公司 用于校正文本的方法和系统
KR101892734B1 (ko) * 2013-01-04 2018-08-28 한국전자통신연구원 음성 인식 시스템에서의 오류 수정 방법 및 그 장치
US20150058006A1 (en) * 2013-08-23 2015-02-26 Xerox Corporation Phonetic alignment for user-agent dialogue recognition
WO2015163684A1 (ko) * 2014-04-22 2015-10-29 주식회사 큐키 적어도 하나의 의미론적 유닛의 집합을 개선하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN105374356B (zh) * 2014-08-29 2019-07-30 株式会社理光 语音识别方法、语音评分方法、语音识别系统及语音评分系统
EP3089159B1 (de) 2015-04-28 2019-08-28 Google LLC Korrekturspracherkennung mittels selektivem re-speak
US9978370B2 (en) 2015-07-31 2018-05-22 Lenovo (Singapore) Pte. Ltd. Insertion of characters in speech recognition
US10049655B1 (en) 2016-01-05 2018-08-14 Google Llc Biasing voice correction suggestions
CN105827417A (zh) * 2016-05-31 2016-08-03 安徽声讯信息技术有限公司 一种用于会议记录并可随时修改的语音速记装置
US10019986B2 (en) 2016-07-29 2018-07-10 Google Llc Acoustic model training using corrected terms
US10062385B2 (en) 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection
CN106710597B (zh) * 2017-01-04 2020-12-11 广东小天才科技有限公司 语音数据的录音方法及装置
CN106875949B (zh) * 2017-04-28 2020-09-22 深圳市大乘科技股份有限公司 一种语音识别的校正方法及装置
CN110770819B (zh) 2017-06-15 2023-05-12 北京嘀嘀无限科技发展有限公司 语音识别系统和方法
CN109145281B (zh) * 2017-06-15 2020-12-25 北京嘀嘀无限科技发展有限公司 语音识别方法、装置及存储介质
US11373635B2 (en) * 2018-01-10 2022-06-28 Sony Corporation Information processing apparatus that fades system utterance in response to interruption
US10269376B1 (en) * 2018-06-28 2019-04-23 Invoca, Inc. Desired signal spotting in noisy, flawed environments
US10832679B2 (en) 2018-11-20 2020-11-10 International Business Machines Corporation Method and system for correcting speech-to-text auto-transcription using local context of talk
US11790916B2 (en) 2020-05-04 2023-10-17 Rovi Guides, Inc. Speech-to-text system
US11532308B2 (en) * 2020-05-04 2022-12-20 Rovi Guides, Inc. Speech-to-text system
CN112530402B (zh) * 2020-11-30 2024-01-12 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备
US12165647B2 (en) * 2022-05-27 2024-12-10 Microsoft Technology Licensing, Llc Phoneme-based text transcription searching

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
SE513456C2 (sv) * 1994-05-10 2000-09-18 Telia Ab Metod och anordning vid tal- till textomvandling
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5864805A (en) * 1996-12-20 1999-01-26 International Business Machines Corporation Method and apparatus for error correction in a continuous dictation system
US5909667A (en) * 1997-03-05 1999-06-01 International Business Machines Corporation Method and apparatus for fast voice selection of error words in dictated text
US6173259B1 (en) * 1997-03-27 2001-01-09 Speech Machines Plc Speech to text conversion
US6269335B1 (en) * 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US6457031B1 (en) * 1998-09-02 2002-09-24 International Business Machines Corp. Method of marking previously dictated text for deferred correction in a speech recognition proofreader
US6064961A (en) * 1998-09-02 2000-05-16 International Business Machines Corporation Display for proofreading text
US20020116196A1 (en) * 1998-11-12 2002-08-22 Tran Bao Q. Speech recognizer
US6611802B2 (en) * 1999-06-11 2003-08-26 International Business Machines Corporation Method and system for proofreading and correcting dictated text
US6418410B1 (en) * 1999-09-27 2002-07-09 International Business Machines Corporation Smart correction of dictated speech
WO2001046853A1 (en) * 1999-12-20 2001-06-28 Koninklijke Philips Electronics N.V. Audio playback for text edition in a speech recognition system
US6912498B2 (en) * 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area

Also Published As

Publication number Publication date
JP4241376B2 (ja) 2009-03-18
CN1555553A (zh) 2004-12-15
EP1430474A1 (de) 2004-06-23
CN1235188C (zh) 2006-01-04
JP2005503590A (ja) 2005-02-03
EP1430474B1 (de) 2005-11-30
WO2003025904A1 (en) 2003-03-27
US20030061043A1 (en) 2003-03-27
DE60207742D1 (de) 2006-01-05
US6735565B2 (en) 2004-05-11
ATE311650T1 (de) 2005-12-15

Similar Documents

Publication Publication Date Title
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
DE69923379T2 (de) Nicht-interaktive Registrierung zur Spracherkennung
DE60211197T2 (de) Verfahren und vorrichtung zur wandlung gesprochener in geschriebene texte und korrektur der erkannten texte
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
DE60128816T2 (de) Spracherkennungsverfahren mit ersetzungsbefehl
DE69725091T2 (de) Verfahren und System zum Editieren von Sätzen während der kontinuierlichen Spracherkennung
DE60209103T2 (de) Texteditierung von erkannter sprache bei gleichzeitiger wiedergabe
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE69721938T2 (de) Verfahren und System zum Anzeigen einer variabelen Anzahl alternativer Wörter während der Spracherkennung
DE69737987T2 (de) Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung
DE69721939T2 (de) Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69829235T2 (de) Registrierung für die Spracherkennung
DE3910467C2 (de) Verfahren und Vorrichtung zur Erzeugung von Berichten
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
AT390685B (de) System zur textverarbeitung
DE68928097T2 (de) Spracherkennungssystem
DE60202453T2 (de) Synchronisierung eines audio- und eines text-cursors während der editierung
DE69922104T2 (de) Spracherkenner mit durch buchstabierte Worteingabe adaptierbarem Wortschatz
DE60033106T2 (de) Korrektur der Betriebsartfehler, Steuerung oder Diktieren, in die Spracherkennung
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
EP3224830B1 (de) Kraftfahrzeug-gerätebedienung mit bedienkorrektur
DE60318385T2 (de) Sprachverarbeitungseinrichtung und -verfahren, aufzeichnungsmedium und programm

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS AUSTRIA GMBH, WIEN, AT

8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN