DE60207742T2

DE60207742T2 - Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes

Info

Publication number: DE60207742T2
Application number: DE60207742T
Authority: DE
Inventors: Wolfgang Gschwendtner
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Nuance Communications Austria GmbH
Priority date: 2001-09-17
Filing date: 2002-09-10
Publication date: 2006-08-03
Anticipated expiration: 2022-09-11
Also published as: JP4241376B2; CN1555553A; EP1430474A1; CN1235188C; JP2005503590A; EP1430474B1; WO2003025904A1; US20030061043A1; DE60207742D1; US6735565B2; ATE311650T1

Description

Die vorliegende Erfindung bezieht sich auf eine Korrektureinrichtung zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen Worten des gesprochenen Textes richtig erkannte Worte und falsch erkannte Worte enthält.
Die vorliegende Erfindung bezieht sich ebenfalls auf ein Korrekturverfahren zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen Worten des gesprochenen Textes richtig erkannte Worte und falsch erkannte Worte enthält.
Eine solche Korrektureinrichtung und ein solches Korrekturverfahren sind aus dem Dokument US 5.909.667 bekannt, in dem eine Diktiereinrichtung offenbart ist. Die bekannte Diktiereinrichtung ist durch einen Computer gebildet, der eine Spracherkennungssoftware und eine Textverarbeitungssoftware abarbeitet. Ein Benutzer der bekannten Diktiereinrichtung kann einen gesprochenen Text in ein an den Computer angeschlossenes Mikrophon sprechen. Die eine Spracherkennungseinrichtung bildende Spracherkennungssoftware ordnet jedem gesprochenen Wort des gesprochenen Textes ein erkanntes Wort zu, wodurch ein zu dem gesprochenen Text erkannter Text erhalten wird. Der erkannte Text enthält so genannte richtig erkannte Worte, die mit den Worten die der Benutzer tatsächlich gesprochen hat übereinstimmen, und so genannte falsch erkannte Worte, die nicht mit den Worten übereinstimmen, die der Benutzer tatsächlich gesprochen hat. Der erkannte Text wird von der eine Textverarbeitungseinrichtung bildenden Textverarbeitungssoftware an einem an den Computer angeschlossenen Bildschirm dargestellt.
US-A1-2001/0018653 beschreibt die synchrone Wiedergabe von Audiodaten und entsprechendem erkanntem Text.
Die bekannte Diktiereinrichtung bildet auch eine Korrektureinrichtung, die sowohl die Textverarbeitungssoftware als auch die Spracherkennungssoftware beinhaltet und mit der falsch erkannte Worte durch Korrekturworte ersetzt werden können. Hierfür markiert der Benutzer das falsch erkannte Worte, gibt das oder die Korrekturworte mit einer Tastatur des Computers ein und gibt anschließend eine Bestätigungsinformation ein, wodurch die Ersetzung des markierten falsch erkannten Wortes durch das eingegebene Korrekturwort durchgeführt wird.
Zur Vereinfachung des Markierens des zu ersetzenden falsch erkannten Wortes kann der Benutzer der bekannten Diktiereinrichtung das zu ersetzende falsch erkannte Wort – ein so genanntes Markierwort – nochmals in das Mikrophon sprechen. Hierauf erkennt die Spracherkennungssoftware zu diesem gesprochenen Markierwort ein erkanntes Markierwort und die Textverarbeitungssoftware sucht das erkannte Markierwort in den Worten des erkannten Textes. Wenn das erkannte Markierwort durch Vergleich von Buchstabenfolgen der Worte in dem erkannten Text gefunden wird, dann markiert die Textverarbeitungseinrichtung dieses Markierwort. Der Benutzer muss nach dem Sprechen des Markierwortes kontrollieren, ob tatsächlich das zu ersetzende Wort markiert wurde. Wenn dies der Fall ist, dann gibt der Benutzer mittels der Tastatur das Korrekturwort und eine Bestätigungsinformation ein, um die Ersetzung durchzuführen.
Bei der bekannten Diktiereinrichtung hat sich als Nachteil ergeben, dass gerade die in dem erkannten Text enthaltenen falsch erkannten Worte für die Spracherkennungssoftware schwierig zu erkennen sind, weshalb auch bei dem Erkennen der Markierworte eine hohe Fehlerrate auftritt. Hierdurch werden relativ oft nicht die zu ersetzenden falsch erkannten Worte sondern andere Worte der erkannten Textinformation markiert, was einen zusätzlichen Arbeitsaufwand bedeutet. Als weiterer Nachteil der bekannten Diktiereinrichtung hat sich ergeben, dass der Benutzer relativ viele unterschiedliche Handlungen (Mikrophon und Tastatur) durchführen muss, um ein falsch erkanntes Worte zu ersetzen.
Die vorliegende Erfindung hat sich zur Aufgabe gestellt, einen Korrektureinrichtung gemäß der in dem ersten Absatz angegebenen Gattung und ein Korrekturverfahren gemäß der in dem zweiten Absatz angegebenen Gattung zu schaffen, bei der vorstehend angegebene Nachteile vermieden sind.
Zur Lösung der vorstehend angegebenen Aufgabe sind bei einer solchen Korrektureinrichtung erfindungsgemäße Merkmale vorgesehen, so dass die Korrektureinrichtung durch die nachstehend angegebene Weise charakterisierbar ist. Eine Korrektureinrichtung zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen Worten des gesprochenen Textes richtig erkannte Worte und falsch erkannte Worte enthält, mit
Eingangsmitteln zum Empfangen zumindest eines manuell eingegebenen Korrekturwortes, um zumindest eines der falsch erkannten Worte durch das zumindest eine Korrekturwort zu ersetzten, und mit
Transkriptionsmitteln zum phonetischen Transkribieren zumindest des eingegebenen Korrekturwortes in eine Phonemfolge und mit
Suchmitteln zum Suchen der Phonemfolge des zumindest einen Korrekturwortes in Phonemfolgen der Worte des erkannten Textes und zum Abgeben einer Positionsinformation, die die Position zumindest eines Wortes innerhalb des erkannten Textes kennzeichnet, dessen Phonemfolge mit der Phonemfolge des zumindest einen Korrekturwortes im wesentlichen übereinstimmt, und mit
Abgabemitteln zum Abgeben der Positionsinformation, um ein Markieren des zumindest einen durch die Positionsinformation gekennzeichneten Wortes in der erkannten Textinformation zu ermöglichen.
Zur Lösung vorstehend angegebener Aufgabe sind bei einem solchen Korrekturverfahren erfindungsgemäße Merkmale vorgesehen, so dass das Korrekturverfahren durch die nachstehend angegebene Weise charakterisierbar ist.
Ein Korrekturverfahren zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen Worten des gesprochenen Textes richtig erkannte Worte und falsch erkannte Worte enthält, wobei folgende Schritte abgearbeitet werden:

– Empfangen zumindest eines manuell eingegebenen Korrekturwortes, um zumindest eines der falsch erkannten Worte durch das zumindest eine Korrekturwort zu ersetzten;
– phonetisches Transkribieren zumindest des eingegebenen Korrekturwortes in eine Phonemfolge;
– Suchen der Phonemfolge des zumindest einen Korrekturwortes in Phonemfolgen der Worte des erkannten Textes und Abgeben einer Positionsinformation, die die Position zumindest eines Wortes innerhalb des erkannten Textes kennzeichnet, dessen Phonemfolge mit der Phonemfolge des zumindest einen Korrekturwortes im wesentlichen übereinstimmt;
– Abgeben der Positionsinformation, um ein Markieren des zumindest einen durch die Positionsinformation gekennzeichneten Wortes in der erkannten Textinformation zu ermöglichen.

Der vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass die von einer Spracherkennungseinrichtung falsch erkannten Worte und die Worte die eigentlich hätten erkannt werden sollen – also die richtig zu erkennenden Worte – sehr oft sehr ähnlich klingen. Gerade bei solchen ähnlich klingenden gesprochenen Worten wie beispielsweise „four" und „for" ist die Fehlerrate bekannter Spracherkennungseinrichtungen besonders hoch.
Durch die erfindungsgemäßen Merkmale ist erreicht, dass der Benutzer ein falsch erkanntes Wort, das er durch ein Korrekturwort ersetzen möchte, das eigentlich hätte erkannt werden sollen, nicht markieren muss. Die Korrektureinrichtung ermittelt die Phonemfolge des eingegebenen Korrekturwortes mit statistischen Methoden, welche Phonemfolge den Klang des Korrekturwortes repräsentiert. Anschließend sucht die Korrektureinrichtung durch Vergleich der Phonemfolgen nach einem ähnlich wie das Korrekturwort klingenden Wort in dem erkannten Text.
Vorteilhafterweise wird somit durch die Eingabe des Korrekturwortes das mit großer Wahrscheinlichkeit zu ersetzende falsch erkannte Wort in der erkannten Textinformation automatisch markiert. Der Benutzer kann durch Eingabe einer Bestätigungsinformation die Ersetzung des markierten Wortes veranlassen oder durch Eingabe einer Nächsteninformation das Markieren eines weiteren ähnlich klingenden Wortes der erkannten Textinformation veranlassen.
Bekannte Korrektureinrichtungen von Spracherkennungseinrichtungen ermöglichen zur Korrektur falsch erkannter Worte eine synchrone Wiedergabe der gesprochenen Worte und der zugehörigen erkannten Worte des erkannten Textes. Wenn der Benutzer dieser bekannten Korrektureinrichtung ein falsch erkanntes Wort bemerkt, dann unterbricht er die synchrone Wiedergabe und führt die Ersetzung des falsch erkannten Wortes durch ein von dem Benutzer eingegebenes Wort durch. Anschließend aktiviert der Benutzer wieder die synchrone Wiedergabe, um weitere falsch erkannte Worte des erkannten Textes zu finden und zu korrigieren.
Gemäß den Maßnahmen des Anspruchs 2 und des Anspruchs 9 ist der Vorteil erhalten, dass die synchrone Wiedergabe automatisch unterbrochen wird, sobald der Benutzer beginnt ein Korrekturwort einzugeben.
Gemäß den Maßnahmen des Anspruchs 3 und des Anspruchs 10 ist der Vorteil erhalten, dass das Unterbrechen der synchrone Wiedergabe automatisch wieder beendet wird, sobald der Benutzer durch Eingabe der Bestätigungsinformation bestätigt, dass das automatisch markierte Wort durch das eingegebene Korrekturwort ersetzt werden soll.
Der Benutzer einer Korrektureinrichtung erkennt bei der synchronen Wiedergabe ein falsch erkanntes Wort in der Umgebung des Wortes, das während der synchronen Wiedergabe gerade akustisch wiedergegeben und optisch markiert wird. Gemäß den Maßnahmen des Anspruchs 4 und des Anspruchs 11 ist der Vorteil erhalten, dass die Suchmittel vorerst in der näheren Umgebung um das zum Zeitpunkt der Unterbrechung markierten Wortes des erkannten Textes nach einem ähnlich klingenden Wort suchen und vorerst dieses markieren. Sollte der Benutzer durch Eingabe der Nächsteninformation eine weitere Suche veranlassen, dann wird der Suchbereich erweitert.
Die Spracherkennungseinrichtung ermittelt bei einem Spracherkennungsverfahren vorerst eine dem gesprochenen Text zugehörige Phonemfolge und erkennt basierend auf dieser Phonemfolge den erkannten Text. Gemäß den Maßnahmen des Anspruchs 5 und des Anspruchs 12 ist der Vorteil erhalten, dass die Suchmittel die bereits von der Spracherkennungseinrichtung ermittelte Phonemfolge bei ihrer Suche nach der Phonemfolge des Korrekturwortes verwenden. Dies ist insbesondere dann vorteilhaft, wenn die Korrektureinrichtung ein Teil der Spracherkennungseinrichtung ist.
Um die Zuverlässigkeit der Suchmittel zu erhöhen hat es sich als vorteilhaft erwiesen, dass Phoneme, die sehr ähnlich klingen, bei der Suche als gleiche Phoneme beurteilt werden. So werden beispielsweise in Phonemfolgen englischsprachiger Worte die Phoneme „v" und „f"^` sowie „t" und „D" bei der Suche durch die Suchmittel als identisch angenommen.
Die Erfindung wird im Folgenden anhand eines Ausführungsbeispiels näher erläutert, auf das die Erfindung aber nicht beschränkt ist.
1 zeigt eine Computer, der eine Spracherkennungssoftware und eine Textverarbeitungssoftware abarbeitet und der eine Korrektureinrichtung zum Korrigieren eines von der Spracherkennungseinrichtung zu einem gesprochenen Text erkannten Textes bildet.
2 bis 5 zeigen von der Korrektureinrichtung des Computer gemäß 1 an einem Monitor dargestellte Bildinformationen.
1 zeigt einen Computer 1 der eine Spracherkennungseinrichtung 2, eine Textverarbeitungseinrichtung 3 und eine Korrektureinrichtung 4 bildet. Die Spracherken nungseinrichtung 2 und die Korrektureinrichtung 4 werden durch eine von dem Computer 1 abgearbeitete Spracherkennungssoftware und die Textverarbeitungseinrichtung 3 wird durch eine von dem Computer 1 abgearbeitete Textverarbeitungssoftware gebildet.
An den Computer 1 ist ein Mikrophon 5, ein Lautsprecher 6, ein Monitor 7 und eine Tastatur 8 angeschlossen. Ein Benutzer des Computers 1 kann einen Text in das Mikrophon 1 sprechen, worauf diesen gesprochenen Text enthaltende gesprochene Textinformationen GTI als analoges Audiosignal an Spracherkennungsmittel 9 der Spracherkennungseinrichtung 2 abgegeben werden.
Die Spracherkennungsmittel 9 sind zum Erkennen von der gesprochenen Textinformationen GTI zuzuordnenden erkannten Textinformationen ETI ausgebildet, wie dies seit langem bekannt ist. Hierfür speichern die Spracherkennungsmittel 9 die gesprochenen Textinformationen GTI als digitale Audiodaten in einer ersten Speicherstufe 10 ab. Bei der Abarbeitung eines Spracherkennungsverfahrens durch die Spracherkennungsmittel 9 ordnen die Spracherkennungsmittel 9 den gesprochenen Textinformationen GTI vorerst Phoneme enthaltende Phonemfolgen zu. Wie allgemein bekannt ist, sind Phoneme kleine akustische Einheiten und eine Phonemfolge eines Wortes gibt den akustischen Eindruck des gesprochenen Wortes wieder. Dem Wort „DAYS" ist beispielsweise die Phonemfolge „d Y z" zugeordnet.
Bei der weiteren Abarbeitung des Spracherkennungsverfahrens werden die aus der gesprochenen Textinformation GTI ermittelten Phonemfolgen in einem Lexikonspeicher gesucht, in dem zu einer Vielzahl von Worten jeweils eine Phonemfolge zugeordnete gespeichert ist. Wenn in dem Lexikonspeicher eine ermittelte Phonemfolge gefunden wurde, dann wird das zugeordnet gespeicherte Worte als mögliches erkanntes Wort ermittelt. Die Abfolgen möglicher erkannter Worte zu den ermittelten Phonemfolgen werden anschließend in einem Sprachmodellspeicher gesucht und die wahrscheinlichste Abfolge möglicher erkannter Worte wird als zu den gesprochenen Textinformationen GTI erkannte Textinformationen in einer zweiten Speicherstufe 11 gespeichert.
Die erkannten Textinformationen ETI enthalten richtig erkannte Textinformationen RETI von so genannten richtig erkannten Worten, die mit den Worten die der Benutzer tatsächlich gesprochen hat übereinstimmen. Die erkannten Textinformationen ETI enthalten weiters falsch erkannte Textinformationen FETI von so genannten falsch erkannten Worten, die nicht mit den Worten übereinstimmen, die der Benutzer tatsächlich gespro chen hat. Von der Spracherkennungseinrichtung 9 falsch erkannte Worte und die Worte die eigentlich hätten erkannt werden sollen – also die gesprochenen Worte – klingen oft sehr ähnlich, worauf nachfolgend noch näher eingegangen ist.
Bei dem Spracherkennungsverfahren werden weiters Linkinformationen LI ermittelt und in einer dritten Speicherstufe 12 gespeichert. Die Linkinformationen LI kennzeichnen zu jedem Wort der gesprochenen Textinformationen GTI das zughörig erkannte Wort der erkannten Textinformationen TI und ermöglichen eine synchrone Wiedergabebetriebsart, worauf nachfolgend noch näher eingegangen ist. Das beschriebene Spracherkennungsverfahren ist seit langem bekannt, weshalb hierauf nicht näher eingegangen ist.
Die Textverarbeitungseinrichtung 3 ist zum Auslesen der in der zweiten Speicherstufe 11 gespeicherten erkannten Textinformationen ETI und zum Abgeben von die erkannten Textinformationen ETI enthaltenen Bildinformationen BI an den Monitor 7 ausgebildet. Von der Tastatur 8 sind über Eingangsmittel 13 der Korrektureinrichtung 4 Korrekturinformationen an die Textverarbeitungseinrichtung 3 abgebbar, um die erkannten Textinformationen ETI zu editieren beziehungsweise zu verändern, wodurch korrigierte Textinformationen KTI ermittelt werden, die in einer vierten Speicherstufe 14 der Korrektureinrichtung 4 speicherbar sind.
Der Computer 1 ist bei aktivierter synchroner Wiedergabebetriebsart zum automatischen Markieren eines Wortes der mit dem Monitor 7 dargestellten erkannten Textinformationen ETI und zum synchronen also zum gleichzeitigen akustischen Wiedergeben des durch die Linkinformationen LI zugeordneten gesprochenen Wortes mit dem Lautsprecher 6 ausgebildet. Hierfür liest die Textverarbeitungseinrichtung 3 sowohl die erkannten Textinformationen ETI, die gesprochenen Textinformationen GTI als auch die Linkinformationen LI aus den entsprechenden Speicherstufen 10, 11 und 12 aus.
Bei aktivierter synchroner Wiedergabebetriebsart kann der Benutzer kontrol lieren, ob zu dem gerade akustisch wiedergegebenen gesprochenen Wort das markierte dargestellte Wort richtig erkannt wurde. Dieses Feature ist als „Synchronous Playback" bekannt und beispielsweise in US 5.031.113 beschrieben, weshalb hierauf nicht näher eingegangen ist.
Die Korrektureinrichtung 4 enthält nunmehr die Eingangsmittel 13, die vierte Speicherstufe 14, eine fünfte Speicherstufe 15, Transkriptionsmittel 16 und Suchmittel 17. Die Transkriptionsmittel 16 sind zum phonetischen Transkribieren eines Wortes gemäß statistischer Methoden ausgebildet. Hierbei werden die gespeicherten Phonemfolgen, die Worten in dem Lexikonspeicher zugeordnet sind, von diesen Mitteln ausgelesen. Worte, die nicht im Lexikonspeicher gespeichert sind, werden in einzelne Silben zerlegt und die zugehörige Phonemfolge wird durch Zusammensetzen der Phoneme der Einzelsilben aus dem Lexikonspeicher ermittelt.
Wenn in dem Computer 1 durch Betätigung einer Taste der Tastatur 8 die synchrone Wiedergabebetriebsart aktiviert wird, dann lesen die Transkriptionsmittel 16 die erkannten Textinformationen ETI aus der zweiten Speicherstufe 11 aus und führen die phonetische Transkription der gesamten erkannten Textinformationen ETI durch. Als Ergebnis der phonetischen Transkription der erkannten Textinformationen ETI geben die Transkriptionsmittel 16 Phoneminformationen PI(ETI) der erkannten Textinformationen ETI ab, die Phonemfolgen der Worte des erkannten Textes enthalten und die in der fünften Speicherstufe 15 gespeichert werden.
Die Eingangsmittel 13 sind nunmehr zum Empfangen von Korrekturinformationen KWI eines mit der Tastatur 8 manuell eingegebenen Korrekturwortes ausgebildet, um ein falsch erkanntes Wort des erkannten Textes durch das Korrekturwort zu ersetzen. Die Transkriptionsmittel 16 sind weiters zum phonetischen Transkribieren der Korrekturinformationen KWI und zum Abgeben von Phoneminformationen PI(KWI) der Korrekturinformationen KWI ausgebildet, wofür den Transkriptionsmitteln 16 die Korrekturinformationen KWI zuführbar sind.
Die Transkriptionsmittel 16 sind zum Abgeben der Phoneminformationen PI(KWI) der Korrekturinformationen KWI an die Suchmittel 17 ausgebildet. Die Suchmittel 17 sind nunmehr zum Suchen der Phonemfolge des zumindest einen Korrekturwortes in den Phonemfolgen der Worte des erkannten Textes und zum Abgeben einer Positionsinformation PI ausgebildet, die die Position zumindest eines Wortes innerhalb des erkannten Textes kennzeichnet, dessen Phonemfolge mit der Phonemfolge des zumindest einen Korrekturwortes im wesentlichen übereinstimmt.
Die Suchmittel 17 bilden weiters Abgabemittel zum Abgeben der Positionsinformation PI, um ein Markieren des zumindest einen durch die Positionsinformation PI gekennzeichneten Wortes in der erkannten Textinformation ETI zu ermöglichen. Hierfür geben die Suchmittel die Positionsinformation PI des oder der zu markierenden Worte an die Textverarbeitungsmittel 3 ab, die ihrerseits eine entsprechende Bildinformation BI an den Monitor 7 abgeben. Die weitere Funktionsweise und die Vorteile der erfindungsgemäßen Korrektureinrichtung sind im Folgenden anhand eines in 2 bis 5 dargestellten Anwendungsbeispiels des Computers 1 näher erläutert.
Gemäß dem Anwendungsbeispiel ist angenommen, dass der Benutzer des Computers 1 die Worte „ONE TWO THREE FOUR FIVE SIX SEVEN EIGHT NINE TEN" in das Mikrophon 5 spricht. Den entsprechenden gesprochenen Textinformationen GTI werden bei dem Spracherkennungsverfahren der Spracherkennungsmittel 9 die erkannten Textinformationen ETI der erkannten Worte „1 2 3 FOR 5 6 7 DAYS 9 THEN" zugeordnet.
Die erkannten Textinformationen ETI enthalten falsch erkannte Textinformationen FETI der falsch erkannten Worten „FOR"; „DAYS" und „THEN". Wie anhand einer Tabelle 1 ersichtlich sind die Phonemfolgen der falsch erkannten Worte und der eigentlich zu erkennenden gesprochenen Worte sehr ähnlich, weshalb die Spracherkennungsmittel 9 Fehler bei der Erkennung gemacht hat.
Tabelle 1
Gemäß dem Anwendungsbeispiel ist nunmehr weiters angenommen, dass der Benutzer durch Betätigen einer Taste der Tastatur 8 die synchrone Wiedergabebetriebsart aktiviert. Hierauf wird die in der 2 dargestellte Bildinformation BI an dem Monitor 7 dargestellt. Bei aktivierter synchroner Wiedergabebetriebsart ist die Darstellung mit dem Monitor 7 in einen CORRECTION EDITOR und in ein CORRECTION WINDOW aufgeteilt. In dem CORRECTION EDITOR wird die korrigierte Textinformation KTI des korrigierte Textes dargestellt, die unmittelbar nach dem Aktivieren der synchronen Wiedergabebetriebsart mit der erkannten Textinformation ETI des erkannten Textes überein stimmt. In dem CORRECTION WINDOW werden von dem Benutzer mit der Tastatur 8 eingegebene Korrekturworte dargestellt, worauf nachfolgend näher eingegangen ist.
Unmittelbar nach dem Aktivieren der synchronen Wiedergabebetriebsart beginnen die Textverarbeitungsmittel 3 mit der akustischen Wiedergabe des ersten Wortes „ONE" der gesprochenen Textinformation GTI und markieren das zugehörig erkannte Wort „1" der erkannten Textinformation ETI mit einer Markierinformation MI. Der Benutzer kann somit sehr leicht erkennen, dass das erkannte Wort tatsächlich mit dem gesprochenen Wort übereinstimmt.
Während das vierte Wort „FOUR" der gesprochenen Textinformation GTI akustisch wiedergegeben und optisch markiert wird, erkennt der Benutzer, dass dieses Wort falsch erkannt wurde und gibt das Wort „4" – das eigentlich erkannt hätte werden sollen – als Korrekturwort beziehungsweise als Korrekturinformation KWI mit der Tastatur 8 ein.
Die Korrektureinrichtung 4 ist nunmehr vorteilhafterweise zum automatischen Unterbrechen der synchronen Wiedergabebetriebsart ausgebildet, wenn der Benutzer beginnt ein Korrekturwort mit der Tastatur 8 einzugeben. Hierdurch ist erreicht, dass die akustische Wiedergabe der gesprochenen Textinformationen GTI unterbrochen wird und an der aktuellen Position der Markierinformation MI eine Cursorinformation CI dargestellt wird, wie dies in 3 zu sehen ist. Der Benutzer muss daher vorteilhafterweise keine zusätzliche Taste zur Unterbrechung der synchronen Wiedergabebetriebsart betätigen.
Unmittelbar nach dem Aktivieren der synchronen Wiedergabebetriebsart haben die Transkriptionsmittel 16 die erkannten Textinformationen ETI transkribiert und die so ermittelten Phoneminformationen PI(ETI) der erkannten Textinformationen ETI in der fünften Speicherstufe 15 abgespeichert. Sobald der Benutzer das Korrekturwort eingegeben hat, transkribieren die Transkriptionsmittel 16 die eingegebenen Korrekturinformationen KWI und geben die ermittelten Phoneminformationen PI(KWI) der Korrekturinformationen KWI an die Suchmittel 17 ab.
Die Suchmittel 17 beginnen nunmehr in einem einstellbaren Suchbereich von M = 5 Worten vor und N = 3 Worten nach der aktuellen Position der Cursorinformation CI die Phoneminformationen PI(KWI) der Korrekturinformationen KWI des Korrekturwortes in den Phoneminformationen PI(ETI) der erkannten Textinformationen ETI zu suchen. Da die Phoneminformationen PI(KWI) = „for" mit den Phoneminformationen PI(ETI) „for" der falsch erkannten Textinformation FETI innerhalb des Suchbereichs der erkannten Textinformation ETI übereinstimmt, ermitteln die Suchmittel 17 die Position des vierten Wortes der erkannten Textinformation ETI als Positionsinformation PI. Hierauf geben die Suchmittel 17 die ermittelte Positionsinformation PI an die Textverarbeitungseinrichtung 3 ab, worauf das falsch erkannte Wort „FOR" – wie in 4 dargestellt – mit der Markierinformation MI markiert wird.
Hierdurch ist der Vorteil erhalten, dass der Benutzer – nachdem er ein falsch erkanntes Wort bemerkt und die synchrone Wiedergabebetriebsart unterbrochen hat – das falsch erkannte und zu ersetzende Wort nicht markieren muss. Vorteilhafterweise muss der Benutzer zur Ersetzung des falsch erkannten Wortes „FOR" durch das eingegebene Korrekturwort „4" nur mehr eine Bestätigungsinformation eingeben, die beispielsweise durch Betätigung der Taste „ENTER" der Tastatur 8 eingegeben werden kann. Hierdurch ist somit das Ersetzen von falsch erkannten Worten durch das Wort, das eigentlich erkannt hätte werden sollen besonders einfach und rasch durchführbar.
Vorteilhafterweise wird durch das Eingeben der Bestätigungsinformation zusätzlich auch die Unterbrechung der synchronen Wiedergabebetriebsart beendet, worauf die synchrone akustische Wiedergabe und das optische Markieren zugehöriger erkannter Worte der erkannten Textinformation ETI fortgesetzt wird.
Durch das Suchen der Phoneminformationen PI(KWI) der Korrekturinformationen KWI innerhalb eines Suchbereiches der Phoneminformationen PI(ETI) der erkannten Textinformationen ETI ist der Vorteil erhalten, dass das zu ersetzende falsch erkannte Wort auch dann besonders zuverlässig gefunden wird, wenn das gleiche Wort an einer anderen Stelle des erkannten Textes nochmals vorkommt. Wenn die Suche in dem Suchbereich nicht erfolgreich ist, dann sind die Suchmittel 17 vorteilhafterweise zum schrittweisen Erweitern des Suchbereichs ausgebildet.
Wenn das in 4 markierte Wort nicht das Wort ist, das der Benutzer durch das eingegebene Korrekturwort ersetzen möchte, dann kann er durch Eingabe einer Nächsteinformation NI erreichen, dass die Suchmittel 17 nochmals in einem gegebenenfalls erweiterten Suchbereich suchen. Sobald die Suchmittel 17 eine ausreichende Übereinstimmung der Phoneminformationen PI(ETI) und PI(KWI) eines anderen noch nicht zuvor markierten Wortes festgestellt haben, geben die Suchmittel 17 eine die Position dieses ermittelten Wortes als Positionsinformation PI an die Textverarbeitungseinrichtung 3 ab.
Hierdurch ist der Vorteil erhalten, dass, wenn das von der Korrektureinrichtung 4 automatisch markierte Wort nicht das Wort ist, das der Benutzer durch das eingegebene Korrekturwort ersetzen möchte, der Benutzer durch Betätigung nur einer Taste der Tastatur 8 das automatische Markieren eines anderen Wortes innerhalb des Suchbereichs veranlassen kann, dessen Phoneminformation PI(ETI) eine große Übereinstimmung mit der Phoneminformation PI(KWI) des Korrekturwortes aufweist.
Die Suchmittel 17 sind nunmehr bei der Suche von im wesentlichen übereinstimmenden Phonemfolgen zum Vernachlässigen von die verglichenen Phonemfolgen unterscheidenden jedoch ähnlich klingenden Phonemen ausgebildet. Hierbei werden beispielsweise die Phoneme „o" und „@" als so ähnlich klingend eingestuft, dass verglichene Phonemfolgen, die sich nur durch diese beiden Phoneme unterscheiden, als übereinstimmend beurteilt werden.
Hierdurch ist der Vorteil erhalten, dass die Suchmittel 17 auch bei kleinen Unterschieden der zu vergleichenden Phonemfolgen zu einem Ergebnis kommen, um ein Wort der erkannten Textinformation ETI zu markieren.
Es kann erwähnt werden, dass die Suchmittel 17 als Phoneminformationen PI(ETI) der erkannten Textinformationen ETI auch die von den Spracherkennungsmitteln bei der Abarbeitung des Spracherkennungsverfahrens ermittelten Phoneminformationen verwenden könnten. Hierdurch wäre der Vorteil erhalten, dass die Transkriptionsmittel die erkannten Textinformationen ETI nicht transkribieren müssten und auf das Vorsehen der fünften Speicherstufe verzichtet werden könnte.
Besonders vorteilhaft ist es auch, die Korrektureinrichtung als Teil der Spracherkennungseinrichtung vorzusehen und die synchrone Wiedergabebetriebsart durch die Korrektureinrichtung zu ermöglichen. Hierdurch könnte als Textverarbeitungseinrichtung eine handelsübliche Textverarbeitungssoftware wie beispielsweise „Word for Windows^®" verwendet werden.
Es kann erwähnt werden, dass auch mehrere Worte als Korrekturinformationen KWI eingegeben werden können, um ein oder mehrere falsch erkannte Worte auf einmal zu ersetzen. Es kann erwähnt werden, dass der Suchbereich von dem Benutzer des Computers einstellbar ist. So kann der Benutzer praktisch beliebigen Werte beispielsweise innerhalb der Bereiche N = 1 bis N = 500 und M = 1 bis M = 500 einstellen.
Es kann erwähnt werden, dass die phonetische Transkription vorteilhafterweise nur für die in dem Suchbereich befindlichen Worte der erkannten Textinformationen ETI durchgeführt werden könnte.
Es kann erwähnt werden, dass eine erfindungsgemäße Korrektureinrichtung besonders bei professionellen Transkriptionsservices vorteilhaft einsetzbar ist, da Trankskriptionisten solcher Transkriptionsservices ausschließlich von der Spracherkennungseinrichtung falsch erkannte Worte manuell korrigieren und somit die Bedingung praktisch immer erfüllt ist, dass die Phonemfolgen der falsch erkannten Worte und der eigentlich zu erkennenden gesprochenen Worte sehr ähnlich sind.
Text in der Zeichnung
2

Korrektureditor
Korrekturfenster

3

Korrektureditor
Korrekturfenster

4

Korrektureditor
Korrekturfenster

5

Korrektureditor
Korrekturfenster

Claims

Korrekturanordnung (4) zum Korrigieren eines mit Hilfe einer Spracherkennungsanordnung (2) für einen gesprochenen Text (GTI) erkannten Textes (ETI), wobei der erkannte Text (ETI) für gesprochene Worte des gesprochenen Textes (GTI) einwandfrei erkannte Worte und falsch erkannte Worte (FETI) aufweist, wobei diese Korrekturanordnung die nachfolgenden Elemente umfasst: – Eingabemittel (13) zum Empfangen wenigstens eines manuell eingegebenen Korrekturwortes (KWI), um wenigstens eines der fehlerhaft erkannten Worte (FETI) durch das wenigstens eine Korrekturwort (KWI) zu ersetzen, und – Transkriptionsmittel (16) zum phonetischen Transkribieren wenigstens des eingegebenen Korrekturwortes (KWI) zu einer Phonemfolge (PI(KWI)) und – Suchmittel (17) zum Herausfinden der Phonemfolge (PI(KWI)) des wenigstens einen Korrekturwortes (KWI) in Phonemfolgen (PI(KTI) der Worte des erkannten Textes und zum Liefern von Positionsinformation (PI), welche die Position wenigstens eines Wortes innerhalb des erkannten Textes (ETI) identifiziert, dessen Phonemfolge im Wesentlichen der Phonemfolge (PI(KWI)) des wenigstens einen Korrekturwortes (KWI) entspricht, und – Ausgangsmittel (17) zum Liefern der genannten Positionsinformation (PI), damit es ermöglicht wird, das wenigstens eine Wort zu markieren, das durch die Positionsinformation (PI) in der erkannten Textinformation (ETI) identifiziert worden ist.
Korrekturanordnung (4) nach Anspruch 1, wobei die Korrekturanordnung (4) zum Unterbrechen einer synchronen Wiedergabe entworfen worden ist, wobei die gesprochenen Worte (GTI) des gesprochenen Textes akustisch wiedergegeben werden und die erkannten Worte des erkannten Textes (ETI) für die gesprochenen Worte (GTI) optisch synchron markiert werden, wenn ein Korrekturwort manuell von dem Benutzer eingegeben wird.
Korrekturanordnung (4) nach Anspruch 2, wobei die Korrekturanordnung (4) zum Beenden der Unterbrechung der synchronen Wiedergabe entworfen worden ist, wenn der Ersatz des wenigstens einen durch die Positionsinformation (PI) identifizierten Wortes durch das wenigstens eine Korrekturwort (KWI) durch eine manuelle Eingabe einer Bestätigung bestätigt worden ist.
Korrekturanordnung (4) nach Anspruch 2, wobei die Suchmittel (17) dazu entworfen worden sind, die Phonemfolge (PI(KWI)) des wenigstens einen Korrekturwortes (KWI) in der Phonemfolge (PI(ETI) der Worte in einem Suchgebiet des erkannten Textes zu suchen, wobei das genannte Suchgebiet durch eine Anzahl M Worte vor und eine Anzahl N Worte nach dem letzten markierten Wort in dem erkannten Text (ETI) vor der Unterbrechung der synchronen Wiedergabe definiert ist.
Korrekturanordnung (4) nach Anspruch 1, wobei die Suchmittel (17) dazu entworfen worden sind, nach der Phonemfolge (PI(KWI)) des wenigstens einen Korrekturwortes (KWI) in den Phonemfolgen zu suchen, die durch die Spracherkennungsanordnung (2) aus den gesprochenen Worten des gesprochenen Textes (GTI) ermittelt worden sind.
Korrekturanordnung (4) nach Anspruch 5, wobei die Korrekturanordnung (4) dazu entworfen worden sind, einen Teil der Spracherkennungsanordnung (2) zu bilden.
Korrekturanordnung (4) nach Anspruch 1, wobei die Suchmittel (17) dazu entworfen worden sind, Phoneme zu ignorieren, die von den verglichenen Phonemfolgen abweichen, aber in der Suche nach im Wesentlichen übereinstimmenden Phonemfolgen ähnlich klingen.
Korrekturverfahren zum Korrigieren eines Textes (GTI), der von einer Spracherkennungsanordnung (2) für einen gesprochenen Text erkannt worden ist, wobei der erkannte Text (ETI) für gesprochene Worte des gesprochenen Textes (GTI) einwandfrei erkannte Worte und falsch erkannte Worte (FETI) aufweist, wobei die nachfolgenden Verfahrensschritte durchgeführt werden: – das Empfangen wenigstens eines manuell eingegebenen Korrekturwortes (KWI) um zumindest eines der falsch erkannten Worte (FETI) durch das zumindest eine Korrekturwort (KWI) zu ersetzten; – das phonetisches Transkribieren zumindest des eingegebenen Korrekturwortes (KWI) in eine Phonemfolge (PI(KWI)); – das Suchen der Phonemfolge des zumindest einen Korrekturwortes (KWI) in Phonemfolgen (PI(ETI)) der Worte des erkannten Textes (ETI) und das Abgeben einer Positionsinformation (PI), welche die Position zumindest eines Wortes innerhalb des erkannten Textes (ETI) kennzeichnet, dessen Phonemfolge mit der Phonemfolge des zumindest einen Korrekturwortes (KWI) im wesentlichen übereinstimmt; – das Abgeben der Positionsinformation (PI), um ein Markieren des zumindest einen durch die Positionsinformation (PI) gekennzeichneten Wortes in der erkannten Textinformation (ETI) zu ermöglichen.
Korrekturverfahren nach Anspruch 8, wobei folgender weiterer Schritt abgearbeitet wird: – das Unterbrechen einer synchronen Wiedergabe, bei der die gesprochenen Worte des gesprochenen Textes (GTI) akustisch wiedergegeben und zu den gesprochenen Worten (GTI) die erkannten Worte des erkannten Textes (ETI) synchron optisch markiert werden, wenn ein Korrekturwort (KWI) manuell eingegeben wird.
Korrekturverfahren nach Anspruch 9, wobei folgender weiterer Schritt abgearbeitet wird: – das Beenden des Unterbrechens der synchronen Wiedergabe, wenn durch manuelle Eingabe einer Bestätigungsinformation die Ersetzung des zumindest einen durch die Positionsinformation (PI) gekennzeichneten Wortes durch das zumindest eine Korrekturwort (KWI) bestätigt wurde.
Korrekturverfahren nach Anspruch 9, wobei folgender weiterer Schritt abgearbeitet wird: – das Suchen der Phonemfolge des zumindest einen Korrekturwortes (KWI) in den Phonemfolgen der in einem Suchbereich des erkannten Textes (ETI) enthaltenen Worte, wobei der Suchbereich durch eine Anzahl von M Worten vor und N Worten nach dem vor der Unterbrechung der synchronen Wiedergabe zuletzt markierte Wort des erkannten Textes (ETI) festgelegt ist.
Korrekturverfahren nach Anspruch 8, wobei folgender weiterer Schritt abgearbeitet wird: – das Suchen der Phonemfolge (PI(KWI)) des zumindest einen Korrekturwortes (KWI) in von der Spracherkennungseinrichtung (2) aus den gesprochenen Worten des gesprochenen Textes (GTI) ermittelten Phonemfolgen.
Korrekturverfahren nach Anspruch 8, wobei folgender weiterer Schritt abgearbeitet wird: – das Suchen von im wesentlichen übereinstimmenden Phonemfolgen, wobei die verglichenen Phonemfolgen unterscheidende jedoch ähnlich klingende Phoneme vernachlässigt werden.