-
Die
vorliegende Erfindung bezieht sich auf eine Korrektureinrichtung
zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem
gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen
Worten des gesprochenen Textes richtig erkannte Worte und falsch
erkannte Worte enthält.
-
Die
vorliegende Erfindung bezieht sich ebenfalls auf ein Korrekturverfahren
zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem
gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen
Worten des gesprochenen Textes richtig erkannte Worte und falsch
erkannte Worte enthält.
-
Eine
solche Korrektureinrichtung und ein solches Korrekturverfahren sind
aus dem Dokument
US 5.909.667 bekannt,
in dem eine Diktiereinrichtung offenbart ist. Die bekannte Diktiereinrichtung
ist durch einen Computer gebildet, der eine Spracherkennungssoftware
und eine Textverarbeitungssoftware abarbeitet. Ein Benutzer der
bekannten Diktiereinrichtung kann einen gesprochenen Text in ein
an den Computer angeschlossenes Mikrophon sprechen. Die eine Spracherkennungseinrichtung
bildende Spracherkennungssoftware ordnet jedem gesprochenen Wort
des gesprochenen Textes ein erkanntes Wort zu, wodurch ein zu dem
gesprochenen Text erkannter Text erhalten wird. Der erkannte Text
enthält so
genannte richtig erkannte Worte, die mit den Worten die der Benutzer
tatsächlich
gesprochen hat übereinstimmen,
und so genannte falsch erkannte Worte, die nicht mit den Worten übereinstimmen,
die der Benutzer tatsächlich
gesprochen hat. Der erkannte Text wird von der eine Textverarbeitungseinrichtung
bildenden Textverarbeitungssoftware an einem an den Computer angeschlossenen
Bildschirm dargestellt.
-
US-A1-2001/0018653
beschreibt die synchrone Wiedergabe von Audiodaten und entsprechendem
erkanntem Text.
-
Die
bekannte Diktiereinrichtung bildet auch eine Korrektureinrichtung,
die sowohl die Textverarbeitungssoftware als auch die Spracherkennungssoftware
beinhaltet und mit der falsch erkannte Worte durch Korrekturworte
ersetzt werden können.
Hierfür markiert
der Benutzer das falsch erkannte Worte, gibt das oder die Korrekturworte
mit einer Tastatur des Computers ein und gibt anschließend eine
Bestätigungsinformation
ein, wodurch die Ersetzung des markierten falsch erkannten Wortes
durch das eingegebene Korrekturwort durchgeführt wird.
-
Zur
Vereinfachung des Markierens des zu ersetzenden falsch erkannten
Wortes kann der Benutzer der bekannten Diktiereinrichtung das zu
ersetzende falsch erkannte Wort – ein so genanntes Markierwort – nochmals
in das Mikrophon sprechen. Hierauf erkennt die Spracherkennungssoftware
zu diesem gesprochenen Markierwort ein erkanntes Markierwort und
die Textverarbeitungssoftware sucht das erkannte Markierwort in
den Worten des erkannten Textes. Wenn das erkannte Markierwort durch Vergleich
von Buchstabenfolgen der Worte in dem erkannten Text gefunden wird,
dann markiert die Textverarbeitungseinrichtung dieses Markierwort.
Der Benutzer muss nach dem Sprechen des Markierwortes kontrollieren,
ob tatsächlich
das zu ersetzende Wort markiert wurde. Wenn dies der Fall ist, dann
gibt der Benutzer mittels der Tastatur das Korrekturwort und eine
Bestätigungsinformation
ein, um die Ersetzung durchzuführen.
-
Bei
der bekannten Diktiereinrichtung hat sich als Nachteil ergeben,
dass gerade die in dem erkannten Text enthaltenen falsch erkannten
Worte für
die Spracherkennungssoftware schwierig zu erkennen sind, weshalb
auch bei dem Erkennen der Markierworte eine hohe Fehlerrate auftritt.
Hierdurch werden relativ oft nicht die zu ersetzenden falsch erkannten Worte
sondern andere Worte der erkannten Textinformation markiert, was
einen zusätzlichen
Arbeitsaufwand bedeutet. Als weiterer Nachteil der bekannten Diktiereinrichtung
hat sich ergeben, dass der Benutzer relativ viele unterschiedliche
Handlungen (Mikrophon und Tastatur) durchführen muss, um ein falsch erkanntes
Worte zu ersetzen.
-
Die
vorliegende Erfindung hat sich zur Aufgabe gestellt, einen Korrektureinrichtung
gemäß der in
dem ersten Absatz angegebenen Gattung und ein Korrekturverfahren
gemäß der in
dem zweiten Absatz angegebenen Gattung zu schaffen, bei der vorstehend
angegebene Nachteile vermieden sind.
-
Zur
Lösung
der vorstehend angegebenen Aufgabe sind bei einer solchen Korrektureinrichtung erfindungsgemäße Merkmale
vorgesehen, so dass die Korrektureinrichtung durch die nachstehend
angegebene Weise charakterisierbar ist. Eine Korrektureinrichtung
zum Korrigieren eines von einer Spracherkennungseinrichtung zu einem
gesprochenen Text erkannten Textes, wobei der erkannte Text zu gesprochenen
Worten des gesprochenen Textes richtig erkannte Worte und falsch
erkannte Worte enthält,
mit
Eingangsmitteln zum Empfangen zumindest eines manuell eingegebenen
Korrekturwortes, um zumindest eines der falsch erkannten Worte durch
das zumindest eine Korrekturwort zu ersetzten, und mit
Transkriptionsmitteln
zum phonetischen Transkribieren zumindest des eingegebenen Korrekturwortes
in eine Phonemfolge und mit
Suchmitteln zum Suchen der Phonemfolge
des zumindest einen Korrekturwortes in Phonemfolgen der Worte des
erkannten Textes und zum Abgeben einer Positionsinformation, die
die Position zumindest eines Wortes innerhalb des erkannten Textes
kennzeichnet, dessen Phonemfolge mit der Phonemfolge des zumindest
einen Korrekturwortes im wesentlichen übereinstimmt, und mit
Abgabemitteln
zum Abgeben der Positionsinformation, um ein Markieren des zumindest
einen durch die Positionsinformation gekennzeichneten Wortes in der
erkannten Textinformation zu ermöglichen.
-
Zur
Lösung
vorstehend angegebener Aufgabe sind bei einem solchen Korrekturverfahren
erfindungsgemäße Merkmale
vorgesehen, so dass das Korrekturverfahren durch die nachstehend
angegebene Weise charakterisierbar ist.
-
Ein
Korrekturverfahren zum Korrigieren eines von einer Spracherkennungseinrichtung
zu einem gesprochenen Text erkannten Textes, wobei der erkannte
Text zu gesprochenen Worten des gesprochenen Textes richtig erkannte
Worte und falsch erkannte Worte enthält, wobei folgende Schritte
abgearbeitet werden:
- – Empfangen zumindest eines
manuell eingegebenen Korrekturwortes, um zumindest eines der falsch
erkannten Worte durch das zumindest eine Korrekturwort zu ersetzten;
- – phonetisches
Transkribieren zumindest des eingegebenen Korrekturwortes in eine
Phonemfolge;
- – Suchen
der Phonemfolge des zumindest einen Korrekturwortes in Phonemfolgen
der Worte des erkannten Textes und Abgeben einer Positionsinformation,
die die Position zumindest eines Wortes innerhalb des erkannten
Textes kennzeichnet, dessen Phonemfolge mit der Phonemfolge des zumindest
einen Korrekturwortes im wesentlichen übereinstimmt;
- – Abgeben
der Positionsinformation, um ein Markieren des zumindest einen durch
die Positionsinformation gekennzeichneten Wortes in der erkannten
Textinformation zu ermöglichen.
-
Der
vorliegenden Erfindung liegt die Erkenntnis zugrunde, dass die von
einer Spracherkennungseinrichtung falsch erkannten Worte und die
Worte die eigentlich hätten
erkannt werden sollen – also
die richtig zu erkennenden Worte – sehr oft sehr ähnlich klingen.
Gerade bei solchen ähnlich
klingenden gesprochenen Worten wie beispielsweise „four" und „for" ist die Fehlerrate
bekannter Spracherkennungseinrichtungen besonders hoch.
-
Durch
die erfindungsgemäßen Merkmale
ist erreicht, dass der Benutzer ein falsch erkanntes Wort, das er
durch ein Korrekturwort ersetzen möchte, das eigentlich hätte erkannt
werden sollen, nicht markieren muss. Die Korrektureinrichtung ermittelt die
Phonemfolge des eingegebenen Korrekturwortes mit statistischen Methoden,
welche Phonemfolge den Klang des Korrekturwortes repräsentiert.
Anschließend
sucht die Korrektureinrichtung durch Vergleich der Phonemfolgen
nach einem ähnlich
wie das Korrekturwort klingenden Wort in dem erkannten Text.
-
Vorteilhafterweise
wird somit durch die Eingabe des Korrekturwortes das mit großer Wahrscheinlichkeit
zu ersetzende falsch erkannte Wort in der erkannten Textinformation
automatisch markiert. Der Benutzer kann durch Eingabe einer Bestätigungsinformation
die Ersetzung des markierten Wortes veranlassen oder durch Eingabe
einer Nächsteninformation
das Markieren eines weiteren ähnlich klingenden
Wortes der erkannten Textinformation veranlassen.
-
Bekannte
Korrektureinrichtungen von Spracherkennungseinrichtungen ermöglichen
zur Korrektur falsch erkannter Worte eine synchrone Wiedergabe der
gesprochenen Worte und der zugehörigen
erkannten Worte des erkannten Textes. Wenn der Benutzer dieser bekannten
Korrektureinrichtung ein falsch erkanntes Wort bemerkt, dann unterbricht
er die synchrone Wiedergabe und führt die Ersetzung des falsch
erkannten Wortes durch ein von dem Benutzer eingegebenes Wort durch.
Anschließend
aktiviert der Benutzer wieder die synchrone Wiedergabe, um weitere
falsch erkannte Worte des erkannten Textes zu finden und zu korrigieren.
-
Gemäß den Maßnahmen
des Anspruchs 2 und des Anspruchs 9 ist der Vorteil erhalten, dass
die synchrone Wiedergabe automatisch unterbrochen wird, sobald der
Benutzer beginnt ein Korrekturwort einzugeben.
-
Gemäß den Maßnahmen
des Anspruchs 3 und des Anspruchs 10 ist der Vorteil erhalten, dass das
Unterbrechen der synchrone Wiedergabe automatisch wieder beendet wird,
sobald der Benutzer durch Eingabe der Bestätigungsinformation bestätigt, dass
das automatisch markierte Wort durch das eingegebene Korrekturwort
ersetzt werden soll.
-
Der
Benutzer einer Korrektureinrichtung erkennt bei der synchronen Wiedergabe
ein falsch erkanntes Wort in der Umgebung des Wortes, das während der
synchronen Wiedergabe gerade akustisch wiedergegeben und optisch
markiert wird. Gemäß den Maßnahmen
des Anspruchs 4 und des Anspruchs 11 ist der Vorteil erhalten, dass
die Suchmittel vorerst in der näheren
Umgebung um das zum Zeitpunkt der Unterbrechung markierten Wortes
des erkannten Textes nach einem ähnlich
klingenden Wort suchen und vorerst dieses markieren. Sollte der Benutzer
durch Eingabe der Nächsteninformation eine
weitere Suche veranlassen, dann wird der Suchbereich erweitert.
-
Die
Spracherkennungseinrichtung ermittelt bei einem Spracherkennungsverfahren
vorerst eine dem gesprochenen Text zugehörige Phonemfolge und erkennt
basierend auf dieser Phonemfolge den erkannten Text. Gemäß den Maßnahmen
des Anspruchs 5 und des Anspruchs 12 ist der Vorteil erhalten, dass
die Suchmittel die bereits von der Spracherkennungseinrichtung ermittelte
Phonemfolge bei ihrer Suche nach der Phonemfolge des Korrekturwortes
verwenden. Dies ist insbesondere dann vorteilhaft, wenn die Korrektureinrichtung
ein Teil der Spracherkennungseinrichtung ist.
-
Um
die Zuverlässigkeit
der Suchmittel zu erhöhen
hat es sich als vorteilhaft erwiesen, dass Phoneme, die sehr ähnlich klingen,
bei der Suche als gleiche Phoneme beurteilt werden. So werden beispielsweise
in Phonemfolgen englischsprachiger Worte die Phoneme „v" und „f"` sowie „t" und „D" bei der Suche durch
die Suchmittel als identisch angenommen.
-
Die
Erfindung wird im Folgenden anhand eines Ausführungsbeispiels näher erläutert, auf
das die Erfindung aber nicht beschränkt ist.
-
1 zeigt
eine Computer, der eine Spracherkennungssoftware und eine Textverarbeitungssoftware
abarbeitet und der eine Korrektureinrichtung zum Korrigieren eines
von der Spracherkennungseinrichtung zu einem gesprochenen Text erkannten
Textes bildet.
-
2 bis 5 zeigen
von der Korrektureinrichtung des Computer gemäß 1 an einem
Monitor dargestellte Bildinformationen.
-
1 zeigt
einen Computer 1 der eine Spracherkennungseinrichtung 2,
eine Textverarbeitungseinrichtung 3 und eine Korrektureinrichtung 4 bildet. Die
Spracherken nungseinrichtung 2 und die Korrektureinrichtung 4 werden
durch eine von dem Computer 1 abgearbeitete Spracherkennungssoftware
und die Textverarbeitungseinrichtung 3 wird durch eine von
dem Computer 1 abgearbeitete Textverarbeitungssoftware
gebildet.
-
An
den Computer 1 ist ein Mikrophon 5, ein Lautsprecher 6,
ein Monitor 7 und eine Tastatur 8 angeschlossen.
Ein Benutzer des Computers 1 kann einen Text in das Mikrophon 1 sprechen,
worauf diesen gesprochenen Text enthaltende gesprochene Textinformationen
GTI als analoges Audiosignal an Spracherkennungsmittel 9 der
Spracherkennungseinrichtung 2 abgegeben werden.
-
Die
Spracherkennungsmittel 9 sind zum Erkennen von der gesprochenen
Textinformationen GTI zuzuordnenden erkannten Textinformationen ETI
ausgebildet, wie dies seit langem bekannt ist. Hierfür speichern
die Spracherkennungsmittel 9 die gesprochenen Textinformationen
GTI als digitale Audiodaten in einer ersten Speicherstufe 10 ab.
Bei der Abarbeitung eines Spracherkennungsverfahrens durch die Spracherkennungsmittel 9 ordnen
die Spracherkennungsmittel 9 den gesprochenen Textinformationen
GTI vorerst Phoneme enthaltende Phonemfolgen zu. Wie allgemein bekannt
ist, sind Phoneme kleine akustische Einheiten und eine Phonemfolge
eines Wortes gibt den akustischen Eindruck des gesprochenen Wortes
wieder. Dem Wort „DAYS" ist beispielsweise
die Phonemfolge „d
Y z" zugeordnet.
-
Bei
der weiteren Abarbeitung des Spracherkennungsverfahrens werden die
aus der gesprochenen Textinformation GTI ermittelten Phonemfolgen
in einem Lexikonspeicher gesucht, in dem zu einer Vielzahl von Worten
jeweils eine Phonemfolge zugeordnete gespeichert ist. Wenn in dem
Lexikonspeicher eine ermittelte Phonemfolge gefunden wurde, dann wird
das zugeordnet gespeicherte Worte als mögliches erkanntes Wort ermittelt.
Die Abfolgen möglicher
erkannter Worte zu den ermittelten Phonemfolgen werden anschließend in
einem Sprachmodellspeicher gesucht und die wahrscheinlichste Abfolge möglicher
erkannter Worte wird als zu den gesprochenen Textinformationen GTI
erkannte Textinformationen in einer zweiten Speicherstufe 11 gespeichert.
-
Die
erkannten Textinformationen ETI enthalten richtig erkannte Textinformationen
RETI von so genannten richtig erkannten Worten, die mit den Worten
die der Benutzer tatsächlich
gesprochen hat übereinstimmen.
Die erkannten Textinformationen ETI enthalten weiters falsch erkannte
Textinformationen FETI von so genannten falsch erkannten Worten, die
nicht mit den Worten übereinstimmen,
die der Benutzer tatsächlich
gespro chen hat. Von der Spracherkennungseinrichtung 9 falsch
erkannte Worte und die Worte die eigentlich hätten erkannt werden sollen – also die
gesprochenen Worte – klingen
oft sehr ähnlich,
worauf nachfolgend noch näher
eingegangen ist.
-
Bei
dem Spracherkennungsverfahren werden weiters Linkinformationen LI
ermittelt und in einer dritten Speicherstufe 12 gespeichert.
Die Linkinformationen LI kennzeichnen zu jedem Wort der gesprochenen
Textinformationen GTI das zughörig
erkannte Wort der erkannten Textinformationen TI und ermöglichen
eine synchrone Wiedergabebetriebsart, worauf nachfolgend noch näher eingegangen
ist. Das beschriebene Spracherkennungsverfahren ist seit langem
bekannt, weshalb hierauf nicht näher
eingegangen ist.
-
Die
Textverarbeitungseinrichtung 3 ist zum Auslesen der in
der zweiten Speicherstufe 11 gespeicherten erkannten Textinformationen
ETI und zum Abgeben von die erkannten Textinformationen ETI enthaltenen
Bildinformationen BI an den Monitor 7 ausgebildet. Von
der Tastatur 8 sind über
Eingangsmittel 13 der Korrektureinrichtung 4 Korrekturinformationen
an die Textverarbeitungseinrichtung 3 abgebbar, um die
erkannten Textinformationen ETI zu editieren beziehungsweise zu
verändern,
wodurch korrigierte Textinformationen KTI ermittelt werden, die
in einer vierten Speicherstufe 14 der Korrektureinrichtung 4 speicherbar
sind.
-
Der
Computer 1 ist bei aktivierter synchroner Wiedergabebetriebsart
zum automatischen Markieren eines Wortes der mit dem Monitor 7 dargestellten erkannten
Textinformationen ETI und zum synchronen also zum gleichzeitigen
akustischen Wiedergeben des durch die Linkinformationen LI zugeordneten gesprochenen
Wortes mit dem Lautsprecher 6 ausgebildet. Hierfür liest
die Textverarbeitungseinrichtung 3 sowohl die erkannten
Textinformationen ETI, die gesprochenen Textinformationen GTI als
auch die Linkinformationen LI aus den entsprechenden Speicherstufen 10, 11 und 12 aus.
-
Bei
aktivierter synchroner Wiedergabebetriebsart kann der Benutzer kontrol
lieren, ob zu dem gerade akustisch wiedergegebenen gesprochenen Wort
das markierte dargestellte Wort richtig erkannt wurde. Dieses Feature
ist als „Synchronous
Playback" bekannt
und beispielsweise in
US 5.031.113 beschrieben,
weshalb hierauf nicht näher
eingegangen ist.
-
Die
Korrektureinrichtung 4 enthält nunmehr die Eingangsmittel 13,
die vierte Speicherstufe 14, eine fünfte Speicherstufe 15,
Transkriptionsmittel 16 und Suchmittel 17. Die
Transkriptionsmittel 16 sind zum phonetischen Transkribieren
eines Wortes gemäß statistischer
Methoden ausgebildet. Hierbei werden die gespeicherten Phonemfolgen,
die Worten in dem Lexikonspeicher zugeordnet sind, von diesen Mitteln
ausgelesen. Worte, die nicht im Lexikonspeicher gespeichert sind,
werden in einzelne Silben zerlegt und die zugehörige Phonemfolge wird durch
Zusammensetzen der Phoneme der Einzelsilben aus dem Lexikonspeicher
ermittelt.
-
Wenn
in dem Computer 1 durch Betätigung einer Taste der Tastatur 8 die
synchrone Wiedergabebetriebsart aktiviert wird, dann lesen die Transkriptionsmittel 16 die
erkannten Textinformationen ETI aus der zweiten Speicherstufe 11 aus
und führen
die phonetische Transkription der gesamten erkannten Textinformationen
ETI durch. Als Ergebnis der phonetischen Transkription der erkannten
Textinformationen ETI geben die Transkriptionsmittel 16 Phoneminformationen
PI(ETI) der erkannten Textinformationen ETI ab, die Phonemfolgen
der Worte des erkannten Textes enthalten und die in der fünften Speicherstufe 15 gespeichert
werden.
-
Die
Eingangsmittel 13 sind nunmehr zum Empfangen von Korrekturinformationen
KWI eines mit der Tastatur 8 manuell eingegebenen Korrekturwortes
ausgebildet, um ein falsch erkanntes Wort des erkannten Textes durch
das Korrekturwort zu ersetzen. Die Transkriptionsmittel 16 sind
weiters zum phonetischen Transkribieren der Korrekturinformationen
KWI und zum Abgeben von Phoneminformationen PI(KWI) der Korrekturinformationen
KWI ausgebildet, wofür
den Transkriptionsmitteln 16 die Korrekturinformationen
KWI zuführbar
sind.
-
Die
Transkriptionsmittel 16 sind zum Abgeben der Phoneminformationen
PI(KWI) der Korrekturinformationen KWI an die Suchmittel 17 ausgebildet. Die
Suchmittel 17 sind nunmehr zum Suchen der Phonemfolge des
zumindest einen Korrekturwortes in den Phonemfolgen der Worte des
erkannten Textes und zum Abgeben einer Positionsinformation PI ausgebildet,
die die Position zumindest eines Wortes innerhalb des erkannten
Textes kennzeichnet, dessen Phonemfolge mit der Phonemfolge des
zumindest einen Korrekturwortes im wesentlichen übereinstimmt.
-
Die
Suchmittel 17 bilden weiters Abgabemittel zum Abgeben der
Positionsinformation PI, um ein Markieren des zumindest einen durch
die Positionsinformation PI gekennzeichneten Wortes in der erkannten
Textinformation ETI zu ermöglichen.
Hierfür geben
die Suchmittel die Positionsinformation PI des oder der zu markierenden
Worte an die Textverarbeitungsmittel 3 ab, die ihrerseits
eine entsprechende Bildinformation BI an den Monitor 7 abgeben.
Die weitere Funktionsweise und die Vorteile der erfindungsgemäßen Korrektureinrichtung
sind im Folgenden anhand eines in 2 bis 5 dargestellten Anwendungsbeispiels
des Computers 1 näher
erläutert.
-
Gemäß dem Anwendungsbeispiel
ist angenommen, dass der Benutzer des Computers 1 die Worte „ONE TWO
THREE FOUR FIVE SIX SEVEN EIGHT NINE TEN" in das Mikrophon 5 spricht.
Den entsprechenden gesprochenen Textinformationen GTI werden bei
dem Spracherkennungsverfahren der Spracherkennungsmittel 9 die
erkannten Textinformationen ETI der erkannten Worte „1 2 3
FOR 5 6 7 DAYS 9 THEN" zugeordnet.
-
Die
erkannten Textinformationen ETI enthalten falsch erkannte Textinformationen
FETI der falsch erkannten Worten „FOR"; „DAYS" und „THEN". Wie anhand einer
Tabelle 1 ersichtlich sind die Phonemfolgen der falsch erkannten
Worte und der eigentlich zu erkennenden gesprochenen Worte sehr ähnlich,
weshalb die Spracherkennungsmittel 9 Fehler bei der Erkennung
gemacht hat.
-
-
Gemäß dem Anwendungsbeispiel
ist nunmehr weiters angenommen, dass der Benutzer durch Betätigen einer
Taste der Tastatur 8 die synchrone Wiedergabebetriebsart
aktiviert. Hierauf wird die in der 2 dargestellte
Bildinformation BI an dem Monitor 7 dargestellt. Bei aktivierter
synchroner Wiedergabebetriebsart ist die Darstellung mit dem Monitor 7 in
einen CORRECTION EDITOR und in ein CORRECTION WINDOW aufgeteilt.
In dem CORRECTION EDITOR wird die korrigierte Textinformation KTI
des korrigierte Textes dargestellt, die unmittelbar nach dem Aktivieren
der synchronen Wiedergabebetriebsart mit der erkannten Textinformation
ETI des erkannten Textes überein stimmt.
In dem CORRECTION WINDOW werden von dem Benutzer mit der Tastatur 8 eingegebene
Korrekturworte dargestellt, worauf nachfolgend näher eingegangen ist.
-
Unmittelbar
nach dem Aktivieren der synchronen Wiedergabebetriebsart beginnen
die Textverarbeitungsmittel 3 mit der akustischen Wiedergabe
des ersten Wortes „ONE" der gesprochenen
Textinformation GTI und markieren das zugehörig erkannte Wort „1" der erkannten Textinformation
ETI mit einer Markierinformation MI. Der Benutzer kann somit sehr
leicht erkennen, dass das erkannte Wort tatsächlich mit dem gesprochenen
Wort übereinstimmt.
-
Während das
vierte Wort „FOUR" der gesprochenen
Textinformation GTI akustisch wiedergegeben und optisch markiert
wird, erkennt der Benutzer, dass dieses Wort falsch erkannt wurde
und gibt das Wort „4" – das eigentlich erkannt hätte werden sollen – als Korrekturwort
beziehungsweise als Korrekturinformation KWI mit der Tastatur 8 ein.
-
Die
Korrektureinrichtung 4 ist nunmehr vorteilhafterweise zum
automatischen Unterbrechen der synchronen Wiedergabebetriebsart
ausgebildet, wenn der Benutzer beginnt ein Korrekturwort mit der Tastatur 8 einzugeben.
Hierdurch ist erreicht, dass die akustische Wiedergabe der gesprochenen
Textinformationen GTI unterbrochen wird und an der aktuellen Position
der Markierinformation MI eine Cursorinformation CI dargestellt
wird, wie dies in 3 zu sehen ist. Der Benutzer
muss daher vorteilhafterweise keine zusätzliche Taste zur Unterbrechung
der synchronen Wiedergabebetriebsart betätigen.
-
Unmittelbar
nach dem Aktivieren der synchronen Wiedergabebetriebsart haben die
Transkriptionsmittel 16 die erkannten Textinformationen
ETI transkribiert und die so ermittelten Phoneminformationen PI(ETI)
der erkannten Textinformationen ETI in der fünften Speicherstufe 15 abgespeichert.
Sobald der Benutzer das Korrekturwort eingegeben hat, transkribieren
die Transkriptionsmittel 16 die eingegebenen Korrekturinformationen
KWI und geben die ermittelten Phoneminformationen PI(KWI) der Korrekturinformationen
KWI an die Suchmittel 17 ab.
-
Die
Suchmittel 17 beginnen nunmehr in einem einstellbaren Suchbereich
von M = 5 Worten vor und N = 3 Worten nach der aktuellen Position
der Cursorinformation CI die Phoneminformationen PI(KWI) der Korrekturinformationen
KWI des Korrekturwortes in den Phoneminformationen PI(ETI) der erkannten
Textinformationen ETI zu suchen. Da die Phoneminformationen PI(KWI)
= „for" mit den Phoneminformationen
PI(ETI) „for" der falsch erkannten Textinformation
FETI innerhalb des Suchbereichs der erkannten Textinformation ETI übereinstimmt,
ermitteln die Suchmittel 17 die Position des vierten Wortes der
erkannten Textinformation ETI als Positionsinformation PI. Hierauf
geben die Suchmittel 17 die ermittelte Positionsinformation
PI an die Textverarbeitungseinrichtung 3 ab, worauf das
falsch erkannte Wort „FOR" – wie in 4 dargestellt – mit der
Markierinformation MI markiert wird.
-
Hierdurch
ist der Vorteil erhalten, dass der Benutzer – nachdem er ein falsch erkanntes
Wort bemerkt und die synchrone Wiedergabebetriebsart unterbrochen
hat – das
falsch erkannte und zu ersetzende Wort nicht markieren muss. Vorteilhafterweise muss
der Benutzer zur Ersetzung des falsch erkannten Wortes „FOR" durch das eingegebene
Korrekturwort „4" nur mehr eine Bestätigungsinformation
eingeben, die beispielsweise durch Betätigung der Taste „ENTER" der Tastatur 8 eingegeben
werden kann. Hierdurch ist somit das Ersetzen von falsch erkannten
Worten durch das Wort, das eigentlich erkannt hätte werden sollen besonders
einfach und rasch durchführbar.
-
Vorteilhafterweise
wird durch das Eingeben der Bestätigungsinformation
zusätzlich
auch die Unterbrechung der synchronen Wiedergabebetriebsart beendet,
worauf die synchrone akustische Wiedergabe und das optische Markieren
zugehöriger
erkannter Worte der erkannten Textinformation ETI fortgesetzt wird.
-
Durch
das Suchen der Phoneminformationen PI(KWI) der Korrekturinformationen
KWI innerhalb eines Suchbereiches der Phoneminformationen PI(ETI)
der erkannten Textinformationen ETI ist der Vorteil erhalten, dass
das zu ersetzende falsch erkannte Wort auch dann besonders zuverlässig gefunden
wird, wenn das gleiche Wort an einer anderen Stelle des erkannten
Textes nochmals vorkommt. Wenn die Suche in dem Suchbereich nicht
erfolgreich ist, dann sind die Suchmittel 17 vorteilhafterweise
zum schrittweisen Erweitern des Suchbereichs ausgebildet.
-
Wenn
das in 4 markierte Wort nicht das Wort ist, das der Benutzer
durch das eingegebene Korrekturwort ersetzen möchte, dann kann er durch Eingabe
einer Nächsteinformation
NI erreichen, dass die Suchmittel 17 nochmals in einem
gegebenenfalls erweiterten Suchbereich suchen. Sobald die Suchmittel 17 eine
ausreichende Übereinstimmung
der Phoneminformationen PI(ETI) und PI(KWI) eines anderen noch nicht
zuvor markierten Wortes festgestellt haben, geben die Suchmittel 17 eine
die Position dieses ermittelten Wortes als Positionsinformation
PI an die Textverarbeitungseinrichtung 3 ab.
-
Hierdurch
ist der Vorteil erhalten, dass, wenn das von der Korrektureinrichtung 4 automatisch
markierte Wort nicht das Wort ist, das der Benutzer durch das eingegebene
Korrekturwort ersetzen möchte, der
Benutzer durch Betätigung
nur einer Taste der Tastatur 8 das automatische Markieren
eines anderen Wortes innerhalb des Suchbereichs veranlassen kann,
dessen Phoneminformation PI(ETI) eine große Übereinstimmung mit der Phoneminformation PI(KWI)
des Korrekturwortes aufweist.
-
Die
Suchmittel 17 sind nunmehr bei der Suche von im wesentlichen übereinstimmenden
Phonemfolgen zum Vernachlässigen
von die verglichenen Phonemfolgen unterscheidenden jedoch ähnlich klingenden
Phonemen ausgebildet. Hierbei werden beispielsweise die Phoneme „o" und „@" als so ähnlich klingend
eingestuft, dass verglichene Phonemfolgen, die sich nur durch diese
beiden Phoneme unterscheiden, als übereinstimmend beurteilt werden.
-
Hierdurch
ist der Vorteil erhalten, dass die Suchmittel 17 auch bei
kleinen Unterschieden der zu vergleichenden Phonemfolgen zu einem
Ergebnis kommen, um ein Wort der erkannten Textinformation ETI zu
markieren.
-
Es
kann erwähnt
werden, dass die Suchmittel 17 als Phoneminformationen
PI(ETI) der erkannten Textinformationen ETI auch die von den Spracherkennungsmitteln
bei der Abarbeitung des Spracherkennungsverfahrens ermittelten Phoneminformationen
verwenden könnten.
Hierdurch wäre
der Vorteil erhalten, dass die Transkriptionsmittel die erkannten
Textinformationen ETI nicht transkribieren müssten und auf das Vorsehen
der fünften
Speicherstufe verzichtet werden könnte.
-
Besonders
vorteilhaft ist es auch, die Korrektureinrichtung als Teil der Spracherkennungseinrichtung
vorzusehen und die synchrone Wiedergabebetriebsart durch die Korrektureinrichtung
zu ermöglichen.
Hierdurch könnte
als Textverarbeitungseinrichtung eine handelsübliche Textverarbeitungssoftware wie
beispielsweise „Word
for Windows®" verwendet werden.
-
Es
kann erwähnt
werden, dass auch mehrere Worte als Korrekturinformationen KWI eingegeben werden
können,
um ein oder mehrere falsch erkannte Worte auf einmal zu ersetzen.
Es kann erwähnt
werden, dass der Suchbereich von dem Benutzer des Computers einstellbar
ist. So kann der Benutzer praktisch beliebigen Werte beispielsweise
innerhalb der Bereiche N = 1 bis N = 500 und M = 1 bis M = 500 einstellen.
-
Es
kann erwähnt
werden, dass die phonetische Transkription vorteilhafterweise nur
für die
in dem Suchbereich befindlichen Worte der erkannten Textinformationen
ETI durchgeführt
werden könnte.
-
Es
kann erwähnt
werden, dass eine erfindungsgemäße Korrektureinrichtung
besonders bei professionellen Transkriptionsservices vorteilhaft einsetzbar
ist, da Trankskriptionisten solcher Transkriptionsservices ausschließlich von
der Spracherkennungseinrichtung falsch erkannte Worte manuell korrigieren
und somit die Bedingung praktisch immer erfüllt ist, dass die Phonemfolgen
der falsch erkannten Worte und der eigentlich zu erkennenden gesprochenen
Worte sehr ähnlich
sind.
-
Text in der
Zeichnung
-
2
-
- Korrektureditor
- Korrekturfenster
-
3
-
- Korrektureditor
- Korrekturfenster
-
4
-
- Korrektureditor
- Korrekturfenster
-
5
-
- Korrektureditor
- Korrekturfenster