DE69429558T2 - Tondatenverarbeitung - Google Patents
TondatenverarbeitungInfo
- Publication number
- DE69429558T2 DE69429558T2 DE69429558T DE69429558T DE69429558T2 DE 69429558 T2 DE69429558 T2 DE 69429558T2 DE 69429558 T DE69429558 T DE 69429558T DE 69429558 T DE69429558 T DE 69429558T DE 69429558 T2 DE69429558 T2 DE 69429558T2
- Authority
- DE
- Germany
- Prior art keywords
- audio
- tone
- segments
- identifiers
- recorded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 claims description 23
- 230000005236 sound signal Effects 0.000 claims description 18
- 238000000034 method Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 3
- 230000017105 transposition Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 239000004927 clay Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q1/00—Details of selecting apparatus or arrangements
- H04Q1/18—Electrical details
- H04Q1/30—Signalling arrangements; Manipulation of signalling currents
- H04Q1/44—Signalling arrangements; Manipulation of signalling currents using alternate current
- H04Q1/444—Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
- H04Q1/45—Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies using multi-frequency signalling
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Description
- Die Erfindung betrifft eine Vorrichtung zur Tondatenverarbeitung, die mit einem Telefonnetz verbunden werden kann, und Verfahren zum Betreiben einer solchen Vorrichtung.
- In der modernen Geschäftsumgebung ist das Telefon oftmals das Hauptkommunikationsmittel in vielen verschiedenen Situationen: beispielsweise beim Aufgeben von Katalogbestellungen, beim Überprüfen von Flugplänen, bei Preisanfragen, beim Prüfen von Kontoständen und beim Aufzeichnen und Abrufen von Nachrichten. Üblicherweise beinhaltet jeder Telefonanruf ein dienstspezifisches Gespräch mit einem Anrufer, das Stellen von Fragen, die Eingabe von Antworten in einen Computer und das Vorlesen von Informationen für einen Anrufer von einem Computerbildschirm.
- Dieser Prozess kann bekanntermaßen durch Ersetzen des Bedieners durch eine Vorrichtung zur Tondatenverarbeitung automatisiert werden. Eine solche Vorrichtung beantwortet den eingehenden Anruf, empfängt Informationen vom Anrufer und stellt diesem Informationen bereit. Vorteile hiervon sind eine Kostenverringerung, die Bereitstellung eines besseren Kundendienstes, die Zunahme der verfügbaren Dienste und die Verlängerung der Dienstzeiten.
- Das Dokument US-A-4 375 083 betrifft ein System, das es ermöglicht, eine Sprachnachricht aufzuzeichnen und sogenannte Zeiger einzufügen, um Bearbeitungsfunktionen (editing functions) beim Wiedergeben/Auslesen zu erleichtern.
- Aufgrund der Tatsache, dass die von der Vorrichtung gelieferten Sprachnachrichten im Allgemeinen der Reihe nach geliefert werden müssen und Multiple-Choice-Menüs enthalten, die vor jeder erforderlichen Benutzerauswahl angezeigt werden müssen, ist die Interaktion zwischen Mensch und Maschine in vielen aktuellen Systemen zur Tondatenverarbeitung jedoch langwierig und mühsam.
- Eine Möglichkeit zur Verkürzung der Interaktion zwischen Mensch und Maschine besteht darin, die Eingabe von nichtcodierten Toninformationen zu ermöglichen, die anschließend umgesetzt (transcribed) werden. Einige handelsübliche Systeme der Gegenwart verwenden herkömmliche Anrufbeantworter oder ähnliche Einheiten, um Eingaben auf diese Weise zu sammeln. Solche Schemas haben den Nachteil, dass lediglich ein sequenzieller Zugriff auf die aufgezeichneten Signale angeboten wird, folglich gibt es beispielsweise keine praktische Möglichkeit, Prioritäten für die Bearbeitung von eingehenden Nachrichten gemäß ihrer Dringlichkeit zu vergeben. Außerdem sind die Kosten für eine Tonumsetzung sehr hoch, sowohl hinsichtlich des Personalbestands, falls sie manuell ausgeführt wird, als auch hinsichtlich der Computerressourcen, falls sie unter Verwendung einer automatischen Spracherkennung ausgeführt wird.
- Die vorliegende Erfindung ermöglicht die Bereitstellung einer Vorrichtung zur Tondatenverarbeitung, die mit einem Telefonnetz verbunden werden kann, wobei die Vorrichtung Mittel umfasst, um ein Tonsignal aus dem Netz zu empfangen und aufzuzeichnen, das eine Folge von Tonsegmenten umfasst, die durch Tonbegrenzer (audio delimiters) getrennt werden, gekennzeichnet durch Mittel zum Abtasten des aufgezeichneten Signals, um die Tonbegrenzer zu erkennen und eine Datenstruktur zu erzeugen, in der ein Satz von vordefinierten Feldbezeichnern jeweils mit einem entsprechenden der aufgezeichneten Tonsegmente verbunden werden.
- Die Tonsegmente können Sprachsegmente oder einzelne oder mehrere durch Mehrfrequenzverfahren erzeugte (DTMF-) Töne (DTMF tones) sein, die vom Anrufer eingegeben werden. Die Tonbegrenzer können DTMF-Töne, Merkmale der eingehenden Sprachdaten, beispielsweise eine kurze Ruheperiode, oder irgendwelche anderen Tonmerkmale sein, die vom Benutzer oder vom Aufzeichnungsmittel in das Tonsignal eingefügt (introduced) werden und die vom Abtastmittel (scanning means) erkannt werden können.
- Die Verwendung von Tonbegrenzern ermöglicht es, dass auf Teile des aufgezeichneten Tonsignals nichtsequenziell (nonsequentially) zugegriffen werden kann. Dies hat große Vorteile bei der Ausführung der Offline-Verarbeitung von insbesondere den nichtcodierten Toninformationen, da Teile des Signals selektiv verarbeitet werden können, beispielsweise um eine Prioritätsstufe einzurichten oder um die Verwendung einer automatischen Spracherkennung für Felder zu ermöglichen, die bekanntermaßen von einem bestimmten Typ sind, wobei ein begrenztes zu erwartendes Vokabular verwendet wird, falls beispielsweise bekannt ist, dass die Eingabe eine Zahl zwischen 1 und 10 oder "ja" oder "nein" war.
- Da nicht alle der aufgezeichneten Signale in Echtzeit verarbeitet werden müssen, kann die gesamte Leistung einer verfügbaren Spracherkennungstechnologie verwendet werden, um bei Bedarf unter Verwendung von irgendeinem Vokabular oder irgendeiner Sprache eine vom Sprecher unabhängige fortlaufende Erkennung von Teilen des Signals bereitzustellen.
- Die Trennung des Aufzeichnungsmechanismus von der Verarbeitung des aufgezeichneten Signals stellt Flexibilität bereit, da der Aufzeichnungsmechanismus die Struktur der aufgezeichneten Informationen nicht kennen muss. Folglich ist die Reihenfolge oder die Sprache, in der Informationen eingegeben werden, ohne Belang. Das aufgezeichnete Signal kann als ein ausgefülltes Formular betrachtet werden, wobei die einzelnen Felder des Formulars durch die Tonbegrenzer getrennt werden. Die Gestaltung des Formulars wird durch den Satz von vordefinierten Feldbezeichnern (field identifiers) festgelegt.
- Wenn die Tonbegrenzer Merkmale einer eingegebenen Sprachfolge sind, zum Beispiel eine bewusste Ruheperiode, kann ein gesondertes Kriterium verwendet werden, beispielsweise die Reihenfolge, in der die Tonsegmente eingegeben werden, um sicherzustellen, dass der entsprechende Tonfeldbezeichner jedem Tonsegment zugeordnet wird. Die Eingabe der Tonbegrenzer unter Verwendung von Mehrfrequenzverfahrens- (DTMF-) Schlüsseln durch den Benutzer hat den großen Vorteil, dass die DTMF-Töne selbst verwendet werden können, um zwischen den Tonsegmenten zu unterscheiden und diese zu kennzeichnen.
- In Ausführungsformen, in denen die Tonsegmente einzelne oder mehrere DTMF-Töne sind, müssen die Tonbegrenzer von den aus DTMF-Tönen bestehenden Tonsegmenten unterscheidbar sein, beispielsweise indem es sich um einen DTMF-Ton eines vordefinierten Typs, zum Beispiel denjenigen, der ein Zeichen # darstellt, oder um ein erkennbares Tonmerkmal eines anderen Typs handelt. Ähnlich kann ein festgelegter DTMF-Ton als Anzeige für das Ende einer ausgeführten Übertragung verwendet werden.
- Außerdem kann der Benutzer ein automatisches Mittel, zum Beispiel ein Balkencode-Lesegerät (bar code reader), verwenden, um geeignete DTMF-Folgen für die Tonbegrenzer zu erzeugen.
- Die Erfindung ist nicht darauf begrenzt, dass alle Tonbegrenzer vom selben Typ sind, statt dessen kann entsprechend den bestimmten begrenzten Tonsegmenten eine Mischung von Begrenzertypen verwendet werden. In demselben aufgezeichneten Tonsignal können beispielsweise zwei aufeinanderfolgende Tonsegmente von einer kurzen Ruheperiode begrenzt werden, während zwei aufeinanderfolgende DTMF- Tonsegmente von einem DTMF-Ton eines festgelegten Typs begrenzt werden können.
- Die Verwendung von DTMF-Tönen als Tonbegrenzer und zur Kennzeichnung der Tonsegmente hat den weiteren Vorteil, dass der Anrufer nicht alle Felder des Formulars ausfüllen muss, da davon ausgegangen werden kann, dass Felder, für die der entsprechende DTMF-Code in der aufgezeichneten Nachricht nicht vorkommt, leer bleiben können. In dieser Ausführungsform ist es außerdem nicht notwendig, dass der Anrufer für jedes Eingabefeld speziell zur Eingabe aufgefordert wird, statt dessen kann ein Anrufer das Format des ausgefüllten Tonformulars bereits kennen und wissen, welcher DTMF-Ton welches Feld kennzeichnet. Folglich kann die Länge des Dialogs mit der Vorrichtung bei vielen Gelegenheiten erheblich verkürzt werden.
- Die Verwendung von DTMF-Tönen in den Tonsegmenten hat den Vorteil, dass diese vom Aufzeichnungsmittel in Echtzeit erkannt und folglich verwendet werden können, um Verzweigungspunkte in einem Dialog festzustellen, der den Anrufer zur Eingabe auffordert. In einer solchen Ausführungsform können die Tonsegmente aus DTMF-Tönen sodann auch zur Kennzeichnung nachfolgender Tonsegmente verwendet werden, wobei das Formular in der Tat eine Baumstruktur aufweist.
- Die Mischung aus codierten und nichtcodierten Toninformationen ermöglicht eine natürlichere und leistungsfähigere Interaktion zwischen Mensch und Maschine und eine leistungsfähigere anschließende Verarbeitung der aufgezeichneten Nachrichten.
- In einer bevorzugten Ausführungsform, in der das Abtastmittel eine programmierbare Komponente aufweist, umfasst die Vorrichtung einen Tonformular-Compiler (audio form compiler), der auf eine formale Beschreibung des Satzes von vordefinierten Bezeichnern anspricht, um einen Programmcode zum Steuern der programmierbaren Komponente zu erzeugen, um die Datenstruktur gemäß dem Satz von vordefinierten Bezeichnern zu erzeugen.
- In einer Ausführungsform, in der das das Tonsignal empfangende und aufzeichnende Mittel außerdem eine programmierbare Komponente aufweist, kann die formale Beschreibung der Bezeichner strukturelle Informationen umfassen, die einen oder mehrere vordefinierte Pfade durch den Satz von Bezeichnern definieren, und der Tonformular-Compiler kann auf die stukturellen Informationen ansprechen, um einen Programmcode zum Steuern des das Tonsignal empfangenden und aufzeichnenden Mittels zu erzeugen, um einen Anrufer aufzufordern, Informationen gemäß den vordefinierten Pfaden durch den Satz von Bezeichnern zu liefern.
- Unter einem anderen Aspekt stellt die vorliegende Erfindung ein Verfahren zum Betreiben einer Vorrichtung zur Tondatenverarbeitung zum Sammeln von Informationen von einem Anrufer über ein Telefonnetz bereit, wobei das Verfahren die folgenden Schritte umfasst: Empfangen eines Tonsignals vom Anrufer über das Telefonnetz und Aufzeichnen des Tonsignals, das eine Folge von Tonsegmenten umfasst, die durch Tonbegrenzer getrennt werden; und anschließend Erzeugen einer Datenstruktur durch Abtasten des aufgezeichneten Signals, um die Tonbegrenzer zu erkennen, wobei in dieser Datenstruktur ein Satz von vordefinierten Feldbezeichnern jeweils mit einem entsprechenden der aufgezeichneten Tonsegmente verbunden werden.
- Das Verfahren kann das Umsetzen von ausgewählten der Tonsegmente umfassen, wobei die Ergebnisse einer solchen Umsetzung zum Vergeben von Prioritäten für die nachfolgende Verarbeitung des aufgezeichneten Signals verwendet werden.
- Ausführungsformen der Erfindung werden nun lediglich beispielhaft beschrieben, wobei auf die begleitenden Zeichnungen Bezug genommen wird, in denen:
- Fig. 1 eine schematische Darstellung ist, die die Verbindung der Tonverarbeitungsvorrichtung mit einem Telefonnetz zeigt;
- Fig. 2 eine schematische Darstellung ist, die die Tonverarbeitungsvorrichtung der Ausführungsformen zeigt;
- Fig. 3 eine schematische Darstellung ist, die ein Tonformular zeigt;
- Fig. 4 eine schematische Darstellung ist, die das nachbearbeitete Tonformular zeigt;
- Fig. 5 einen Beispieldialog in einer ersten Ausführungsform der Erfindung zeigt;
- Fig. 6 die Struktur des aufgezeichneten Tonsignals in einer ersten Ausführungsform der Erfindung zeigt;
- Fig. 7 einen Beispieldialog in einer zweiten Ausführungsform der Erfindung zeigt;
- Fig. 8 die Struktur des aufgezeichneten Tonsignals in einer zweiten Ausführungsform der Erfindung zeigt.
- Mit Bezugnahme auf Fig. 1 ist die Vorrichtung 10 zur Tondatenverarbeitung über eine digitale Verbindungsleitung (trunk connection) mit einem Telefonnetz 20 verbunden. Ein Benutzer kann unter Verwendung des Telefons 30 auf einem von einer Vielzahl von Kanälen mit der Vorrichtung zur Tondatenverarbeitung verbunden werden.
- In dieser Ausführungsform liegt die Vorrichtung zur Tondatenverarbeitung in Form eines geeignet programmierten Universalcomputers vor, der über einen geeigneten Hardware- Adapter mit dem Telefonnetz verbunden ist. Der Computer kann beispielsweise einer aus der Computerfamilie IBM RISC System/6000 sein, auf dem die Software IBM DirecTalk/6000 in Verbindung mit der IBM AIX- Betriebssystemsoftware abläuft. Die Software IBM DirecTalk/6000 führt Tonverabeitungsanwendungen aus und verwaltet diese und ermöglicht es, dass der Computer Telefonanrufe beantwortet oder einleitet, auf Datenbanken zugreift, um Informationen abzurufen und zu speichern, oder Sprachantworten wiedergibt, um Benutzern Informationen über das Netz bereitzustellen.
- Es wird verstanden, dass die Erfindung gleichermaßen in Form von spezieller Hardware oder irgendeiner geeigneten Kombination aus Hardware und Software ausgeführt werden könnte.
- Fig. 2 ist eine schematische Darstellung, die die Softwareelemente zeigt, die in der Vorrichtung 10 zur Tondatenverarbeitung realisiert werden. Der Nachrichtengenerator 40 erzeugt Tonnachrichten, die dem Benutzer vorgespielt werden, wenn ein eingehender Anruf von der Vorrichtung beantwortet wird. Das Tonformular- Aufzeichnungsgerät (audio form recorder) 50 wird verwendet, um das vom Benutzer eingegebene Tonsignal zu erfassen und das Signal in digitaler Form in der Speichereinheit 60 zu speichern. Das vom Benutzer eingegebene Tonsignal 65 hat die in Fig. 3 gezeigte Struktur. Es handelt sich um eine verschachtelte Folge (interleaved sequence) von Tonsegmenten 70 und Tonbegrenzern 80.
- Jedes Tonsegment 70 im Tonsignal 65 entspricht einem Feld eines fiktiven (notional) Formulars.
- Sobald das Tonsignal 65 erfasst und gespeichert worden ist, wird es von der Syntaxanalyseeinheit (parsing unit) 90 verarbeitet. Diese Einheit analysiert das gespeicherte Signal gemäß einer vordefinierten Formulargliederung (form outline) und erzeugt einen Satz von Einträgen, die jeweils eines der Tonelemente 70 und eine gekennzeichnete Indexdatei (tagged index file) 150 enthalten. Diese Struktur wird in Fig. 4 gezeigt und in der Speichereinheit 60 gespeichert. Die Syntaxanalyseeinheit erkennt das Vorhandensein der Begrenzer im Tonsignal 65 und kann dementsprechend einen entsprechenden Index in der Indexdatei zuordnen.
- Der Tonformular-Compiler 100 empfängt als Eingabe eine formale Beschreibung 110 des Tonformulars und setzt diese formale Beschreibung um, um einen entsprechenden Programmcode zu erzeugen, den die Syntaxanalyseeinheit 90 ausführt. Auf diese Weise kann ein Benutzer des Systems eine gewünschte Formulargliederung im System programmieren. Die Syntaxanalyseeinheit 90 ist eine Universaleinheit, die mit Hilfe von vom Compiler 100 erzeugten Syntaxanalysetabellen (parsing tables) 115 an diese Anwendung angepasst ist.
- Die Auswahleinheit 120 nimmt die von der Syntaxanalyseeinheit 90 erzeugten Daten an und führt gemäß einer vordefinierten Schablone (template) eine programmierte Auswahl bestimmter Felder davon aus. Dies führt zu einem Ausgabestrom, der eine gewünschte Untermenge des Eingabestroms enthält. Diese Auswahl wird durch Bearbeiten (editing) der Indexdatei 150 erreicht.
- Die Analyseeinheit 130 nimmt den Ausgabestrom von der Auswahleinheit an und führt eine Analyse seines Inhaltes aus. Diese Analyse kann Folgendes beinhalten: eine Umsetzung (transcription) des Inhaltes von jedem ausgewählten Sprachsegment, entweder manuell über einen Bediener oder unter Verwendung einer automatischen Spracherkennung; eine Qualitätsverbesserung z. B. durch Ausfiltern von Störgeräuschen; und das Sortieren von Feldern nach Kennzeichnung, Priorität oder anderen gegebenen Kriterien.
- Fig. 5 zeigt ein Beispiel der Folge von Ereignissen, die auftreten, wenn ein Benutzer die Vorrichtung zur Tondatenverarbeitung einer ersten Ausführungsform der Erfindung anruft. Der Benutzer wählt die Nummer, 200. Der Anruf wird von der Vorrichtung beantwortet, 210. Anschließend folgt ein kurzer Dialog 220, in dem der Benutzer Informationen angibt, die das Formular kennzeichnen, das er ausfüllen möchte. Dieser Dialog ist völlig optional und kann beispielsweise weggelassen werden, falls die Telefonnummer einem bestimmten Formulartyp zugeordnet ist. In diesem Beispiel wird der Dialog durch eine Aufforderung 230 zur Eingabe des Tonformulars beendet.
- In diesem Programmabschnitt befindet sich die Vorrichtung in einem Modus, in dem die DTMF-Töne, die 0 bis 9 darstellen, mit der Spracheingabe aufgezeichnet werden, ein DTMF-Ton * beendet jedoch die Eingabe des Formulars.
- Der Benutzer gibt sodann mündlich Sprachinformationen ein, 240, die Feldern eines Formulars entsprechen, die durch DTMF- Töne getrennt werden, die unter Verwendung der Drucktasten auf dem Telefon eingegeben werden, die die Felder des Formulars kennzeichnen, für das die folgenden Informationen vorgesehen sind. In diesem Beispiel entspricht die Taste 1 dem Feld 1, das der Name des Anrufers sein kann, die Taste 2 entspricht dem Feld 2, das die Adresse des Anrufers sein kann, usw. Die Eingabe der Formularinformationen wird durch Eingabe der Taste * beendet, 250. Das gesamte vom Anrufer eingegebene Formular wird sodann zur nachfolgenden Bearbeitung in Form eines einzelnen Tondatensatzes 65 gespeichert, 260, der die Sprachinformationen und die DTMF-Töne enthält, wie in Fig. 3 dargestellt wird.
- In dieser Ausführungsform wird folglich jedes Tonsegment durch einzelne oder mehrere DTMF-Töne begrenzt und durch den DTMF- Ton oder die DTMF-Folge gekennzeichnet, die ihm vorausgeht. Diese Struktur wird in Fig. 6 gezeigt.
- In dieser Ausführungsform können die Felder des Formulars in einer beliebigen Reihenfolge eingegeben werden. Auf diese Weise kann der Benutzer beispielsweise die einfachen Teile des Formulars zuerst ausfüllen und sich kompliziertere Dinge für später aufheben. In einer anderen Ausführungsform, in der die Tonbegrenzer Ruheperioden zwischen vom Benutzer angegebenen Informationen sind, ist es notwendig, dass irgendein anderes Kriterium, beispielsweise die Reihenfolge, in der die Informationen angegeben werden, zur Kennzeichnung der Felder verwendet werden.
- Es ist nicht notwendig, dass der Anrufer alle Felder des Formulars ausfüllt, da angenommen werden kann, dass Felder, für die der entsprechende DTMF-Code in der aufgezeichneten Nachricht nicht vorkommt, leer bleiben oder einen entsprechenden Standardwert annehmen.
- Es folgt ein Teil des Pseudocodes, der den Betrieb des Formular-Aufzeichnungsgerätes 50 gemäß Fig. 5 veranschaulicht.
- Die Funktion GET FIELD () wird durch Laufzeitunterstützung bereitgestellt und ruft die Eingabe vom Anrufer über die digitale Verbindungsleitung ab und digitalisiert diese, wobei die DTMF-Töne 0 bis 9 mit den digitalisierten Sprachdaten aufgezeichnet werden. FORM ist eine Variable vom Datentyp Ton, die das aufgezeichnete Tonsignal enthält. Die Variable FORM wird anschließend als Offline-Job verarbeitet.
- Die Syntaxanalyseeinheit 90 wird dieser Ausführungsform durch den folgenden Pseudocode beispielhaft erläutert.
- Die Funktion DECODE wird durch Laufzeitunterstützung bereitgestellt, um die Variable FORM abzutasten, um den DTMF- Code zu erkennen und das nachfolgende Tonsegment in die Variable FIELD_i zu platzieren.
- Fig. 7 zeigt ein Beispiel für die Folge von Ereignissen, die in einer zweiten Ausführungsform der Erfindung auftreten, in der ein herkömmlicher Dialog zum Erstellen eines Tonformulars verwendet wird. Ein Benutzer wählt die Nummer beim Schritt 300. Die Vorrichtung beantwortet den Anruf und fordert den Benutzer in den Schritten 310, 320, 330, 340 sofort zur Eingabe seines Namens auf. Anschließend wird der Benutzer aufgefordert auszuwählen, ob er eine Kreditkarte belasten möchte. Diese Auswahl wird vom Benutzer durch Eingeben eines geeigneten DTMF-Codes getroffen, in diesem Fall durch Drücken von Taste 1 oder 2.
- Der Nachrichtengenerator 40 führt die Schritte 360 und 380 aus, um es dem Anrufer zu ermöglichen, seine Kreditkartennummer einzugeben, oder fordert den Benutzer in den Schritten 370 und 390 zur Eingabe seiner Adresse auf, falls er die Wahl getroffen hat, keine Kreditkarte zu belasten.
- In dieser zweiten Ausführungsform hat das aufgezeichnete Tonsignal die in Fig. 8 gezeigte Struktur. Es umfasst die Tonsegmente 400, 410, 420, 430, die durch Tonbegrenzer 80 getrennt werden, die in diesem Fall der das Zeichen * darstellende DTMF-Ton sind.
- Das Tonsegment 400 enthält das beim Schritt 320 eingegebene Sprachfeld 1. Das Tonsegment 410 enthält das beim Schritt 340 eingegebene Sprachfeld 2. Das Tonsegment 420 enthält den beim Schritt 350 eingegebenen DTMF-Ton. Der Inhalt des Tonsegmentes 430 hängt vom Inhalt des Segmentes 420 ab. Falls das Segment 420 den '1' entsprechenden DTMF-Ton enthält, enthält das Segment 430 die Kreditkartennummer des Anrufers als eine Folge von vom Benutzer eingegebenen DTMF-Tönen oder als aufgezeichnetes Sprachsegment. Falls das Segment 420 den '2' entsprechenden DTMF-Ton enthält, enthält das Segment 430 die Adresse des Anrufers als aufgezeichnetes Sprachsegment.
- Der folgende Pseudocode zeigt den Betrieb des Nachrichtengenerators 40 und des Formular-Aufzeichnungsgerätes 50 in dieser zweiten Ausführungsform der Erfindung.
- Die Funktion APPEND (FORM, DELIM) hängt einfach den Begrenzer DELIM an die Variable FORM an.
- Der folgende Pseudocode zeigt den Betrieb der Syntaxanalyseeinheit 90 in dieser zweiten Ausführungsform der Erfindung.
- In diesem Fall hat die Funktion DECODE einen dritten Parameter, der angibt, welches Auftreten des Begrenzers erkannt werden muss. DECODE (FORM, #, 4) gibt beispielsweise den Inhalt des Tonsegmentes in der Variable FORM aus, die unmittelbar auf das vierte Auftreten des das Zeichen * darstellenden DTMF-Codes folgt.
- In dieser Ausführungsform hat die formale Beschreibung des Tonformulars zwei Komponenten: die Liste von einzelnen Feldern, von denen einige Anordnungen von Feldern sein können, z. B. falls Informationen wiederholt werden, wie Namen von Familienmitgliedern, für die eine Hotelreservierung vorgenommen wird; und strukturelle Informationen, z. B. eine Baumstruktur, in der jeder Pfad eine spezifische Untergliederung des Formulars definiert, ein gerichteter azyklischer Graph (directed acyclic graph), in dem jeder Pfad eine spezifische Untergliederung definiert und zwei verschiedene Untergliederungen einige Felder gemeinsam haben können, oder sogar ein willkürlicher Graph (arbitrary graph), der Zyklen enthalten kann, wenn die Interaktion mit dem Benutzer Anordnungen von Feldern beinhaltet.
Claims (10)
1. Vorrichtung zur Tondatenverarbeitung, die mit einem
Telefonnetz (20) verbunden werden kann, wobei die
Vorrichtung ein Mittel (50) umfasst, um ein Tonsignal (65)
aus dem Netz zu empfangen und aufzuzeichnen, das eine
Folge von Tonsegmenten (70) umfasst, die durch
Tonbegrenzer (80) getrennt werden, gekennzeichnet durch
Mittel (90) zum Abtasten des aufgezeichneten Signals (65),
um die Tonbegrenzer (80) zu erkennen und eine
Datenstruktur (150, 160) zu erzeugen, in der ein Satz von
vordefinierten Feldbezeichnern jeweils mit einem
entsprechenden der aufgezeichneten Tonsegmente (160)
verbunden werden.
2. Vorrichtung nach Anspruch 1, wobei die Datenstruktur einen
Satz von Tonaufzeichnungen (160) umfasst, wobei jede
solche Aufzeichnung eines der Tonsegmente (70) und eine
Aufzeichnungsliste (150) enthält, wobei die
Aufzeichnungsliste einen Satz von vordefinierten
Feldbezeichnern umfasst, von denen jeder einen
zugeordneten Zeiger auf die entsprechende der
Tonaufzeichnungen (160) aufweist.
3. Vorrichtung nach Anspruch 2, die Mittel zum Bearbeiten der
Aufzeichnungsliste umfasst, wobei einige der
aufgezeichneten Tonsegmente selektiv verarbeitet werden
können.
4. Verfahren nach irgendeinem vorhergehenden Anspruch, in dem
das Abtastmittel (90) eine programmierbare Komponente
aufweist, wobei die Vorrichtung einen Compiler (100)
umfasst, der auf eine formale Beschreibung des Satzes von
vordefinierten Bezeichnern anspricht, um einen
Programmcode zum Steuern der programmierbaren Komponente
zu erzeugen, um die Datenstruktur gemäß dem Satz von
vordefinierten Bezeichnern zu erzeugen.
5. Vorrichtung nach Anspruch 4, wobei das das Tonsignal
empfangende und aufzeichnende Mittel eine programmierbare
Komponente aufweist und wobei die formale Beschreibung der
Bezeichner strukturelle Informationen umfasst, die einen
von mehreren vordefinierten Pfaden durch den Satz von
Bezeichnern definieren, wobei der Compiler (100) auf die
strukturellen Informationen anspricht, um einen
Programmcode zum Steuern des das Tonsignal empfangenden
und aufzeichnenden Mittels zu erzeugen, um einen Anrufer
aufzufordern, Informationen gemäß den vordefinierten
Pfaden durch den Satz von Bezeichnern zu liefern.
6. Vorrichtung nach irgendeinem vorhergehenden Anspruch,
wobei mindestens einige der Tonbegrenzer (80) durch
Mehrfrequenzverfahren erzeugte Töne sind.
7. Vorrichtung nach irgendeinem vorhergehenden Anspruch,
wobei die Tonbegrenzer (80) durch Mehrfrequenzverfahren
erzeugte Töne sind, von denen jeder ein zugeordnetes
Tonsegment kennzeichnet.
8. Vorrichtung nach irgendeinem vorhergehenden Anspruch,
wobei mindestens einige der Tonsegmente durch
Mehrfrequenzverfahren erzeugte Töne umfassen.
9. Verfahren zum Betreiben einer Vorrichtung zur
Tondatenverarbeitung zum Sammeln von Informationen von
einem Anrufer über ein Telefonnetz, wobei das Verfahren
die folgenden Schritte umfasst: Empfangen eines Tonsignals
(65) vom Anrufer über das Telefonnetz und Aufzeichnen des
Tonsignals (65), das eine Folge von Tonsegmenten (70)
umfasst, die durch Tonbegrenzer (80) getrennt werden; und
anschließend Erzeugen einer Datenstruktur (150, 160) durch
Abtasten des aufgezeichneten Signals (65), um die
Tonbegrenzer (80) zu erkennen, wobei in dieser
Datenstruktur ein Satz von vordefinierten Feldbezeichnern
jeweils mit einem entsprechenden der aufgezeichneten
Tonsegmente (160) verbunden werden.
10. Verfahren nach Anspruch 9, das das Umsetzen von
ausgewählten der Tonsegmente umfasst, wobei die Ergebnisse
einer solchen Umsetzung zum Vergeben von Prioritäten für
die nachfolgende Verarbeitung des aufgezeichneten Signals
(65) verwendet werden.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB939314296A GB9314296D0 (en) | 1993-07-10 | 1993-07-10 | Audio data processing |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69429558D1 DE69429558D1 (de) | 2002-02-07 |
DE69429558T2 true DE69429558T2 (de) | 2002-09-12 |
Family
ID=10738595
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69429558T Expired - Fee Related DE69429558T2 (de) | 1993-07-10 | 1994-05-27 | Tondatenverarbeitung |
Country Status (5)
Country | Link |
---|---|
US (1) | US5530950A (de) |
EP (1) | EP0633682B1 (de) |
JP (1) | JP2633471B2 (de) |
DE (1) | DE69429558T2 (de) |
GB (1) | GB9314296D0 (de) |
Families Citing this family (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08265430A (ja) * | 1995-03-22 | 1996-10-11 | Nec Corp | 音声情報提供装置 |
SE513993C2 (sv) * | 1995-05-22 | 2000-12-11 | Telia Ab | Anordning och metod vid röststyrning av funktioner i ett telekommunikationssystem |
US20060280437A1 (en) * | 1999-01-27 | 2006-12-14 | Gotuit Media Corp | Methods and apparatus for vending and delivering the content of disk recordings |
US5905448A (en) * | 1997-01-02 | 1999-05-18 | Motorola, Inc. | Multipart analog message and a response in a communication system |
US6029127A (en) * | 1997-03-28 | 2000-02-22 | International Business Machines Corporation | Method and apparatus for compressing audio signals |
JP3192107B2 (ja) * | 1997-04-25 | 2001-07-23 | 日本電気株式会社 | 音声情報提供装置及びその操作方法 |
US6295342B1 (en) * | 1998-02-25 | 2001-09-25 | Siemens Information And Communication Networks, Inc. | Apparatus and method for coordinating user responses to a call processing tree |
IE980941A1 (en) * | 1998-11-16 | 2000-05-17 | Buy Tel Innovations Ltd | A transaction processings system |
US7376710B1 (en) * | 1999-10-29 | 2008-05-20 | Nortel Networks Limited | Methods and systems for providing access to stored audio data over a network |
US7308462B1 (en) | 1999-10-29 | 2007-12-11 | Nortel Networks Limited | Methods and systems for building and distributing audio packages |
JP3994368B2 (ja) * | 2000-01-25 | 2007-10-17 | ソニー株式会社 | 情報処理装置および情報処理方法、並びに記録媒体 |
US6694126B1 (en) * | 2000-07-11 | 2004-02-17 | Johnson Controls Interiors Technology Corp. | Digital memo recorder |
US7277765B1 (en) | 2000-10-12 | 2007-10-02 | Bose Corporation | Interactive sound reproducing |
US8654939B2 (en) * | 2001-02-13 | 2014-02-18 | International Business Machines Corporation | Recording and receiving voice mail with freeform bookmarks |
US7003083B2 (en) * | 2001-02-13 | 2006-02-21 | International Business Machines Corporation | Selectable audio and mixed background sound for voice messaging system |
US6834264B2 (en) * | 2001-03-29 | 2004-12-21 | Provox Technologies Corporation | Method and apparatus for voice dictation and document production |
US7124085B2 (en) * | 2001-12-13 | 2006-10-17 | Matsushita Electric Industrial Co., Ltd. | Constraint-based speech recognition system and method |
US7590534B2 (en) | 2002-05-09 | 2009-09-15 | Healthsense, Inc. | Method and apparatus for processing voice data |
US6963835B2 (en) * | 2003-03-31 | 2005-11-08 | Bae Systems Information And Electronic Systems Integration Inc. | Cascaded hidden Markov model for meta-state estimation |
US7685522B1 (en) | 2003-11-03 | 2010-03-23 | Adobe Systems Incorporated | Self-describing forms |
US7469833B1 (en) | 2004-04-08 | 2008-12-30 | Adobe Systems Incorporated | Creating and using documents with machine-readable codes |
US7246748B1 (en) | 2004-06-30 | 2007-07-24 | Adobe Systems Incorporated | Enabling the use of machine-readable codes |
US20070282631A1 (en) * | 2005-09-08 | 2007-12-06 | D Ambrosia Robert Matthew | System and method for aggregating and providing subscriber medical information to medical units |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20100169092A1 (en) * | 2008-11-26 | 2010-07-01 | Backes Steven J | Voice interface ocx |
US8351581B2 (en) | 2008-12-19 | 2013-01-08 | At&T Mobility Ii Llc | Systems and methods for intelligent call transcription |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US20120330665A1 (en) * | 2011-06-03 | 2012-12-27 | Labels That Talk, Ltd | Prescription label reader |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9818400B2 (en) * | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10419617B2 (en) * | 2016-08-18 | 2019-09-17 | International Business Machines Corporation | Interactive voicemail message and response tagging system for improved response quality and information retrieval |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
CN111782865B (zh) * | 2020-06-23 | 2024-07-05 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信息的处理方法、装置及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4375083A (en) * | 1980-01-31 | 1983-02-22 | Bell Telephone Laboratories, Incorporated | Signal sequence editing method and apparatus with automatic time fitting of edited segments |
US5052038A (en) * | 1984-08-27 | 1991-09-24 | Cognitronics Corporation | Apparatus and method for obtaining information in a wide-area telephone system with digital data transmission between a local exchange and an information storage site |
US4845739A (en) * | 1985-07-10 | 1989-07-04 | Fdr Interactive Technologies | Telephonic-interface statistical analysis system |
JPH0287757A (ja) * | 1988-09-26 | 1990-03-28 | Oki Electric Ind Co Ltd | 電話自動応答認識装置 |
US5093858A (en) * | 1989-01-23 | 1992-03-03 | Intellicall, Inc. | Method and apparatus for performing an automated collect call |
JP2897930B2 (ja) * | 1990-06-11 | 1999-05-31 | 株式会社リコス | カラオケ装置 |
US5265075A (en) * | 1991-09-11 | 1993-11-23 | Dictaphone Corporation | Voice processing system with editable voice files |
-
1993
- 1993-07-10 GB GB939314296A patent/GB9314296D0/en active Pending
-
1994
- 1994-05-20 US US08/247,166 patent/US5530950A/en not_active Expired - Fee Related
- 1994-05-27 EP EP94303880A patent/EP0633682B1/de not_active Expired - Lifetime
- 1994-05-27 DE DE69429558T patent/DE69429558T2/de not_active Expired - Fee Related
- 1994-06-21 JP JP6138817A patent/JP2633471B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US5530950A (en) | 1996-06-25 |
JP2633471B2 (ja) | 1997-07-23 |
GB9314296D0 (en) | 1993-08-25 |
JPH0736661A (ja) | 1995-02-07 |
EP0633682B1 (de) | 2002-01-02 |
EP0633682A1 (de) | 1995-01-11 |
DE69429558D1 (de) | 2002-02-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69429558T2 (de) | Tondatenverarbeitung | |
DE3819538C2 (de) | ||
DE69839068T2 (de) | System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung | |
DE3590157C2 (de) | ||
DE69327446T2 (de) | Verfahren und Gerät zur Gewinnung von Text aus einer strukturierten Datei und zu dessen Umsetzung in Sprache | |
DE69934275T2 (de) | Gerät und Verfahren um die Benutzerschnittstelle der integrierten Sprachantwortsystemen zu verbessern | |
DE3317325C2 (de) | ||
DE69824508T2 (de) | Fernsprechbasiertes Anweisungssystem | |
DE3689652T2 (de) | System und methode für statistische analyse zur benutzung in einem öffentlichen kommunikationssystem. | |
DE3010150C2 (de) | Elektronische Registrierkasse | |
DE3750768T2 (de) | Rechnergesteuertes Kommunikationssystem. | |
DE3139748A1 (de) | Wortprozessorsystem | |
DE10147341A1 (de) | Dynamischer Aufbau einer Dialogsteuerung aus Dialogobjekten | |
DE69522872T2 (de) | System zur Ton Konvertierung und Speicherung über Netzwerk | |
DE3220264A1 (de) | Anordnung zur informations-rueckgewinnung in mit videoplatten ausgeruesteten speichereinrichtungen | |
DE3029823C2 (de) | ||
DE10022586A1 (de) | Verfahren zum Erzeugen einer Sprachdatenbank für einen Zielwortschatz zum Trainieren eines Spracherkennungssystems | |
DE69228903T2 (de) | Informationswiedergabeverfahren und Informationswiedergabegerät | |
DE3726366A1 (de) | Nachrichtennetzwerk und nachrichtenuebertragungsverfahren | |
EP1321851B1 (de) | Verfahren und System zum Nutzen von vom Nutzer frei zu wählenden Markierungsnamen als Einsprungposition in die Menustruktur eines Sprach-Dialogsystems | |
DE3650592T2 (de) | Personalcomputer-Notizaufzeichnungseinrichtung | |
DE19512843A1 (de) | Mehrfachfunktionsgerät zum Einspielen von Musik und/oder Sprache in Telefonanlagen | |
DE60002973T2 (de) | Methode zur Auswählen, Bearbeiten und Spielen einer komplexen Tonmeldung | |
DE3928049A1 (de) | Sprachgesteuertes archivsystem | |
DE19646673C2 (de) | Verfahren und Telefon mit Anrufbeantwortereinrichtung zum automatischen Wählen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |