DE69821673T2 - Method and apparatus for editing synthetic voice messages, and storage means with the method - Google Patents
Method and apparatus for editing synthetic voice messages, and storage means with the method Download PDFInfo
- Publication number
- DE69821673T2 DE69821673T2 DE69821673T DE69821673T DE69821673T2 DE 69821673 T2 DE69821673 T2 DE 69821673T2 DE 69821673 T DE69821673 T DE 69821673T DE 69821673 T DE69821673 T DE 69821673T DE 69821673 T2 DE69821673 T2 DE 69821673T2
- Authority
- DE
- Germany
- Prior art keywords
- prosodic
- level
- feature control
- parameter
- control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 66
- 230000001755 vocal effect Effects 0.000 claims description 39
- 230000015572 biosynthetic process Effects 0.000 claims description 29
- 238000003786 synthesis reaction Methods 0.000 claims description 29
- 238000004458 analytical method Methods 0.000 claims description 19
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000000926 separation method Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 4
- 239000011295 pitch Substances 0.000 description 66
- 230000006996 mental state Effects 0.000 description 22
- 230000008859 change Effects 0.000 description 16
- 230000004048 modification Effects 0.000 description 14
- 238000012986 modification Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 8
- ZINJLDJMHCUBIP-UHFFFAOYSA-N ethametsulfuron-methyl Chemical compound CCOC1=NC(NC)=NC(NC(=O)NS(=O)(=O)C=2C(=CC=CC=2)C(=O)OC)=N1 ZINJLDJMHCUBIP-UHFFFAOYSA-N 0.000 description 8
- 238000012360 testing method Methods 0.000 description 6
- 238000004904 shortening Methods 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000003340 mental effect Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 206010011469 Crying Diseases 0.000 description 2
- 241001417093 Moridae Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012074 hearing test Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- CVOFKRWYWCSDMA-UHFFFAOYSA-N 2-chloro-n-(2,6-diethylphenyl)-n-(methoxymethyl)acetamide;2,6-dinitro-n,n-dipropyl-4-(trifluoromethyl)aniline Chemical compound CCC1=CC=CC(CC)=C1N(COC)C(=O)CCl.CCCN(CCC)C1=C([N+]([O-])=O)C=C(C(F)(F)F)C=C1[N+]([O-])=O CVOFKRWYWCSDMA-UHFFFAOYSA-N 0.000 description 1
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 206010063659 Aversion Diseases 0.000 description 1
- 208000012639 Balance disease Diseases 0.000 description 1
- 206010034719 Personality change Diseases 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012948 formulation analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004816 latex Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
HINTERGRUND DER ERFINDUNGBACKGROUND THE INVENTION
Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen und auf ein Aufzeichnungsmedium, auf dem das Verfahren aufgezeichnet ist. Insbesondere bezieht sich die Erfindung auf ein Verfahren zur Editierung/Erzeugung einer Sprachmitteilung, das eine einfache und schnelle Synthese von Sprachmitteilungen mit gewünschten prosodischen Merkmalen ermöglicht.The The present invention relates to a method and an apparatus for editing / creating synthetic voice messages and on a recording medium on which the method is recorded. In particular, the invention relates to a method of editing a voice message that is a simple and fast synthesis of voice messages with desired prosodic features.
Das Sprechen in dialogischer Form übermittelt den mentalen Zustand des Sprechers, seine Intentionen und ähnliches sowie die sprachliche Bedeutung des gesprochenen Dialogs. Derartige in der Stimme des Sprechers enthaltene Informationen werden, abgesehen von ihrer sprachlichen Bedeutung, im Allgemeinen als nicht-verbale (außersprachliche) Informationen bezeichnet. Der Hörer entnimmt der Intonation, der Betonung und der Dauer der gemachten Äußerung die nicht-verbalen Informationen. Hierfür wurde ein sogenanntes Text-zu-Sprache-(TTS/Text-To-Speech)-Verfahren zur Synthese von Mitteilungen, eine „Sprachsynthese mittels Regeln", erforscht und entwickelt, die einen Text in eine gesprochene Form umwandelt. Im Gegensatz zu dem Fall des Erzeugens und Synthetisierens aufgenommener Sprache, beinhaltet dieses Verfahren keine bestimmten Begrenzungen bezüglich der ausgegebenen Sprache und behebt das Problem, dass für die nachfolgende, teilweise Änderung der Mitteilung die Originalstimme des Sprechers benötigt wird. Da jedoch die verwendeten Regeln zur Erzeugung der Prosodik auf prosodischen Merkmalen einer Sprache basieren, die in einem rezitierenden Ton entstanden ist, ist es jedoch unvermeidbar, dass die synthetisierte Sprache eine rezitierende Form erhält und daher monoton klingt. Bei natürlichen Unterhaltungen verändern sich die prosodischen Merkmale der in Dialogen gesprochenen Sprache erheblich mit dem mentalen Zustand und den Intentionen des Sprechers.The Speaking in dialogical form the mental state of the speaker, his intentions and the like as well as the linguistic meaning of the spoken dialogue. such The information contained in the speaker's voice is disregarded from their linguistic meaning, generally as non-verbal (Extra-linguistic) Information called. The listener takes from the intonation, the emphasis and the duration of the utterance made non-verbal information. Therefor became a so-called text-to-speech (TTS / Text-To-Speech) method for synthesis of communications, a "speech synthesis using Rules ", researched and developed, which transforms a text into a spoken form. In contrast to the case of creating and synthesizing recorded Language, this method does not include any specific limitations in terms of the language output and corrects the problem that for subsequent, partial change the message the original voice of the speaker is needed. However, because the rules used to generate prosodics on prosodic features of a language based in a reciting However, it is inevitable that the synthesized Language receives a recitative form and therefore sounds monotonous. In natural Change conversations the prosodic features of the language spoken in dialogues significantly with the mental state and the intentions of the speaker.
Im Hinblick darauf, die mithilfe von Regeln synthetisierte Sprache natürlicher klingen zu lassen, hat man einen Versuch unternommen, die prosodischen Merkmale zu editieren; derartige Editierungsvorgänge sind jedoch schwer zu automatisieren: üblicherweise ist es für einen Nutzer notwendig, auf seiner Erfahrung und seinem Wissen basierende Editierungen zu machen. Bei den Editierungen ist es schwierig, eine Anordnung oder eine Konfiguration zum zufälligen Korrigieren prosodischer Parameter, wie der Betonung, der grundlegenden Frequenz (Tonhöhe bzw. pitch (engl.)), des Amplitudenwerts (Leistung) und der Dauer einer zu synthetisierenden Äußerungseinheit, einzusetzen. Daher ist es schwierig, eine Sprachmitteilung mit gewünschten prosodischen Merkmalen dadurch zu erhalten, dass prosodische oder phonologische Parameter desjenigen Abschnitts der synthetischen Sprache, der monoton und daher rezitierend klingt, willkürlich korrigiert werden.in the Regarding it, the language synthesized using rules naturally One attempted to sound the prosodic To edit features; however, such editing operations are difficult to automate: usually is it for a user necessary, based on his experience and his knowledge Make edits. With the edits it is difficult to get one Arrangement or configuration for randomly correcting prosodic Parameters, such as the emphasis, the fundamental frequency (pitch or pitch), the amplitude value (power) and the duration of a to be synthesized expression unit, use. Therefore, it is difficult to make a voice message with desired prosodic Characteristics obtain by that prosodic or phonological Parameters of that section of the synthetic language that is monotone and therefore it sounds like a recitatory, will be arbitrarily corrected.
Um eine Korrektur prosodischer Parameter zu vereinfachen, wurde in der EP-A-0 762 384 ebenfalls ein ein GUI (Graphic User Interface) anwendendes Verfahren vorgeschlagen, bei welchem prosodische Parameter einer synthetisierten Sprache in graphischer Form auf einem Display angezeigt, diese durch Verwendung einer Maus oder einem ähnlichen Zeigewerkzeug visuell korrigiert und modifiziert werden und eine Sprachmitteilung mit gewünschten nicht-verbalen Informationen synthetisiert wird, während die Korrekturen und Modifikationen durch Verwendung der synthetisierten Sprachausgabe bestätigt werden. Da dieses Verfahren die prosodischen Parameter visuell korrigiert, benötigt der Vorgang zur Korrektur gegenwärtiger Parameter jedoch Erfahrung und Kenntnis bezüglich der Phonetik, was daher für eine gewöhnliche Bedienperson schwierig ist.Around To simplify a correction of prosodic parameters has been published in EP-A-0 762 384 also discloses a GUI (Graphic User Interface). applying method in which prosodic parameters a synthesized language in graphic form on a display displayed by using a mouse or similar Pointing tool can be visually corrected and modified and a voice message with desired non-verbal information is synthesized while the Corrections and modifications by using the synthesized Speech output confirmed become. Since this method visually corrects the prosodic parameters, needed the process of correcting present ones Parameters, however, experience and knowledge of phonetics, which is why for one ordinary Operator is difficult.
U.S. Patent Nr. 4,907,279, JP-A-5-307396, JP-A-3-189697 und JP-A-5-19780 offenbaren ein Verfahren, das Steuerbefehle für phonologische Parameter, wie Betonungen und Pausen, in einen Text einfügt und synthetisierte Sprache durch Verwendung derartiger Steuerbefehle editiert. Auch bei diesem Verfahren gestaltet sich der Vorgang zum Editieren der nicht-verbalen Information für eine Person, die kein Wissen über die Beziehung zwischen nicht-verbalen Informationen und der Steuerung der Prosodik besitzt, immer noch schwierig.U.S. Patent No. 4,907,279, JP-A-5-307396, JP-A-3-189697 and JP-A-5-19780 disclose a method, the control commands for phonological parameters, like accents and pauses, inserts into a text and synthesized language edited by using such control commands. Also with this Procedure is the process of editing the non-verbal information for a person who has no knowledge about the relationship between non-verbal information and the controller Prosodic possesses, still difficult.
ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY THE INVENTION
Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache bereitzustellen, mit denen es für eine Bedienperson auf einfache Weise möglich ist, eine Sprachmitteilung mit gewünschten prosodischen Parametern zu synthetisieren.It is therefore an object of the present invention, a method and a synthetic speech editing / synthesizing apparatus to provide it with an operator is easily possible, a voice message with desired to synthesize prosodic parameters.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache bereitzustellen, die verschiedene nicht-verbale Informationen auszudrücken ermöglicht, die nicht in der verbalen Information enthalten sind, wie der mentale Zustand des Sprechers, seine Haltung und den Grad des Verstehens.Another object of the present invention is a method and an apparatus for editing / generating synthetic speech that allows expressing various non-verbal information that is not included in the verbal information, such as the speaker's mental state, posture, and level of understanding.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren und eine Vorrichtung zur Editierung/Erzeugung synthetischer Sprache bereitzustellen, die eine Erleichterung bei der visuellen Erkennung der Wirkungen einer Steuerung prosodischer Parameter bei der Editierung nicht-verbaler Information einer synthetischen Sprachmitteilung ermöglichen.A Another object of the present invention is a method and a synthetic speech editing / synthesizing apparatus provide a relief in visual recognition the effects of controlling prosodic parameters in editing non-verbal information of a synthetic voice message enable.
Diese Aufgaben werden mit einem in Anspruch 1 beanspruchten Verfahren und einer in Anspruch 6 beanspruchten Vorrichtung gelöst. Bevorzugte Ausführungsformen der Erfindung sind Gegenstand der abhängigen Ansprüche.These Problems are solved by a method as claimed in claim 1 and a device claimed in claim 6. preferred embodiments The invention is the subject of the dependent claims.
Aufzeichnungsmedien, auf denen Abläufe zur Ausführung der Editierungsverfahren gemäß der vorliegenden Erfindung aufgezeichnet werden, sind von der Erfindung ebenfalls umfasst.Recording media, on which processes for execution the editing method according to the present Invention are also included in the invention includes.
KURZE BESCHREIBUNG DER ZEICHNUNGENSHORT DESCRIPTION THE DRAWINGS
DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMENDETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS
Erste AusführungsformFirst embodiment
Bei spontanen Unterhaltungen ändert der Sprecher die Betonung, die Geschwindigkeit und die Tonhöhe seiner Äußerungen, um damit verschiedenste Informationen auszudrücken, die in der verbalen Information nicht enthalten sind, wie sein mentaler Zustand, seine Haltung und sein Verständnis sowie deren beabsichtigte Abstufungen. Hierdurch wird der gesprochene Dialog ausdrucksstark und klingt natürlich. Bei der Synthese von Sprache mithilfe von Regeln ausgehend von einem Text wurden ebenfalls Bestrebungen unternommen, zusätzlich gewünschte nicht-verbale Informationen bereitzustellen. Da bei jedem dieser Ansätze ein Befehl zur Steuerung spezifischer phonologischer Information in den Text eingebracht wird, muss der Nutzer Kenntnisse über verbale Informationen besitzen.at spontaneous conversations changes the speaker the emphasis, the speed and the pitch of his utterances, in order to express a variety of information contained in the verbal information are not included, such as his mental state, his attitude and his understanding as well as their intended gradations. This is the spoken Dialog expressive and sounds natural. In the synthesis of Language using rules based on a text were also Aspirations undertaken, in addition desired to provide non-verbal information. Because with each of these approaches a command to control specific phonological information is introduced in the text, the user must have knowledge about verbal Own information.
Bei der Verwendung einer Vorrichtung zur Synthese von Sprache aus Texten ist zur Übermittlung von Informationen und Nuancen, die tagtägliche Unterhaltungen beinhalten, eine genaue Steuerung der prosodischen Parameter der synthetischen Sprache notwendig. Andererseits ist es für einen Nutzer unmöglich, abzuschätzen, inwiefern die Tonhöhe oder die Dauer einen Einfluss auf die Mitteilung von Informationen oder Nuancen der Sprache haben, sofern er nicht Kenntnisse zur Sprachsynthese oder zu Text-zu-Sprache-Synthesevorrichtungen besitzt. Nun folgt zunächst eine Beschreibung der Mehrfach-Ebenen-Sprach/Klang-Synthese-Steuerungssprache (Multi-Layered Speech/Sound Synthesis Control Language/MSCL) gemäß der vorliegenden Erfindung, deren Nutzung für den Nutzer erleichtert werden soll.at the use of a device for synthesizing speech from texts is for transmission information and nuances that include day-to-day conversation, a precise control of the prosodic parameters of the synthetic Language necessary. On the other hand, it is impossible for a user to estimate to what extent the pitch or the duration affects the communication of information or have nuances of language, unless he has knowledge of speech synthesis or to text-to-speech synthesis devices. Now follows first a description of the multi-level speech / sound synthesis control language (Multi-Layered Speech / Sound Synthesis Control Language / MSCL) according to the present Invention, its use for the user should be facilitated.
Bei der Nutzung ergeben sich für den Nutzer zwei Erleichterungen. Zunächst ist eine Nutzungserleichterung für Anfänger vorgesehen, die es ihnen ermöglicht, einen Text, der in die Text-zu-Sprache-Synthesevorrichtung eingegeben wird, auf einfache Weise zu beschreiben, auch wenn sie über kein Expertenwissen verfügen. Durch HTML, die die Beziehung zwischen der Größe und der Position jedes Zeichens im Internet definiert, können die Zeichen in einer Größe entsprechend der Länge eines Satzes dargestellt werden, indem die Zeichenfolge beispielsweise mit als <H1> und </H1> bezeichneten Markierungen umgeben wird; jedermann kann die gleiche Homepage erzeugen. Eine derartige Standardregel ist nicht nur für Anfänger günstig, sondern führt auch zu einer Reduzierung des die Beschreibung betreffenden Arbeitsumfangs. Zweitens besteht eine Nutzungserleichterung, die für sachkundige Nutzer gedacht ist, die die Beschreibung einer genauen Steuerung ermöglicht. Das vorgenannte Verfahren kann die Zeichengestalt und die Schreibrichtung nicht verändern. Selbst im Falle der Zeichenfolge ergibt sich beispielsweise die Notwendigkeit, diese auf verschiedenste Weise zu verändern, falls eine die Aufmerksamkeit anziehende Homepage angefertigt werden soll. Es wäre daher manchmal wünschenswert, eine synthetische Sprache mit einem höheren Grad an Vollständigkeit zu schaffen, auch wenn Expertenwissen dafür benötigt wird.at the use arise for the user two relaxations. First of all, it's easier to use intended for beginners, which allows them to a text in the text-to-speech synthesizer is entered in a simple way to describe, even if they have no Have expert knowledge. Through HTML, which is the relationship between the size and position of each character can be defined on the Internet the characters in a size accordingly the length a sentence can be represented by the string, for example with marks labeled <H1> and </ H1> is surrounded; anyone can create the same homepage. A Such standard rule is not only favorable for beginners, but also leads to reduce the amount of work involved in the description. Second, there is a usage relief that is for knowledgeable User is intended, which allows the description of a precise control. The above method may be the character shape and the writing direction Don `t change. Even in the case of the string, for example, there is a need to to change these in different ways, if one gets the attention attractive homepage should be made. It would be so sometimes desirable, a synthetic language with a higher degree of completeness even if expert knowledge is needed.
Vom
Standpunkt der Steuerung nicht-verbaler Information der Sprache
aus, verwendet die erste Ausführungsform
der vorliegenden Erfindung als Mittel zur Umsetzung der erstgenannten
Nutzungserleichterung eine Semantik-Niveauebene (nachfolgend als
S-Ebene bezeichnet), die aus Steuerbefehlen zu semantisch-prosodischen
Merkmalen aufgebaut ist, die Worte oder Ausdrücke darstellen, die jeweils
nicht-verbale Informationen repräsentieren,
und als Mittel zur Umsetzung der zweiten Nutzungserleichterung eine
Interpretations-Niveauebene (nachfolgend als I-Ebene bezeichnet),
die aus Prosodikmerkmal-Steuerbefehlen zur Interpretation jedes
Prosodikmerkmal-Steuerbefehls der S-Ebene und zur Definierung einer
direkten Steuerung prosodischer Parameter der Sprache aufgebaut
ist. Des Weiteren verwendet diese Ausführungsform eine Parameter-Niveauebene
(nachfolgend als P-Ebene bezeichnet), die aus prosodischen Parametern
aufgebaut ist, die der Steuerung durch die Steuerbefehle der I-Ebene
unterworfen sind. Die erste Ausführungsform
fügt die Prosodikmerkmal-Steuerbefehle
durch Verwendung eines Prosodik-Steuersystems in einen Text ein,
wobei das System die drei genannten Ebenen in einer wie in
Die P-Ebene besteht hauptsächlich aus prosodischen Parametern, die von den als nächstes beschriebenen Prosodikmerkmal-Steuerbefehlen der I-Ebene ausgewählt und gesteuert werden. Diese prosodischen Parameter sind diejenigen prosodischer Merkmale, die in einem Sprachsynthesesystem verwendet werden, wie die Tonhöhe (Pitch, engl.), die Leistung, die Dauer und phonematische Information für jedes Phonem. Die prosodischen Parameter sind grundlegende Objekte einer Prosodiksteuerung durch MSCL, und diese Parameter werden zur Steuerung synthetischer Sprache verwendet. Die prosodischen Parameter der P-Ebene stellen Basisparameter der Sprache dar und besitzen eine schnittstellenähnliche Eigenschaft, die die Anwendung der Editierungstechnik für synthetische Sprache gemäß der vorliegenden Erfindung auf verschiedenste andere Sprach-Synthese- oder Sprach-Kodierungs-Systeme erlaubt, die ähnliche prosodische Parameter verwenden. Die prosodischen Parameter der P-Ebene nutzen die vorhandene Sprachsynthesevorrichtung und sind daher von deren Spezifikation abhängig.The P-plane consists mainly of prosodic parameters which are selected and controlled by the next-described I-level prosodic feature control commands. These prosodic parameters are those prosodic features used in a speech synthesis system, such as pitch, power, duration, and phonemic information for each phoneme. The prosodic parameters are basic objects of prosodic control by MSCL, and these parameters are used to control synthetic speech. The prosodic parameters of the P-plane represent basic parameters of speech and have an interface-like property that allows the application of the synthetic speech editing technique of the present invention to a variety of other speech synthesis or speech coding systems that use similar prosodic parameters , The prosodic parameters of the P-plane use the existing speech synthesizer and are therefore depending on their specification.
Die
I-Ebene besteht aus Befehlen, die dazu verwendet werden, den Wert,
das Zeit-veränderliche
Muster (ein prosodisches Merkmal) und die Betonung jedes prosodischen
Parameters der P-Ebene zu steuern. Durch eine genaue Steuerung der
physikalischen Quantitäten
der prosodischen Parameter auf dem Niveau des Phonems durch Verwendung
der Befehle der I-Ebene, ist es möglich, Befehle wie „Vibrato", „stimmhafter Nasallaut", weiter dynamischer
Bereich", „langsam" und „hohe Tonhöhe", wie in der Befehlsgruppe
der I-Ebene in
Tabelle 1: Befehle der I-Ebene Table 1: I-level commands
Ein oder mehrere Prosodikmerkmal-Steuerbefehle der I-Ebene können entsprechend zu einem ausgewählten Befehl der Prosodikmerkmal-Steuerbefehle der S-Ebene verwendet werden. Die zur Beschreibung der Befehle der I-Ebene verwendeten Symbole werden später noch beschrieben; XXXX in den geschwungenen Klammern {} repräsentieren ein Zeichen oder eine Zeichenfolge eines Textes, der ein Steuerobjekt darstellt.One or several I-level prosodic feature control commands can be used accordingly to a selected one Command of the S-level prosodic feature control commands. The symbols used to describe the I-level commands will be later still described; Represent XXXX in the curly brackets {} a character or string of text that is a control object represents.
Nun
folgt die Beschreibung eines Beispiels der Anwendung der Prosodikmerkmal-Steuerbefehle
der I-Ebene auf einen englischen Text.
Will you do [F0d](2,0){me}
a [~/]{favor}.The following is a description of an example of the application of the I-level prosodic feature control commands to an English text.
Will you do [F0d] (2,0) {me} a [~ /] {favor}.
Der Befehl [F0d] setzt den dynamischen Bereich der Tonhöhe auf einen doppelten Wert, was dem Befehl nachfolgend mit (2,0) angegeben ist. Das Steuerobjekt dieses Befehls ist das dem Befehl unmittelbar folgende {me}. Der nächste Befehl [~/] ist ein Befehl, der das Tonhöhenmuster des letzten Vokals erhöht, und sein Steuerobjekt ist das ihm unmittelbar folgende {favor}.Of the Command [F0d] sets the dynamic range of the pitch to a double value, which is given below as (2,0). The control object of this command is immediately following the command {Me}. The next Command [~ /] is a command containing the pitch pattern of the last vowel elevated, and his control object is immediately following him {favor}.
Die
S-Ebene führt
die Steuerung der Prosodik semantisch durch. Die S-Ebene besteht
aus Worten, die auszudrücken
gewünschte
nicht-verbale Informationen konkret repräsentieren, wie den mentalen
Zustand des Sprechers, seine Stimmung, seinen Charakter, sein Geschlecht
und Alter, beispielsweise „ärgerlich", erfreut", schwach", „weinend", „aufzählend" und „zweifelnd", die in der S-Ebene
in
Die folgende Tabelle zeigt Anwendungsbeispiele der Prosodikmerkmal-Steuerbefehle der S-Ebene.The The following table shows examples of application of the prosodic feature control commands the S level.
Tabelle 2: Befehle der S-Ebene Table 2: S-level commands
Unter
Bezugnahme auf die
S1: Ein japanischer Text, welcher der zu synthetisieren und editieren gewünschten Sprachmitteilung entspricht, wird mit einer Tastatur oder einer anderen Eingabeeinheit eingegeben.S1: A Japanese text, which the synthesize and edit desired Voice message corresponds, is with a keyboard or a input to another input unit.
S2: Die Zeichen oder Zeichenfolgen, deren prosodische Merkmale zu korrigieren gewünscht sind, werden spezifiziert und die entsprechenden Prosodikmerkmal-Steuerbefehle werden eingegeben und in den Text eingefügt.S2: The characters or strings whose prosodic features correct required are specified and the corresponding prosodic feature control commands are entered and inserted into the text.
S3:
Der Text und die Prosodikmerkmal-Steuerbefehle werden beide in ein
Text/Befehle-Trennungsteil
S4:
Die Prosodikmerkmal-Steuerbefehle werden dann in einem Prosodikmerkmal-Steuerbefehl-Analyseteil
S5:
In einem Satzstruktur-Analyseteil
S6:
Ein Prosodikmerkmal-Steuerteil
S7:
Ein Synthetiksprache-Erzeugungsteil
In
Bezugnahme auf
Im
Obigen gibt [L] die Dauer an und spezifiziert die Äußerungszeit
des Satzes in den entsprechenden Klammern {}. [>] repräsentiert
einen Ausdrucksbestandteil der Tonhöhe und gibt an, dass die Grundfrequenz der Äußerung der
Zeichenfolge in Klammern {} zwischen 150 Hz und 80 Hz variiert wird.
[/-\] zeigt einen lokalen Wechsel der Tonhöhe an. /,- und \ geben an,
dass die zeitliche Variation der Grundfrequenz erhöht, flach
gehalten bzw. erniedrigt wird. Durch Verwendung dieser Befehle ist
es möglich,
zeitliche Veränderungen
von Parametern zu beschreiben. Was {Watashino Namaeha} (Bedeutung: „Mein Name") angeht, ist in
dem Prosodikmerkmal-Steuerbefehl [>]
(150,80), der eine Variation der Grundfrequenz von 150 Hz bis 80
Hz spezifiziert, des Weiteren ein Prosodikmerkmal-Steuerbefehl [/-\]
(120) zur lokalen Änderung
der Tonhöhe
eingefügt
bzw. in diesem verschachtelt. [#] gibt ein Einfügen einer stillen Zeitspanne
bzw. Pause in die synthetische Sprache an. Die stille Zeitspanne
beträgt
in diesem Fall
Die
obige Eingabeinformation wird in das Text/Befehl-Trennungsteil (das üblicherweise
als lexikalisches Analyseteil bezeichnet wird)
In
der Datenbank
Stimmen,
die verschiedenste nicht-verbale Informationen enthalten, die durch
die Prosodikmerkmal-Steuerbefehle
der S-Ebene repräsentiert
sind, d. h. Stimmen, die verschiedenste Ausdrucksformen von Angst,
Wut, Ablehnung usw. enthalten, die den Prosodikmerkmal-Steuerbefehlen
der S-Ebene entsprechen, werden in einem Eingabesprache-Analyseteil
Die
in der Prosodikmerkmalsregeln-Datenbank
Das Hinzufügen von nicht-verbaler Information zu synthetischer Sprache durch Verwendung der Multi-Layered/Sound Synthesis Control Language (MSCL) gemäß der vorliegenden Erfindung erfolgt durch die Steuerung grundlegender prosodischer Parameter, die jede Sprache besitzt. Es ist allen Sprachen gemein, dass sich prosodische Merkmale von Stimmen mit dem mentalen Zustand des Sprechers, seinen Intentionen und so weiter verändern. Somit ist es klar, dass die MSCL gemäß der vorliegenden Erfindung zum Editieren synthetischer Sprache in jeglichen Sprachen verwendet werden kann.The Add from non-verbal information to synthetic speech through use the Multi-Layered / Sound Synthesis Control Language (MSCL) according to the present Invention is accomplished by the control of basic prosodic Parameter that each language possesses. It is common to all languages that prosodic features of voices with the mental state of the Speaker, change his intentions and so on. Thus, it is clear that the MSCL according to the present Invention for editing synthetic speech in any language can be used.
Da die Prosodikmerkmal-Steuerbefehle durch Verwendung der Multi-Layered/Sound Synthesis Control Language, die aus den vorstehend beschriebenen Semantik-, Interpretations- und Parameterebenen besteht, in den Text geschrieben werden, kann eine normale Bedienperson durch Verwendung der Beschreibung mit den Prosodikmerkmal-Steuerbefehlen der S-Ebene auf einfache Weise nicht-verbale Information editieren. Andererseits kann eine Bedienperson mit Expertenkenntnissen durch Verwendung der Prosodikmerkmal-Steuerbefehle der S-Ebene und I-Ebene detailliertere Editierungen ausführen.There the prosodic feature control commands by using the Multi-Layered / Sound Synthesis Control Language, which is from those described above Semantics, interpretation and parameter levels exist in the Text can be written by a normal operator by use the description with the S-level prosodic feature control commands easily edit non-verbal information. on the other hand can an operator with expert knowledge through use the prosodic feature control commands the S-level and I-level more detailed Execute edits.
Mit dem vorstehend beschriebenen MSCL-System ist es möglich, manche Stimmeigenschaften von hohen bis niedrigen Tonhöhen zusätzlich zu männlichen und weiblichen Stimmen zu bestimmen. Dies dient nicht nur dazu, den Wert der Tonhöhe oder der Grundfrequenz der synthetischen Sprache zu verändern, sondern auch dazu, ihr gesamtes Spektrum in Übereinstimmung mit dem Frequenzspektrum der hoch- oder tieftonigen Stimme zu ändern. Diese Funktion erlaubt die Durchführung von Unterhaltungen mit einer Vielzahl von Sprechern. Des Weiteren ermöglicht das MSCL-System die Eingabe einer Klangdatendatei mit Musik, Hintergrundgeräuschen, natürlichen Stimmen und so weiter. Denn eine effizientere Erzeugung von Inhalten benötigt unvermeidbar zusätzlich zur Sprache Musik, natürliche Stimmen und ähnliche Klanginformationen. Bei dem MSCL-System werden diese Daten derartiger Klanginformationen als zusätzliche Information synthetischer Sprache behandelt.With The MSCL system described above, it is possible to some Voice characteristics of high to low pitches in addition to male and female voices to determine. This not only serves to increase the value of the pitch or the fundamental frequency of the synthetic language to change, but also to their entire spectrum in accordance with the frequency spectrum to change the high or low pitched voice. This function allows the implementation conversations with a variety of speakers. Furthermore allows the MSCL system inputting a sound data file with music, background noise, natural Voices and so on. Because a more efficient generation of content inevitably needed additionally to the language music, natural Voices and similar Sound information. In the MSCL system, these data become more so Sound information as additional Information of synthetic speech is treated.
Mit
dem Editierungsverfahren für
synthetische Sprache gemäß der in
Bezug auf
Die obige Ausführungsform wurde hauptsächlich in Verbindung mit der japanischen Sprache und einigen Anwendungsbeispielen für die englische Sprache beschrieben. Wird ein japanischer Text durch japanische alphabetische Schriftzeichen ausgedrückt, so sind im Allgemeinen nahezu alle Schriftzeichen einsilbig, was eine sprachliche Erleichterung beim Aufbau einer Übereinstimmung zwischen den Positionen der Zeichen und den Silben im Text bedeutet. Somit kann die Position der Silbe, die das Prosodiksteuerungsobjekt darstellt, relativ leicht aus der entsprechenden Zeichenposition bestimmt werden. In anderen als der japanischen Sprache gibt es jedoch viele Fälle, wo die Position der Silbe in einem Wort nicht einfach mit der Position des Wortes in der Zeichenfolge übereinstimmt, wie im Falle der englischen Sprache. Falls die vorliegende Erfindung auf eine derartige Sprache angewandt wird, wird für jedes Wort im Text ein Wörterbuch dieser Sprache hinzugezogen, das die Aussprache der Wörter beinhaltet, um die Position jeder Silbe relativ zu einer Folge von Buchstaben in einem Wort zu bestimmen.The above embodiment has been described mainly in connection with the Japanese language and some application examples for the English language. In general, when a Japanese text is expressed in Japanese alphabetic characters, almost all the characters are monosyllabic, meaning linguistic ease in building a correspondence between the positions of the characters and the syllables in the text. Thus, the position of the syllable representing the prosody control object can be determined relatively easily from the corresponding character position. However, in other than the Japanese language, there are many cases where the position of the syllable in a word does not simply coincide with the position of the word in the string, as in the case of the English language. If the present invention is applied to such a language, a dictionary of that language will be added for each word in the text which includes pronunciation of the words to determine the position of each syllable relative to a sequence of letters in a word.
Zweite AusführungsformSecond embodiment
Da
die in
Das
Verfahren zur Steuerung der Tonhöhenkontur
benutzt als Referenz für
die Steuerung einen Bereich, in dem eine Änderung der Betonung oder ähnlichem
nicht zu einer für
den Hörer
wahr nehmbaren Unstimmigkeit führt.
Wie in
- (a) Der dynamische Bereich der Tonhöhenkontur ist vergrößert.
- (b) Der dynamische Bereich der Tonhöhenkontur ist verringert.
- (c) Das Muster des Vokals am Ende der Wortäußerung ist als ein monoton abfallendes Muster ausgebildet.
- (d) Das Muster des Vokals am Ende der Wortäußerung ist als ein monoton ansteigendes Muster ausgebildet.
- (e) Das Muster des Abschnitts vom Anfang des Vokals der ersten Silbe bis zum Höchstwert (Peak) des Musters ist als ein sich nach oben erstreckendes Muster ausgebildet.
- (f) Das Muster des Abschnitts vom Anfang des Vokals der ersten Silbe bis zum Höchstwert (Peak) des Musters ist als ein sich nach unten erstreckendes Muster ausgebildet.
- (a) The dynamic range of the pitch contour is increased.
- (b) The dynamic range of the pitch contour is reduced.
- (c) The pattern of the vowel at the end of the utterance is formed as a monotonously descending pattern.
- (d) The pattern of the vowel at the end of the utterance is formed as a monotonically increasing pattern.
- (e) The pattern of the section from the beginning of the vowel of the first syllable to the peak of the pattern is formed as an upwardly extending pattern.
- (f) The pattern of the section from the beginning of the first syllable vowel to the peak of the pattern is formed as a downwardly extending pattern.
Das Verfahren zur Steuerung der Zeitdauer ermöglicht zwei Arten von Eingriffen zur (g) Verkürzung sowie zur (h) Verlängerung der Zeitdauer jedes Phonems.The Method of controlling the duration allows two types of interventions for (g) shortening as well for (h) extension the duration of each phoneme.
Untersuchungsergebnisse über mentale Einflüsse bei jedem der Steuerverfahren werden nachstehend beschrieben. Nachstehend sind mentale Haltungen (nicht-verbale Informationen) aufgelistet, die Hörer synthetisierten Stimmen entnahmen, die durch Modifikation einer japanischen Wortäußerung entsprechend der vorgenannten Steuerverfahren (a) bis (f) erhalten wurden.
- (1) Härte oder positive Haltung
- (2) Schwäche oder passive Haltung
- (3) Verständige Haltung
- (4) Fragende Haltung
- (5) Sicherheit oder Gelassenheit
- (6) Unsicherheit oder Widerwillen
- (1) hardness or positive attitude
- (2) weakness or passive attitude
- (3) Understanding attitude
- (4) Questioning attitude
- (5) safety or serenity
- (6) uncertainty or aversion
Sieben
Untersuchungskandidaten bekamen synthetisierte Stimmen zu hören, die
durch Modifikation einer japanischen Wortäußerung „shikatanai" (was „Es geht
nicht anders" bedeutet)
entsprechend der obigen Verfahren (a) bis (f) erzeugt wurden.
In ähnlicher Weise wurde die Zeitdauer einer japanischen Wortäußerung verlängert oder verkürzt, um synthetisierte Stimmen zu erzeugen, denen die Hörer die nachstehenden mentalen Zustände des Sprechers entnahmen.
- (a) Verlängert: (7) Intention des klaren Sprechens (8) Intention des suggestiven Sprechens
- (b) Verkürzt: (9) Gehetzt (10) Dringlich
- (a) Prolong: (7) Intention of clear speech (8) Intention of suggestive speech
- (b) Shortened: (9) Busy (10) Urgent
Sieben
Untersuchungskandidaten bekamen synthetisierte Stimmen zu hören, die
durch (g) Verlängern und
(h) Verkürzen
der Zeitdauer eines prosodischen Musters einer japanischen Wortäußerung „Aoi" (was „Blau" bedeutet) erzeugt
wurden.
Basierend auf den oben genannten Untersuchungsergebnissen wurden die von Untersuchungskandidaten verstandenen mentalen Zustände des Sprechers für Fälle untersucht, bei denen eine Modifikation der Tonhöhenkontur und eine Verlängerung und Verkürzung der Zeitdauer miteinander kombiniert wurden.Based on the above test results were those of investigators understood mental states the speaker for Investigated cases, where a modification of the pitch contour and an extension and foreshortening the duration were combined.
Sieben
Untersuchungskandidaten wurden gebeten, die mentalen Zustände des
Sprechers, die sie mit der vorgenannten japanischen Wortäußerung „shikatanai" in Verbindung brachten,
zu notieren.
Wie
vorstehend beschrieben, kann der synthetischen Sprache eine breite
Vielfalt nicht-verbaler Informationen hinzugefügt werden, indem Modifikationen
der Tonhöhenkontur
(Modifikationen des dynamischen Bereichs und der Hülle) mit
einer Verlängerung
und Verkürzung
der Zeitdauer kombiniert werden. Es besteht auch eine Möglichkeit,
dass die gewünschte
nicht-verbale Information erzeugt werden kann, indem die obigen Manipulationen
selektiv miteinander kombiniert werden, während der mentale Einfluss
der grundlegenden Manipulation berücksichtigt wird; dies kann
als jedem mentalen Zustand entspiechende Prosodiksteuerregel in der
Datenbank
Bei
der zweiten Ausführungsform
ist zumindest eine Kombination bestehend aus einer Modifikation der
Tonhöhenkontur,
einer Modifikation des Leistungsmusters und einer Verlängerung
und Verkürzung
der Zeitdauer, bei denen es sich um grundlegende, den entsprechenden
mentalen Zuständen
entsprechende Prosodiksteuerregeln handelt, als eine Prosodiksteuerregel
in der in
Wie
aus obigem ersichtlich, können
bei dieser Ausführungsform
die Prosodikmerkmal-Steuerregeln nur auf dem Niveau der I-Ebene
beschrieben werden. Es ist natürlich
auch möglich,
als Prosodikmerkmal-Steuerregeln der S-Ebene des MSCL-Beschreibungsverfahrens
die Prosodikmerkmal-Steuerregeln
zu definieren, die verschiedenste Darstellungsweisen und Umsetzungen
entsprechender mentaler Zustände,
auf die vorstehend Bezug genommen wurde, erlauben; in diesem Fall
kann die Sprachsynthese mit einer auf MSCL-basierenden Vorrichtung
der
Tabelle 3: S-Ebene & I-Ebene Table 3: S-plane & I-plane
Tabelle 3 zeigt ein Beispiel von fünf Befehlen der S-Ebene, die basierend auf den Untersuchungsergebnissen zur zweiten Ausführungsform und deren Interpretation durch die entsprechenden Befehle der I-Ebene erstellt wurden. Das japanische Wort „honto" (was „wirklich" bedeutet) in den Klammern {} ist ein Beispiel eines Steuerobjekts des Befehls. In der Tabelle 3 gibt [L] die Äußerungsdauer und der Zahlenwert den Skalierungsfaktor für die Zeitdauer an. [F0d] gibt den dynamischen Bereich der Tonhöhenkontur und der Zahlenwert den Skalierungsfaktor für den Bereich an. [/V] gibt die sich nach unten erstreckende Modifikation der Tonhöhenkontur vom Anfang bis zu dem Höchstwert (Peak) der sein Zahlenwert den Grad einer derartigen Modifikation an.table 3 shows an example of five S-level commands based on the investigation results to the second embodiment and their interpretation by the corresponding I level commands were created. The Japanese word "honto" (meaning "really") in brackets {} is a Example of a control object of the command. In Table 3 are [L] the duration of the utterance and the numerical value the scaling factor for the duration. [F0d] returns the dynamic range of the pitch contour and the numerical value the scaling factor for the range. [/ V] there the downwardly extending modification of the pitch contour from the beginning to the maximum (Peak) its numerical value the degree of such a modification at.
Wie vorstehend beschrieben wird gemäß dieser Ausführungsform der Prosodikmerkmal-Steuerbefehl zur Korrektur eines prosodischen Parameters in den eingegebenen Text geschrieben und der prosodische Parameter des Textes durch eine Kombination von modifizierten Prosodikparametermustern korrigiert, die durch die Prosodiksteuerregel, die dem in den Text geschriebenen Prosodikmerkmal-Steuerbefehl entspricht, spezifiziert sind. Die Prosodiksteuerregel spezifiziert eine Kombination von Änderungen des Sprachleistungsmusters, der Tonhöhenkontur und Äußerungsdauer und, falls notwendig, auch die Gestalt des Zeit-veränderlichen Musters des prosodischen Parameters.As described above according to this embodiment the prosodic feature control command for correcting a prosodic Parameters written in the entered text and the prosodic Parameters of the text through a combination of modified prosodic parameter patterns Corrected by the prosodic control rule that appears in the text written prosodic feature control command specified are. The prosodic control rule specifies a combination of changes the voice performance pattern, the pitch contour and the duration of the utterance and, if necessary, the shape of the time-varying pattern of the prosodic parameter.
Zur
Spezifizierung des prosodischen Parameters nimmt der Wert zwei Formen
an: eine relative Steuerung zur Änderung
und zur Korrektur des sich aus der „Synthese-durch-Regeln" ergebenden prosodischen Parameters
und eine absolute Steuerung zur absoluten Korrektur des Parameters.
Des Weiteren werden häufig
genutzte Prosodikmerkmal-Steuerbefehle für einen einfachen Zugriff miteinander
kombiniert, wenn sie in der Prosodiksteuerregeln-Datenbank
Die zweite Ausführungsform basiert auf der Annahme, dass es sich bei Kombinationen von spezifischen prosodischen Merkmalen um Prosodiksteuerregeln handelt. Es ist offensichtlich, dass die zweite Ausführungsform zur Steuerung prosodischer Parameter verschiedenster natürlicher Sprachen wie dem Japanischen verwendet werden kann.The second embodiment is based on the assumption that combinations of specific prosodic features around prosodic control rules. It is obvious, that the second embodiment for the control of prosodic parameters of various natural Languages like the Japanese can be used.
Mit dem Editierungsverfahren für synthetische Sprache gemäß der oben beschriebenen zweiten Ausführungsform können nicht-verbale Informationen auf einfache Weise zu synthetischer Sprache hinzugefügt werden, indem das Editierungsverfahren als ein Programm (eine Software) gestaltet wird, das Verfahren dann auf einer mit einem Computer verbundenen Disketteneinheit einer Sprachsynthesevorrichtung oder einer Prosodikeditierungsvorrichtung, oder auf einem transportfähigen Aufzeichnungsmedium, wie einer Floppy-Diskette oder einer CD-ROM, gespeichert wird, und es zum Zeitpunkt des Editierungs-/Erzeugungsvorgangs synthetischer Sprache installiert wird.With the editing method for synthetic language according to the above described second embodiment can non-verbal information in a simple way to synthetic Language to be added by the editing process as a program (a software) then the process is done on a computer connected disk unit of a speech synthesis device or a prosody editing device, or on a transportable recording medium, such as a floppy disk or a CD-ROM, and makes it more synthetic at the time of the editing / generating process Language is installed.
Dritte AusführungsformThird embodiment
Bei
dem Fall, bei welchem Prosodikmerkmal-Steuerbefehle über das
Text/Befehl-Eingabeteil
Zunächst werden
Untersuchungsergebnisse, die das prosodische Merkmal der Äußerungsdauer
betreffen, beschrieben. Durch eine Verlängerung der Zeitdauer klingt
die Äußerung langsam,
wohingegen, wenn die Zeitdauer kurz ist, die Äußerung schnell klingt. Bei
den Untersuchungen wurde ein japanisches Wort „Urayamashii" (was „neidisch" bedeutet) verwendet.
Mehrere in der Länge
variierten Versionen dieses Worts, die durch verschiedenstes Ändern der
Zeichenabstände
erhalten wurden, wurden Seite-an-Seite geschrieben. Gemischte oder
synthetische Klänge
oder Äußerungen
des Wortes wurden erzeugt, die normale, lange bzw. kurze Zeitdauern
besaßen,
und
Kurze Zeitdauer:
Enger Zeichenabstand (88%)
Lange Zeitdauer: Weiter Zeichenabstand
(100%)First of all, examination results concerning the prosodic feature of utterance duration are described. By prolonging the duration, the utterance sounds slow, whereas if the duration is short, the utterance sounds fast. The investigation used a Japanese word "Urayamashii" (meaning "jealous"). Several length-varied versions of this word, obtained by changing the character spacing in various ways, were written side-by-side. Mixed or synthetic sounds or utterances of the word were generated which had normal, long or short durations, and
Short duration: Narrow pitch (88%)
Long time: continued character spacing (100%)
Als
nächstes
folgt eine Beschreibung von Untersuchungsergebnissen, die betreffend
der prosodischen Merkmale der grundlegenden Frequenz (Tonhöhe) und
des Amplitudenwertes (Leistung) erhalten wurden. Neun Variationen
derselben japanischen Wortäußerung „Urayamashii", wie sie oben verwendet
wurde, wurden mit den nachstehend aufgelisteten Tonhöhen und
Leistungen synthetisiert, und
Tabelle 4: Prosodische Merkmale und zugehörige Vermerke Table 4: Prosodic features and associated notes
Als
nächstes
werden Untersuchungsergebnisse betreffend einer Variation der Intonation
beschrieben. Die Intonation repräsentiert
den Wert (den dynamischen Bereich) einer Tonhöhenvariation innerhalb eines Wortes.
Wenn die Intonation groß ist,
klingt die Äußerung „kräftig, positiv" und mit einer kleinen
Intonation klingt die Äußerung „schwach,
passiv". Es wurden
synthetisierte Versionen der japanischen Wortäußerung „Urayamashii" mit normalen, kräftigen und
schwachen Intonationen erzeugt, und es wurden Tests zur Einschätzung dazu
durchgeführt,
welche der synthetisierten Äußerungen
zu welcher in
Starke Intonation → Die Zeichenposition wird mit der Tonhöhenstruktur geändert (eine sich verändernde Zeitfolge), wodurch die Inklination (71%) weiter erhöht wird.Strength Intonation → The Character position is changed with the pitch structure (a changing Time sequence), which further increases the inclination (71%).
Schwache Intonation → Die Zeichenpositionen am Anfang und am Ende des Wortes werden erhöht (43%).Weakness Intonation → The Character positions at the beginning and at the end of the word are increased (43%).
In
den
Der
eingegebene japanische Satz von
In
Nun
folgt unter Bezugnahme auf
Die
Punkte „.", die durch die Bezugsziffer
Die
drei Zeichen, die mit der Bezugsziffer
Das
Symbol „#", das mit der Bezugsziffer
Die
zwei Mora andauernde Leerstelle in der zweiten Zeile, die mit der
Bezugsziffer
Die
fünf Zeichen
in der letzten Zeile, die mit der Bezugsziffer
Diese Information, d. h. eine Information, bei der die Prosodikmerkmal-Steuerbefehle in den japanischen Text eingefügt sind, wird in eine die vorliegende Erfindung ausführende Vorrichtung eingegeben (S3).These Information, d. H. an information in which the prosodic feature control commands inserted in the Japanese text Turns to an apparatus embodying the present invention entered (S3).
Die eingegebene Information wird durch eine Trenneinrichtung verarbeitet, um diese in den japanischen Text und die Prosodikmerkmal-Steuerbefehle aufzutrennen (S4}. Diese Trennung erfolgt, indem durch Verwendung des MSCL-Beschreibungsschemas und einem Formulierungs-Analyseschema festgestellt wird, ob entsprechende Codes zu den Prosodikmerkmal-Steuerbefehlen oder zu dem japanischen Text gehören.The entered information is processed by a separator, these in the Japanese text and the prosodic feature control commands (S4} This separation is done by using of the MSCL Description Scheme and a formulation analysis scheme whether appropriate codes to the prosodic feature control commands or belong to the Japanese text.
Die abgetrennten Prosodikmerkmal-Steuerbefehle werden analysiert, um Informationen über ihre Eigenschaften, Bezugspositionsinformationen über ihre Position (Zeichen oder Zeichenfolgen) in dem japanischen Text und Informationen zur Abfolge ihrer Ausführung zu erhalten (S5). Falls die Befehle in der Reihenfolge, in der sie erhalten werden, ausgeführt werden, sind Informationen zur Abfolge deren Ausführung nicht notwendig. Dann wird der in Schritt S4 abgetrennte japanische Text einer japanischen Syntaxstrukturanalyse unterzogen, um prosodische Parameter zu erhalten, die auf dem herkömmlichen Synthese-durch-Regeln-Verfahren beruhen (S6).The separated prosodic feature control commands are analyzed to information about their properties, reference position information about their Position (characters or strings) in the Japanese text and To obtain information about the sequence of their execution (S5). If the commands are executed in the order in which they are received, Information about the sequence of their execution is not necessary. Then becomes the Japanese text separated in step S4 of a Japanese Parsing structure analysis to obtain prosodic parameters, the on the conventional one Synthesis-by-rules methods are based (S6).
Die
auf diese Weise erhaltenen prosodischen Parameter werden durch Verwendung
der Prosodikmerkmal-Steuerbefehle und deren Bezugspositionsinformation
in Informationen zur Position und Größe der Zeichen umgewandelt
(S7). Die auf diese Weise umgewandelte Informationen werden verwendet,
um die entsprechenden Zeichen des japanischen Textes, der in Schritt
S4(S8) abgetrennt wurde, umzuwandeln; diese werden auf dem Display
angezeigt, um eine Darstellung, beispielsweise des in
Die in Schritt S6 erhaltenen prosodischen Parameter werden unter Heranziehung der Prosodikmerkmal-Steuerbefehle und der Positionsinformationen, die beide in Schritt S5 erhalten werden, gesteuert (S 10). Basierend auf den gesteuerten prosodischen Parametern, wird ein Sprachsynthesesignal für den in Schritt S4 abgetrennten japanischen Text erzeugt (S11), und dieses dann als Sprache ausgegeben (S 12). Es ist möglich eine Kontrolle durchzuführen, um zu sehen, ob die beabsichtigte Wiedergabe, d. h. die MSCL-Beschreibung, korrekt durchgeführt wurde, indem man die in Schritt S12 bereitgestellte Sprache anhört während man die in Schritt S9 bereitgestellte Anzeige beobachtet.The The prosodic parameters obtained in step S6 are calculated using the prosodic feature control commands and the position information, both obtained in step S5 are controlled (S 10). Based on the controlled prosodic parameters, becomes a speech synthesis signal for the in step S4, separated Japanese text is generated (S11), and this then output as speech (S 12). It is possible to carry out a check to to see if the intended replay, d. H. the MSCL description, correct carried out was listened to by listening to the speech provided in step S12 observed the display provided in step S9.
Andererseits
sind die prosodischen Parameter, die in dem Prosodikmerkmal-Steuerteil
Die
Regeln zur Umwandlung der MSCL-Steuerbefehle in Zeicheninformation,
auf die vorstehend Bezug genommen wurde, können von einem Nutzer geändert oder
modifiziert werden. Das Verhältnis
zur Änderung
der Zeichenhöhe
und die Größe und die
Farbe jedes Zeichens kann der Nutzer festlegen. Schwankungen der
Tonhöhenfrequenz
können
durch die Zeichengröße repräsentiert
werden. Die Symbole „." Und „-„ können durch
eine Nutzeranfrage geändert
oder modifiziert werden. Wenn die Vorrichtung gemäß
Es ist bedacht, dass der Zusammenhang zwischen der Größe des angezeigten Zeichens und der Lautstärke der Sprache, die in Verbindung damit wahrgenommen wird, und der Zusammenhang zwischen der Höhe der angezeigten Zeichenposition und der Tonhöhe der Sprache, die in Verbindung damit wahrgenommen wird, nicht nur auf die japanische Sprache, sondern auch auf alle natürlichen Sprachen anwendbar ist. Daher ist klar, dass die dritte Ausführungsform der vorliegenden Erfindung in gleicher Weise für andere verschiedenste natürliche Sprachen neben der japanischen Sprache verwendet werden kann. Falls die Darstellung der Steuerung prosodischer Parameter durch, wie vorstehend beschrieben, die Größe und die Position jedes Zeichens auf individuelle natürliche Sprachen angewandt wird, kann die in der dritten Ausführungsform gezeigte Notation in Kombination mit einer Notation verwendet werden, die für die Zeichenmerkmale jeder Sprache geeignet sind.It is aware that the relationship between the size of the displayed Character and the volume the language perceived in connection with it, and the Connection between the height the displayed character position and the pitch of the language connected is perceived, not just in the Japanese language, but also on all natural ones Languages is applicable. Therefore, it is clear that the third embodiment of the present invention in the same way for other various natural languages in addition to the Japanese language can be used. If the representation the control of prosodic parameters by, as described above, the size and the Position of each character is applied to individual natural languages, can the in the third embodiment shown notation can be used in combination with a notation the for the character features of each language are suitable.
Mit
dem Editierungsverfahren für
synthetische Sprache gemäß der in
Bezug auf
Die dritte Ausführungsform nutzt das MSCL-Schema, um synthetischer Sprache nicht-verbale Information hinzuzufügen; es ist jedoch auch möglich, ein Verfahren zu verwenden, bei welchem prosodische Merkmale von einer Vorrichtung mit GUI modifiziert werden und bei welchem die prosodischen Parameter, die von dem Sprachsynthesemittel geliefert werden, direkt verarbeitet werden.The third embodiment uses the MSCL scheme to synthetic non-verbal information add; but it is also possible to use a method in which prosodic features of a device with GUI modified and in which the prosodic parameters supplied by the speech synthesis tool will be processed directly.
WIRKUNG DER ERFINDUNGEFFECT OF THE INVENTION
Entsprechend dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen gemäß der ersten Ausführungsform der vorliegenden Erfindung, wenn die synthetische Sprache durch eine „Synthese-durch-Regeln" unnatürlich oder monoton klingt und daher für einen Nutzer ausdruckslos, kann eine Bedienperson auf einfache Weise zu der Zeichenfolge, deren Prosodik geändert werden muss, gewünschte prosodische Parameter hinzufügen, indem mit dem MSCL-Beschreibungsschema Prosodikmerkmal-Steuerbefehle in den Text eingefügt werden.Corresponding the method and apparatus for editing / creating synthetic Voice messages according to the first embodiment of the present invention, when the synthetic speech by a "synthesis-by-rules" unnatural or sounds monotonous and therefore for a user expressionless, an operator can easily to the string whose prosodic must be changed, desired prosodic Add parameters, by using the MSCL description scheme prosodic feature control commands inserted in the text become.
Durch Verwendung des relativen Steuerschemas ist es nicht notwendig, die gesamte synthetische Sprache zu korrigieren, nur notwendige Korrekturen werden an dem Ergebnis der „Synthese-durch-Regeln" an notwendigen Stellen vorgenommen – dadurch wird eine große Menge an Arbeit, die mit der Synthese von Sprachmitteilungen verbunden ist, eingespart.By Using the relative control scheme does not require the correct entire synthetic language, only necessary corrections become attached to the result of "synthesis-by-rules" in necessary places made - by will be a big one Amount of work associated with the synthesis of voice messages is saved.
Da des Weiteren die Prosodikmerkmal-Steuerbefehle, die basierend auf prosodischen Parametern erzeugt werden, die ihrerseits aus der eigentlichen Sprache oder einer Vorrichtung zur Editierung synthetischer Sprache des Typs eines Displays zu erhalten sind, gespeichert und genutzt werden, kann auch ein gewöhnlicher Nutzer auf einfache Weise eine gewünschte Sprachmitteilung synthetisieren ohne ein spezielles Expertenwissen über Phonetik zu benötigen.Further, since the prosodic feature control commands generated based on prosodic parameters, which in turn may be obtained from the actual speech or a synthetic speech editing apparatus of the type of a display, are stored and utilized, a common one may also be used Users can easily synthesize a desired voice message without the need for specialized phonetics expertise.
Da entsprechend dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen gemäß der zweiten Ausführungsform der vorliegenden Erfindung Sätze von Prosodikmerkmal-Steuerbefehlen basierend auf Kombinationen mehrerer Arten von Prosodikmustervariationen als Prosodiksteuerregeln in Übereinstimmung mit verschiedensten Arten nicht-verbaler Informationen in der Datenbank gespeichert sind, können dem eingegebenen Text auf einfache Weise verschiedenste nicht-verbale Informationen hinzugefügt werden.There according to the method and apparatus for editing / generation synthetic voice messages according to the second embodiment of the present invention sets prosodic feature control commands based on combinations of several Types of prosodic pattern variations as prosodic control rules in accordance stored with various types of non-verbal information in the database are, can the entered text in a simple way various non-verbal Information added become.
Entsprechend dem Verfahren und der Vorrichtung zur Editierung/Erzeugung synthetischer Sprachmitteilungen gemäß der dritten Ausführungsform der vorliegenden Erfindung, können die Inhalte einer Manipulation (Editierung) visuell in Abhängigkeit davon überprüft werden, wie Zeichen, die einem Prosodikmerkmal-Steuervorgang unterzogen werden, angeordnet sind – dies ermöglicht wirksamere Korrekturvorgänge. Falls ein langer Satz editiert wird, kann eine zu korrigierende Zeichenfolge leicht aufgefunden werden, ohne dass die gesamte Sprachmitteilung überprüft werden muss.Corresponding the method and apparatus for editing / creating synthetic Voice messages according to the third embodiment of the present invention the contents of a manipulation (editing) visually dependent be checked like characters undergoing a prosody feature control process are, are arranged - this allows more effective corrections. If a long sentence is edited, can be a string to be corrected easily found, without the entire voice message being checked got to.
Da das Editierungsverfahren einem Zeichendruckverfahren gemein ist (Common to), wird kein spezielles Druckverfahren benötigt. Daher ist das System zur Editierung synthetischer Sprache sehr einfach.There the editing method is common to a character printing method (Common to), no special printing process is needed. Therefore the system for editing synthetic speech is very simple.
Durch Ausstatten der Displayeinrichtung mit einer Funktion zur Annahme eines Zeigegeräts zum Ändern oder Modifizieren der Zeichenpositionsinformation oder ähnlichem, ist es möglich, den gleichen Effekt zu erzielen wie bei einem Editierungsvorgang, bei dem GUI verwendet wird.By Providing the display device with a function for acceptance of a pointing device to change or modifying the character position information or the like, Is it possible, to achieve the same effect as in an editing process, where the GUI is used.
Da darüber hinaus die vorliegende Erfindung eine Erleichterung beim Umwandeln konventioneller detaillierter Darstellungen prosodischer Parameter ermöglicht, ist es auch möglich, die Notwendigkeit einer genauen Steuerung zu erfüllen. Die vorliegende Erfindung ermöglicht einem gewöhnlichen Nutzer effektiv eine gewünschte Sprachmitteilung zu erzeugen.There about that In addition, the present invention provides ease of conversion conventional detailed representations of prosodic parameters allows it is also possible to meet the need for accurate control. The present invention allows a common one Users effectively a desired one To generate voice message.
Es ist offensichtlich, dass die vorliegende Erfindung nicht nur für die japanische Sprache verwendet werden kann, sondern auch für andere natürliche Sprachen, wie beispielsweise Deutsch, Französisch, Italienisch, Spanisch und Koreanisch.It It is obvious that the present invention is not limited to the Japanese Language can be used, but also for other natural languages, such as German, French, Italian, Spanish and Korean.
Es ist ersichtlich, dass viele Modifikationen und Variationen ausgeführt werden können, ohne dass diese den Rahmen der neuen Konzepte der vorliegenden Erfindung verlassen.It It can be seen that many modifications and variations are made can, without these being the scope of the new concepts of the present invention leave.
Claims (9)
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP13110997 | 1997-05-21 | ||
JP13110997 | 1997-05-21 | ||
JP24727097 | 1997-09-11 | ||
JP24727097 | 1997-09-11 | ||
JP30843697 | 1997-11-11 | ||
JP30843697 | 1997-11-11 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69821673D1 DE69821673D1 (en) | 2004-03-25 |
DE69821673T2 true DE69821673T2 (en) | 2005-01-05 |
Family
ID=27316250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69821673T Expired - Lifetime DE69821673T2 (en) | 1997-05-21 | 1998-05-19 | Method and apparatus for editing synthetic voice messages, and storage means with the method |
Country Status (4)
Country | Link |
---|---|
US (2) | US6226614B1 (en) |
EP (1) | EP0880127B1 (en) |
CA (1) | CA2238067C (en) |
DE (1) | DE69821673T2 (en) |
Families Citing this family (177)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446040B1 (en) * | 1998-06-17 | 2002-09-03 | Yahoo! Inc. | Intelligent text-to-speech synthesis |
DE19841683A1 (en) * | 1998-09-11 | 2000-05-11 | Hans Kull | Device and method for digital speech processing |
CN1168068C (en) * | 1999-03-25 | 2004-09-22 | 松下电器产业株式会社 | Speech synthesis system and speech synthesis method |
EP1045372A3 (en) * | 1999-04-16 | 2001-08-29 | Matsushita Electric Industrial Co., Ltd. | Speech sound communication system |
US7292980B1 (en) * | 1999-04-30 | 2007-11-06 | Lucent Technologies Inc. | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
JP3361291B2 (en) * | 1999-07-23 | 2003-01-07 | コナミ株式会社 | Speech synthesis method, speech synthesis device, and computer-readable medium recording speech synthesis program |
US6725190B1 (en) * | 1999-11-02 | 2004-04-20 | International Business Machines Corporation | Method and system for speech reconstruction from speech recognition features, pitch and voicing with resampled basis functions providing reconstruction of the spectral envelope |
JP3515039B2 (en) * | 2000-03-03 | 2004-04-05 | 沖電気工業株式会社 | Pitch pattern control method in text-to-speech converter |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP4054507B2 (en) * | 2000-03-31 | 2008-02-27 | キヤノン株式会社 | Voice information processing method and apparatus, and storage medium |
US6510413B1 (en) * | 2000-06-29 | 2003-01-21 | Intel Corporation | Distributed synthetic speech generation |
US6731307B1 (en) * | 2000-10-30 | 2004-05-04 | Koninklije Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality |
JP2002169581A (en) * | 2000-11-29 | 2002-06-14 | Matsushita Electric Ind Co Ltd | Method and device for voice synthesis |
JP2002282543A (en) * | 2000-12-28 | 2002-10-02 | Sony Computer Entertainment Inc | Object voice processing program, computer-readable recording medium with object voice processing program recorded thereon, program execution device, and object voice processing method |
US6876968B2 (en) * | 2001-03-08 | 2005-04-05 | Matsushita Electric Industrial Co., Ltd. | Run time synthesizer adaptation to improve intelligibility of synthesized speech |
JP2002268699A (en) * | 2001-03-09 | 2002-09-20 | Sony Corp | Device and method for voice synthesis, program, and recording medium |
US20030093280A1 (en) * | 2001-07-13 | 2003-05-15 | Pierre-Yves Oudeyer | Method and apparatus for synthesising an emotion conveyed on a sound |
IL144818A (en) * | 2001-08-09 | 2006-08-20 | Voicesense Ltd | Method and apparatus for speech analysis |
JP4056470B2 (en) * | 2001-08-22 | 2008-03-05 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Intonation generation method, speech synthesizer using the method, and voice server |
JP4150198B2 (en) * | 2002-03-15 | 2008-09-17 | ソニー株式会社 | Speech synthesis method, speech synthesis apparatus, program and recording medium, and robot apparatus |
JP2003295882A (en) * | 2002-04-02 | 2003-10-15 | Canon Inc | Text structure for speech synthesis, speech synthesizing method, speech synthesizer and computer program therefor |
GB2388286A (en) * | 2002-05-01 | 2003-11-05 | Seiko Epson Corp | Enhanced speech data for use in a text to speech system |
CN1259631C (en) * | 2002-07-25 | 2006-06-14 | 摩托罗拉公司 | Chinese test to voice joint synthesis system and method using rhythm control |
US20040054534A1 (en) * | 2002-09-13 | 2004-03-18 | Junqua Jean-Claude | Client-server voice customization |
JP2004226741A (en) * | 2003-01-23 | 2004-08-12 | Nissan Motor Co Ltd | Information providing device |
JP4225128B2 (en) * | 2003-06-13 | 2009-02-18 | ソニー株式会社 | Regular speech synthesis apparatus and regular speech synthesis method |
US20040260551A1 (en) * | 2003-06-19 | 2004-12-23 | International Business Machines Corporation | System and method for configuring voice readers using semantic analysis |
US20050096909A1 (en) * | 2003-10-29 | 2005-05-05 | Raimo Bakis | Systems and methods for expressive text-to-speech |
US8103505B1 (en) * | 2003-11-19 | 2012-01-24 | Apple Inc. | Method and apparatus for speech synthesis using paralinguistic variation |
US20050177369A1 (en) * | 2004-02-11 | 2005-08-11 | Kirill Stoimenov | Method and system for intuitive text-to-speech synthesis customization |
CN1954361B (en) * | 2004-05-11 | 2010-11-03 | 松下电器产业株式会社 | Speech synthesis device and method |
WO2005119650A1 (en) * | 2004-06-04 | 2005-12-15 | Matsushita Electric Industrial Co., Ltd. | Audio synthesis device |
US7472065B2 (en) * | 2004-06-04 | 2008-12-30 | International Business Machines Corporation | Generating paralinguistic phenomena via markup in text-to-speech synthesis |
DE102004050785A1 (en) * | 2004-10-14 | 2006-05-04 | Deutsche Telekom Ag | Method and arrangement for processing messages in the context of an integrated messaging system |
JP4743686B2 (en) * | 2005-01-19 | 2011-08-10 | 京セラ株式会社 | Portable terminal device, voice reading method thereof, and voice reading program |
CN1811912B (en) * | 2005-01-28 | 2011-06-15 | 北京捷通华声语音技术有限公司 | Minor sound base phonetic synthesis method |
US7809572B2 (en) * | 2005-07-20 | 2010-10-05 | Panasonic Corporation | Voice quality change portion locating apparatus |
WO2007028871A1 (en) * | 2005-09-07 | 2007-03-15 | France Telecom | Speech synthesis system having operator-modifiable prosodic parameters |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
TWI277947B (en) * | 2005-09-14 | 2007-04-01 | Delta Electronics Inc | Interactive speech correcting method |
US8600753B1 (en) * | 2005-12-30 | 2013-12-03 | At&T Intellectual Property Ii, L.P. | Method and apparatus for combining text to speech and recorded prompts |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP4878538B2 (en) * | 2006-10-24 | 2012-02-15 | 株式会社日立製作所 | Speech synthesizer |
US8438032B2 (en) | 2007-01-09 | 2013-05-07 | Nuance Communications, Inc. | System for tuning synthesized speech |
EP2106653B1 (en) | 2007-01-25 | 2014-04-09 | Eliza Corporation | Systems and techniques for producing spoken voice prompts |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8725513B2 (en) * | 2007-04-12 | 2014-05-13 | Nuance Communications, Inc. | Providing expressive user interaction with a multimodal application |
JP5230120B2 (en) * | 2007-05-07 | 2013-07-10 | 任天堂株式会社 | Information processing system, information processing program |
US7689421B2 (en) * | 2007-06-27 | 2010-03-30 | Microsoft Corporation | Voice persona service for embedding text-to-speech features into software programs |
KR101495410B1 (en) * | 2007-10-05 | 2015-02-25 | 닛본 덴끼 가부시끼가이샤 | Speech synthesis device, speech synthesis method, and computer-readable storage medium |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
ES2796493T3 (en) * | 2008-03-20 | 2020-11-27 | Fraunhofer Ges Forschung | Apparatus and method for converting an audio signal to a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8103511B2 (en) * | 2008-05-28 | 2012-01-24 | International Business Machines Corporation | Multiple audio file processing method and system |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
CN101727904B (en) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | Voice translation method and device |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
JP2010218098A (en) * | 2009-03-16 | 2010-09-30 | Ricoh Co Ltd | Apparatus, method for processing information, control program, and recording medium |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US8352270B2 (en) * | 2009-06-09 | 2013-01-08 | Microsoft Corporation | Interactive TTS optimization tool |
US8150695B1 (en) * | 2009-06-18 | 2012-04-03 | Amazon Technologies, Inc. | Presentation of written works based on character identities and attributes |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP5482042B2 (en) * | 2009-09-10 | 2014-04-23 | 富士通株式会社 | Synthetic speech text input device and program |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE112011100329T5 (en) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Apparatus, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8856007B1 (en) * | 2012-10-09 | 2014-10-07 | Google Inc. | Use text to speech techniques to improve understanding when announcing search results |
AU2014214676A1 (en) | 2013-02-07 | 2015-08-27 | Apple Inc. | Voice trigger for a digital assistant |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101922663B1 (en) | 2013-06-09 | 2018-11-28 | 애플 인크. | Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant |
KR101809808B1 (en) | 2013-06-13 | 2017-12-15 | 애플 인크. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (en) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatically activate intelligent responses based on activities from remote devices |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US9966065B2 (en) | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9542929B2 (en) | 2014-09-26 | 2017-01-10 | Intel Corporation | Systems and methods for providing non-lexical cues in synthesized speech |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
JP6483578B2 (en) | 2015-09-14 | 2019-03-13 | 株式会社東芝 | Speech synthesis apparatus, speech synthesis method and program |
EP3144929A1 (en) * | 2015-09-18 | 2017-03-22 | Deutsche Telekom AG | Synthetic generation of a naturally-sounding speech signal |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US12020686B2 (en) * | 2017-03-23 | 2024-06-25 | D&M Holdings Inc. | System providing expressive and emotive text-to-speech |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | Far-field extension for digital assistant services |
KR102622357B1 (en) * | 2018-07-13 | 2024-01-08 | 구글 엘엘씨 | End-to-end streaming keyword spotting |
CN111105780B (en) * | 2019-12-27 | 2023-03-31 | 出门问问信息科技有限公司 | Rhythm correction method, device and computer readable storage medium |
GB2596821A (en) | 2020-07-07 | 2022-01-12 | Validsoft Ltd | Computer-generated speech detection |
CN116665643B (en) * | 2022-11-30 | 2024-03-26 | 荣耀终端有限公司 | Rhythm marking method and device and terminal equipment |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2623586B2 (en) | 1987-07-31 | 1997-06-25 | 国際電信電話株式会社 | Pitch control method in speech synthesis |
US5559927A (en) | 1992-08-19 | 1996-09-24 | Clynes; Manfred | Computer system producing emotionally-expressive speech messages |
US5642466A (en) * | 1993-01-21 | 1997-06-24 | Apple Computer, Inc. | Intonation adjustment in text-to-speech systems |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5860064A (en) * | 1993-05-13 | 1999-01-12 | Apple Computer, Inc. | Method and apparatus for automatic generation of vocal emotion in a synthetic text-to-speech system |
EP0762384A2 (en) | 1995-09-01 | 1997-03-12 | AT&T IPM Corp. | Method and apparatus for modifying voice characteristics of synthesized speech |
-
1998
- 1998-05-18 US US09/080,268 patent/US6226614B1/en not_active Expired - Lifetime
- 1998-05-19 DE DE69821673T patent/DE69821673T2/en not_active Expired - Lifetime
- 1998-05-19 EP EP98109109A patent/EP0880127B1/en not_active Expired - Lifetime
- 1998-05-20 CA CA002238067A patent/CA2238067C/en not_active Expired - Fee Related
-
2000
- 2000-08-29 US US09/650,761 patent/US6334106B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US6226614B1 (en) | 2001-05-01 |
EP0880127A3 (en) | 1999-07-07 |
US6334106B1 (en) | 2001-12-25 |
CA2238067C (en) | 2005-09-20 |
EP0880127B1 (en) | 2004-02-18 |
DE69821673D1 (en) | 2004-03-25 |
EP0880127A2 (en) | 1998-11-25 |
CA2238067A1 (en) | 1998-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69821673T2 (en) | Method and apparatus for editing synthetic voice messages, and storage means with the method | |
DE69519328T2 (en) | Method and arrangement for converting speech to text | |
DE60216069T2 (en) | LANGUAGE-TO-LANGUAGE GENERATION SYSTEM AND METHOD | |
EP0886853B1 (en) | Microsegment-based speech-synthesis process | |
DE3856146T2 (en) | Speech synthesis | |
DE60035001T2 (en) | Speech synthesis with prosody patterns | |
DE60201262T2 (en) | HIERARCHICAL LANGUAGE MODELS | |
DE69506037T2 (en) | Audio output device and method | |
DE60118874T2 (en) | Prosody pattern comparison for text-to-speech systems | |
DE69028072T2 (en) | Method and device for speech synthesis | |
DE69620399T2 (en) | VOICE SYNTHESIS | |
DE69917415T2 (en) | Speech synthesis with prosody patterns | |
Jilka | The contribution of intonation to the perception of foreign accent | |
DE60020434T2 (en) | Generation and synthesis of prosody patterns | |
DE2212472A1 (en) | Procedure and arrangement for the speech synthesis of printed message texts | |
DE69413052T2 (en) | LANGUAGE SYNTHESIS | |
DE69521244T2 (en) | Text-to-speech conversion system | |
DE69617581T2 (en) | System and method for determining the course of the fundamental frequency | |
DE69719270T2 (en) | Speech synthesis using auxiliary information | |
DE69909716T2 (en) | Formant speech synthesizer using concatenation of half-syllables with independent cross-fading in the filter coefficient and source range | |
DE60004420T2 (en) | Recognition of areas of overlapping elements for a concatenative speech synthesis system | |
DE69710525T2 (en) | Method and device for speech synthesis | |
JP3616250B2 (en) | Synthetic voice message creation method, apparatus and recording medium recording the method | |
DE60305645T2 (en) | System and method for text-to-speech implementation with a function to provide additional information | |
EP1105867B1 (en) | Method and device for the concatenation of audiosegments, taking into account coarticulation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition |