[go: up one dir, main page]

DE68922016T2 - Einrichtung zur Sprachverarbeitung. - Google Patents

Einrichtung zur Sprachverarbeitung.

Info

Publication number
DE68922016T2
DE68922016T2 DE68922016T DE68922016T DE68922016T2 DE 68922016 T2 DE68922016 T2 DE 68922016T2 DE 68922016 T DE68922016 T DE 68922016T DE 68922016 T DE68922016 T DE 68922016T DE 68922016 T2 DE68922016 T2 DE 68922016T2
Authority
DE
Germany
Prior art keywords
speech
processing
frequency
input
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE68922016T
Other languages
English (en)
Other versions
DE68922016D1 (de
Inventor
Koichi Miyamae
Satoshi Omata
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Application granted granted Critical
Publication of DE68922016D1 publication Critical patent/DE68922016D1/de
Publication of DE68922016T2 publication Critical patent/DE68922016T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Devices For Executing Special Programs (AREA)
  • Massaging Devices (AREA)
  • Interconnected Communication Systems, Intercoms, And Interphones (AREA)

Description

    ALLGEMEINER STAND DER TECHNIK 1. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Einrichtung zur Sprachverarbeitung, und insbesondere auf eine Einrichtung zur Sprachverarbeitung, die in der Lage ist, zwischen wichtigen Informationen und unwichtigen Informationen unter einer großen Sprachinformationsmenge zu unterscheiden, wobei wichtige Informationen herausgelesenen und verarbeitet werden.
  • Beispielsweise betrifft die vorliegende Erfindung eine Einrichtung, die bei einer großen Sprach- Datenmenge, die von einer Vielzahl von Sprechern stammt, in der Lage ist, von einem einzelnen Sprecher den Gegenstand der Sprachinformation als Eingabeinformation herauszulesen und diese Sprache hinsichtlich ihrer Vokale, Konsonanten, Betonungen usw. zu verarbeiten.
  • 2. Beschreibung des Standes der Technik
  • Es gibt neueerdings einen Bedarf in einem weiten Bereich industrieller Technik nach Informationsverarbeitungssystemen, die signifikante Daten isolieren können, die in einer großen Datenmenge enthalten sind, wie eine Sprachinformation aus einer Vielzahl von Sprechern und die Sprache von einem einzelnen Sprecher. Jede der herkömmlichen Sprachverarbeitungssysteme dieser Art, die praktische Anwendung gefunden haben, verwenden eine Spracheingabeeinheit 300, eine Verarbeitungseinheit 305 und eine Ausgabeeinheit 304, wie in Fig. 9 dargestellt. Die Spracheingabeeinheit 300 enthält beispielsweise ein Mikrofon oder dgl. und dient für die sich durch die Luft ausbreitenden Schallwellen zur Umsetzung in elektrische Signale, die als Hörsignale eingegeben werden. Die Verarbeitungseinheit 305 enthält einen Merkmals- Ausleseabschnitt 301 zum Isolieren der eingegebenen Merkmale der Hörsignale, einen Standardmuster- Speicherabschnitt 303, in den die charakteristischen Muster der Standardsprache kurz davor gespeichert werden, und einen Wiedererkennungs- Entscheidungsabschnitt 302, der die Sprache durch Mischen und Trennen der von dem Ausleseabschnitt 301 isolierten Merkmale und der in dem Speicherabschnitt gespeicherten Standardmuster wiedererkennt.
  • In letzter Zeit werden häufig Digitalcomputersysteme als Verarbeitungseinheit 305 verwendet, die ein Verfahren anwenden, bei dem verschiedene Arten von Merkmalen auf arithmetischem Wege aus all den eingegebenen Sprachdaten isoliert werden und bei dem die beabsichtigte Sprache durch Suchen gemeinsamer Merkmale der Hörsignale aus den verschiedenen Arten isolierter Merkmale eingeteilt wird. Beispiele derartiger Algorithmen sind bekannt aus IEEE TRANSACTIONS ON ACOUSTICS, SPEECH AND SIGNALPROCESSING, Band ASSP- 23, Nr. 2, Apr. 1975, S. 176- 182, IEEE, New York, USA; M. R. SAMBUR: "Selection of acoustic features for speaker identification" oder aus THE JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA, Band 60, Nr. 4, Okt. 1976, S 911- 918, New York, USA; T. W. PARSONS: "Seperation of speech from interfering speech by means of harmonic selection".
  • Die Sprachverarbeitung wird bewerkstelligt, indem das Gesamtmerkmal, das durch Kombinieren der oben beschriebenen Vielzahl von isolierten Merkmalen (Teilmerkmalen) mit dem als Gegenstand der Wiedererkennung in dem Speicherabschnitt 303 gespeicherten Gesamtmerkmal gemischt und gleichzeitig getrennt wird.
  • Die oben beschriebene Verarbeitung wird grundsdätzlich bei alle lokalen Daten der eingegebenen Hörsignale ausgeführt. Um dem Erfordernis nach Hochgeschwindigkeitsverarbeitung komplizierter und gehäufter Sprachdaten gerecht zu werden, die im industriellen Bereich hoch priorisiert ist, wird die Verarbeitung derartig komplizierter und gehäufter Sprachdaten generell durch Ausdenken eines Algorithmus für das Betriebsverfahren, das Suchverfahren und dgl. in jeden der Abschnitte oder durch Spezialisierung, d. h., Festlegung der zu behandelnden Informationsbereiche unter der Annahme, daß die oben beschriebene Anordnung oder das Verfahren verwendet wird. Beispielsweise fußt die Verarbeitung in dem Merkmals- Ausleseabschnitt 301 auf der digitalen Filterverarbeitung, die insbesondere eine umfangreiche Hardware oder Signalverarbeitungs- Software zur Voraussetzung hat.
  • In Hinsicht auf die Sprachverarbeitung sind insbesondere die Verarbeitung bei der herkömmlichen Sprecher-Wiedererkennung zur Wiedererkennung der Sprache eines bestimmten Sprechers durch Isolierung aus der eingegebenen Sprache von einer Vielzahl von Sprechern, stehen sich die Hochgeschwindigkeitsverarbeitung und die Reduzierung der Größe der Verarbeitungseinrichtung folglich kontrair gegenüber.
  • Aufgabe der vorliegenden Erfindung ist es, eine Sprachverarbeitungseinrichtung zu schaffen, die in der Lage ist, mit hoher Geschwindigkeit die Sprache wenigstens eines einzelnen individuellen Sprechers aus den die Sprache einer Vielzahl von Sprechern umfassenden Hörsignalen zu isolieren.
  • Gemäß diesem einen Aspekt der vorliegenden Erfindung ist eine Sprachverarbeitungseinrichtung vorgesehen, wie sie im Patentanspruch 1 angegeben ist.
  • Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, eine Sprachverarbeitungseinrichtung zu schaffen, die in der Lage ist, mit hoher Geschwindikgeit beteiligte Sprecher in einer Unterhaltung aus den die Vielzahl von Sprechern umfassenden Hörsignalen zu erkennen.
  • Zu dem zweiten Aspekt der vorliegenden Erfindung ist eine Sprachverarbeitungseinrichtung vorgesehen, die in Patentanspruch 9 angegeben ist.
  • Es ist ein weiteres Anliegen der vorliegenden Erfindung, ein Sprachverarbeitungssystem zu schaffen, das in der Lage ist, eine Sprachinformations- Gesamtverarbeitung für einen individuellen Sprecher mit hoher Geschwindigkeit auszuführen, indem mit hoher Geschwindigkeit die Sprache wenigstens eines individuellen Sprechers aus den die Sprache eine Vielzahl von Sprechern umfassenden Hörsignalen isoliert wird, und das in der Lage ist, eine Informationsverarbeitung, wie Spracherkennungs- Verarbeitung usw., d. h., Worterkennung usw. der isolierten Hörsignale durchzuführen.
  • Nach dem dritten Aspekt der vorliegenden Erfindung ist ein Sprachverarbeitungssystem vorgesehen, wie es in Patentanspruch 13 angegeben ist.
  • Nach einem vierten Aspekt der vorliegenden Erfindung ist eine Sprachverarbeitungseinrichtung vorgesehen, die in Patentanspruch 16 angegeben ist.
  • Gemäß einer bevorzugten Form der vorliegenden Erfindung enthält jedes einzelne Prozessorelement zwei nicht-lineare Oszillartorschaltungen.
  • Gemäß einer bevorzugten Form der vorliegenden Erfindung ist die Sprechererkennung so eingerichtet, daß eine Versetzung des betreffenden Prozessorelementes bei der durchschnittlichen Tonlagenfrequenz jeines individuellen Sprechers stattfindet.
  • BESCHREIBUNG DER ZEICHNUNG
  • Fig. 1 ist ein Blockschaltbild des grundlegenden Aufbaus einer Sprachverarbeitungseinrichting gemäß der vorliegenden Erfindung;
  • Fig. 2 ist eine Zeichnung der nicht-linearen Oszillatorschaltungen des Van-der-Pol-Typs einer jeden Prozessorart;
  • Fig. 3 ist eine erläuternde Ansicht der Verdrahtung für den Fall, das jedes Prozessorelement zwei Van-der-Pol-Schaltungen enthält;
  • Fig. 4 ist eine detaillierte erläuternde Ansicht der Konfiguration einer Verarbeitungseinheit;
  • Fig. 5 ist eine erläuternde Ansicht der Verbindung zwischen einem Speicherblock, einem Steuerungsabwandler und einem Informationserzeugungsblock;
  • Fig. 6 ist eine erläuternde Ansicht der Verbindung zwischen einer Hauptinformations-Verarbeitungseinheit, einem Abwandler, einem Informationserzeugungsblock und einem Speicherblock;
  • Fig. 7 ist eine erläuternde Ansicht der Konfiguration einer Hauptinformations-Verarbeitungseinheit;
  • Fig. 8 ist eine erläuternde Ansicht eines weiteren Beispiels der Verarbeitungseinheit und
  • Fig. 9 ist eine erläuternde Ansicht der Konfiguration eines Beispiels einer herkömmlichen Sprachverarbeitungseinrichtung.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSBEISPIELE
  • Ein Ausführungsbeispiel eines Sprachverarbeitungssystems, auf das die vorliegende Erfindung Anwendung findet, ist nachstehend anhand der Figuren 1 bis 8 beschrieben.
  • Fig. 1 ist ein Blockschaltbild eines Systems der Sprachverarbeitungseinrichtung, das zu diesem Ausführungsbeispiel gehört. In der Zeichnung bedeutet Bezugszeichen 1 eine Eingabeeinheit mit einem Sensor zur Informationseingabe und Bezugszeichen 2 eine Verarbeitungseinheit, die einen signifikanten Abschnitt in der Eingabeinformation isoliert, d. h., die Sprache eines individuellen zu bearbeitenden Sprechers. Die Vorverarbeitungseinheit 2 enthält einen Sprachumsetzblock 4, eine Informationserzeugungseinheit 5 und eine Speichereinheit 6. Bezugszeichen 3 bedeutet eine Hauptinformations- Verarbeitungseinheit mit einem Digitalcomputersystem.
  • Es wird nun eine Beschreibung eines jeden der in Fig. 1 dargestellten bauteilbildenden Elemente gegeben. Die Eingabeeinheit 1 enthält ein Mikrofon zur Sprachaufnahme und zur Ausgabe elektrischer Signale 401. Die Hauptverarbeitungseinheit 3 enthält ein digitales Computersystem.
  • Die Informationserzeugungseinheit 5 enthält einen Informationserzeugungsblock 305, einen Übermittler 307, der die von dem Informationserzeugungsblock 305 erzeugte Information an die Hauptinformations-Verarbeitungseinheit 3 übermittelt, und einen Verarbeitungsabwandler 303, der die "Verarbeitungsregelung" in dem Informationserzeugungsblock 305 ändert, wenn ein von der Speichereinheit 6 ausgegebenes Signal empfangen wird.
  • Die Speichereinheit 6 enthält einen Speicherblock 306, einen Übermittler 308, der den von der Speichereinheit 306 "wiederaufgerufenen Speicher" in binärer Form an die Hauptinformations-Verarbeitungseinheit 3 übermittelt, und einen Speicherungsabwandler, der die "Speicherinhalte" in dem Speicherblock 306 auf der Grundlage von Befehlen aus der Hauptinformations- Verarbeitungseinheit 3 abwandelt. Der Sprachumsetzblock 4 dient der Umsetzung der in diesen eingegebenen Hörsingale 401 in Signale 411, die eine geeignete Form zur Verarbeitung in dem Informationserzeugungsblock 305 aufweisen.
  • Die von diesem System verwirklichten Funktionen dieses Ausführungsbeispiels sind die folgenden:
  • (1) : Zuerst wird festgestellt, daß die eingegebenen Hörsignale 401 die Hörsignale eines individuellen Sprechers enthalten. Die Erkennung wird in der Vorverarbeitungseinheit 2 geleitet (insbesondere in dem Speicherblock 306, dem Verarbeitungsreglungsabwandler 303 und in dem Speicherinhaltsabwandler 309), wie nachstehend detailliert beschrieben werden wird.
  • (2): Nur ein signifikantes Signal wird aus den eingegebenen Hörsignalen 401 auf der Grundlage der Wiedererkennung des Punktes (1) isoliert, d. h., die Sprache des individuellen Sprechers wird isoliert. Der Isoliervorgang wird auch in der Vorverarbeitungseinheit 2 geleitet (insbesondere in dem Informationserzeugungsblock 305), um isolierte Signale 412 zu erzeugen.
  • (3): Die Gesamtinformation, die durch Isolieren der Hörsignale 412 lediglich von dem individuellen Sprecher aus den eingegebenen Hörsignalen 401 bei der Isolierung des Punktes (2) reduziert sind, werden zu der Hauptinformations- Verarbeitungseinheit durch den Übermittler 307 übertragen. In der Hauptinformations-Verarbeitungseinheit 3 wird die Verarbeitung der Sprache eines individuellen Sprechers, d. h. die Verarbeitung, bei der die Wörter in den Hörsignalen erkannt werden, oder Sprecherfeststellungsverarbeitung, bei der verifiziert wird, daß die von der Verarbeitungseinheit 2 isolierten Sprechersignale die Hörsignale des beabsichtigten Sprechers sind, wird mit üblichen, bekannten Computerverarbeitungsverfahren durchgeführt.
  • (4): Der Sprecher, dessen Sprache isoliert wird, kann durch Befehle des Speicherinhaltabwandlers 309 aus der Hauptinfomations- Verarbeitungseinheit 3 spezifiziert werden.
  • In Übereinstimmung mit der Kenntnis, die aus den neuesten Techniken in Hinsicht auf die Sprachinformationsverarbeitung gewonnen wurde, kann die Erkennung eines individuellen Sprechers auf der Grundlage von Unterschieden in physikalischen Eigenarten des Sprachtraktes einschließlich der Länge des Stimmweges, der Frequenz der Schwingungen der Stimmbänder und die Kurvenform deren Schwingungen erfolgen. Derartige Eigenschaften werden physikalisch als Frequenzpegel des Formanten, der Bandbreite, der Durchschnittstonlagenfrequenz, der Steigung und dem Kurvenverlauf in Ausdrücken spektraler Auslegungen usw. beobachtet.
  • In dem in Fig. 1 dargestellten System wird die Sprechererkennung durch Feststellung der durchschnittlichen Tonlagenfrequenz bestimmt, die dem betreffenden Sprecher in den Hörsignalen 401 eigen ist. Diese durchschnittliche Tonlagenfrequenz wird in einer solchen Weise festgestellt, daß die gespeicherten Tonlagenfrequenzen aus der Speichereinheit 6 der Verarbeitungseinheit 2 aufgerufen werden. Da jedwede menschliche Sprache durch Überlagerung von Signalen ausgedrückt werden kann, deren Frequenzen das ganzzahlige Vielfache der Tonlagenfrequenzen aufweisen, ist das isolierte Signal ein dem individuellen Sprecher eigenes Hörsignal, wenn ein Signal mit einer Frequenz eines ganzzahligen Vielfachs der durchschnittlichen, aus den gespeicherten, von dem Informationserzeugungsblock 305 isolierten Hörsignalen isolierten Tonlagenfrequenz, festgestellt wird.
  • Nicht-lineare Oszillatorschaltung
  • Die Vorverarbeitungseinheit 2 dient der Zentraleinheit des Systems in diesem Ausführungsbeispiel. Entweder enthält der Informationserzeugungsblock 305 oder der Speicherblock 306, der als zentraler Teil dient, eine Vielzahl nicht-linearer Oszillatorschaltungen oder dgl..
  • Nach Auffassung der Erfinder können die Inhalte der Informationen in der Phase oder in der Frequenz eines nicht- linearen Oszillators codiert werden, und der Umfang von Informationen kann unter Verwendung der Amplitude deren Schwingung dargestellt werden. Darüber hinaus kann die Phase, Frequenz und die Amplitude der Schwingung verändert werden, indem Interferenz zwischen einer Vielzahl von Schwingungen hervorgerufen wird. Das Hervorgerufen einer derartigen Interferenz entspricht der herkömmlichen Informationsverarbeitung. Das Zusammenwirken einer Vielzahl nicht-linearer Schwingungen, die miteinander verbunden sind, verursachen Abweichungen von der individuellen, eigenen Frequenzen und auf diese Weise wechselseitige Erregungen, d. h. "Versetzungen". Mit anderen Worten, zwei Typen von Informationsverarbeitung, d. h., das Wiederaufrufen ausgeführter Speicherung in dem Speicherblock 306 und in dem Informationserzeugungsblock 305 ausgeführtes Isolieren der Hörsignale eines individuellen Sprechers wird in der Vorverarbeitungseinheit 2 durchgeführt. Diese beiden Typen von Informationsverarbeitung in der Vorverarbeitungseinheit 2 werden unter Verwendung stattgefundener Versetzung ausgeführt, die der wechselseitigen Interferenz zwischen nicht-linearen Oszillatorschaltungen eigen ist.
  • Die Versetzung ist ein Phänomen, das der Resonanz ähnlich ist und bei der alle Oszillatorschaltungen Schwingungen mit gleicher Frequenz, Amplitude und Phase erzeugen, die zu der Interferenz zwischen diesen gehören, selbst wenn die eigenen Frequenzen der Oszillatorschaltungen einander nicht gleich sind. Solche Versetzung findet durch Interferenzen zwischen den nicht- linearen Oszillatoren statt, die miteinander gekoppelt sind, und ist detailliert erläutert in "Entrainment of two Coupled Van- der-Pol Oszillators by an External Oscillation" (Bio. Cybern. 51, 325-333 (1985)).
  • Es ist allgemein bekannt, daß eine derartige nicht-lineare Oszillatorschaltung durch Zusammenfügen einer Van-der-Polschen Oszillatorschaltung unter Verwendung von Widerstand, Kondensator, Induktionsspule und negativen Widerstandselementen, wie einer Esakidiode, aufgebaut sind. Dieses Ausführungsbeispiel verwendet einheitlich als nicht-lineare Oszillatorschaltung eine derartige Van-der-Polsche Oszillatorschaltung, wie sie in Fig. 2 dargestellt ist.
  • In Fig. 2 bedeuten die Bezugszeichen 11a, 12a, 13, 14, 15a, 16 bzw. 17 einen Operationsverstärker, bei dem die Vorzeichen + bzw.- die Polaritäten der Ausgangs- und Eingangssignale bedeuten. Die Widerstände 11b, 12b und die Kondensatoren 11c, 12c, die in der Zeichnung dargestellt sind, werden bei den Operationsverstärkern 11a bzw. 12a eingesetzt, um Integratoren 11, 12 zu bilden. Ein Widerstand 15b und ein Kondensator 15c werden in dem Operationsverstärker 15a benutzt, um ein Differenzierglied 15 zu bilden. Die Widerstände, die in der Zeichnung dargestellt sind, werden für die betreffenden anderen Operationsverstärker 13, 14, 16, 17 eingesetzt, um Addierer zu bilden. Die Van-der-Polsche Schaltung in diesem Ausführungsbeispiel ist auch mit Multiplizierern 18, 19 ausgestattet. Darüber hinaus werden Spannungen an die jeweiligen Eingänge der Operationsverstärker 13, 14, 17 angelegt, die als Addierer durch variable Widerstände 20 bis 22 dienen, wobei die variablen Widerstände 20, 21 miteinander fest gekuppelt sind.
  • Die Schwingung dieser Van-der-Pol-Oszillatorschaltung wird durch einen Eingangsanschluß I in der Weise gesteuert, daß die Amplitude der Schwingung durch Anlegen einer geeigneten positiven Spannung an den Anschluß I ansteigt, und wird durch Anlegen einer negativen Spannung abgesenkt. Eine Verstärkungsregelung 23 kann unter Verwendung des an einen Eingangsanschluß F eingegebenes Signal gesteuert werden, so daß die Grundfrequenz der Schwingung der Van-der-Pol- Oszillatorschaltung verändert werden kann. In der in Fig. 2 dargestellten Oszillatorschaltung wird die Grundschwingung derselben durch eine Rückkopplungsschaltung erzeugt, die die Operationsverstärker 11, 12, 13 und andere Teile enthält, beispielsweise das Multiplizierglied 18, mit dem die Schwingung mit nicht- linearer Schwingkennlinie erzeugt wird.
  • Wie schon beschrieben, wird die Versetzung unter Anwendung der Interferenzkopplung mit einer anderen Van-der-Pol- Oszillatorschaltung erzeugt. Wenn die in Fig. 2 dargestellte Van-der-Pol-Oszillatorschaltung mit einer anderen Van-der- Pol-Oszillatorschaltung mit gleichem Aufbau gekoppelt wird, wird das von der anderen Van-der-Pol-Oszillatorschaltung eingegebene Signal in Form einer Schwingungswelle sowohl an jeden der in Fig. 2 dargestellten Anschlüsse A, B angelegt, als auch die Schwingungswelle, die von einem jeden der Anschlüsse P, Q abgegeben werden, dargestellt in der Zeichnung (vgl. Fig. 3). Wenn kein Eingangssignal vorliegt, weichen die Phasen der Ausgangssignale P, Q um 90º voneinander ab, und wenn Interferenzeingangssignale von der anderen Oszillatorschaltung eingegeben werden, wird diese Phasendifferenz zwischen den Ausgangssignalen P, Q entsprechend der Beziehung zwischen dem Eingangssignal und dessen Schwingungswelle geändert, wie auch die Frequenz und die Amplitude.
  • In diesem Ausführungsbeispiel wird ein Verarbeitungselement benutzt, das jeweils von dem Speicherblock 306 und dem Informationserzeugungsblock 305 als ein Element mit zwei nicht- linearen, in Fig. 2 dargestellten Van-der-Pol- Oszillatorschaltungen (621, 622) gebildet wird, die untereinander verbunden sind, wie in Fig. 3 dargestellt. In Fig. 3 hat eines der Verarbeitungselemente Eingangsanschlüsse 610, 611, einen Ausgangsanschluß 616 und Anschlüsse 601, 602 zur jeweiligen Einstellung der natürlichen Frequenzen der nicht- linearen Oszillatorschaltungen 621, 622. Das Verarbeitungselement hat sechs variable Widerstände 630 bis 635.
  • Es wird nun eine Beschreibung des Phänomens der Versetzung eines jeden Verarbeitungselements gegeben, das die in Fig. 3 dargestellte Anordnung aufweist, Es wird angenommen, daß jede der beiden gekoppelten nicht-linearen Oszillatorschaltungen 621, 622 schon in einem gewissen versetzten Zustand ist, der durch Einstellen der Widerstände 632, 633 und 634 auf geeignete Werte erreicht werden kann. Um das Wechseln des Elements in den anderen Versetzungszustand abhängig von dem Eingangssignal an den Anschlüssen 610, 611 zu ermöglichen, werden die Werte der Widerstände 630, 631 passend eingestellt. Wenn der Signaleingang zu den Anschlüssen 610, 611 eine einzelne Schwingungskomponente aufweist, wird das Verarbeitungselement in Schwingung versetzt, mit der gleichen Frequenz wie das Signal aus der Schwingung in dem Zustand, bei dem das Verarbeitungselement versetzt ist, wenn die Komponente innerhalb eines Frequenzbereichs liegt, in dem eine erneute Versetzung stattfindet. Dieses stellt eine Form des Versetzungsphänomens dar. Wenn ein Eingangssignal eine Vielzahl von Schwingungskomponenten aufweist, hat das Verarbeitungselement die Tendenz, in die Schwingung mit der nächsten Frequenz zu der Frequenzkomponente in dem versetzten Zustand unter den Schwingungskomponenten versetzt zu werden.
  • Ob das Verarbeitungselement nun aktiviert wird oder nicht, wird unter Verwendung eines vorgegebenen Eingangssignals durch Anschlüsse 605a und 605b von außen gesteuert (Abwandler 309, dargestellt in Fig. 1). Mit anderen Worten, eine negative Spannung kann dem Anschluß I aus der oben beschriebenen externen Schaltung zum Zwecke der Inaktivierung des Verarbeitungselements zugeführt werden, unabhängig von den an den Anschlüssen 610, 611 eingegebenen Signalen.
  • Das dem Anschluß F eingegebene Signal der Van-der-Pol- schaltung wird zur Bestimmung der Grundfrequenz der Van-der- Pol-Schaltung verwendet, wie schon beschrieben. Wenn in Fig. 3 das Signal ωA dem Anschluß 601 der Van-der-Pol-Schaltung eingegeben wird, arbeitet dies zur Einstellung der Frequenz der Oszillatorschaltung 621 auf ωA, wobei das Signal ωB, das dem Anschluß 602 der Van-der-Pol-Schaltung 622 eingegeben wird, auch zur Einstellung der Frequenz ωB der Oszillatorschaltung 622 auf ωB dient. Folglich arbeitet das Verarbeitungselement als ein Bandpaßfilter und hat eine Mittenfrequenz, die durch folgende Gleichung (1) ausgedrückt werden kann: und eine Bandbreite Δ kann durch folgende Gleichung (2) ausgedrückt werden, wenn ωA > ωB:
  • Δ =(ωA - ωB) ...(2)
  • d. h., zwischen dem Verarbeitungselement eingegebenen Signalen genügt nur die Komponente der oben beschriebenen Gleichungen (1) und (2) die von dem Verarbeitungselement ausgegeben werden. Wenn insbesondere die an den Anschlussen 610, 612 eingegeben Frequenzen der Signale gleich ω&sub1;, ω&sub2;, ω&sub3; sind, wobei nur ω&sub1; innerhalb der oben beschriebenen Bandbreite A liegt, ergibt sich nach der Versetzung die Frequenz ω&sub1; des Verarbeitungselemlents.
  • Vorverarbeitungseinheit
  • Da die Vorverarbeitungseinheit 2 als zentrale Einheit des Systems in diesem Ausführungsbeispiel arbeitet, werden der Aufbau und die Arbeitsweise dieses Abschnitts nachstehend detailliert anhand Fig. 4 beschrieben.
  • In Fig. 4 wird die Sprachinformation aus dem Mirkofon 1 als elektrisches Signal 401 in den Sprachumsetzblock 4 eingegeben, der als ein Sprachumsetzer für die Vorverarbeitungseinheit 2 dient. Die in dem Block 4 umgesetzten Hörsignale 402 werden zum Speicherblock 306 und zum Informationserzeugungsblock 305 gesandt. Ein Verarbeitungselement entweder des Informationserzeugungsblocks 305 oder des Speicherblocks 306 enthält die Van-der-Polsche Oszillatorschaltung. Der Sprachumsetzblock 4 arbeitet zur Umsetzung der Signale 402 in Signale, die eine geeignete Form aufweisen, um jeweils in die Van-der-Polsche Oszillatorschaltung eingegeben werden zu können (beispielsweise wird der Spannungspegel abgewandelt).
  • Der Speicherblock 306 hat derartige Verarbeitungselemente, wie sie in Fig. 3 dargestellt sind, in einer Anzahl, die der Anzahl der zu erkennenden Sprecher gleich ist. Die Erkennung der Sprache von r Sprechern erfordert r Verarbeitungselemente 403, bei denen Mittenfrequenzen ωM1, ωM2, ... ωMR und Bandbreiten ΔM1, ΔM2, ... ΔMr jeweils einzustellen sind. Die Mittenfrequenzen ωM1, ωM2, ... ωMr werden im wesentlichen die gleichen sein, wie die Tonlagenfrequenzen der r Sprecher. In einem Verarbeitungselement 403a zur Feststellung eines Sprechers Nr. 1 wird beispielsweise ein vorgegebenes Signal an jeden der beiden Anschlüsse F, dargestellt in Fig. 3, eingegeben, so daß die Mittenfrequenz ωM1 und die Bandbreite AM1 jeweils den oben erläuterten Gleichungen (1) und (2) genügen. Diese Einstellung wird nachstehend anhand Fig. 6 beschrieben.
  • Die Hörsignale 402 aus jedem Sprachumsetzblock 4 werden den Anschlüssen 610, 611 und jedem Verarbeitungselement des Speicherblocks 306 eingegeben.
  • Der Informationserzeugungsblock 305 besitzt andererseits eine Vielzahl derartiger Verarbeitungselemente 402, wie sie in Fig. 3 dargestellt sind. In dem in Fig. 4 dargestellten Beispiel sind q Verarbeitungselemente 402 in der Einheit 305 vorgesehen. Die Anzahl der Verarbeitungselemente, die in dem Informationserzeugungsblock 305 erforderlich sind, müssen abhängig vom Grad der Auflösung bestimmt werden, mit dem die Sprache eines individuellen Sprechers wünschenswert isoliert werden soll. Jedes einzelne der Verarbeitungselemente 402 des Informationserzeugungsblockes 305 arbeitet auch als Bandpaßfilter in gleicher Weise wie die Verarbeitungselemente 403 des Speicherblockes 306. Wenn die Verarbeitungselemente 4 der Reihe nach vom obigen Element an nummeriert werden, und die Nummern der Elemente bezeichnet werden mit k, wird die Übertragungsfrequenz ωk bestimmt, bei der das Verarbeitungselement k als Bandpaßfilter arbeitet, um so die Beziehung (3), die oben beschrieben ist, auf die Grund- Tonlagenfrequenz ωp des in dem Speicherblock 306 erkannten Sprechers festgelegt.
  • ωk = k ωp ...(3)
  • Mit anderen Worten, die q Verarbeitungselemente 402 a bis 402 q, deren Mittenfrequenzen ωG1, ωG2, ... ωGq und die Bandbreiten ΔG1, ΔG2, ... ΔGq werden jeweils so eingestellt, daß sie den Gleichungen (1) und (2) genügen. Dieses Einstellen der Verarbeitungselemente 402 wird nachstehend detailliert anhand Fig. 5 beschrieben.
  • Jeder der Speicherblöcke 306 und der Informationserzeugungsblock 305 weisen die oben beschriebene Anordnung auf.
  • Wie zuvor beschrieben, sind die Verarbeitungselemente 402 des Informationserzeugungsblockes 305 und die Verarbeitungselemente 403 des Speicherblockes 306 jeweils Bandpaßfilter, die Mittenfrequenzen haben, die jeweils auf ωM1, ωM2, ... ωMr bzw. ωG1, ωG2, ... ωGq eingestellt sind. Jedes dieser Verarbeitungselemente funktioniert jedoch nicht einfach als Ersatz für ein herkömmliches Bandpaßfilter, sondern verwendet in effektiver Weise die Eigenschaften als Verarbeitungselement mit nicht-linearen Oszillatorschaltungen. Diese Eigenschaften vereinfachen die Abwandlungen der Mittenfrequenzen, die durch die Gleichung (1) ausgedrückt sind und die Bandbreiten, die durch die Gleichung (2) ausgedrückt sind, sowohl mit hoher Pegelempfindlichkeit für Frequenzen und Empfindlichkeit, verglichen mit dem herkömmlichen Bandpaßfiltern.
  • In dem Speicherblock 306 wird das Vermischen und Trennen der Hörsignale 402 mit den Tonlagenfrequenzen, die zuvor von einer Vielzahl von Sprechern gespeichert wurden, gleichzeitig für jeden Sprecher ausgeführt, um eine Ordnung der Sprecher zu schaffen, die an dieser Unterhaltung beteiligt sind. Das heißt, das Arrengement der an der Unterhaltung teilnehmenden Teilnehmer kann durch von den Sprechern abgegebene Sprache mit den Tonlagenfrequenzen festgestellt werden, die bei der Unterhaltung durch die Hörsignale 411 ausgedrückt werden. Die Speicherung der Tonlagenfrequenzen in den Verarbeitungselementen 403a bis 403r des Speicherblocks 306 werden durch Interferenzschwingen der Prozessorelemente mit der Grundfrequenz verwirklicht, die von den Signalen ωA, ωB über den Eingang f eingegeben werden, wie schon anhand Fig. 3 beschrieben. Mit anderen Worten, die Tonlagenfrequenzen der Sprecher sind jeweils in Form ihrer Grundfrequenzen der Prozessorelemente gespeichert. Wenn die Hörsignale 411 die Sprachsignale der Sprecher enthalten, die die Tonlagenfrequenz- Komponenten ω&sub2;, ω&sub3;, die nahe an ωM2, ωM3 (d. h., ω2 ωM2 und ω3 ωM3) enthalten, interferrieren die Prozessorelemente 403 a, 403 b allein mit dem eingegebenen Hörsignalen 411, werden aktiviert um so versetzt zu werden und Schwingungen mit den Frequenzen ω&sub2; bzw. ω&sub3; ausführen. Das heißt, im Falle der Unterhaltung einer Vielzahl von Sprechern hat nur ein Prozessorelement die Frequenzen, die auf Werte gesetzt sind, die bei den durchschnittlichen Tonlagenfrequenzen der von den Sprechern aktivierten Frequenzen liegen, wobei diese Aktivierung den Wiederaufruf vom Speicher entspricht.
  • Die Ergebnisse 501, die in den Prozessorelementen 403 des Speicherblockes 306 wiederaufgerufen wurden, werden zum Verarbeitungsabwandler 303 gesandt. Der Verarbeitungsabwandler 303 hat sowohl die Funktion, die Frequenzen der Ausgangssignale 501 aus den Prozessorelementen 403 festzustellen, als auch die Funktion der Errechnung der Verarbeitungsreglung, die in dem Informationserzeugungsblock 305 aus den festgestellten Schwingungen angewandt wird. Die Verarbeitungsreglung wird durch die Gleichung (3) festgelegt.
  • In dem Informationserzeugungsblock 305 wird ein signif ikanter Abschnitt, d. h. das Merkmal, das einem individuellen Sprecher zugeordnet ist, aus den Signalen 411 isoliert, die aus dem Sprachumsetzblock 4 gemäß der Verarbeitungsreglung eingegeben wurden, die aus dem Verarbeitungs-Reglungsabwandler 303 geliefert werden und dann als Binärsignal an die Hauptinformations-Verarbeitungseinheit 3 durch den Übermittler 307 geliefert werden. Das Binärsignal wird dann der Sprachverarbeitung in der Einheit 3 gemäß den Erfordernissen unterzogen.
  • Die Konfiguration der Sprecher kann auch durch die Leistung der Hauptinformations-Verarbeitungseinheit k3 auf der Grundlage der aus dem Speicherblock 306 zu der Hauptinformations- Verarbeitungseinheit 3 durch die Übermittler 308 übersandten Informationen erkennt werden.
  • Der Informationserzeugungsblock 305 ist sowohl in der Lage, zu bearbeitenden Sprecher hinzuzufügen und deren Parameterdaten einzustellen, als auch die Sprecher auszuschalten.
  • Isolierung der Sprache individueller Sprecher
  • Ein letzter Gegenstand zu diesem Ausführungsbeispiel besteht darin, die Sprache individueller Sprecher (Plural) zu erkennen. Wie schon im Zusammenhang mit dem Speicherblock 306 beschrieben, werden nur die Prozessorelemente 403, die den Tonlagenfrequenzen des individuellen Sprechers zuzuordnen sind, von durch den Wiederaufruf des Speichers in dem Speicherblock 306 aktiviert. Der aktivierte Zustand wird zu der Informationsverarbeitungseinheit 3 durch den Übermittler 308 übertragen. Andererseits stellt der Verarbeitungs- Reglungsabwandler 303 die Frequenzen der Ausgangssignale 501 aus dem Speicherblock 306 fest und wandelt die Verarbeitungsreglung in den Prozessorelementen 403 a bis 403 q des Informationserzeugungsblocks 305 in Übereinstimmung mit Gleichung (3) ab.
  • Fig. 5 ist eine Zeichnung, die zur Erläuterung der Verbindung zwischen dem Prozessorelement 403 dem Verarbeitungs- Reglungsabwandler 303 und dem Prozessorelement 402 vorgesehen ist, und auch zur detaillierten Erläuterung der Verbindung zwischen diesen in Fig. 3 gezeigten Teilen. Die Konfiguration und Verbindung, die in den Figuren 3 und 5 gezeigt ist, werden zur Isolierung der Sprache eines individuellen Sprechers aus der Unterhaltung einer Vielzahl von Sprechern benutzt. Das Verfahren der Wiedererkennung der Sprache von nur einem Sprecher ist nachstehend unter Verwendung der Beziehung zwischen dem Speicherblock 306 und dem Speicherinhaltsabwandler 309 beschrieben.
  • Wie in Fig. 5 dargestellt, enthält der Abwandler 303 einen Frequenzdetektor 303a und einen Steuerungsabwandler 303b. Die Wiedererkennung der durchschnittlichen Tonlagenfrequenz ωp des individuellen Sprechers in den Hörsignalen 411 und in dem Speicherblock 306 repräsentiert die Aktivierung des Prozessorelements (des Speicherblocks 306) mit einer Frequenz, die nahe an ωp liegt. Das Ausgangssignal 501 aus dem Speicherblock 306 hat folglich eine Frequenz ωp. Die Frequenz ωp wird von dem Frequenzdetektor 303a des Abwandlers 303 festgestellt und dann zu dem Steuerungsabwandler 303b gesandt.
  • Der Steuerungsabwandler 303b ist mit einem jeden der Prozessorelemente 402 verbunden, wie in Fig. 5 dargestellt. Signalleitungen ωG1, ΔG1 sind beispielsweise zwischen dem Abwandler 303 und dem Prozessorelement 402 a vorgesehen, um so mit den zwei Anschlüssen F (siehe Fig. 3) des Prozessorelements 402 a verbunden zu werden.
  • Wie in Fig. 5 dargestellt, ist ein jeder der Prozessorelemente 402 a bis 402 q so eingestellt, daß er als Bandpaßfilter mit den Frequenzen ωp, 2ωp, 3ωp ..., qωp arbeitet. Mit anderen Worten, wenn die Tonlagenfrequenz ωp eines individuellen Sprechers von dem Frequenzdetektor 303a festgestellt wird, gibt der Steuerungsabwandler 303b Signale auf die Signalleitungen ωG1, ΔG1, ωG2, ΔG2, ... ωGk, ΔGk ... ωGQ, ΔGq, so daß die Porzessorelemente 402a bis 402g der folgenden Gleichung genügen
  • ωk = k ωp
  • da die Hörsignale 411 über die Anschlüsse A, B (vgl. Fig. 3) eines jeden Prozessorelements 402a bis 402q eingegeben werden, gestatten die Prozessorelemente jeweils nur den Signalen mit vorgegebenen Frequenzen ωp, 2ωp, 3ωp, ... kωp...qωp, zu passieren. Diese passierenden Signale werden zu der Hauptinformaitons- Verarbeitungseinheit durch den Übermittler 307 übertragen.
  • Erkennung des individuellen Sprechers
  • Fig. 6 ist eine Zeichnung der Verbindung zwischen dem Speicherabwandler 309, Übermittler 308 und den Prozessorelementen 403a bis 403p, die so ausgelegt sind, daß sie zur Erkennung der Sprache eines individuellen Sprechers aus dem Hörsignalen 411 befähigt sind.
  • Diese Signalleitungen sind zwischen dem Abwandler 309 und einem jeden der Prozessorelemente vorgesehen. Von diesen drei Signalleitungen werd zwei Signalleitungen zur Einstellung der Mittenfrequenz ωM und der Bandbreite ΔM eines jeden Prozessorelements benutzt und werden mit den beiden Anschlüssen F verbunden. Die andere Signalleitung wird mit dem Anschluß I verbunden (Fig. 3), um jedes der Prozessorelemente zu zwingen, in den desaktivierten Zustand zu gehen. Wie schon beschrieben, wird eine negative Spannung an Anschluß I eines jeden Prozessors angelegt, um diesen zu desaktivieren.
  • Es werden drei Arten von Informationen 409a bis 409c von der Hauptinformations-Verarbeitungseinheit 3 an den Abwandler 309 gesandt, und die Haupt-Informationsverarbeitungseinheit 3 ist sowohl in der Lage, beleibige gewünschte Mittelfrequenzen und Bandbreiten irgendwelcher Prozessorelemente des Speicherblocks einzustellen, als auch eine beliebige Aktivierung irgendeines gewünschten Prozessorelements zu unterbinden, in dem diese drei Typen von Informationen verwendet werden. Das Signal auf der Leitung 409a enthält die Nummer eines Prozessorelements, in dem eine Mittenfrequenz und eine Bandbreite eingestellt ist, oder die daran gehindert ist, aktiviert zu werden. Das Signal auf der Signalleitung 409b enthält die Daten in Hinsicht auf die Mittelfrequenz und die Bandbreite, die einzustellen ist, und das Signal auf der Signalleitung 409 c enthält die Daten in Form von Birnärdaten in Hinsicht darauf, ob das relevante Prozessorelement aktiviert ist. Der Übermittler 308 enthält r Vergleicher (308a bis 308r). Der Vergleicher vergleicht das Ausgangssignal des jeweiligen Prozessorelements mit einem vorbestimmten Schwellwert und gibt einen aus, wenn das Ausgangssignal des betreffenden Elements diesen Schwellwert übersteigt. Der Übermittler 308 überträgt das Ergebnis des Vergleichs in binärer Form an die Verarbeitungseinheit 3.
  • Die oben beschriebene Konfiguration befähigt die Hauptinformations-Verarbeitungseinheit 3, beliebige oder gewünschte Prozessorelemente des Speicherblocks 306 zu desaktivieren oder die Bandbreite und deren Mittenfrequenz einzustellen / abzuwandeln.
  • Wenn ein spezielles Prozessorelement aktiviert wird, das von dem Abwandler 309 von den Hörsignalen 411 festgestellt wurde, und wenn deren Hörfrequenz ωp von dem Abwandler 303 festgestellt wird, wird das Hörsignal des speziellen Sprechers allein aus den Hörsignalen 411 isoliert, wie zu Fig. 5 schon beschrieben.
  • Haupteinheit
  • Fig. 7 ist ein Funktionsblockdiagramm der Verarbeitung in der Hauptinformations-Verarbeitungseinheit 3, in der die Sprach- und die Sprecherwiedererkennung (Sprechermischung und Trennung) hauptsächlich ausgeführt wird. Ein Gegenstand der vorliegenden Erfindung liegt in der Verarbeitung der Sprachsignale, die für zwei Arten der Wiedererkennung in der Vorverarbeitungseinheit dienen. Da diese beiden Arten der Wiedererkennung selbst schon bekannt sind, werden sie nachstehend nur kurz beschrieben.
  • Das Hörsignal 412 aus dem Übermittler 307 der Vorverarbeitungseinheit 2 ist ein Signal, das nur die Sprache eines individuellen Sprechers enthält. Dieses Signal wird in dem Übermittler 307 A/D- konvertiert und dann in die Verarbeitungseinheit 303 eingegeben. Das Signal 412 wird der Cepstrum-Analyse in 600a unterzogen, wobei eine Spektrumsabschätzung für das Hörsignal 412 durchgeführt wird. In einer solchen Spektumsabschätzung werden Formanten durch 600b herausgelesen. Die Formantfrequenzen sind Frequenzen, bei denen Energiekonzentrationen auftreten, und man sagt, daß derartige Konzentration zu mehreren besonderen Frequenzen auftreten, die durch Phoneme bestimmt sind. Vokale sind durch Formantfrequenzen gekennzeichnet. Die ausgelesenen Formantfrequenzen werden nach 601 gesandt, wo eine Musteranpassung durchgeführt wird. Bei dieser Musteranpassung wird die Sprachwiedererkennung durch DP- Anpassung (502a) ausgeführt, die für die zuvor gespeicherten Silben in einem Silbenwörterbuch aufgeführt werden, und für die Formantfrequenzen und durch statistische Verarbeitung (602b) der erhaltenen Ergebnisse.
  • Es wird nun eine Beschreibung der Sprecherwiedererkennung gegeben, die in der Einheit 3 ausgeführt wird.
  • Obwohl grobe Sprecherwiedererkennung in dem Speicherblock 306 der Vorverarbeitungseinheit 2 ausgeführt wird, wird die Sprecherwiedererkennung in Einheit 3 geleitet und ist eine positivere Wiedererkennung, die unter Verwendung eines Sprecherwörterbuchs 605 ausgeführt wird, nachdem die grobe Sprecherwiedererkennung abgeschlossen worden ist.
  • In dem Sprecherwörterbuch 605 werden Daten sowohl bezüglich des Pegels der Formantfrequenz, der Bandbreite, der mittleren Tonlagenfrequenz, der Steigung und dem Kurvenverlauf in Abschnitten von Frequenzen des spektralen Verlaufs usw. eines jeden Sprechers gespeichert, die alle zuvor gespeichert sind, als auch die Zeitlänge von Wörtern, die einem jeden Sprecher eigen ist, und die zeitlichen Musteränderungen von der Formantfrequenz.
  • Anwendung
  • Das Anwendungsbeispiel des Systems in dem in Fig. 1 dargestellten Ausführungsbeispiel wird nachstehend anhand Fig. 8 beschrieben. Dieses Anwendungsbeispiel ist durch Hinzufügen eines Schalters 801 zu dem in Fig. 1 dargestellten System aufgebaut, so daß ein Informationserzeugungsabschnitt nur dann tätig wird, wenn die Sprache eines individuellen Sprechers von dem Speicherabschnitt 6 erkannt wird; die Sprache des individuellen Sprechers allein wird isoliert und dann zur Informationsverarbeitungseinheit 3 gesandt.
  • Wie in dem in Fig. 1 dargestellten System, enthält eine Vielzahl der Prozessorelemente 403 des Speicherblocks 306 ein Prozessorelement, welches bei der Tonlagenfrequenz eines individuellen Sprechers von dem Abwandler 309 aktiviert wird. Wenn die Tonlagenfrequenz des individuellen Sprechers von dem Abwandler 303 festgestellt wird, gibt der Abwandler 303 ein Signal 802 an den Schalter 801 aus, um diesen zu schließen. Mit anderen Worten, wenn der Schalter 801 geöffnet ist, arbeitet der Speicherblock 305 nicht. Wenn auf diese Weise der Schalter 801 eingeschaltet ist, ist auch das Auslesen von nur einem Teil des Hörsignals 411, welches ebenfalls signifikant aus dem Gesichtspunkt der Zeit von dem Informationserzeugungsabschnitt 5 ist, der die schnelle Verarbeitung in der Haupteinheit 3 aktiviert.
  • Eine Sprecher-Wiedererkenn/ Auswahl-Schaltung 606 erkennt die Sprecher durch Mischung und Trennung der Formanten wieder, die von der Schaltung 600 mit den in dem Wörterbuch 605 gespeicherten Daten isoliert werden. 607 ist ein r-Bit-Puffer zur Speicherung des Ergebnisses von durch den Übermittler 308 festgestellter Mischung und Trennung. Jedes Bit repräsentiert, ob der entsprechende Vergleicher des Übermittlers 308 festgestellt hat, daß das zugehörige Prozessorelement des Speicherblocks 306 versetzt ist. Die Schaltung 606 vergleicht das in dem Puffer 607 gespeicherte Ergebnis mit dem Ergebnis der Sprecherwiedererkennung auf der Grundlage der Formantanpaßoperation. Die Sprecherwiedererkennung in dem Speicherblock 306 kann dadurch innerhalb der Verarbeitungseinheit 3 festgestellt werden.
  • Ein r-Bit-Puffer 608 wird zur vorübergehenden Speicherung der Informationen 409a bis 409c verwendet.
  • Ergebnis des Ausführungsbeispiels
  • Die oben beschriebenen Systeme der Ausführungsbeispiele erzielen folgende Wirkungen:
  • (1): Die Verwendung des Speicherblocks 306 mit den Prozessorelementen, die jeweils nicht-lineare Oszillatoren und den Abwandler 309 enthalten, ermöglicht die Wiedererkennung mit hoher Geschwindigkeit, daß die eingegebenen Ausgangssignale 401 (oder 411) der Sprache einer Vielzahl von Sprechern die Hörsignale eines individuellen Sprechers enthalten. Das heißt, es ist möglich, die Sprecher einer Unterhaltung wiederzuerkennen. Eine derartige Beschleunigung der Wiedererkennung wird erreicht durch Verwendung der Prozessorelemente, die jeweils nicht-lineare Oszillatoren benutzen.
  • (2): Es wird dann nur ein signifikanter Abschnitt aus den eingegebenen Hörsignalen 401 (oder 411) auf der Grundlage der Wiedererkennung von Punkt (1) isoliert. Mit anderen Worten, die Verwendung des Informationserzeugungsblockes 305 mit Prozessorelementen, die jeweils nicht-lineare Oszillatorschaltungen und den Abwandler 303 enthalten, befähigt die Isolierung der Sprache des individuellen Sprechers mit hoher Geschwindigkeit. Eine derart beschleunigte Isolierung wird erreicht durch die Verwendung von Prozessorelementen, die jeweils nicht-lineare Oszillatorschaltungen enthalten.
  • (3): Die durch Isolieren des individuellen Sprechers aus dem eingegebenen Hörsignal 401 (oder 411) der Sprecher 412 reduzierte Information aus dem Gesamtumfang, der Isolierung gemäß Punkt (2), wird dann durch den Übermittler 307 zur Hauptinformations-Verarbeitungseinheit 3 übertragen. In dieser Hauptinfomations-Verarbeitungseinheit 3 ist es folglich möglich, die Verarbeitung der Sprache eines individuellen Sprechers mit guter Genauigkeit durchzuführen, beispielsweise die Wiedererkennung der Verarbeitung von Wörtern usw. aus den eingegebenen Hörsignalen oder der Sprechermischungs- und Trennungsverarbeitung zur Bestimmung durch Mischen und Trennen, um herauszufinden, ob das Sprechersignal, das von der Vorverarbeitungseinheit 2 isoliert wurde, das Hörsignal eines individuellen, gewünschten Sprechers ist.
  • (4) : Der Sprecher, dessen Sprache isoliert ist, kann von dem Speicherinhalts-Abwandler 309 durch die Signalleitungen 409a, 409b, 409c aus der Hauptinformations-Verarbeitungseinheit 3 frei abgewandelt werden. Mit anderen Worten, es ist auch möglich, sowohl die Tonlagenfrequenz des Sprechers frei zu ändern, dessen Sprache isoliert werden soll, als auch zu bestimmen, ob eine Isolierung von der Hauptinformations- Verarbeitungseinheit 3 durchgeführt werden soll oder nicht.
  • Alternative
  • Verschiedene Alternativen der vorliegenden Erfindung sind innerhalb des Bereichs der vorliegenden Erfindung möglich.
  • Jedes der oben beschriebenen Ausführungsbeispiele verwendet als Schaltungsform der Oszillatoreinheit eine Van-der-Pol- Schaltung, die stabile Kennlinien von Grundschwingungen erzeugt. Eine Oszillatoreinheit kann jedoch durch Anwendung eines Verfahrens mit einer anderen Form einer nicht-linearen Schaltung verwirklicht werden, nämlich ein Verfahren, das eine digitale Schaltung benutzt, die in der Lage ist, nicht-lineare Schwingungen zu berechnen oder irgendein optisches Mittel, mechanisches Mittel oder chemisches Mittel, das in der Lage ist, nicht-lineare Schwingungen zu erzeugen. Mit anderen Worten, optische Elemente oder chemische Elemente, die sowohl Potentialschwingungen eines Films als auch elektrische Schaltelemente benutzen, können als nicht-lineare Oszillatoren verwendet werden.
  • Obwohl das in Fig. 4 dargestellte System mit dem Ziel entworfen ist, die Sprache eines individuellen Sprechers zu isolieren, kann die vorliegende Erfindung darüber hinaus gleichzeitiges Isolieren der Sprache einer Vielzahl individueller Sprecher ermöglichen. In diesem Falle ist es notwendig, die Regelungsabwandler 303 und die Informationserzeugungsblöcke 305 in einer Anzahl vorzusehen, die der Anzahl der Sprecher entspricht.
  • Obwohl die Sprechererkennung durch Feststellung der durchschnittlichen Tonlagenfrequenz der Sprache in dem Speicherblock ausgeführt wird, ist außerdem in dem in Fig. 1 dargestellten System eine solche Modifizierung möglich, daß der Sprecher an seiner Formantfrequenz erkannt wird.
  • Obwohl die Schaltung 606 in Fig. 7 zur Sicherung des Misch- und Trennergebnisses vorgesehen ist, das vom Speicherblock 306 erzeugt wurde, ist es außerdem möglich, die Schaltung 606 in einer solchen Weise umzuordnen, daß die in dem Puffer 607 gespeicherten Daten den Suchbereich einengen, der durch die Schaltung 606 bewirkt wird. Dadurch wird die Effizienz der von der Schaltung 606 bewirkten Sprecherfeststellung verbessert.
  • Obwohl die vorliegende Erfindung in vielerlei Weise abgewandelt oder abgeändert werden kann, sollte der Bereich der vorliegenden Erfindung innerhalb des Schutzumfangs der anliegenden Patentsprüche interpretiert werden.

Claims (1)

1. Sprachverarbeitungseinrichtung mit Mitteln zur Eingabe der Sprache von einer Vielzahl von Sprechern und zur Ausgabe von Hörsignalen, gekennzeichnet durch:
eine Vielzahl von Sprachmisch- und -Trenn- Verarbeitungselementen zur Sprachmischung und -Trennung der in diese eingegebenen Hörsignale, wobei jedes der Verarbeitungselemente mit wenigstens einer nicht-linearen Oszillatorschaltung ausgestattet ist, die auf eine erste, die Sprache des festzulegenden Sprechers kennzeichnende Frequenz versetzt wird;
Feststellmittel, die den versetzten Zustand eines jeden Verarbeitungselementes feststellen; und durch
Auslesemittel, die das Hörsignal des individuellen Sprechers aus den eingegebenen Hörsignalen auf der Grundlage der Frequenz des von dem versetzen Verarbeitungselement ausgegebenen Signals isolieren, wenn dieses ein Ausgangssignal aus den Feststellmitteln empfängt.
2. Sprachverarbeitungseinrichtung nach Anspruch 1, deren nicht- lineare Oszillatorschaltung ein Van-der-Polsche Oszillatorschaltung ist.
2. Sprachverarbeitungseinrichtung nach Anspruch 1 oder 2, deren die Sprache des individuellen Sprechers kennzeichnende erste Frequenz eine die Sprache enthaltende Tonlagen- Durchschnittsfrequenz ist.
4. Sprachverarbeitungseinrichtung nach einem der Ansprüche 1 bis 3, deren Sprachmisch- und -Trenn-Verarbeitungselement zwei nicht-lineare Oszillatorschaltungen enthält, von denen jede eine Schwingungssteuerschaltung zum Einstellen der Grundfrequenz deren Schwingung enthält, wobei die Differenz zwischen den Grundfrequenzen der Schwingung der beiden nicht-linearen Oszillatorschaltungen und deren Durchschnittsfrequenz jeweils der Bandbreite und der Mittenfrequenz innerhalb eines Bereichs entspricht, in dem die Versetzung stattfindet.
5. Sprachverarbeitungseinrichtung nach einem der Ansprüche 1 bis 4, deren Auslesemittel eine Vielzahl von Sprachauslese- Verarbeitungselementen enthält, die das Hörsignal eines individuellen Sprechers aus den eingegebenen Hörsignalen isoliert, wobei jedes der Sprachauslese-Verarbeitungselemente wenigstens eine nicht-lineare Oszillatorschaltung enthält, die so eingestellt wird, daß sie auf eine Frequenz versetzt wird, die ein ganzzahliges Vielfaches der ersten Frequenz ist.
5. Sprachverarbeitungseinrichtung nach einem der Ansprüche 1 bis 5, bei der jedes Sprachauslese-Verarbeitungselement zwei nicht-lineare Oszillatorschaltungen enthält, von denen jede eine Schwingungssteuerschaltung zur Einstellung der Grundfrequenz deren Schwingung enthält, wobei die Differenz zwischen den Grundfrequenzen der nicht-linearen Oszillatorschaltungen bzw. der Durchschnittsfrequenz entsprechend der Bandbreite und der Mittenfrequenz in einem Bereich liegt, in dem die Versetzung stattfindet.
6. Sprachverarbeitungseinrichtung nach einem der Ansprüche 1 bis 6, die des weiteren Abwandlungsmittel enthält, die jede der ersten Frequenzen, die so eingestellt sind, daß ein jedes der Sprachmisch- und -Trenn-Verarbeitungselementen versetzt ist, abwandelt.
7. Sprachverarbeitungseinrichtung nach einem der Ansprüch 1 bis 7, die des weiteren Mittel zur Unterbindung der Versetzung eines der Sprachmisch- und -Trenn-Verarbeitungselemente enthält.
8. Sprachverarbeitungseinrichtung mit Mitteln zum Empfang von Sprachhörsignalen aus einer Vielzahl von festgelegten Sprechern und zur Festlegung wenigstens eines Sprechers aus dem empfangenen Hörsignal, dadurch gekennzeichnet, daß einerseits eine Vielzahl von Sprachmisch- und -Trenn- Verarbeitungselementen zur Ausführung der Sprachmischung und -Trennung des Hörsignals vorgesehen sind, wobei jedes der Verarbeitungselemente wenigstens eine nicht-lineare Oszillatorschaltung enthält, die so eingestellt wird, daß sie auf eine erste, die Sprache eines festgelegten Sprechers charakterisierende Frequenz versetzt wird; und andererseits Feststellmittel enthält, die den Versetztzustand eines jeden der Verarbeitungselemente feststellt.
10. Sprachverarbeitungseinrichtung nach Anspruch 9, bei der jede nicht-lineare Oszillatorschaltung eine Van-der-Polsche Oszillatorschaltung ist.
11. Sprachverarbeitungseinrichtung nach Anspruch 9 oder 10, bei der die erste die Sprache eines festgestellten Sprechers charakterisierende Frequenz eine durchschnittliche Tonlagenfrequenz ist, die in der Sprache enthalten ist.
12. Sprachverarbeitungseinrichtung nach einem der Ansprüche 9, 10 oder 11, bei der jedes der Sprachmisch- und -Trenn- Verarbeitungselemente zwei nicht-lineare Oszillatorschaltungen enthält, von denen jede eine Oszillatorsteuerschaltung zur Einstellung der Grundfrequenz deren Schwingung enthält, wobei die Differenz zwischen den Grundfrequenzen der Schwingung der nicht-linearen Oszillatorschaltungen bzw. der Durchschnittswert davon der Bandbreite bzw. der Mittenfrequenz innerhalb des Bereichs entspricht, in dem die Versetzung stattfindet.
13. Sprachverarbeitungssystem mit Mitteln zur Eingabe von Signalen, die die Sprache einer Vielzahl von Sprechern kennzeichnen und die deren Hörsignale ausgeben, gekennzeichnet durch:
eine Vielzahl von Sprachmisch- und -Trenn- Verarbeitungselementen, die die Mischung und Trennung der eingegebenen Hörsignale ausführen, wobei jedes der Verarbeitungselemente wenigstens eine nicht-lineare Oszillatorschaltung enthält, die so eingestellt wird, daß eine Versetzung bei einer ersten Frequenz stattfindet, die die Sprache eines bestimmten Sprechers charakterisiert;
Feststellmittel, die den versetzten Zustand eines jeden der Verarbeitungselemente feststellen;
Auslesemittel, die das Hörsignal eines festgestellten Sprechers aus den Hörsignale, die auf der Grundlage der Frequenz des von dem versetzten Verarbeitungselement ausgegebenen Signals eingegeben wurde, wenn das Ausgangssignal aus den Feststellmitteln empfangen wird; und
Informationsverarbeitungsmittel, die mit den Auslesemitteln verbunden sind, und die die Informationsverarbeitung, wie Spracherkennung des Hörsignals des mit den Auslesemitteln festgestellten Sprechers, isolieren.
14. Sprachverarbeitungssystem nach Anspruch 13, dessen Informationsverarbeitungsmittel Abwandlungsmittel zur Abwandlung der ersten Frequenz enthalten, die so eingestellt ist, daß jedes einzelne der Sprachmisch- und -Trenn-Verarbeitungselemente versetzt ist.
15. Sprachverarbeitungssystem nach Anspruch 13 oder 14, deren Informationsverarbeitungsmittel des weiteren Mittel zur Unterbindung jedweder Versetzung durch jedes einzelne der Sprachmisch- und -Trenn-Verarbeitungselemente enthält.
15. Sprachverarbeitungseinrichtung, mit:
Eingabemitteln zur Eingabe von Sprachinformationen;
Zuführmitteln, die die Erkennungsinformation zur Erkennung eines Sprechers liefern;
Verarbeitungsmitteln mit einer Verarbeitungseinheit, mit einer ersten Eingabeeinheit, einer zweiten Eingabeeinheit und einem nicht-linearen Oszillator, die die aus den Eingabemitteln eingegebene Sprachinformation verarbeiten, die durch die erste Eingabe durch Änderung der Verarbeitungsform der Verarbeitungseinheit unter Verwendung der von der zweiten Eingabeeinheit eingegebenen Information sowie zur Ausgabe verarbeiteter Information in Hinsicht auf die Sprachinformation; und mit
Mitteln zum Anlegen der Erkennungsinformation an die zweite Eingabeeinheit, die aus den Zuführmitteln zur Verarbeitung der Sprachinformation in den Verarbeitungsmitteln geliefert wird, wobei die Sprachinformation von dem Eingabemittel durch die erste Eingabeeinheit eingegeben und unter Verwendung der Wiedererkenninformation verarbeitet wird, die von der zweiten Eingabeeinheit eingegeben wird.
DE68922016T 1988-04-23 1989-04-21 Einrichtung zur Sprachverarbeitung. Expired - Fee Related DE68922016T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63101173A JP2791036B2 (ja) 1988-04-23 1988-04-23 音声処理装置

Publications (2)

Publication Number Publication Date
DE68922016D1 DE68922016D1 (de) 1995-05-11
DE68922016T2 true DE68922016T2 (de) 1995-08-31

Family

ID=14293616

Family Applications (1)

Application Number Title Priority Date Filing Date
DE68922016T Expired - Fee Related DE68922016T2 (de) 1988-04-23 1989-04-21 Einrichtung zur Sprachverarbeitung.

Country Status (5)

Country Link
US (1) US5123048A (de)
EP (1) EP0339891B1 (de)
JP (1) JP2791036B2 (de)
AT (1) ATE120873T1 (de)
DE (1) DE68922016T2 (de)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2963491B2 (ja) 1990-05-21 1999-10-18 沖電気工業株式会社 音声認識装置
DE4243831A1 (de) * 1992-12-23 1994-06-30 Daimler Benz Ag Verfahren zur Laufzeitschätzung an gestörten Sprachkanälen
US5623539A (en) * 1994-01-27 1997-04-22 Lucent Technologies Inc. Using voice signal analysis to identify authorized users of a telephone system
KR980700637A (ko) 1994-12-08 1998-03-30 레이어스 닐 언어 장애자의 언어 인식 강화를 위한 방법 및 장치(method and device for enhancing the recognition of speechamong speech-impai red individuals)
US5859908A (en) * 1996-03-28 1999-01-12 At&T Corp. Method and apparatus for applying multiple speech processing features to a telephone call
US6021194A (en) * 1996-03-28 2000-02-01 At&T Corp. Flash-cut of speech processing features in a telephone call
US6453043B1 (en) 1996-12-18 2002-09-17 At&T Corp. Flash-cut of speech processing features in a telephone call
US6109107A (en) 1997-05-07 2000-08-29 Scientific Learning Corporation Method and apparatus for diagnosing and remediating language-based learning impairments
US6019607A (en) * 1997-12-17 2000-02-01 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI systems
US6159014A (en) * 1997-12-17 2000-12-12 Scientific Learning Corp. Method and apparatus for training of cognitive and memory systems in humans
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
US6529712B1 (en) * 1999-08-25 2003-03-04 Conexant Systems, Inc. System and method for amplifying a cellular radio signal
EP1132890B1 (de) * 1999-08-26 2008-04-09 Sony Corporation Verfahren und vorrichtung, speicherverfahren und - vorrichtung für informationsbeschaffung und -verarbeitung
JP2002306492A (ja) * 2001-04-16 2002-10-22 Electronic Navigation Research Institute カオス論的ヒューマンファクタ評価装置
FR2848715B1 (fr) * 2002-12-11 2005-02-18 France Telecom Procede et systeme de correction multi-references des deformations spectrales de la voix introduites par un reseau de communication
US7231346B2 (en) * 2003-03-26 2007-06-12 Fujitsu Ten Limited Speech section detection apparatus
US20050153267A1 (en) * 2004-01-13 2005-07-14 Neuroscience Solutions Corporation Rewards method and apparatus for improved neurological training
US20050175972A1 (en) * 2004-01-13 2005-08-11 Neuroscience Solutions Corporation Method for enhancing memory and cognition in aging adults
US7693212B2 (en) * 2005-10-10 2010-04-06 General Electric Company Methods and apparatus for frequency rectification

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2633656C2 (de) * 1976-07-27 1984-02-16 ANT Nachrichtentechnik GmbH, 7150 Backnang Synchronisations-Überwachungsschaltung für einen injektionssynchronisierten Oszillator
DE3446370A1 (de) * 1984-12-19 1986-07-03 Siemens AG, 1000 Berlin und 8000 München Schaltungsanordnung zur gewinnung einer einzelnen signalschwingung aus einem signal
DE3689101T2 (de) * 1985-07-06 1994-04-28 Japan Res Dev Corp Mustererkennungsanlage.

Also Published As

Publication number Publication date
ATE120873T1 (de) 1995-04-15
JP2791036B2 (ja) 1998-08-27
EP0339891B1 (de) 1995-04-05
EP0339891A3 (en) 1990-08-16
DE68922016D1 (de) 1995-05-11
US5123048A (en) 1992-06-16
JPH01271832A (ja) 1989-10-30
EP0339891A2 (de) 1989-11-02

Similar Documents

Publication Publication Date Title
DE68922016T2 (de) Einrichtung zur Sprachverarbeitung.
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE3306730C2 (de)
DE69226594T2 (de) Spracherkennungseinrichtung mit Sprachkodierer, der Rangstufen von akustischen Prototypen ausgibt.
DE3884880T2 (de) Billige Spracherkennungseinrichtung und Verfahren.
DE69013738T2 (de) Einrichtung zur Sprachcodierung.
DE4031638C2 (de)
DE2422028C2 (de) Schaltungsanordnung zur Identifizierung einer Formantfrequenz in einem gesprochenen Wort
DE69720134T2 (de) Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten
DE69121411T2 (de) Methode und gerät zur codierung von analogen signalen
DE102010007842A1 (de) Geräuschunterdrückungsvorrichtung, Geräuschunterdrückungsverfahren und Aufzeichnungsmedium
DE69224253T2 (de) Sprachkodiergerät
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
DE69724485T2 (de) Lokalisierung eines Musters in einem Signal
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
EP0987682B1 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE69128582T2 (de) Methode zur Phonemunterscheidung
DE69717377T2 (de) Sprachgeschwindigkeitsumwandler
DE102012025016B3 (de) Verfahren zur Ermittlung wenigstens zweier Einzelsignale aus wenigstens zwei Ausgangssignalen
DE4325404C2 (de) Verfahren zum Ermitteln und Klassifizieren von Störgeräuschtypen
EP3940692A1 (de) Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee