DE2233872C2

DE2233872C2 - Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals

Info

Publication number: DE2233872C2
Application number: DE2233872A
Authority: DE
Inventors: Bishnu Saroop Murray Hill N.J. Atal
Original assignee: Western Electric Co Inc
Current assignee: AT&T Corp
Priority date: 1971-07-09
Filing date: 1972-07-10
Publication date: 1983-11-03
Also published as: JPS5524118B1; US3740476A; NL7209311A; DE2233872A1; FR2145501A1; JPS5774800A; CA967285A; FR2145501B1

Description

Die Erfindung betrifft ein Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals, bei dem zur Vorhersage des augenblicklichen Wertes jedes Abtastwertes des Sprachsignals jeweils eine bewertete Summierung einer Anzahl früherer .Sprachsignalabtastwerte verwendet wird und der vorhergesagte Signalnbtastwert von dem tatsächlichen Signalabtastwert zur Erzeugung eines Differenzsignals subtrahiert wird.

Es sind Einrichtungen zur Verringerung der Kanalkapazität, die für die Übertragung von Sprachsignalen erforderlich ist. bekannt. Die bekannteste Einrichtung dieser Art ist der Vocoder. Ferner ist es auch bekannt, die Redundanz von Sprachsignale durch eine lineare Vorhersage-Technik /u beseitigen. Bei diesen Einrichtungen wird ein .Sprachsignal analysiert, um seine kennzeichnenden Eigenschaften /u bestimmen, woraufhin dann codierte Informationen bezüglich dieser Eigenschaften anstelle des Sprachsignals selbst übertragen werden. Auf der Empfangsseite wird dann aus der codierten Information ein künstliches Sprachsignal erzeugt. Ein Merkmal des .Sprachsignals ist seine Grund- oder Tonhöhenfrequenz. Diese Eigenschaft bezeichnet die Grundfrequen/. mit der die Stimmbänder während der Erzeugung verschiedener stimmhafter Sprachsignale vibrieren.

Das eingangs definierte Verfahren zur Bestimmung der Grundfrequenz eines Sprachsignals ist aus der CAPS 8 44 193 bekannt. Damit das Signal für die _b5 Übertragung hinsichtlich des gewünschten Informationsgehaltes die niedrigste mögliche Entropie beinhaltet, werden bei diesem bekannten Verfahren sämtliche redundanten Merkmale aus dem zu ubertiagenden Sprachsignal entfernt. Dabei wird die Redundanz zur Bandbreitenverringerung dadurch beseitigt, daß derjenige Teil des Eingangssignals, welcher aus dem früher übertragenen Signal vorhersagbar ist. entfernt wird. Zur Übertragung gelangt dann lediglich der nicht voraussagbare Teil des Signals. Um die Akkumulierung von Codierfehlern zu vermeiden, wird sendeseitig nicht das Eingangssprachsignal zur Bestimmung des Differenzsignals herangezogen, sondern das Sprachsignal aus den vorher übertragenen, codierten Signalen rekonstruiert. Zur Lösung der Aufgabe ist es auch erforderlich, sowohl die Grundfrequenzmerkmale als auch die Formantmerkmale aus dem Differenzsignal zu entfernen.

Der Erfindung liegt die Aufgabe zugrunde, die Grundfrequenz eines Sprachsignals weitgehend fehlerfrei aus den Vorhersagedaten zu bestimmen, wobei auch eine Unabhängigkeit vom Formantcharakter des Sprachsignals angestrebt wird.

Diese Aufgabe wird gemäß der Erfindung dadurch gelöst, daß als Zeitraum, welcher die Anzahl der Λ kt^ctiuorlo -»■■»- /~Za%*,lnmtn** Aar *>r>wl%tiwtmetnt*»r*

(IL-IUjinbltb <-UI UknillllUllg U^J TÜI llklgVjUglVII

Abtastwertes umfaßt. 1 Millisekunde gewählt wird, daß man die Frequenz feststellt, mit der Differenzsignalspitzenwerte oberhalb eines vorgegebenen Schwellenwertes auftreten, und daß die so ermittelte Frequenz als Grundfrequenz des Sprachsignals mit der zugehörigen Grundwellenperkyde klassifiziert wird.

Weiterbildungen der Erfindung sind den Unteransprüchen zu entnehmen.

Die gemäß der Erfindung erhaltene Grundfrequenz eines Sprachsignals bzw. der Stimmbänder kann dann weiter verwendet werden, beispielsweise zur Bestimmung des Stimmhaft-Stimmloscharakters des Sprachsignals.

Die Vorteile der Erfindung, nämlich die weitgehend fehlerfreie Bestimmung der Sprachgrundfrequenz, basieren auf der Analyse eines komplexen Sprachsignals zur Bestimmung seiner Grundfrequenz. Diese Analyse beruht auf der Analyse rles Ft'ilVrs zwischen einem vorhergesagten Wert des Sprachsignals. basierend auf seinen früheren Abiastwerten, jnd seinem im Augenblick gerade vorliegenden Wert. Das Zeitintervall, das durch eine Anzahl von Abtastwerten repräsentiert und für die Gewinnung des Vorhersagewertes verwendet wird, ist in typischer Weise eine Millisekunde lang. Aufgrund eines bei der Vorhersage verwendeten Kurzzeitspeichers stellen die vorhergesagten Signalwerte weitgehend die Formantstruktur des Sprachsignals dar. Die Grundfrequenzanalyseeinrichiung nach der Erfindung ist besonders effektiv, da bei der Erzeugung eines Differen/signals. d. h. des Vorhersagefehlersignals, die Formantstruktur des Signals aus dem Eingangssignal entfernt worden ist. Da jedoch die Grundfrequenzpenodc der Sprachsignale in typischer Weise in einem Bereich von j ms bis 20 ms liegt, ist die Vorhersage der Grundfrequen/siruktur. basierend juf einem Zeitintervall von einer Millisekunde eines vergangenen Sprachabschnittes völlig vernachlässigbar Daher bleibt die Cjrundfrequenzinformation in dem Vorhcrsagefehlersignal enthalten, so daB nur eine geringe oder gar keine Rückwirkung durch die Formantstruktur auftritt, und die Spitzenabtrennoperation für die Erzeugung eines Meßwertes der Sprachgrundfrequenz des Eingangssignals wirksam ist.

Ein weiterer Vorteil basiert auf der zusätzlichen Verwendung von Vorhersagefehlerabtastungen zur Erzeugung eines Stimmhaft-Stimmlos-Unterschei-

dungssignals. Die Siimmhafientschcidiing wird abgeleitet aus dem Verhältnis des Effektivwertes, also des quadratischen Mittelwertes der Eingangssignalabtastwerte zum Effektivwert der entsprechenden Vorhersagefehlcrabtastwcrte.

Im folgenden wird die Erfindung anhand der Figuren beispielsweise näher erläutert. Es zeigt

F i g. 1 das Blockschaltbild eines Sprachsignalanalysators. das das Prinzip der Erfindung verdeutlicht und

Fig.2 eine Larstellung der Wellenform eines stimmhaften Sprachsignals.der Positionen festgestellter Grundfrequenzimpulse in dem stimmhaften Sprachsignal (vertikale Linien) und eines stimmlosen Sprachsegments.

Ein Signalanalysator, der das Prinzip der Erfindung beinhaltet, ist in F i g. 1 dargestellt. Die Sprachsignale, die von einer beliebigen Quelle geliefert werden, werden zu dem Analysator übertragen und durch ein Tiefpaßfilter 10 geschleust. Das Filter 10 hat eine typische Grundfrequenz in der Gegend von 5 kHz. Das sich ergebende Signal wird dann mit einer Frequenz von etwa 1OkHz im Abtaster Ii abgetastet, wobei dieser Abtastvorgang von den Signalen des Taktgeoers 12 gesteuert wird. Die Sprachabtastwerte. s,„ die au' diese Weise abgeleitet werden, werden zu einer Speichereinheit 13 übertragen, die diese Signale geordnet speichert und zwar in typischen Blöcken von 200 Abtastungen, d. h. Si, S). .., sjoo. Die Blöcke oder Rahmen von Abtastwerten werden periodisch aus der Speichereinheit 13 entnommen, beispielsweise ebenfalls von ;inem Signal des Taktgebers 12 gesteuert und zu einer adaptiven Vorhersageschaltung 14. einem Vorhersage-Parameterrechner und zu einem Subtrahiernetz 16 übertragen.

Die adaptive Vorhersageschaltung 14 bearbeitet die π angelieferten Signale btastwerte. um den augenblicklichen Wert jedes Abtastwertes auf der Basis einer gewichteten Summation einer Anzahl von früheren Abtastwerten vorherzusagen. Die Vorhersageoperation erfolgt auf der Basis Abtastwert zu Abtastwert, und die ίο Vorhersageschaltung 14 wird periodisch mit einem neuen Rahmen von Abtastungen von der Speichereinheit 13 beschickt. Eine für die Verwendung in dem System gemäß der vorliegenden Erfindung geeignete adaptive Vorhersageschaltung ist beispielsweise in der -n US-PS 36 31 520ausführlich beschrieben.

Zur Anpassung des sich konstant ändernden Charakters des Eingangssprachsignals, wird die adaptive Vorhersageschaltung 14 so gesteuert, daß sie sich an den laufenden Signalzustand anpaßt. Es hat sich als ίο genügend erwiesen, die Werte der verwendeten Parameter nachzustellen, um die Vorhersageschaltung in Intervallen zu steuern, die mit der Grundwellenperiode des Signals vergleichbar sind. Da das exakte CirundwellenintervaU nicht zur Verfügung steht (obwohl das Grundfrequen/ausgungssignal des Systems in einer Rückkoppelanordnung /ur Annäherung des Iniervalls einer späteren Grundwellcnperiode verwendet werden kann), ist eine Nachstellung der Parameterwerte in Intervallen von etwa der Zeit von 200 Abtastungen vollständig ausreichend. Dieses entspricht einem Zeitintervall von etwa 20 msek.

Der Vorhersage-Parameterrechner 15 bearbeitet so Sprachablastwerte der Speichereinheit 13. um eine Folge von Parametersignalen ;) = ;/i. ./>. ... a„ zu erzeugen, die periodisch zur Nachstellung der Vorhcrsageschaltung 14 verwendet werden. Die Paramcnterwer-Ic .7 werden so gewühlt, daß sie den quadratischen Mittelwcrt-Vorhersagefehler des Systems minimal halten. Eine ausführliche Erläuterung der Beziehung der Parametersignale <; zu dem Eingangssignal, ihrer Erzeugung und die Art in der sie zur Steuerung der Vorhersageschaltung verwendet werden, werden ausführlich in der obengenannten US-Patentschrift erläutert. Die Parametersignale des Vorhersage-Parameterrechners 15 werden noch vordem Zeitpunkt erzeugt, zu dem ein Signalblock in der Vorhersageschaltung 14 verarbeitet wird, und zwar wegen der der Vorhersageoperation inhärenten Verzögerung. In typischer Weise v/erden die Parametersteuersignale innerhalb eines Intervalls erzeugt, daß der Zeit von annähet nd 60 Abtastungen entspricht.

Die Abtastwerte, die von der adaptiven Vorhersageschaltung 14 erzeugt werden, werden in dem Subtrahiernetz 16 von dem tatsächlichen Wert der entsprechenden Signalabtastungen, die von der Speichereinheit 13 zu dem Subtrahiernetz 16 übertragen werden, subtrahiert. Das sich ergebende Differenzsignal repräsentiert den Fehler bei der Vorhersage des Signaiwertes. Dieses Signa! wird daher »Vorhersagefehler« genannt. Offensichtlich wird eine geeignete Verzögerung vorgesehen, beispielsweise für das Auslesen der Abtastwerte aus der Speichereinheit 13 oder bei uVer Abgabe an das Subtrahiernetzwerk 16, damit für die Vervollständigung der Vorhersageoperation genügend Zeit zur Verfügung steht. Natürlich werden alle hier beschriebenen Operationen auf konventionelle Weise synchron ausgeführt.

Es ist für die genannten Operationen von Bedeutung, daß die Signalabtastwerte weitgehend auf der Basis ihrer formanten Zugehörigkeit vorhergesagt werden. Vorhergesagte Signale stellen daher im wesentlichen die Formantstruktur des Eingangssignais dar. Da die vorhergesagten Signalwerte von den tatsächlichen Signalwerten subtrahiert werden, ist das Vorhersagefehlersignal am Ausgang des Subtrahiernetzwerkes 18 im wesentlichen frei von jeglicher Formanter Info-mation. Dennoch hat sich das Vorhersagefehlersignal zur Bewahrung und Bezeichnung des Grundfrequenzcharakter . des übertragenen Signals als notwendig erwiesen.

Die Vorhersagefehlersignale der Subtrahierschaltung 16 werden über das Tiefpassfilter 17 geleitet. Dieses Filter 17 besitzt eine relativ niedrige Gruniifrequewz. da die Sprachgrundfrequenz des anliegenden Signals im allgemeinen im unteren Bereich des Bandes liegt. Die Beseitigung höherer Frequenzanteile hilft bei der Isolation des Grundfrequenzsignals.

Die Positionen der individuellen Grundfrequen/impulse in dem übertragenen Signal werden dadurch bestimmt, daß die Abtastwerte lokalisiert werden, für die der Vorhersagefehlerwert groß ist. Die von dem Filter 17 übertragenen Abtastwerte besitzen daher Amplituden, die der Pifferen/ /wischen dem rbertrage· nen Signalabtastwert und dem vorhergesigten Signal proportional sind. Es isl daher notwendig, nur die Grundfrequenz des Vorhersage(Fehler-)Signals zu suchen. Dieses kam mit jedem beliebigen Grundfrequen/detekto' 18 durch gführt werden. Ein geeigneter Detektor besteht aus einem Halbwellengleichrichter 19, der zur Aufrechterhaltung nur der positive" Spitze des Signals verwendet wird, um spätere Operationen zu vereinfachen. Das gleichgerichtete Signal wird dann zu dem Spitzciiiibtrcnnci 20 übertragen, der den größten Abtastwert in jedem Signalrahnien sucht. Derartige Spitzcnabtrenner sind an sich bekannt und werden

häufig in (iniiKlfrequciizdeleklorcii verwende!, insbcsoiidere in solchen des Cepsiruintvps. Auf diese Weise ermittelte Spitzensignale werden /ii einem Schwellenweitdetektor 21 übertragen, iler auf einen Pegel eingestellt ist. bei eiern kleinere Spitzen am Ausgang des Analysalors unterdrückt werden. Der Schwellenwert ist so eingestellt, dall er an die festgestellten wahren Grundfrequenzspitzen angep.ißt ist. beispielsweise an F.rl'ahrungswerte. Die sich ergebende l'oljre von Grundfreqiien/impiilsen is', für die Grundfreqiienz oiler Periode des anliegenden Sprachsignals iiidikativ und sie kann auf jede gewünschte Weise weiter verwendet werden.

Alternativ hierzu kann, wie von früher schon bekannt. der Grundfrequenzdetektor einen Autokorrelator enthalten, dem ein Spitzenabtrenner und ein Schwellenwertdetektor nachfolgen.

F i g. 2 zeigt ein typisches Intervall des Sprachsignals. In der Zeile A ist ein stimmhaftes Spraehsegment gezeigt. Die Zeile Π illustriert die Impulsfolge, die von dem Grundfrequenzdetekto;· 18 als Ausgangssignal des Analysators erzeugt wurde. In der Zeile C ist dagegen ein typisches stimmloses Sprachsegment dargestellt.

Um sicherzustellen, daß eine klare Unterscheidung zwischen stimmhaften und stimmlosen Signalsegrncnten möglich ist. wird gemäß der Erfindung ein Stimmhaft-/ Stimmlos-Unterscheidungssignal erzeugt. Hiernach basiert die Stimmhaft7Stimmlos-Entscheidung auf dem Verhältnis des quadratischen Mittelwertes der Sprachabtastwerte zu dem quadratischen Mittelwert der Vorhersagefehlerabtastwerte. Es hat sich gezeigt, daß dieses Verhältnis für stimmlose Sprachabschnitte beträchtlich kleiner ist als für stimmhafte Sprachabschnitte und zwar in typischer Weise um einen Faktor von etwa 10.

Daher werden die Sprachabtastwerte von dem Abiastwert zu dem quadratischen Mittelwertnetzwerk 22 und die Vorhersagefehierabtastwcrte von dem Subtrahiernetzwerk 16 zu dem quadratischen Mittelwertnetzwerk 23 übertragen. Die Netzwerke für die Erzeugung eines Signals . das den Mittelwert der Folge von Abtastwerten proportional ist. sind an sich bekannt und sie werden häufig in Einrichtungen für die akustische Signalverarbeitung verwendet. Ein typisches Netzwerk enthält eine Einrichtung zur Erzeugung eines

Signals, das dem (Quadrat jedes Nignalablaslwenes proportional ist. ein Addiernetzwcrk ftir die Aufsuniniierung einer Folge um quadratischen Signalw eilen und ein Teilernetzwerk für die Erzeugung eines Signals, ilas viiien Durchschnittswert "der Mittelwert des aufsiiminierten quadratischen Signals proportional ist.

/wei Signale, jeweils dem quadratischen Mittelwert von Sprachabtasiwerten und dem quadratischen Mittelwert der Vorhersagefehlerabtastwerie proportional, werden zu dem Teiler 24 übertragen, der an seinem Ausgang ein Signal erzeugt, das dem Quotienten der beiden .Signalwerte entspricht. Dieses (Juoticnicnsignal wird dann /u dem Schwellen^ eisdetektor 25 übenragen. der ein erstes Signal fur (Juoiicnicnwertc groller als K). als Angabe für ein stimmhaftes Signalinter\all und ein zweites Signal fur (.hioiicntcii kleiner .ils M) erzeugt, das als Angabe fur ein stimmloses Signalintervall dient. Die Ausgangssignalc des Detektors 25 können in jeder gewünschten Weise verwendet werden, um den .Stimmcharakter des Eingangssigrals anzugeben

Die Einrichtung zur (irundfrcqucnzbcsiimiiuing gemäß der Erfindung verbessert zusammen mit der Siininiari-Eiitscheidimgseinriclitung weilgehend die Zuverlässigkeit, mit der zwei wichtige Sprachcharakteristiken bestimmt werden können. Diese verbesserte Zuverlässigkeit stammt in erster Linie von dem tatsächlichen Fehlen der Formantenstruktur in dem Signa) zu dem Zeitpunkt, zu dem die Grundfrequen/-messung durchgeführt wird. Darüberhinaus ist der beschriebene Grundfrequenzdeiektor insbesondere für eine Anwendung in einem Sprachübertragung- oder Sprachanalysesystem geeignet, indem eine lineare Vorhersageeinrichtung verwendet wird. Für diesen Fall wird das Vorhersagefehlersignal, das zu dem Subtrahiernetzwerk 16 übertragen wird, von der bei der Kodierung der Sprachsignale verwendeten Vorhersageschaitung erzeugt.

Ferner kann das Stimmentscheidungssignal im Zusammenhang mit anderen Kriterien verwendet werden, wie beispielsweise der spektralen Balance der niedrigen Frequenzen zu den höheren Frequenzen, '<im die Siimmhaft-/Stimmlos-Entscheidung noch zuverlässiger zu machen.

Hierzu 1 Blatt Zeichnungen

Claims

Patentansprüche:

1. Verfahren zur Bestimmung der Grundwellenperiode eines Sprachsignals, bei dem zur Vorhersage des augenblicklichen Wertes jedes Abtastwertes des Sprachsignals jeweils eine bewertete Summierung einer Anzahl früherer Sprachsignalabtastwerte verwendet wird und der vorhergesagte Signalabtasiwert von dem tatsächlichen Signalabtastwert zur Erzeugung eines Differenzsignals subtrahiert wird. dadurch gekennzeichnet.

daß als Zeitraum, welcher die Anzahl der Abtastwerte zur Gewinnung des vorhergesagten Abtastwertes umfaßt, I Millisekunde gewählt wird,
daß man die Frequenz feststellt, mit der Differenz- i\ Signalspitzenwerte oberhalb eines vorgegebenen Schwellenwertes auftreten,

und daß die so ermittelte Frequenz als Grundfrequenz des Sprachsignals mit der zugehörigen Grundwellenperiode klassifiziert wird.

2. Anwendung des Verfahrens nach Anspruch I zur Bestimmung des S;irnmhaf'.-Siirr.rn!oscharak;crs eines Sprachsignals, dadurch gekennzeichnet, daß ein erstes, zum Effektivwert des Sprachsignals proportionales Signal, ein zweites, zum Effektivwert des Differenzsignal proportionales und ein drittes Signal erzeugt werden, das zu dem Verhältnis des ersten zum zweiten Effektivwertsignal proportional ist. wobei Werte des dritten Signals größer als ein vorgegebener Schwellenwert zur Angabe eines jo stimmhaften Sprachsignals und Werte des dritten Signals kleber als der vorgegebene Schwellenwert zur Angabe eines stimmlosen Sprachsignals dienen.