DE69020736T2 - Wellenanalyse. - Google Patents
Wellenanalyse.Info
- Publication number
- DE69020736T2 DE69020736T2 DE69020736T DE69020736T DE69020736T2 DE 69020736 T2 DE69020736 T2 DE 69020736T2 DE 69020736 T DE69020736 T DE 69020736T DE 69020736 T DE69020736 T DE 69020736T DE 69020736 T2 DE69020736 T2 DE 69020736T2
- Authority
- DE
- Germany
- Prior art keywords
- channel
- frequency
- output signals
- channels
- threshold value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 238000000034 method Methods 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 230000006978 adaptation Effects 0.000 claims description 11
- 230000000737 periodic effect Effects 0.000 claims description 5
- 230000010354 integration Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 230000007423 decrease Effects 0.000 claims description 2
- 230000001960 triggered effect Effects 0.000 claims description 2
- 239000003381 stabilizer Substances 0.000 claims 1
- 230000003595 spectral effect Effects 0.000 abstract description 11
- 238000007906 compression Methods 0.000 abstract description 10
- 230000006835 compression Effects 0.000 abstract description 9
- 238000001514 detection method Methods 0.000 abstract 2
- 230000003044 adaptive effect Effects 0.000 description 40
- 239000002131 composite material Substances 0.000 description 15
- 230000004044 response Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 9
- 230000002123 temporal effect Effects 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000003638 chemical reducing agent Substances 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000001771 impaired effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R25/00—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
- H04R25/35—Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using translation techniques
- H04R25/356—Amplitude, e.g. amplitude shift or compression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2225/00—Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
- H04R2225/43—Signal processing in hearing aids to enhance the speech intelligibility
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Neurosurgery (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Holo Graphy (AREA)
- Analysing Materials By The Use Of Radiation (AREA)
Description
- Die Erfindung bezieht sich auf die Analyse von Wellenformen und insbesondere auf die zweidimensionale adaptive Schwellenbildung solcher Wellenformen, die spektral aufgelöst worden sind, sowie auf eine Vorrichtung hierfür und insbesondere auf die Verwendung in Verbindung mit einer Bank von Bandpaßkanal-Frequenzfiltern.
- Die Analyse von Wellenformen ist insbesondere auf Schallwellen und auf die Anwendung einer solcher Analyse in Hörhilfen und Spracherkennungssystemen anwendbar. Einige Schallwellenprozessoren beginnen das Analyseverfahren durch Unterteilen der Sprachwelle in getrennte Frequenzkanäle, entweder unter Anwendung von Fouriertransformationsverfahren oder einer Filterbank, welche die Filtrierung nachahmt, die man in einem größeren oder kleineren Ausmaß im menschlichen Hörsystem antrifft.
- Eines der Hauptprobleme, die man bei der Verwendung einer Filterbank antrifft, besteht darin, daß der Ausgang der Filterbank nicht nur Einzelheiten der Eingangssprachwelle, der Quelle, sondern auch Merkmale enthält, die für die Filterbank selbst charakteristisch sind. Die Merkmale des Ausgangs einer Filterbank, die notwendigerweise durch die Filterbank hervorgerufen werden, umfassen die spektrale und zeitliche Verbreiterung und Verschmierung des Ausgangs in Bezug auf den Eingang.
- Es sind angepaßte Filter bekannt, die den notwendigerweise durch eine Filterbank verursachten Wirkungen entgegenwirken, solche angepaßten Filter wirken jedoch nicht den Wirkungen entgegen, die in allen Dimensionen der Filterbank verursacht werden, d.h. sowohl zeitlich als auch spektral. Ferner replizieren die angepaßten Filter die Filterbankwirkungen, kehren sie jedoch um und sind nicht empfindlich oder ansprechend für die tatsächlich auf der Quelle beruhende Information im Ausgang der Filterbank.
- Für eine wirksame Sprachanalyse ist es ferner notwendig, daß ungewünschtes "Rauschen", das anfänglich erfaßt wird, aus dem Ausgang der Filterbank begrenzt oder herausgenommen wird, und daß mehr wichtige Merkmale der zu analysierenden Sprachwelle betont werden.
- Der der Filterbank dargebotene dynamische Signalbereich ist enorm. Infolgedessen umfaßt eine zweite Stufe jeder Analyse gewöhnlich eine Kompression des dynamischen Bereichs. Obwohl die Kompression oftmals wesentlich ist, verursacht sie zwei weitere Probleme: sie verbreitert Merkmale im Ausgang der Filterbank und vermindert den Kontrast zwischen zwei benachbarten Merkmalen.
- Ein System für automatische Worterkennung ist in einem Artikel unter dem gleichen Titel in IEEE Spectrum, Band 8, Nr.8 (Clapper), Seiten 57 - 69, und in einem entsprechenden US- Patent Nr. 3 770 892 beschrieben. In diesem Artikel und dem entsprechenden Patent ist die spektrale Auflösung einer Eingangswellenform, z.B. Sprache, und ihre nachfolgende Analyse beschrieben. Bei dem beschriebenen System ist jedem Bandpaßfilter, das die spektrale Auflösung der Eingangswelle durchführt, ein Schwächungsglied zugeordnet, welches die natürliche Änderung der Intensität über die Frequenz kompensiert. Nach der spektralen Auflösung werden die Ausgänge von jedem Bandpaßfilter durch einen Gleichrichter und ein Tiefpaßfilter geleitet. Auf diese Weise wird nur die Einhüllendefunktion des Kanalausgangs als Ergebnis der vom Tiefpaßfilter durchgeführten Kurzzeitintegration erhalten. Sodann wird die Einhüllendefunktion jedes Kanalausgangs durch einen Amplitudenkomparator geleitet, um Spitzen in der Einhüllendenfunktion bezüglich den anderen Kanälen zu erfassen. Diese Spitzen werden nachfolgend in der Worterkennung verwendet. In dem Artikel wird festgestellt, daß der resultierende Ausgang des Systems die minimale Information liefert, welche zur Erkennung einer begrenzten Anzahl von individuellen Worten, die von einem einzigen Sprecher empfangen werden, erforderlich ist.
- Obwohl die Erfindung auf eine Anzahl von Wellen oder mechanischen Schwingungen anwendbar ist, ist die Erfindung besonders geeignet für die Anlayse von Schallwellen. Die Erfindung ist auf die Analyse von Schallwellen anwendbar, welche Musiknoten oder Sprache darstellen. Im Fall von Sprache ist die Erfindung insbesondere brauchbar für ein Spracherkennungssystem, in welchem sie eine Aufzeichnung von geschärften spektralen und zeitlichen Merkmalen in einem reduzierten dynamischen Bereich erzeugt, welche zur Unterscheidung zwischen periodischen Signalen, welche Stimmanteilen der Sprache entsprechen, und periodischen Signalen beiträgt, die Rauschen sein können.
- Die Erfindung sucht daher ein Verfahren für die zweidimensionale adaptive Schwellenbildung des Ausgangs einer Filterbank und eine Vorrichtung hierfür zu schaffen, welche solche Merkmale im Ausgang einer Filterbank beseitigen, die zwangsläufig durch die Filterbank gleichzeitig in allen Dimensionen hervorgerufen werden, welche unerwünschtes "Rauschen" aus dem Ausgang der Filterbank beseitigen, welche besondere, im Ausgang der Filterbank aufgrund der Quelle auftretende Merkmale betonen und welche einem Verschmieren infolge der Kompression am Ausgang der Filterbank entgegenwirken.
- Die Erfindung schafft ein Verfahren zum Analysieren einer Wellenform, welches umfaßt: spektrales Auflösen der Wellenform in eine Anzahl von Frequenzkanalausgangssignalen; Vergleichen der Amplitude jedes der Frequenzkanalausgangssignale mit einem jeweils einzelnen Schwellenwert; und Erzeugen einer Anzahl von Ausgangssignalen, welche den Frequenzkanalausgangssignalen in Bezug auf die Schwellenwerte entsprechen, dadurch gekennzeichnet, daß die jeweils einzelnen Schwellenwerte verändert werden in Abhängigkeit sowohl von der vorherigen Frequenzkanalausgangssignal-Amplitude im gleichen Kanal als auch von den Frequenzkanalausgangssignal-Amplituden in benachbarten Kanälen, um dadurch sowohl hinsichtlich der Zeit als auch Frequenz gleichzeitig solche Merkmale in der Anzahl von Frequenzkanalausgangssignalen zu beseitigen, die durch den Schritt des spektralen Auflösens der Wellenform verursacht worden sind, und die Festlegung der Merkmale der auf der Quelle beruhenden Wellenform in der Anzahl von erzeugten Ausgangssignalen aufrechtzuerhalten.
- Die Erfindung schafft weiter ein Verfahren, bei welchem die einzelnen Schwellenwerte für jeden Kanal in Abhängigkeit von den vorherigen Amplituden der Frequenzkanalausgangssignale, die aus einer Anzahl von Kanälen erhalten werden, verändert werden, sowie ein Verfahren, bei welchem der jeweils einzelne Schwellenwert für jeden Kanal erhöht wird, um einen angepaßten Schwellenwert zu bilden, wenn ein benachbarter Kanal einen größeren Schwellenwert besitzt. Ferner schafft die Erfindung ein Verfahren, bei welchem der jeweils einzelne Schwellenwert für jeden Kanal erhöht wird, um einen revidierten Schwellenwert zu bilden, wenn die Amplitude des Frequenzkanalausgangssignals größer ist als der einzelne Schwellenwert, mit dem die Amplitude verglichen wird.
- Vorzugsweise schafft die Erfindung ein Verfahren, bei welchem der jeweils einzelne Schwellenwert für jeden Kanal so ausgebildet ist, daß er in einer ersten Richtung quer zu den Kanälen über den Frequenzbereich und in einer zweiten Richtung längs aufeinanderfolgender Amplituden der Frequenzkanalausgangssignale abnimmt, und bei welchem die Wellenform durch die Verwendung einer Filterbank spektral aufgelöst wird und die Abfallgeschwindigkeit in den beiden genannten Richtungen geringer ist als die natürliche Abfallgeschwindigkeit des Ausgangssignals jedes der Frequenzkanäle der Filterbank.
- Gemäß einem zweiten Aspekt schafft die Erfindung eine Vorrichtung zum Analysieren einer Wellenform, welche aufweist: eine Auflöseeinrichtung zum spektralen Auflösen der Wellenform in eine Anzahl von Frequenzkanalausgangssignalen; sowie eine Anpassungseinrichtung, die mit der Auflöseeinrichtung gekoppelt ist und eine Vergleichseinrichtung zum Vergleichen der Amplituden jedes der Frequenzkanalausgangssignale mit einem jeweils einzelnen Schwellenwert und zum Erzeugen einer Anzahl von Ausgangssignalen, welche den Frequenzkanalausgangssignalen in Bezug auf die Schwellenwerte entsprechen, aufweist, dadurch gekennzeichnet, daß die Anpassungseinrichtung eine Einrichtung zum Verändern der jeweils einzelnen Schwellenwerte in Abhängigkeit sowohl von der vorhergehenden Frequenzkanalausgangssignal-Amplitude im gleichen Kanal als auch von den Frequenzkanalausgangssignal-Amplituden in benachbarten Kanälen aufweist, um dadurch diejenigen Merkmale im Ausgangssignal der Auflöseeinrichtung gleichzeitig zu beseitigen, die durch die Auflöseeinrichtung hinsichtlich der Zeit und Frequenz erzeugt worden sind, und die Festlegung der Merkmale in der auf der Quelle beruhenden Wellenform in der Anzahl von erzeugten Aussgangssignalen aufrechtzuerhalten.
- Die Erfindung schafft ferner eine Vorrichtung, bei welcher die Vergleichseinrichtung eine Subtratktionseinrichtung ist, welche die jeweils einzelnen Schwellenwerte in jedem Kanal von den Amplituden der Frequenzkanalausgangssignale in den gleichen Kanälen subtrahiert, wobei die Anpassungseinrichtung ein Ausgangssignal erzeugt, wenn das Ergebnis der Subtraktion eine positive Differenz ist, sowie eine Vorrichtung, bei welcher die Anpassungseinrichtung einen ersten Selektor enthält, welcher den jeweils einzelnen Schwellenwert in jedem Kanal mit den einzelnen Schwellenwerten in benachbarten Kanälen vergleicht und den jeweils einzelnen Schwellenwert erhöht, um einen angepaßten Schwellenwert zu erzeugen, wenn ein benachbarter Kanal einen größeren einzelnen Schwellenwert besitzt. Darüber hinaus schafft die Erfindung eine Vorrichtung, bei welcher die Anpassungseinrichtung ferner einen zweiten Selektor enthält, welcher die jeweils einzelnen Schwellenwerte in jedem Kanal mit den Amplituden der Frequenzkanalausgangssignale in den gleichen Kanälen vergleicht und den jeweils einzelnen Schwellenwert erhöht, um einen revidierten Schwellenwert zu erzeugen, wenn die Amplitude des Frequenzkanalausgangssignals größer ist als der einzelne Schwellenwert, mit dem die Amplitude verglichen wird.
- Ferner schafft die Erfindung eine Hörhilfeeinrichtung, welche eine oben beschriebene Vorrichtung für die Analyse einer Schallwelle enthält, welche ferner eine mit der Anpassungseinrichtung gekoppelte Kombiniereinrichtung zum Kombinieren von Signalen für jeden der Frequenzkanäle für die Bildung einer Ausgangsschallwelle enthält.
- Die vorliegende Erfindung schafft ferner eine Hörhilfeeinrichtung, bei welcher die Auflöseeinrichtung zwei Ausgangssignale für jeden Kanal erzeugt, ein erstes Ausgangssignal, welches ein Wellenformkanalausgangssignal ist, und ein zweites Ausgangssignal, welches eine Einhüllendefunktion des Wellenkanalausgangssignals ist, und bei welcher die Kombiniereinrichtung eine mit der Anpassungseinrichtung und der Auflöseeinrichtung gekoppelte Gateeinrichtung zum Aufgeben der Ausgangssignale für jeden der Frequenzkanäle auf jeweilige Wellenformkanalausgänge umfaßt, um torgeschaltete Ausgangssignale zu erzeugen; sowie eine Addiereinrichtung, welche mit der Gateeinrichtung gekoppelt ist, zum Addieren der torgeschalteten Eingangssignale für jeden der Frequenzkanäle miteinander, um die Ausgangsschallwelle zu erzeugen. Vorzugsweise weist die Hörhilfeeinrichtung ferner eine mit der Anpassungseinrichtung, der Auflöseeinrichtung und der Gateeinrichtung gekoppelte Steuereinrichtung zum Skalieren der Einhüllendefunktionen für jeden der Frequenzkanäle in Bezug auf die jeweiligen Ausgangssignale derart auf, daß der Betrag der Größenänderung der Ausgangsschallwelle gesteuert werden kann.
- Die Erfindung schafft ferner eine Spracherkennungsvorrichtung, welche eine oben beschriebene Vorrichtung enthält, zusammen mit einer Einrichtung zum Erzeugen einer Hörmerkmalsextraktion aus der Analyse der Kanalwellenformen gemeinsam mit einer syntaktischen und semantischen Prozessoreinrichtung, um syntaktische und semantische Begrenzungen für die Verwendung in der Sprachanalyse der Schallwelle zu erzeugen.
- Eine Ausführungsform der Erfindung wird nun mit Bezugnahme auf die Figuren beispielhaft beschrieben. Es zeigen:
- Figur 1 ein Eingangssignal in eine Filterbank;
- Figur 2 das Ausgangssignal eines Kanals der Filterbank in Abhängigkeit vom Eingangssignal der Fig.1
- Figur 3 ein komprimiertes Ausgangssignal der Fig.2 mit der Zeitentwicklung einer erfindungsgemäßen Arbeitsvariablen;
- Figur 4 ein adaptiertes Ausgangssignal der Fig.3 gemäß
- der Erfindung;
- Figur 5 ein Eingangssignal in eine Filterbank;
- Figur 6 ein idealisiertes Ausgangssignal über alle Kanäle der Filterbank in Abhängigkeit vom Eingangssignal der Fig.5;
- Figur 7 das Aussgangssignals über alle Kanäle der Filterbank in Abhängigkeit von dem Eingangssignal der Fig.5 mit einer erfindungsgemäßen Arbeitslinie;
- Figur 8 ein adaptiertes Ausgangssignal der Fig.7 gemäß der Erfindung;
- Figur 9 ein Schaltbild eines Verfahrens für die zweidimensionale adaptive Schwellenbildung gemäß der Erfindung;
- Figur 10 die dreidimensionale Fläche des Ausgangssignals aller Kanäle einer Filterbank in Abhängigkeit vom Eingangssignal der Fig.1;
- Figur 11 eine dreidimensionale Fläche des Ausgangssignals der Fig.10 nach Kompression;
- Figuren 12 und 14 dreidimensionale Arbeitsflächen in Abhängigkeit vom komprimierten Ausgangssignal der Fig.11 gemäß der Erfindung;
- Figuren 13 und 15 dreidimensionale Flächen der adaptierten Ausgangssignale der Figuren 12 bzw. 14 gemäß der Erfindung;
- Figur 16 ein Schaltbild der erfindungsgemäßen adaptiven Schwellenbildungsvorrichtung;
- Figur 17 ein Blockschaltbild der erfindungsgemäßen Spracherkennungsvorrichtung; und
- Figur 18 ein Blockschaltbild einer Hörhilfeeinrichtung mit der erfindungsgemäßen adaptiven Schwellenbildungsvorrichtung.
- Die zweidimensionale adaptive Schwellenbildung des Ausgangssignals einer Filterbank beseitigt oder begrenzt die Probleme, die zwangsweise durch die Filterbank und durch die Kompression des Ausgangssignals der Filterbank entstehen. Figuren 1 und 8 zeigen, wie ein Eingangssignal durch eine Filterbank und durch Kompression erstens in Bezug auf die Zeit und zweitens in Bezug auf die Frequenz getrennt voneinander verändert werden, und wie die adaptive Schwellenbildung des veränderten Signals hinsichtlich der Zeit und hinsichtlich der Frequenz getrennt eine genauere Darstellung des ursprünglichen Eingangssignals erzeugt.
- In Fig.1 ist ein sich in der Zeit fortpflanzendes zusammengesetztes Eingangssignal dargestellt, in welchem ein Impuls sowie ein durch eine Resonanz gegangener Impuls enthalten ist, wobei der zweite 20 ms nach dem ersten beginnt. Die Y-Achse ist die Amplitude der Welle. Wenn das zusammengesetzte Signal durch ein auf 1,0 kHz zentriertes Bandpaßfilter gegangen ist, so ergibt sich das in Fig.2 dargestellte Ausgangssignal aus dem Filter. Es ist aus Fig.2 ersichtlich, daß die zwei das zusammengesetzte Signal bildenden Impulse verbreitert worden sind und man infolgedessen viel schwieriger zwischen den beiden Impulsen unterscheiden kann. Diese Verbreiterung wird durch das Impulsansprechen des Filters bewirkt und ist ein unvermeidliches Nebenprodukt des von einer Filterbank durchgeführten Vorgangs der spektralen Zerlegung. Fig.3 zeigt sodann das gleichgerichtete und logarithmisch komprimierte Ausgangssignal des Filters, wobei die Y-Achse numehr die Amplitude der Welle in Dezibel angibt. Die zwei das zusammengesetzte Signal bildenden Impulse sind wiederum schwierig zu unterscheiden, vielleicht nach der Kompression noch schwieriger.
- Die Abklinggeschwindigkeit des Impulsansprechens eines Filters ist eine negative Exponentialkurve, und da der Kompressor eine logarithmische Funktion auf das Ausgangssignal des Filters ausübt, ist die resultierende Abklingfunktion eine gerade Linie mit einer negativen Neigung. Der zweite Impuls, der durch einen Resonator gegangen ist, bewirkt, daß das Filterbankausgangssignal langsamer abklingt, und durch diese langsamere Abklinggeschwindigkeit läßt sich der erste Impuls vom zweiten Impuls unterscheiden. Die adaptive Schwellenbildung unterscheidet zwischen den zwei Impulsen durch Messung des Ausgangsssignals des Filters in Bezug auf das Tmpulsansprechen des Filters. Fig.4 zeigt das Ergebnis der adaptiven Schwellenbildung des Filterausgangssignals , und nunmehr kann man den Unterschied zwischen den zwei Impulsen klar sehen. Um die adaptive Schwellenbildung des Ausgangs des Filters zu erhalten, wird eine Arbeitsvariable in Abhängigkeit vom Ausgangssignal des Filters kontinuierlich verändert, und die Werte der Arbeitsvariablen bezüglich des Filterausgangssignals kann man als gepunktete Linie in Fig.3 sehen. Die Anordnung von Arbeitsvariablen bildet eine Arbeitslinie, deren Zeitentwicklung eine Arbeitsfläche in drei Dimensionen bildet.
- In Fig.5 ist abermals ein sich zeitlich fortpflanzendes zusammengesetzes Signal dargestellt, in diesem Fall ist das Signal jedoch aus zwei sinusförmigen Komponenten zusammengesetzt, einer mit 1000 Hz und der anderen mit 2300 Hz. Die letztere sinusförmige Komponente ist jedoch 24 dB schwächer als die erste, so daß das resultierende zusammengesetzte Signal im wesentlichen eine Sinuswelle mit 1 kHz ist, da der Bestandteil mit hoher Frequenz so klein ist. Fig. 6 zeigt das Langzeit- oder idealisierte Spektrum des zusammengesetzten Signals. Die Einhüllende des Ansprechens einer ganzen Filterbank in einem Zeitpunkt auf das zusammengesetzte Signal ist in Fig.7 dargestellt, und es ist ersichtlich, daß das Filterbankausgangssignal im Frequenzspektrum von einer Idealform weit entfernt ist. Wiederum ist die Ausbreitung der Spitzen hinsichtlich der Frequenz eine unvermeidbare Eigenschaft jeder Filterbank, die ein zweckmäßiges zeitliches Ansprechen besitzt und nicht ewig integrieren kann.
- Die adaptive Schwellenbildungsvorrichtung erfaßt Spektralmerkmale hinsichtlich der Frequenz des Ausgangssignals der Filterbank und berücksichtigt die Verschmierwirkung der Filterbank. Fig.8 zeigt das resultierende Signal nach der adaptiven Schwellenbildung des Ausgangs der Filterbank und es ist ersichtlich, daß das resultierende Ausgangssignal viel enger am Idealspektrum der Fig.6 liegt als das Filterbankausgangssignal. Die gepunktete Linie in Fig.7 zeigt die Werte der Arbeitsvariablen je Kanal der Filterbank in Abhängigkeit vom Ausgangssignal der Filterbank in diesem Zeitpunkt.
- Zusätzlich kann die adaptive Schwellenbildungsvorrichtung so ausgebildet werden, daß ihr Ansprechen auf das Filterbankausgangssignal entweder hinsichtlich der Zeit oder der Frequenz oder beider derart eingestellt wird, daß die Werte der Arbeitsvariablen von örtlichen Maxima langsamer abfallen als die Abklinggeschwindigkeit über die Kanäle der Filterbank. Dies führt zu kleinen Merkmalen, die am Filterbankausgang im Bereich eines unterdrückten größeren Merkmals erscheinen. Dies ist nützlich, indem "Rauschen" ebenfalls auf diese Weise unterdrückt werden kann.
- Durch die gleichzeitige Kombination der Wirkung der adaptiven Schwellenbildungsvorrichtung sowohl hinsichtlich der Zeit als auch der Frequenz wird eine zweidimensionale adaptive Schwellenbildung erzielt.
- Fig. 9 ist ein Blockschaltbild eines Verfahrens der adaptiven Schwellenbildung des Ausgangs einer Filterbank. Fig.9 zeigt drei Kanäle der Filterbank. In der Filterbank sind die Filter nach ihrer Mittenfrequenz geordnet, und die Bandbreite jedes Kanals steigt mit der Mittenfrequenz von etwa 70 Hz bei 500 Hz auf etwa 380 Hz bei 4000 Hz. Die Eingangswellenform (1) bildet das Eingangssignal in die Bandpaß-Filterbank (2), von der drei benachbarte Kanäle, die Kanäle i, j und k, in Fig. 9 dargestellt sind. Wenn man den Kanal j betrachtet, wird das Ausgangssignal der Filterbank für den Kanal als Eingangssignal in einen Kompressor (3) gegeben, der eine logarithmische Kompression am Ausgang des Filters für den Kanal j durchführt. Das Ausgangssignal des Kompressors 3 ist das Eingangssignal in eine adaptive Schwellenbildungvorrichtung (4), die in Fig.9 durch das gestrichelte Rechteck umgrenzt ist.
- Die adaptive Schwellenbildungsvorrichtung (4) erzeugt zwei Ausgangssignale . Das erste Ausgangssignal ist ein adaptiertes oder schwellenbegrenztes Ausgangssignal (5), das in der Analyse der Eingangswellenform (1) verwendet werden kann. Das zweite Ausgangssignal ist eine Arbeitsvariable oder ein Schwellenwert (6), der in der adaptiven Schwellenbildung des Filterausgangs dieses Kanals verwendet wird. In jedem Zeitpunkt bildet der Satz von schwellenbegrenzten Ausgangssignalen aus allen Kanälen einen Frequenzvektor und in der Zeit erzeugt der Frequenzvektor eine Fläche in drei Dimensionen, die als Ausgangsfläche bezeichnet wird. In gleicher Weise bildet in jedem Zeitpunkt der Satz von Arbeitsvariablen aus allen Kanälen einen Frequenzvektor, der in der Zeit eine dreidimensionale Fläche erzeugt, die als die Arbeitsfläche bezeichnet wird.
- Die adaptive Schwellenbildungsvorrichtung (4) enthält einen ersten Selektor (7), welcher das Maximum von drei Eingangssignalen (8,9,10) auswählt. Der erste Selektor (7) weist ferner einen vierten Eingang (11) auf, welcher eine Bereichsgrenze eingibt, um zu verhindern, daß die adaptive Schwellenbildungsvorrichtung (4) auf "Rauschen" anspricht und ein Ausgangssignal hierfür erzeugt. Das Ausgangssignal in Form eines adaptierten Schwellenwerts oder einer adaptierten Arbeitsvariablen aus dem ersten Selektor (7) wird getrennt in eine Subtraktionseinrichtung (12) und einen zweiten Selektor (13) gegeben. Das Ausgangssignal des Kompressors (3) wird ebenfalls getrennt in die Subtraktionseinrichtung (12) und den zweiten Selektor (13) gegeben.
- Die Subtraktionseinrichtung (12) subtrahiert das vom ersten Selektor (7) empfangenen Eingangssignal von dem vom Kompressor (3) empfangenen Eingangssignal . Wenn eine positive Differenz zwischen den zwei Eingangssignalen besteht, dann erzeugt die Subtraktionseinrichtung (12) ein Ausgangssignal , das gleich der Differenz zwischen den zwei Eingangssignalen ist. Das Ausgangssignal aus der Subtraktionseinrichtung (12) ist das schwellenbegrenzte Ausgangssignal (5). Der zweite Selektor (13) wählt das Maximum der zwei empfangenen Eingangssignale als sein Ausgangssignal in Form eines revidierten Schwellenwerts, und das Ausgangssignal des zweiten Selektor (13) ist die Arbeitsvariable (6).
- Das Ausgangssignal des zweiten Selektors (13), die Arbeitsvariable, wird als Eingangssignal in eine Verzögerungseinrichtung (14) gegeben. Die Verzögerungseinrichtung (14) ist mit einer ersten Reduziereinrichtung (15) gekoppelt, und die erste Reduziereinrichtung (15) ist wiederum mit einem Eingang (10) des ersten Selektors (7) gekoppelt. Die Verzögerungseinrichtung (14) verzögert das Eingangssignal der Arbeitsvariablen in den ersten Selektor (7) um eine Abtastperiode, so daß, wenn der erste Selektor (7) das Maximum zwischen den Eingangssignalen (8,9) und (10) auswählt, das Eingangssignal (10) die Arbeitsvariable von der vorangehenden Abtastung ist. Die Arbeitsvariable ist jedoch ebenfalls durch die erste Reduziereinrichtung (15) reduziert worden, bevor sie in den Eingang (10) des ersten Selektors (7) eingegeben wird.
- Die erste Reduziereinrichtung (15) läßt die Arbeitsvariable mit einer vorgegebenen Geschwindigkeit abklingen, die proportional zu der von der Filterbank durch das Impulsansprechen der Filterbank bewirkten zeitlichen Verschmierung ist.
- Die Eingänge (8) und (9) des ersten Selektors (7) sind mit der zweiten Reduziereinrichtung (16a) bzw. (16b) gekoppelt.
- Die Ausgangssignale des zweiten Selektors (13) der zwei benachbarten Kanäle i und k werden in die zweite Reduziereinrichtung (16a) bzw. (16b) eingegeben. Die Eingangssignale in die zweite Reduziereinrichtung (16a) und (16b) klingen mit einer vorbestimmten Geschwindigkeit ab, die proportional zu der von der Filterbank hinsichtlich der Frequenz bewirkten Verschmierung ist . In gleicher Weise wird der Ausgang aus dem zweiten Selektor (13), die Arbeitsvariable, ebenfalls als Eingangssignale in die entsprechende zweite Reduziereinrichtung in den Kanälen i und k eingegeben.
- Bei Betrieb werde das in Fig.1 gezeigte zusammengesetzte Signal als Eingangswellenform in die Filterbank (2) der Fig.9 betrachtet. Fig.10 zeigt die dreidimensionale Fläche, die durch alle Ausgänge der Kanäle der Filterbank als Funktion der Zeit erzeugt wird. Die Zeit schaltet vom linken Rand zum rechten Rand der Fläche fort und die Kanal-Mittenfrequenz steigt vom unteren Rand zum oberen Rand der Fläche. Jeder Schnitt durch die Fläche parallel zum unteren Rand der Figur zeigt das Ausgangssignal eines einzelnen Kanalfilters. Beispielsweise ist ein Schnitt durch die Mitte der Figur 10, der durch den vom zweiten Impuls des zusammengesetzten Signals erzeugten Kamm verläuft, gleich dem in Fig.2 gezeigten.
- Der linke Teil der Fig.10 zeigt, daß beim Durchgang des Impulses, der zeitlich sehr genau definiert ist, durch die Filterbank das Resultat viel weniger genau definiert ist. Dies ist ein direktes Ergebnis der Tatsache, daß zur Durchführung einer Spektralanalyse die Filter über die Zeit integrieren müssen und die Integration die Geschwindigkeit begrenzt, mit der das Filter ansprechen und abklingen kann.
- Das Ansprechen des Ausgangs aller Kompressoren (3) in Abhängigkeit von den Filterbankausgangssignalen ist in Fig.11 dargestellt. Das Ansprechen des Ausgangs der Kompressoren (3) in Abhängigkeit vom ersten Impuls ist im linken Teil der Fig.11 dargestellt, woraus ersichtlich ist, daß der Kompressionsvorgang sich zur zeitlichen Verschmierung addiert. Der zweite Impuls des zusammengesetzten Signals hat ein zeitlich genau definiertes Einsetzen und zusätzlich ein Merkmal, das hinsichtlich der Frequenz genau definiert ist, und in diesem Fall wünschen wir in der Lage zu sein, beide Aspekte des Signals gleichzeitig zu lokalisieren. Im rechten Teil der Fig.11 ist ersichtlich, daß wiederum der Kompressor das durch die Filterbank hervorgerufene Verschmierungsproblem verstärkt und daß das Verschmierungsproblem sowohl hinsichtlich der Frequenz als auch hinsichtlich der Zeit existiert.
- Bei der zweidimensionalen adaptiven Schwellenbilung wird das Ausgangssignal der Kompressoren (3) verwendet, um einen Satz von Arbeitsvariablen (6), eine für jeden Kanal, zu erzeugen. Die durch das zeitliche Verhalten der Anordnung dieser Variablen in Abhängigkeit von dem zusammengesetzten Signal erzeugte Arbeitsfläche ist in Fig.12 gezeigt. Es ist eine geglättete Version des Eingangssignals in das System, und diese Fläche ist die zweidimensionale adaptive Schwelle für dieses Signal. Wenn das Ausgangssignal der Kompressoren (3) diese Schwelle übersteigt, erzeugt die Substraktionseinrichtung (12) ein Ausgangssignal. Fig.13 zeigt die Ausgangsfläche für das zusammengesetzte Signal. Es ist ersichtlich, daß das Ansprechen auf die Impulse zeitlich mehr eingegrenzt ist und daß das Ansprechen auf das Einsetzen und die Resonanz des zweiten Impulses des zusammengesetzten Signals ebenfalls zeitlich bzw. frequenzmäßig viel besser definiert ist.
- In Fig.13 sind drei kleine Rauschkomponenten in einem der höheren Kanäle des Ausgangs der Kompressoren (3) in Abhängigkeit von dem zweiten Impuls des zusammengesetzten Signals (Fig.11) zu sehen. Diese drei Rauschkomponenten wurden durch das Filter erzeugt und durch den Kompressor für diesen Kanal verstärkt. Am Ausgang der adaptiven Schwellenbildungsvorrichtung werden diese Rauschkomponenten noch weiter verstärkt. Um die Verstärkung dieser kleinen Rauschanteile zu verhindern, wird der Bereich, über welchen die adaptive Schwellenbildungsvorrichtung arbeiten kann, eingeschränkt. Die Resultate dieser Einschränkung sind in den Figuren 14 und 15 gezeigt. Die Arbeitsfläche in Fig.14 ist im wesentlichen die gleiche, wie sie in Fig.12 gezeigt ist, mit der Ausnahme, daß die Hochfrequenzkanäle nicht im gleichen Ausmaß abklingen. In Fig. 15 ist ersichtlich, daß die Rauschkomponenten den Schwellenwert nicht mehr übersteigen, wenn die Bereichseinschränkung hervorgerufen ist, und so auf der Ausgangsfläche nicht mehr erscheinen.
- Fig.16 zeigt eine Schaltung für die adaptive Schwellenwertvorrichtung als ein Beispiel für die Art von Schaltung zur Durchführung der adaptiven Schwellenwerterzeugung des Ausgangs einer Filterbank. Wie vorher, zeigt Fig.16 drei Kanäle der adaptiven Schwellenwertvorrichtung. In jedem Fall ist ein Bandpaßfilter (2) vorgesehen, dem ein Kompressor (3) und sodann eine Schaltung folgt, welche die Arbeitsvariable (6) und den Systemausgang (5) für diesen Kanal erzeugt. In der analogen Schaltung ist die Arbeitsvariable (6) eine als die "Arbeitsspannung" bezeichnete Spannung.
- Ein Ausgangssignal wird erzeugt, wenn durch einen sehr kleinen Widerstand (17) in jedem Kanal Strom fließt. Dies entspricht dem Ausgangssignal , das erzeugt wird, wenn die Arbeitsvariable durch das vom Kompressor (3) kommende Eingangssignal angehoben wird, wie oben beschrieben. Die Diode (18) stellt direkt nach dem Kompressor (3) und vor dem Widerstand (17) sicher, daß das Eingangssignal vom Kompressor (3) die Arbeitsspannung nur anheben, niemals absenken kann. Wenn das Eingangssignal vom Kompressor (3) kleiner ist als die Arbeitsspannung, wird die Spannung für eine Zeit durch den Kondensator (19) aufrechterhalten. Die Spannung geht langsam durch den großen Widerstand (20) verloren. Die Spannung fällt auf die "Bereichsgrenze" ab, die, wie oben beschrieben, zur Begrenzung der Empfindlichkeit des Systems für "Rauschen" verwendet wird.
- Die Wechselwirkung zwischen den Arbeitsspannungen benachbarter Kanäle wird durch Verbinden der Kanäle über einen niedrigen Widerstand (21) bewirkt. Der Betrieb der analogen Schaltung bezüglich der Frequenz ist etwas anders als derjenige, den man erzielen würde, wenn das Blockschaltbild in Fig.9 buchstäblich übernommen würde. Im Fall des Blockschaltbildes ist die Geschwindigkeit, mit der die Arbeitsvariablen über die Frequenzkanäle weg abfallen können, konstant, d.h., sie bewirkt ein lineares Abfallen des Schwellenwerts als Funktion des Kanalabstands. Im Fall der analogen Schaltung sinkt die Geschwindigkeit, mit der die Arbeitsvariablen abfallen, wenn man immer weiter von einem lokalen Maximum fortschreitet. Die Form der Funktion ist in Fig.7 durch die gestrichelte Linie dargestellt. Eine auf diese Weise berechnete Arbeitsfläche ist eine bessere Anpassung an das Filteransprechen als eine gerade Linie.
- Obwohl im obigen Beispiel der erste Selektor (7) Eingänge über die zweite Reduziereinrichtung (16a) und (16b) nur aus den benachbarten Kanälen empfing, ist es möglich, daß mehr als zwei Kanäle innerhalb der Frequenznachbarschaft eines bestimmten Kanals Arbeitsvariable zum ersten Selektor (7) eines bestimmten Kanals liefern. So können die Arbeitsvariablen für alle Kanäle durch die Filterbank-Kanalausgänge von mehr als drei Kanälen beeinflußt werden.
- Eine Anwendung dieses Verfahrens und dieser Vorrichtung ist diejenige der Analyse von Sprachwellenformen. Sie sind jedoch auch brauchbar zum Analysieren von Musik, Maschinenlärm und anderen komplexen Wellenformen.
- In Fig.17 ist ein Blockschaltbild eines Spracherkennungssystems dargestellt. Eine Spracherkennungsvorrichtung ist ein System zum Auffassen von Sprache aus der umgebenden Luft und zur Erzeugung einer geordneten Aufzeichnung der von der akustischen Welle getragenen Wörter. Die Hauptkomponenten einer solchen Vorrichtung sind: (a) eine Filterbank, welche die akustische Welle in Frequenzkanäle aufteilt, (b) ein Satz von Einrichtungen, welche die Informationen in den Kanälen verarbeiten, um Tonhöhe und andere Sprachmerkmale herauszuziehen, und (c) eine linguistische Verarbeitung, welche die Merkmale in Verbindung mit linguistischen und möglicherweise semantischen Kenntnissen analyisert, um zu erfassen, was ursprünglich gesagt wurde.
- Die wichtigsten Teile der Sprache für Spracherkennungszwecke sind die Stimmanteile der Sprache, insbesondere Vokaltöne. Die Stimmtöne werden durch das Schwingen der Luftsäule in der Kehle und dem Mund durch Öffnen und Schließen der Stimmbänder erzeugt. Die resultierenden Stimmtöne haben periodische Natur, wobei die Tonhöhe die Frequenz der Stimmschwingungen ist. Jeder Vokalton hat ferner eine distinktive Anordnung von vier Formanten, die harmonische Obertöne der Tonhöhe des Vokaltons sind, und die relativen Frequenzen der vier Formanten sind nicht nur für den Vokalton selbst charakteristisch, sondern auch für den Sprecher. Für ein wirksames Spracherkennungssystem ist es erforderlich, daß möglichst viel Information über Tonhöhe und Formanten in den Stimmtönen erhalten bleibt, während ebenfalls gewährleistet wird, daß anderes "Rauschen" die klare Identifizierung von Tonhöhe und Formanten nicht stört.
- Das in Fig.17 dargestellte Spracherkennungssystem empfängt eine Sprachwelle (1), die als Eingangssignal in eine Bank von Bandpaßfiltern (2) gegeben wird. Die Bank von Bandpaßfiltern (2) sieht vierundzwanzig Frequenzkanäle vor, die sich von einer niedrigen Frequenz von 100 Hz bis zu einer hohen Frequenz von 3700 Hz ändern. Natürlich könnten auch mehr Kanalfilter über einen viel weiteren oder engeren Bereich von Frequenzen verwendet werden. Die Signale von allen diesen Kanälen werden sodann in eine Bank von adaptiven Schwellenbildungsvorrichtungen (22) gegeben. Diese adaptiven Schwellenbildungsvorrichtungen (22) komprimieren und richten die Eingangsinformation gleich und bewirken ferner ein Schärfen der charakteristischen Eigenschaften der Eingangsinformation und reduzieren die Wirkungen des "Rauschens". Das in jedem Kanal durch die adaptiven Schwellenbildungsvorrichtungen (22) erzeugte Ausgangssignal liefert eine Information über die größeren Spitzenbildungen in der von jedem Kanal in der Filterbank (2) übertragenen Wellenform. Die Information wird sodann auf eine Bank von stabilisierten Bildgeneratoren (23) gegeben. Die stabilisierten Bildgeneratoren adaptieren die ankommende Information durch getriggerte Integration der Information in Form von Impulsströmen, um stabilisierte Darstellungen oder Bilder der Eingangsimpulsströme zu erzeugen. Die stabilisierten Bilder der Impulsströme werden sodann in eine Bank von Spiral-Periodizitätsdetektoren (24) gegeben, welche die Periodizität im stabilisierten Eingangsbild erfassen, und diese Information wird in den Höhenextraktor (25) gegeben. Der Höhenextraktor (25) erzeugt die Tonhöhe der Sprachwelle (1) und gibt diese Information in einen Gehörmerkmals-Extraktor (27). Die Bank von stabilisierten Bildgeneratoren (23) gibt auch ein Eingangssignal in einen Timbre- Extraktor (26). Der Timbre-Extraktor (26) gibt ebenfalls Information bezüglich des Timbres der Sprachwelle (1) in den Gehörmerkmals-Extraktor (27). Zusätzlich kann ein direktes Eingangssignal in den Gehörmerkmals-Extraktor (27) von der Bank von adaptiven Schwellenbildungseinrichtungen (22) gegeben werden. Der Gehörmerkmals-Extraktor (27), ein syntaktischer Prozessor (28) und ein semantischer Prozessor (29) geben jeweils Eingangssignale in einen linguistischen Prozessor (30), welcher seinerseits ein Ausgangssignal (31) in Form einer geordneten Aufzeichnung von Wörtern erzeugt.
- Der Spiral-Periodizitätsdetektor (24) ist in GB 2169719 beschrieben worden und wird hier nicht weiter behandelt. Der Gehörmerkmals-Extraktor (27) kann eine Speichereinrichtung enthalten, welche verschiedene Timbre-Merkmale berücksichtigt. Er empfängt auch eine Anzeige aller periodischen Merkmale, die durch den Höhenextraktor (25) erfaßt wurden. Es wird festgestellt, daß die Eingänge zum Gehörmerkmals-Extraktor (27) eine Spektraldimension besitzen, und so kann der Gehörmerkmals-Extraktor Vokalunterscheidungen auf der Basis von Formanteninformation wie irgendein anderes Sprachsystem machen. In gleicher Weise kann der Gehörmerkmals-Extraktor zwischen Reibelauten, wie /f/ und /s/ auf einer quasispektralen Basis unterscheiden. Einer der Vorteile der vorliegenden Anordnung besteht darin, daß eine zeitliche Unterscheidung in den Frequenzkanälen aufrechterhalten bleibt, wenn eine Integration eintritt.
- Der linguistische Prozessor (30) leitet ein Eingangssignal vom Gehörmerkmals-Extraktor (27) sowie ein Eingangssignal vom syntaktischen Prozessor (28) ab, welcher Sprachregeln speichert und Einschränkungen vornimmt, um zur Vermeidung von Zweideutigkeiten beizutragen. Der Prozessor (30) empfängt auch ein Eingangssignal vom semantischen Prozessor (29), welcher vom Kontext abhängige Einschränkungen bewirkt, um zur Erfassung bestimmter Interpretationen in Abhängigkeit vom Kontext beizutragen.
- Im obigen Beispiel kann jede Einheit (23), (24), (25) und (26) eine programmierte Rechnereinrichtung enthalten, welche so ausgebildet ist, daß sie Impulssignale gemäß dem Programm verarbeitet. Der Gehörmerkmals-Extraktor (27) und die Prozessoren (28), (29), (30) und (31) können jeweils einen programmierten Computer enthalten oder an einen programmierten Computer mit Speichereinrichtungen zum Speichern irgendwelcher gewünschten syntaktischen oder semantischen Regeln und Berücksichtigung der Timbre-Extraktion angeschlossen sein.
- Die Vorrichtung hat ein weiteres Anwendungsgebiet: da die adaptive Schwellenbildung einer Wellenform in einer Art erfolgt, die eine Rücksynthese eines idealisierten Signals ermöglicht, das ein größeres Signal-Rauschverhältnis besitzt als das Original, so daß das idealisierte Signal für Leute mit beeinträchtigtem Gehör verständlicher sein sollte. So kann die adaptive Schwellenbildungsvorrichtung als Teil einer Hörhilfe verwendet werden.
- Die adaptive Schwellenbildungsvorrichtung kann angewendet werden, um das Leistungsvermögen von kompressiven Mehrkanal- Hörhilfen zu verbessern. Der Ausgang jedes Kanals der adaptiven Schwellenbildungsvorrichtung zeigt an, wann dieser Kanal eine potentielle Signalinformation aufweist. Diese Signalinformation kann verwendet werden, um den Ausgang des Filters in diesem Kanal durchzuschalten und so eine Wellenform zu erzeugen, die so bearbeitet ist, daß das Rauschen in diesem Kanal unterdrückt wird. Der Satz von bearbeiteten Wellenformen aus allen Kanälen kann sodann rekombiniert werden, um eine Wellenform zu erzeugen, die eine idealisierte Version der Signalinformation enthält. Diese idealisierte Version des Signals sollte für Leute mit beeinträchtigtem Gehör verständlicher sein.
- Eine Hörhilfeeinrichtung, welche die adaptive Schwellenbildungsvorrichtung enthält, ist als Blockschaltbild in Fig.18 gezeigt und hat einen ähnlichen Aufbau wie die in Fig.9 gezeigte Einrichtung. In diesem Fall ist das Ausgangssignal der Filterbank (2), das zum Kompressor (3) geht, die Einhüllende des Filterbanksignals und nicht die Wellenform selbst. Der Wellenausgang vom Bandpaßfilter geht jedoch ebenfalss direkt zum Multiplier (32) durch die adaptive Schwellenbildungsvorrichtung (4). Das Ausgangssignal des Kompressors (3), welches das Eingangssignal zur adaptiven Schwellenbildungsvorrichtung (4) ist, wird ebenfalls nach der adaptiven Schwellenbildungsvorrichtung (4) zu einer Skaliereinrichtung (33) geleitet. Der Skalierkoeffizient der Skaliereinrichtung (33) erzeugt eine Steuerung des Betrages der eintretenden Signalgrößennormalisierung. Das Ausgangssignal der Skaliereinrichtung (33) wird durch eine Subtraktionseinrichtung (34) vom Schwellenausgangssignal der adaptiven Schwellenbildungsvorrichtung (4) subtrahiert. Das Ergebnis dieses Vorgangs wird sodann durch eine Anti-Log-Einrichtung (35) expandiert und das Ergebnis bildet das zweite Eingangssignal in den Multiplier (32). Das Ausgangssignal des Multipliers (32) ist eine durchgeschaltete Version des Bandpaßfilterausgangssignal in welchem die Signaleigenschaften verbessert sind. Die Ausgangssignale aller Kanäle können sodann durch eine Addiereinrichtung (36) miteinander addiert werden, um eine Wellenform zu bilden, welche die Signaleigenschaften aller Kanäle kombiniert enthält, und diese Wellenform bildet das Ausgangssignal der Hörhilfeeinrichtung.
Claims (24)
1. Verfahren zum Analysieren einer aus einer Quelle
stammenden Wellenform (1), welches umfaßt: spektrales
Auflösen (2) der Wellenform (1) in eine Anzahl von
Frequenzkanalausgangssignalen; Vergleichen (12) der Amplitude
jedes der Frequenzkanalausgangssignale mit einem jeweils
einzelnen Schwellenwert; und Erzeugen (4) einer Anzahl
von Ausgangssignalen, welche den
Frequenzkanalausgangssignalen in Bezug auf die Schwellenwerte entsprechen,
dadurch gekennzeichnet, daß die jeweils einzelnen
Schwellenwerte verändert (7) werden in Abhängigkeit
sowohl von der vorherigen Frequenzkanalausgangssignal-
Amplitude im gleichen Kanal (13,14,15;18) als auch von
den Frequenzkanalausgangssignal-Amplituden in
benachbarten Kanälen (16a,16b;21), um dadurch sowohl hinsichtlich
der Zeit als auch Frequenz gleichzeitig solche Merkmale
in der Anzahl von Frequenzkanalausgangssignalen zu
beseitigen, die durch den Schritt des spektralen
Auflösens der Wellenform (1) verursacht worden sind, und die
Festlegung der Merkmale der auf der Quelle beruhenden
Wellenform (1) in der Anzahl von erzeugten
Ausgangssignalen aufrechtzuerhalten.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die einzelnen Schwellenwerte für jeden Kanal in
Abhängigkeit von den vorherigen Amplituden der
Frequenzkanalausgangssignale, die aus einer Anzahl von Kanälen
erhalten werden, verändert werden.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
der jeweils einzelne Schwellenwert für jeden Kanal
erhöht wird, um einen angepassten Schwellenwert zu
bilden, wenn ein benachbarter Kanal einen größeren
einzelnen Schwellenwert besitzt.
4. Verfahren nach Anspruch 2, dadurch gekennzeichnet, daß
der jeweils einzelne Schwellenwert für jeden Kanal
erhöht wird, um einen revidierten Schwellenwert zu
bilden, wenn die Amplitude des
Frequenzkanalausgangssignals größer ist als der einzelne Schwellenwert, mit dem
die Amplitude verglichen wird.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
der jeweils einzelne Schwellenwert für jeden Kanal so
ausgebildet wird, daß er in einer ersten Richtung quer
zu den Kanälen über den Frequenzbereich und in einer
zweiten Richtung längs aufeinanderfolgender Amplituden
der Frequenzkanalausgangssignale abnimmt.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß
der einzelne Schwellenwert für jeden Kanal daran
gehindert wird, unter einen vorbestimmten Grenzwert
abzusinken.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, daß
die Wellenform (1) durch die Verwendung einer Filterbank
(2) spektral aufgelöst wird und daß die
Abfallgeschwindigkeit in den beiden genannten Richtungen geringer ist
als die natürliche Abfallgeschwindigkeit des
Ausgangssignals jedes der Frequenzkanäle der Filterbank (2).
8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die Amplitudender Ausgangssignale für jeden Kanal von
der Differenzzwischen den Amplituden der
Frequenzkanalausgangssignaleund den jeweils einzelnen
Schwellenwerten
dieser Kanäle abhängen.
9. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
die benachbarten Frequenzkanäle die unmittelbar
benachbarten Frequenzkanäle auf beiden Seiten des jeweiligen
Frequenzkanals sind.
10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, daß
die benachbarten Frequenzkanäle mehr als einen
benachbarten Frequenzkanal auf jeder Seite des jeweiligen
Frequenzkanals umfassen.
11. Vorrichtung zum Analysieren einer aus einer Quelle
stammenden Wellenform (1), welche aufweist: eine
Auflöseeinrichtung (2) zum spektralen Auflösen der Wellenform
(1) in eine Anzahl von Frequenzkanalausgangssignalen;
sowie eine Anpassungseinrichtung (4), die mit der
Auflöseeinrichtung (2) gekoppelt ist und eine
Vergleichseinrichtung (12) zum Vergleichen der Amplitude jedes der
Frequenzkanalausgangssignale mit einem jeweils einzelnen
Schwellenwert und zum Erzeugen einer Anzahl von
Ausgangssignalen, welche den Frequenzkanalausgangssignalen
in Bezug auf die Schwellenwerte entsprechen, aufweist,
dadurch gekennzeichent, daß die Anpassungseinrichtung
(4) eine Einrichtung zum Verändern (7) der jeweils
einzelnen Schwellenwerte in Abhängigkeit sowohl von der
vorhergehenden Frequenzkanalausgangssignal-Amplitude im
gleichen Kanal (13,14,15;18) als auch von den
Frequenzkanalausgangssignal-Amplituden in benachbarten Kanälen
(16a,16b;21) aufweist, um dadurch diejenigen Merkmale im
Ausgangssignal der Auflöseeinrichtung (2) gleichzeitig
zu beseitigen, die durch die Auflöseeinrichtung (2)
hinsichtlich der Zeit und Frequenz erzeugt worden sind,
und die Festlegung der Merkmale in der auf der Quelle
beruhenden Wellenform (1) in der Anzahl von erzeugten
Ausgangssignalen aufrechtzuerhalten.
12. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet,
daß die Vergleichseinrichtung (12) eine
Subtraktionseinrichtung ist, welche die jeweils einzelnen
Schwellenwerte in jedem Kanal von den Amplituden der
Frequenzkanalausgangssignale in den gleichen Kanälen subtrahiert,
wobei die Anpassungseinrichtung (4) ein Ausgangssignal
erzeugt, wenn das Ergebnis der Subtraktion eine positive
Differenz ist.
13. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet,
daß die Anpassungseinrichtung (4) einen ersten Selektor
(7) enthält, welcher den jeweils einzelnen Schwellenwert
in jedem Kanal mit den einzelnen Schwellenwerten in
benachbarten Kanälen vergleicht und den jeweils
einzelnen Schwellenwert erhöht, um einen angepaßten
Schwellenwert zu erzeugen, wenn ein benachbarter Kanal einen
größeren einzelnen Schwellenwert besitzt.
14 Vorrichtung nach Anspruch 13, dadurch gekennzeichnet,
daß die Anpassungseinrichtung (4) ferner einen zweiten
Selektor (13) enthält, welcher die jeweils einzelnen
Schwellenwerte in jedem Kanal mit den Amplituden der
Frequenzkanalausgangssignale in den gleichen Kanälen
vergleicht und den jeweils einzelnen Schwellenwert
erhöht, um einen revidierten Schwellenwert zu erzeugen,
wenn die Amplitude des Frequenzkanalausgangssignals
größer ist als der einzelne Schwellenwert, mit dem die
Amplitude verglichen wird.
15. Vorrichtung nach Anspruch 11, dadurch gekennzeichnet,
daß eine erste (15) und zweite (16a,16b)
Reduziereinrichtung mit der Anpassungseinrichtung (4) gekoppelt
ist, wobei die Reduziereinrichtungen (15,16a,16b) den
jeweils einzelnen Schwellenwert für jeden Kanal in einer
ersten Richtung quer zu den Kanälen über den
Frequenzbereich bzw. in einer zweiten Richtung längs
aufeinanderfolgender Amplituden des Frequenzkanalausgangssignals im
gleichen Kanal abfallen lassen.
16. Vorrichtung nach Anspruch 15, dadurch gekennzeichnet,
daß die Auflöseeinrichtung (2) eine Bandpassfilterbank
ist und daß die Abfallgeschwindigkeit in beiden
Richtungen geringer ist als die natürliche
Abfallgeschwindigkeit des Ausgangssignals jedes der Frequenzkanäle der
Filterbank (2).
17. Vorrichtung nachAnspruch 11, dadurch gekennzeichnet,
daß Kompressoren (3) vorgesehen sind, welche mit den
Ausgängen derfrequenzkanäle der Auflöseeinrichtung (2)
gekoppelt sind.
18. Vorrichtung nach Anspruch 11 für die Analyse einer
Schallwelle, dadurch gekennzeichnet, daß stabilisierte
Bildgeneratoren (23) für die getriggerte Integrierung
der Ausgangssignale vorgesehen sind, um stabilisierte
Bilder der Ausgangssignale zu erzeugen.
19. Vorrichtung nach Anspruch 18, dadurch gekennzeichnet,
daß ein Periodizitätsdetektor (24) zum Extrahieren
periodischer Charakteristiken aus der Schallwelle
vorgesehen ist.
20. Vorrichtung nach Anspruch 18, dadurch gekennzeichnet,
daß Klangfarbenstabilisatoren (26) zum Extrahieren von
Klangfarbencharakteristiken aus der Schallwelle
vorgesehen sind.
21. Spracherkennungsvorrichtung, welche eine Vorrichtung
nach Anspruch 11 enthält, zusammen mit einer Einrichtung
(27) zum Erzeugen einer Hörmerkmalsextraktion aus der
Analyse der Kanalwellenformen gemeinsam mit einer
syntaktischen (28) und semantischen (29)
Prozessoreinrichtung, um syntaktische und semantische Begrenzungen für
die Verwendung in der Sprachanalyse der Schallwelle zu
erzeugen.
22. Hörhilfeeinrichtung,welche eine Vorrichtung nach
Anspruch 11 für die Analyse einer Schallwelle enthält,
welche ferner einemit der Anpassungseinrichtung (4)
gekoppelte Kombiniereinrichtung (36) zum Kombinieren von
Signalen für jeden der Frequenzkanäle für die Bildung
einer Ausgangsschallwelle enthält.
23. Hörhilfeeinrichtung nach Anspruch 22, bei welcher die
Auflöseeinrichtung (2) zwei Ausgangssignale für jeden
Kanal erzeugt, ein erstes Ausgangssignal, welches ein
Wellenformkanalausgangssignal ist, und ein zweites
Ausgangssignal, welches eine Einhüllendefunktion des
Wellenkanalausgangssignals ist, und bei welcher die
Kombiniereinrichtung (36) eine mit der
Anpassungseinrichtung (4) und der Auflöseeinrichtung (2) gekoppelte
Gateeinrichtung zum Aufgeben der Ausgangssignale für
jeden der Frequenzkanäle auf jeweilige
Wellenformkanalausgänge umfaßt, um torgeschaltete Ausgangssignale zu
erzeugen; sowie eine Addiereinrichtung, welche mit der
Gateeinrichtung gekoppelt ist, zum Addieren der
torgeschalteten Eingangssignale für jeden der Frequenzkanäle
miteinander, um die Ausgangsschallwelle zu erzeugen.
24. Hörhilfeeinrichtung nach Anspruch 23, bei welcher eine
mit deranpassungseinrichtung (4), der
Auflöseeinrichtung (2) und der Gateeinrichtung gekoppelte
Steuereinrichtungzum Skalieren der Einhüllendefunktionen für
jeden der Frequenzkanäle in Bezug auf die jeweiligen
Ausgangssignale derart vorgesehen ist, daß der Betrag
der Größenänderung der Ausgangsschallwelle gesteuert
werden kann.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB8911376A GB2234078B (en) | 1989-05-18 | 1989-05-18 | Analysis of waveforms |
PCT/GB1990/000766 WO1990014739A1 (en) | 1989-05-18 | 1990-05-17 | Analysis of waveforms |
Publications (2)
Publication Number | Publication Date |
---|---|
DE69020736D1 DE69020736D1 (de) | 1995-08-10 |
DE69020736T2 true DE69020736T2 (de) | 1996-03-21 |
Family
ID=10656928
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE69020736T Expired - Fee Related DE69020736T2 (de) | 1989-05-18 | 1990-05-17 | Wellenanalyse. |
Country Status (7)
Country | Link |
---|---|
US (1) | US5483617A (de) |
EP (1) | EP0473664B1 (de) |
JP (1) | JPH04505372A (de) |
AT (1) | ATE124834T1 (de) |
DE (1) | DE69020736T2 (de) |
GB (1) | GB2234078B (de) |
WO (1) | WO1990014739A1 (de) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2036450B1 (es) * | 1991-06-11 | 1996-01-16 | Jaro Juan Dominguez | Audio-educador electronico. |
US5776055A (en) * | 1996-07-01 | 1998-07-07 | Hayre; Harb S. | Noninvasive measurement of physiological chemical impairment |
US6421619B1 (en) * | 1998-10-02 | 2002-07-16 | International Business Machines Corporation | Data processing system and method included within an oscilloscope for independently testing an input signal |
EP1024435A1 (de) | 1999-01-28 | 2000-08-02 | Atr Human Information Processing Research Laboratories | Ein Mellin Transformations-/ Informations-Extraktor für Schwingungsquellen |
DE10031832C2 (de) * | 2000-06-30 | 2003-04-30 | Cochlear Ltd | Hörgerät zur Rehabilitation einer Hörstörung |
US20030007657A1 (en) * | 2001-07-09 | 2003-01-09 | Topholm & Westermann Aps | Hearing aid with sudden sound alert |
CA2354755A1 (en) * | 2001-08-07 | 2003-02-07 | Dspfactory Ltd. | Sound intelligibilty enhancement using a psychoacoustic model and an oversampled filterbank |
US7127076B2 (en) * | 2003-03-03 | 2006-10-24 | Phonak Ag | Method for manufacturing acoustical devices and for reducing especially wind disturbances |
DK1339256T3 (da) * | 2003-03-03 | 2018-01-29 | Sonova Ag | Fremgangsmåde til fremstilling af akustiske apparater og til at mindske vindforstyrrelsen |
US7643583B1 (en) * | 2004-08-06 | 2010-01-05 | Marvell International Ltd. | High-precision signal detection for high-speed receiver |
JP2006251712A (ja) * | 2005-03-14 | 2006-09-21 | Univ Of Tokyo | 観測データ、特に、複数の音源からの音が混在している音響信号の解析方法 |
EP1703494A1 (de) * | 2005-03-17 | 2006-09-20 | Emma Mixed Signal C.V. | Hörer |
GB2434876B (en) * | 2006-02-01 | 2010-10-27 | Thales Holdings Uk Plc | Audio signal discriminator |
RU2331893C1 (ru) * | 2006-11-02 | 2008-08-20 | Федеральное государственное унитарное предприятие "Центральный научно-исследовательский институт имени академика А.Н. Крылова" (ФГУП "ЦНИИ им. акад. А.Н. Крылова") | Способ выделения дискретных составляющих в спектре сигнала и устройство для его осуществления |
US9313596B2 (en) * | 2011-08-19 | 2016-04-12 | D'amore Engineering Llc | Audio signal distortion detection device |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3770892A (en) * | 1972-05-26 | 1973-11-06 | Ibm | Connected word recognition system |
US3947636A (en) * | 1974-08-12 | 1976-03-30 | Edgar Albert D | Transient noise filter employing crosscorrelation to detect noise and autocorrelation to replace the noisey segment |
US4250471A (en) * | 1978-05-01 | 1981-02-10 | Duncan Michael G | Circuit detector and compression-expansion networks utilizing same |
FR2433800A1 (fr) * | 1978-08-17 | 1980-03-14 | Thomson Csf | Discriminateur de parole et recepteur comportant un tel discriminateur |
US4680798A (en) * | 1984-07-23 | 1987-07-14 | Analogic Corporation | Audio signal processing circuit for use in a hearing aid and method for operating same |
US4700360A (en) * | 1984-12-19 | 1987-10-13 | Extrema Systems International Corporation | Extrema coding digitizing signal processing method and apparatus |
US4802225A (en) * | 1985-01-02 | 1989-01-31 | Medical Research Council | Analysis of non-sinusoidal waveforms |
US4998280A (en) * | 1986-12-12 | 1991-03-05 | Hitachi, Ltd. | Speech recognition apparatus capable of discriminating between similar acoustic features of speech |
US4813417A (en) * | 1987-03-13 | 1989-03-21 | Minnesota Mining And Manufacturing Company | Signal processor for and an auditory prosthesis utilizing channel dominance |
US5092343A (en) * | 1988-02-17 | 1992-03-03 | Wayne State University | Waveform analysis apparatus and method using neural network techniques |
-
1989
- 1989-05-18 GB GB8911376A patent/GB2234078B/en not_active Expired - Fee Related
-
1990
- 1990-05-17 DE DE69020736T patent/DE69020736T2/de not_active Expired - Fee Related
- 1990-05-17 AT AT90908284T patent/ATE124834T1/de not_active IP Right Cessation
- 1990-05-17 WO PCT/GB1990/000766 patent/WO1990014739A1/en active IP Right Grant
- 1990-05-17 EP EP90908284A patent/EP0473664B1/de not_active Expired - Lifetime
- 1990-05-17 JP JP2507984A patent/JPH04505372A/ja active Pending
-
1994
- 1994-08-19 US US08/293,119 patent/US5483617A/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
GB2234078B (en) | 1993-06-30 |
DE69020736D1 (de) | 1995-08-10 |
US5483617A (en) | 1996-01-09 |
EP0473664B1 (de) | 1995-07-05 |
JPH04505372A (ja) | 1992-09-17 |
GB2234078A (en) | 1991-01-23 |
EP0473664A1 (de) | 1992-03-11 |
GB8911376D0 (en) | 1989-07-05 |
ATE124834T1 (de) | 1995-07-15 |
WO1990014739A1 (en) | 1990-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69020736T2 (de) | Wellenanalyse. | |
DE69326044T2 (de) | Verfahren zur Erkennung von Sprachsignalen | |
DE69132645T2 (de) | Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals in einem verrauschten Sprachsignal | |
DE69420027T2 (de) | Rauschverminderung | |
DE3687815T2 (de) | Verfahren und vorrichtung zur sprachanalyse. | |
DE69901606T2 (de) | Breitbandsprachsynthese von schmalbandigen sprachsignalen | |
EP1405222B1 (de) | Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals | |
DE112009000805B4 (de) | Rauschreduktion | |
DE69105760T2 (de) | Einrichtung zur Signalverarbeitung. | |
DE3101851C2 (de) | Vorrichtung zum Erkennen von Sprache | |
EP1371055B1 (de) | Vorrichtung zum analysieren eines audiosignals hinsichtlich von rhythmusinformationen des audiosignals unter verwendung einer autokorrelationsfunktion | |
DE69607223T2 (de) | Verfahren zur Tonhöhenerkennung, insbesondere für Zupf- oder Perkussionsinstrumente | |
DE2825110A1 (de) | Verfahren zur erkennung kontinuierlicher sprachsignale | |
DE69720134T2 (de) | Spracherkenner unter Verwendung von Grundfrequenzintensitätsdaten | |
WO2003009273A1 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals | |
WO2002073592A2 (de) | Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals | |
DE4031638C2 (de) | ||
DE2020753A1 (de) | Einrichtung zum Erkennen vorgegebener Sprachlaute | |
EP1014340A2 (de) | Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale | |
DE69130687T2 (de) | Sprachsignalverarbeitungsvorrichtung zum Herausschneiden von einem Sprachsignal aus einem verrauschten Sprachsignal | |
DE69922769T2 (de) | Vorrichtung und Verfahren zur Sprachverarbeitung | |
DE69025932T2 (de) | Einrichtung und verfahren zum erzeugen von stabilisierten darstellungen von wellen | |
DE3882805T2 (de) | Verfahren zur Ermittlung von Merkmalen und Spracherkennung und Erkennungseinrichtung. | |
DE69026474T2 (de) | System zur Spracherkennung | |
DE2720666C2 (de) | Verfahren und Anordnung zur Geräuschanalyse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |