DE69519421T2

DE69519421T2 - Kodiergerät

Info

Publication number: DE69519421T2
Application number: DE69519421T
Authority: DE
Inventors: Masami Akamine; Tadashi Amada; Kimio Miseki; Masahiro Oshikiri
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1995-03-23
Filing date: 1995-09-29
Publication date: 2001-06-13
Anticipated expiration: 2015-09-30
Also published as: CA2159557A1; KR100209454B1; US5878387A; EP0734014B1; CA2159557C; DE69519421D1; EP0734014A1; EP1028411A2; EP1028411A3; CN1115781C; DE69531464D1; CN1140362A; JPH08263099A; EP1028411B1; DE69531464T2; KR960036343A

Description

Die Erfindung bezieht sich auf eine Codiervorrichtung zum Codieren von Sprachsignalen oder dergleichen mit einem hohen Wirkungsgrad und insbesondere auf eine Codiervorrichtung, die für eine Codierung mit variabler Rate geeignet ist.
Ein Codieren von Sprachsignalen mit einem hohen Wirkungsgrad und einer niedrigen Bitrate ist eine wichtige Technik zur wirksamen Verwendung von elektrischen Wellen und zur Reduzierung von Kommunikationskosten auf dem Gebiet der Kommunikation mit bewegbaren Vorrichtungen, wie beispielsweise Autotelefonen und dergleichen, und einer Hauskommunikation in einer Firma. In den letzten Jahren wurde ein Kommunikationssystem mit variabler Rate unter Verwendung eines Code-Multiplex-Vielfachzugriffsverfahrens (CDMA method = code division multiple access method) in den Vereinigen Staaten von Amerika geplant, und Erwartungen an Mehrkanaldienste und Dienste mit hoher Qualität, die die Merkmale einer variablen Rate am besten ausüben, sind gestiegen. Außerdem ist die Sprachcodierung mit variabler Rate ein Verfahren, das eine wirksame Verwendung von Speichermedien verwirklicht, da eine wirksame Bitverteilung durch eine Sprachcodierung mit variabler Rate vom Blickpunkt einer Anwendung von Speichersystemen gemäß den Merkmalen der Sprache erreicht werden kann. Vor diesem Hintergrund wurden Untersuchungen und Entwicklungen bei der Sprachcodierung mit variabler Rate aktiv durchgeführt.
Hinsichtlich einer festen Rate ist ein CELP-Verfahren (code excited linear prediction method) als ein Sprach-Codierschema bekannt, das imstande ist, eine Sprachsynthese mit einer Bitrate von 8 kbps oder weniger durchzuführen. Das CELP- Verfahren ist jedoch ein Haupttrend auf dem Gebiet einer variablen Rate. In diesem Fall wird eine Bitrate unter einer Mehrzahl von Arten, z. B. vier Arten von Codier-Bitraten, für jede feste Frame-Länge ausgewählt und ein Codieren wird von dem CELP-Verfahren durchgeführt, das optimiert ist, um der ausgewählten Bitrate zu entsprechen. Außerdem wird in einigen Fällen, wo die Codier-Bitrate so niedrig wie 1 kbps ist, ein Vocoder-System mit einem Zufallsrauschschema für ein Treibersignal genommen, und allgemeinen wird ein unterschiedliches Codierschema für jede Bitrate verwendet. Beim Codieren mit variabler Rate wird die Überlegenheit des Verfahrens abhängig davon entschieden, wie die durchschnittliche Bitrate verringert werden kann, während eine hohe Zielqualität erreicht werden kann, und daher ist ein Verfahren zum Auswählen eines Codier-Schemas für jedes Frame bedeutend. Hinsichtlich dieser Anforderung wurden die folgenden zwei Verfahren bei vorbekannten Techniken vorgeschlagen.
Als ein erste Verfahren gibt es beispielsweise ein QCELP- Verfahren von A. Dejaco u. a. (Referenz 1: "QCELP: The North American CDMA Digital Cellular Variable Rate Speech Coding Standard", Proc. of the IEEE Workshop on Speech Coding for Telecommunications, Seiten 5, 6, Oktober 1993). Dieses Verfahren nimmt ein System an, bei dem eine Frame-Leistung als ein charakteristischer Betrag extrahiert und ein Codierer auf der Grundlage des charakteristischen Betrags ausgewählt wird. Außerdem nimmt ein VRPS-Verfahren von E. Paksoy u. a. (Referenz 2: "Variable Rate Speech Coding with Phonetic Segmentation", Proc. ICASSP 93, Seiten I-155 158, April 1993) ein System an, bei dem ein Codierer auf der Grundlage des gewichteten Summenwerts von sieben charakteristischen Größen (characteristic amounts) ausgewählt, die eine niedrige Frequenzsprachenergie, ein Null-Übergangsverhältnis und dergleichen umfassen.
Obgleich die Codier-Systemauswahlverfahren, wie sie oben beschrieben sind, einen Verdienst dahingehend erlangen, daß die Verfahren durch relativ geringe Berechnungsmengen erreicht werden können, erreicht die decodierte Sprache nicht immer eine durch einen Rauschabstand (SNR; Signal-Noise- Ratio) oder dergleichen definiertes Zielqualität, sondern führt manchmal zu einer niedrigen Qualität. Unter der Bedingung, daß einem Eingangssignal Hintergrundrauschen hinzugefügt wird, kann außerdem eine Extrahierung charakteristischer Größen nicht korrekt durchgeführt werden, so daß korrekte Auswahlergebnisse manchmal nicht geeignet sind. Dies führt manchmal zu einer Qualitätsverschlechterung synthetisierter Sprache.
Als ein zweites Verfahren gibt es ein FS-CELP (finite state- CELP)-Verfahren (Referenz 3: "Finite State CELP for variable rate speech coding", IEE Proc.-I, Bd. 138, Nr. 6, Seiten 603- 610, Dezember 1991).
Obgleich das Codier-Auswahlverfahren dieser Referenz einen Verdienst dahingehend aufweist, daß ein Codierer so ausgewählt wird, daß die Zielqualität erreicht wird, müssen alle vorher erstellten Codierer ausgeführt werden, so daß es ein Problem dahingehend gibt, daß die Berechnungsmenge extrem groß ist.
Außerdem berichtet L. Cellario u. a. über ein Hybridverfahren, das das erste und zweite Verfahren, wie oben beschrieben, kombiniert (Referenz 4: "Variable Rate Speech Coding for UMTS", Proc. of the IEEE Workshop on Speech Coding for Telecommunications, Seiten I-2, Oktober 1993). Bei diesem Hybridverfahren werden erstens Codierer mit durch Analysieren einer Eingangsstimme erhaltenen charakteristischen Größen vorausgewählt, und zweitens führen die so vorausgewählten Codierer jeweils ein Codieren durch, um dadurch schließlich einen Codierer auszuwählen, der die Kostenfunktion minimiert. Obgleich eine Zwischenlösung zwischen dem ersten und zweiten Verfahren bei diesem Verfahren erreicht werden kann, muß eine Mehrzahl von Codierern betrieben werden, und daher bleibt dadurch ein Problem bestehen, daß die Berechnungsmengen groß werden.
Wie vorstehend beschrieben wurde, erreicht bei einem der herkömmlichen Verfahren, bei dem ein Eingangssignal analysiert wird, um eine charakteristische Größe zu extrahieren, und ein Codierer gemäß der charakteristischen Größe ausgewählt wird, eine decodierte Stimme nicht immer die Zielqualität und führt manchmal zu einer Verschlechterung der Qualität. Bei dem Fall, bei dem einem Eingangssignal Hintergrundrauschen hinzugefügt wird, kann die Extrahierung charakteristischer Größen nicht korrekt erreicht werden, so daß ein richtiger Codierer nicht ausgewählt werden kann, was zu einer Qualitätsverschlechterung synthetisierter Stimmen führt. Das andere Verfahren, bei dem alle erstellten Codierer verwendet werden, um eine Codierung durchzuführen, um den Codierer auszuwählen, der die Kostenfunktion minimiert, und bei Hybridverfahren, das die zwei vorhergehenden Verfahren kombiniert, führen zu einem Problem, daß die Berechnungsmenge extrem groß ist.
Außerdem wird beim herkömmlichen CELP-Codieren die Anzahl der Quantisierungs-Bits verringert, wenn die Quantisierungs- Bitrate verringert wird, wobei es schwierig wird, Änderungen in der Pitch-Zeitspanne (Tonlagen-Zeitspanne) und des Pitch- Signalverlaufs (Tonlagen-Signalverlaufs) auszudrücken. Da die Pitch-Information (Tonlagen-Information) in einem Codierschritt außerdem stark beschädigt wird, ist der Rückgewinnungsgrad der Pitch-Information sogar dann begrenzt, wenn die Rückgewinnungsverarbeitung der Pitch-Information unter Verwendung eines Nachfilters auf der Decodier-Seite durchgeführt wird.
Ferner werden, wenn codierte Daten, die mit einem hinzugefügten Transferpfadcode transferiert werden, direkt gespeichert oder ohne Änderung transferiert werden, redundante Bits, die sich auf einen Transferpfadcode beziehen und zum Speichern oder Transferieren der Daten vollständig unnötig sind, gespeichert oder zusammen transferiert, so daß dadurch ein Problem besteht, daß der Wirkungsgrad bei der Verwendung einer Speichervorrichtung oder eines Transferpfades verringert wird.
Ferner besteht dadurch ein Problem, daß, abhängig von dem Komprimierungsverfahren von Codier-Daten und den Spezifikationen einer Wiedergabevorrichtung, die Komprimierungs-Codier-Daten, die für einen Transfer oder eine Speicherung unnötig sind, gespeichert werden, und daher werden die Wirkungsgrade bei der Verwendung eines Aufzeichnungsmediums und eines Transferpfads verringert.
Außerdem werden nicht notwendige Codier-Daten, wie beispielsweise Transferpfadcodes und Komprimierungscode, wie sie oben beschrieben sind, für jede Datenrückgewinnung decodiert, wobei die Schaltungsgrößenordnung einer Wiedergabevorrichtung sowie der Leistungsverbrauch erhöht wird.
Die Aufgabe der Erfindung besteht in einem Bereitstellen einer Codiervorrichtung, die ein Auswählen eines Codier- Schemas verwirklicht, das imstande ist, eine Zielqualität mit einer kleinen Durchschnittsrate bei einer kleinen Berechnungsmenge zu erreichen.

Erfindungsgemäß werden vorgesehen:

ein Eingangsanschluß, dem ein Eingangssignal zugeführt wird;
ein adaptives Codebuch zum Speichern von Anregungssignalen als Vektoren;
ein Synthesefilter zum Ausbilden eines Synthesesignals aus dem im adaptiven Codebuch gespeicherten Vektoren; gekennzeichnet durch:
Mittel zur Ähnlichkeitsberechnung einer Ähnlichkeit zwischen dem von dem Synthesefilter erhaltenen Synthesesignal und einem Eingangssignal;
Codierschemamittel zum Bestimmen eines Codierschemas aus einer Mehrzahl von Codierschemata, die jeweils unterschiedliche Codier-Bitraten aufweisen, auf der Grundlage der Ähnlichkeit, die von dem Ähnlichkeitsberechnungsmittel erhalten wurde; und
eine Mehrzahl von Codiermitteln, die voneinander unterschiedliche Codierschemata aufweisen, wobei eines der Codiermittel von dem Codierschemabestimmungsmittel ausgewählt wird, und wobei das Eingangssignal dem ausgewählten Codiermittel eingegeben wird, wodurch die Codierung des Eingangssignals in Übereinstimmung mit dem bestimmten Codierschema durchgeführt wird.
Gemäß der Erfindung wird ein Bezugsvektor von einem adaptiven Codebuch extrahiert und durch das Synthesefilter gefiltert, aus dem ein Synthesesignal erzeugt wird, und wobei die Ähnlichkeit zwischen dem Synthesesignal und einem Zielsignal berechnet wird. Ein Codierschema wird auf der Grundlage der Ähnlichkeit bestimmt. Im allgemeinen ist ein adaptives Codebuch eine Komponente, die eine Codiervorrichtung eines CELP-Verfahrens bildet, und weist ein Merkmal auf, daß ein Redundanzgrad eines in einer Pitch-Zeitspanne wiederholten Zielsignals wirksam ausgedrückt werden kann, so daß ein Zielsignal mit einer hohen Genauigkeit durch einen Vektor eines in dem adaptiven Codebuch gespeicherten Treibersignals dargestellt werden kann, wenn ein Zielsignal ein Signal mit einer intensiven zyklischen Charakteristik ist. Daher kann, wenn ein Zielsignal ein Signal mit einer intensiven zyklischen Charakteristik ist, die Zielqualität sogar ohne weiteres erreicht werden, wenn dis einem Treibersignal zugewiesene Bitanzahl des Synthesefilters verringert wird. Zusammengefaßt kann die Codier-Bitrate abgesenkt werden. Umgekehrt kann, wenn ein Zielsignal ein Signal ist, das eine schwache zyklische Charakteristik aufweist, dieses Signal nicht durch ein adaptives Codebuch allein genau dargestellt werden. Daher kann die Zielqualität nicht erreicht werden, es sei denn, daß die Codier-Bitrate hoch ist.
Daher wird die Ähnlichkeit in synthetisierten Stimmpegeln zwischen einem aus einem adaptiven Codebuch ausgelesene Bezugsvektor und einem Zielvektor erhalten, und ein Codierschema einer niedrigen Bitrate wird ausgewählt, wenn die Ähnlichkeit hoch ist, wohingegen ein Codierschema einer hohen Bitrate ausgewählt wird, wenn die Ähnlichkeit gering ist. Auf diese Art und Weise ist es möglich, eine Auswahl eines adaptiven Codier-Schemas zu verwirklichen, das eine niedrige durchschnittliche Bitrate aufweist und imstande ist, eine Zielqualität zu erreichen.
Genauer gesagt besteht bei einem Verfahren, bei dem eine charakteristische Größe durch Analysieren eines Zielsignals extrahiert und ein Codierschema abhängig von der Größe und der Änderungsmenge der charakteristischen Größe ausgewählt wird, ein Problem darin, daß eine große Anzahl von Frames erzeugt werden, die die Zielqualität nicht erreichen. Bei der Erfindung wird jedoch ein adaptives Codebuch als eine die Codiervorrichtung bildende Komponente verwendet, um ein Codierschema auf der Grundlage einer Ähnlichkeit in synthetisierten Stimmpegeln auszuwählen, und daher kann die Zielqualität in fast allen Frames erreicht werden.
Währenddessen besteht bei dem Verfahren, bei dem ein Codieren durch Verwenden aller einer Mehrzahl von vorher bereitgestellten Codierern und einem Codierer, der die Kostenfunktion minimiert, durchgeführt wird, dadurch ein Problem, daß die Berechnungsmenge extrem hoch ist. Bei der Erfindung ist jedoch sogar in dem Fall nur ein Wiederherstellen eines adaptiven Codebuchs erforderlich, bei dem die Berechnungsmenge zum Entscheiden eines in ein Synthesefilter eingegebenen Bezugsvektors relativ groß ist und die Berechnungsmenge zum Auswählen eines Codier-Schemas ist erstaunlich klein. Wenn ein Bezugsvektor bestimmt wird und ein Codierschema durch Analysieren des Pitch eines Zielsignals ausgewählt wird, ist außerdem die Berechnungsmenge viel kleiner als diejenige, die im Fall erforderlich ist, wenn ein Wiederherstellen eines adaptiven Codebuchs durchgeführt wird. Wenn ein Bezugsvektor aus der Pitch-Information eines vorhergehenden Frames bestimmt wird und ein Codierschema ausgewählt wird, ist eine Erhöhung der Berechnungsmenge im wesentlichen nicht nötig.
Somit ist es erfindungsgemäß möglich, ein Codierschema auszuwählen, das eine durchschnittliche Rate mit einer kleinen Berechnungsmenge verringert und imstande ist, Zielqualität zu erreichen.
Außerdem besteht eine Aufgabe der Erfindung darin, eine Codiervorrichtung vorzusehen, so daß eine ausreichende Pitch- Information in der Codierseite erreicht werden kann, um eine ausreichend hohe synthetisierte Stimmqualität auf der Decodierseite zu erreichen.
Erfindungsgemäß wird eine Codiervorrichtung, die einen Pitch- Analysator zum Analysieren eines Eingangssignals bezüglich eines Pitchs umfaßt, um eine Pitch-Zeitspanne und einen Pitch-Gain (Tonlagen-Verstärkungsfaktor) zu erhalten, und eine Hervorhebungsschaltung zum Hervorheben des Eingangssignals unter Verwendung der Pitch-Zeitspanne und des Pitch-Gains vorgesehen.
Ferner besteht eine Aufgabe der Erfindung in einem Bereitstellen einer Vorrichtung zum Speichern und Transferieren codierter Daten, die den Nutzungswirkungsgrad eines Aufzeichnungsmediums und eines Transferpfads verbessert, während eine Vergrößerung in einem Schaltungsmaßstab einer Wiedergabevorrichtung einschränkt wird, und die den elektrischen Leistungsverbrauch verringern kann.
Erfindungsgemäß wird eine Vorrichtung zum Speichern und Transferieren von Daten vorgesehen, die einen Empfänger zum Empfangen codierter Daten, an die ein Übertragungscode angehängt ist, einen Datenprozessor, um Codes einschließlich des Übertragungscodes, der zum Transferieren von Daten nicht notwendig ist, zu decodieren und diesen zu löschen, und Betreuungscodes (attending codes) einschließlich eines Fehlerkorrekturcodes, die zum Speichern und Transferieren von Daten zu den empfangenen Codedaten notwendig sind, um komprimierte codierte Daten zu bilden, und einen Speicher- und Transferierungsabschnitt zum Speichern und Transferieren der komprimierten codieren Daten aufweist.
Die Erfindung kann aus der folgenden ausführlichen Beschreibung in Verbindung mit den beigefügten Zeichnungen besser verstanden werden, in denen zeigen:
Fig. 1 ein Blockdiagramm einer Codiervorrichtung, die ein adaptives Codebuch gemäß einer ersten Ausführungsform der Erfindung verwendet;
Fig. 2 ein Ablaufdiagramm zur Erläuterung von Verarbeitungsprozeduren der gleichen Ausführungsform;
Fig. 3 ein Blockdiagramm einer Codiervorrichtung, die eine Pitch-Analyse gemäß einer zweiten Ausführungsform der Erfindung verwendet;
Fig. 4 ein Ablaufdiagramm zur Erläuterung von Verarbeitungsprozeduren der gleichen Ausführungsform;
Fig. 5 ein Blockdiagramm einer Codiervorrichtung gemäß einer dritten Ausführungsform, die nach allen Bezugsvektoren eines Codebuchs sucht;
Fig. 6 ein Ablaufdiagramm zur Erläuterung von Verarbeitungsprozeduren der gleichen Ausführungsform;
Fig. 7 ein Blockdiagramm einer Codiervorrichtung gemäß einer vierten Ausführungsform, die Voraussagesignale gemäß der Erfindung verwendet;
Fig. 8 ein Ablaufdiagramm zur Erläuterung von Verarbeitungsprozeduren der gleichen Ausführungsform;
Fig. 9 ein Blockdiagramm einer Sprachcodiervorrichtung, die gemäß einer fünften Ausführungsform mit einer Mehrzahl von Codierungen vorsehen;
Fig. 10 ein Blockdiagramm einer Sprachcodiervorrichtung, die gemäß einer sechsten Ausführungsform der Erfindung imstande ist, Codierschemata auszuwählen;
Fig. 11 ein Blockdiagramm einer Codiervorrichtung, die gemäß einer siebten Ausführungsform der Erfindung einen Pitch- Hervorhebungsabschnitt vorsieht;
Fig. 12 ein Blockdiagramm des in Fig. 11 gezeigten Pitch- Hervorhebungsabschnitts;
Fig. 13 ein Blockdiagramm eines in Fig. 11 gezeigten Codierabschnitts;
Fig. 14 ein Ablaufdiagramm, das die Verarbeitung in dem Pitch-Hervorhebungsabschnitt zeigt;
Fig. 15 ein Blockdiagramm einer Codiervorrichtung, die durch Hinzufügen einer Rauschlöschvorrichtung zu der Vorrichtung von Fig. 11 erhalten wird;
Fig. 16 eine graphische Darstellung, die Kurzzeitspektren eines Eingangssignals zeigt;
Fig. 17 eine graphische Darstellung, die eine Beziehung zwischen einer Spektrum-Einhüllenden und einer Spektrum- Feinstruktur zeigt;
Fig. 18 eine graphische Darstellung, die ein Kurzzeitspektrum zeigt, wenn ein Eingangssignal einer Pitch- Hervorhebung unterworfen wird;
Fig. 19 eine graphische Darstellung, die eine Beziehung zwischen einer Spektrum-Einhüllenden und einer Spektrum- Feinstruktur zeigt;
Fig. 20 ein Blockdiagramm eines Sprachdecodierabschnitts hinsichtlich der Codiervorrichtung der Erfindung;
Fig. 21 ein Blockdiagramm einer Codiervorrichtung gemäß einer neunten Ausführungsform, die imstande ist, ein Pitch- Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
Fig. 22 ein Blockdiagramm einer Codiervorrichtung gemäß einer neunten Ausführungsform, die imstande ist, ein Pitch- Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
Fig. 23 ein Ablaufdiagramm, das die Verarbeitung im Bestimmungsabschnitt der neunten Ausführungsform der Erfindung zeigt;
Fig. 24 ein Ablaufdiagramm, das die Verarbeitung im Bestimmungsabschnitt der neunten Ausführungsform der Erfindung zeigt;
Fig. 25 ein Ablaufdiagramm, das die Verarbeitung im Bestimmungsabschnitt der neunten Ausführungsform der Erfindung zeigt;
Fig. 26 ein Ablaufdiagramm, das die Verarbeitung im Bestimmungsabschnitt der zehnten Ausführungsform der Erfindung zeigt;
Fig. 27 ein Blockdiagramm, das ein Modifikationsbeispiel der siebten Ausführungsform der Erfindung zeigt;
Fig. 28 ein Blockdiagramm, das die Struktur eines Codierabschnitts zeigt;
Fig. 29 ein Blockdiagramm, das ein Modifikationsbeispiel der siebten Ausführungsform der Erfindung zeigt;
Fig. 30 ein Blockdiagramm, das ein Modifikationsbeispiel der neunten Ausführungsform der Erfindung zeigt;
Fig. 31 ein Blockdiagramm, das ein Modifikationsbeispiel der neunten Ausführungsform der Erfindung zeigt;
Fig. 32 ein Blockdiagramm, das ein Modifikationsbeispiel der neunten Ausführungsform der Erfindung zeigt;
Fig. 33 ein Blockdiagramm, das ein Modifikationsbeispiel der zehnten Ausführungsform der Erfindung zeigt;
Fig. 34 ein Blockdiagramm, das ein Modifikationsbeispiel der zehnten Ausführungsform der Erfindung zeigt;
Fig. 35 ein Blockdiagramm, das ein Modifikationsbeispiel der zehnten Ausführungsform der Erfindung zeigt;
Fig. 36 ein Ablaufdiagramm, das die Verarbeitung in dem Bestimmungsabschnitt eines Modifikationsbeispiels der zehnten Ausführungsform der Erfindung zeigt;
Fig. 37 ein Blockdiagramm eines in einer Codiervorrichtung der Erfindung verwendeten Pitch-Hervorhebungsabschnitts;
Fig. 38 ein Ablaufdiagramm zur Erläuterung des Betriebs des Pitch-Hervorhebungsabschnitts von Fig. 37;
Fig. 39 ein Blockdiagramm eines Pitch- Hervorhebungsabschnitts gemäß einer weiteren Modifikation;
Fig. 40 ein Ablaufdiagramm für den Betrieb des in Fig. 39 gezeigten Pitch-Hervorhebungsabschnitts;
Fig. 41 ein Blockdiagramm eines Pitch- Hervorhebungsabschnitts gemäß einer weiteren Modifikation;
Fig. 42 ein Ablaufdiagramm für den Betrieb des in Fig. 41 gezeigten Pitch-Hervorhebungsabschnitts;
Fig. 43 ein Blockdiagramm eines Pitch- Hervorhebungsabschnitts gemäß einer weiteren Modifikation;
Fig. 44 ein Blockdiagramm eines Pitch- Hervorhebungsabschnitts gemäß einer weiteren Modifikation;
Fig. 45 ein Blockdiagramm eines Codierabschnitts der Codiervorrichtung der Erfindung;
Fig. 46 ein Blockdiagramm einer Codiervorrichtung mit einem Pitch-Hervorhebungsabschnitt gemäß einer elften Ausführungsform;
Fig. 47 ein Blockdiagramm einer Codiervorrichtung gemäß einer zwölften Ausführungsform, mit einer Rauschlöschvorrichtung, die mit einem Pitch- Hervorhebungsabschnitt verbunden ist;
Fig. 48 ein Blockdiagramm einer Codiervorrichtung gemäß einer dreizehnten Ausführungsform, die imstande ist, ein Pitch-Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
Fig. 49 ein Blockdiagramm einer Codiervorrichtung gemäß einer vierzehnten Ausführungsform, die imstande ist, ein Pitch-Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
Fig. 50 ein Blockdiagramm einer Codiervorrichtung gemäß einer fünfzehnten Ausführungsform, die imstande ist, ein Pitch-Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
Fig. 51 ein Blockdiagramm einer Codiervorrichtung gemäß einer sechzehnten Ausführungsform, die imstande ist, ein Pitch-Hervorhebungssignal und ein Eingangssignal beim Codieren zu schalten;
Fig. 52 ein Blockdiagramm, das die Struktur einer Vorrichtung zum Speichern und Transferieren codierter Daten gemäß der siebzehnten Ausführungsform der Erfindung zeigt;
Fig. 53 ein Ablaufdiagramm zur Erläuterung des Betriebs eines Datenverarbeitungsabschnitts;
Fig. 54 eine Figur, die insbesondere den Betrieb des Datenverarbeitungsabschnitts erläutert;
Fig. 55 ein Blockdiagramm, das die Struktur einer Vorrichtung zum Speichern und Transferieren von codierten Daten gemäß der achtzehnten Ausführungsform der Erfindung zeigt;
Fig. 56 ein Blockdiagramm, das die Struktur einer Vorrichtung zum Speichern und Transferieren von codierten Daten zusammen mit der Struktur einer Übertragungsvorrichtung gemäß der neunzehnten Ausführungsform der Erfindung zeigt;
Fig. 57A und 57B Blockdiagramme, die die Struktur einer Vorrichtung zum Speichern und Transferieren von codierten Daten zusammen mit der Struktur einer Übertragungsvorrichtung gemäß der zwanzigsten Ausführungsform der Erfindung zeigt; und
Fig. 58A und 58B Blockdiagramme, die die Struktur einer Vorrichtung zum Speichern und Transferieren von codierten Daten zusammen mit der Struktur einer Übertragungsvorrichtung gemäß der vierzigsten Ausführungsform der Erfindung zeigt:
Im folgenden werden Ausführungsformen der Erfindung mit Bezug auf die Zeichnungen erläutert.
Fig. 1 ist ein Blockdiagramm, das die Struktur eines Codierschema-Auswahlabschnitts 11 gemäß einer ersten Ausführungsform der Erfindung zeigt. Der Codierschema- Auswahlabschnitt 11 bestimmt ein auszuwählendes Codierschema auf der Grundlage eines Zielsignals r(n), das über einen Eingangsanschluß 12 eingegeben wird, und gibt Codierschema- Auswahlinformation I durch einen Ausgangsanschluß 13 aus. Der Auswahlabschnitt 11 umfaßt ein adaptives Codebuch 14, ein Synthesefilter 15, ein Ähnlichkeitsberechnungsmittel 16 und eine Codierschema-Bestimmungsschaltung 17.
Im Folgenden wird die Prozedur zum Auswählen eines Codier- Schemas gemäß dieser Ausführungsform erläutert. Bei dieser Ausführungsform werden jedoch zwei Codierschemata verwendet, um die Erläuterung zu vereinfachen. Der Wert der Codierschema-Auswahlinformation ist "1" oder "2". Ein Codierschema mit einer niedrigen Bitrate wird ausgewählt, wenn I = "1" erfüllt ist, und ein Codierschema mit einer hohen Bitrate wird ausgewählt, wenn I = "2" erfüllt ist.
Zuerst wird ein Zielsignal r(n) durch einen Eingangsanschluß 12 eingegeben. Nachfolgend wird auf einen Vektor p(n) von einem adaptiven Codebuch 14 Bezug genommen, und ein Synthesesignal q(n) wird vom Vektor p(n) mittels eines Synthesefilters 15 erzeugt. Beispielsweise kann ein Betrieb des Synthesefilters 15 durch die folgende Gleichung (1) bezüglich eines z-Umwandlungsbereichs ausgedrückt werden:
Hier stellt {α}10i = 1 einen linearen Voraussageanalyse- Koeffizienten (LPC = linear prediction analysis coefficient) und γ eine Konstante dar, die größer als 0 und gleich oder kleiner als 1,0 ist. Daher wird die Beziehung zwischen einem Synthesesignal q(n) und einem Bezugsvektor p(n) durch einen Zeitbereich ausgedrückt, wie in der folgenden Gleichung (2) ausgedrückt wird:
q(n) = p(n)- αiγiq(n - i) (2)
Im Folgenden wird die Ähnlichkeit zwischen einem Zielsignal r(n) und einem Synthesesignal q(n) im Ähnlichkeitsberechnungsmittel 16 berechnet. Insbesondere wird, wie nachstehend beschrieben ist, in dem Ähnlichkeitsberechnungsmittel 16 ein Rauschabstandswert für ein Signal durch Multiplizieren eines Synthesesignals q(n) mit einem optimierten Verstärkungsfaktor oder Gain g erhalten und als eine Ähnlichkeit u für ein Zielsignal ausgegeben. Zuerst wird ein quadratischer Fehlerwert E zwischen einem Signal, das durch Multiplizieren eines Synthesesignals q(n) mit einem optimalen Gain g und einem Zielsignal r(n) erhalten wird, definiert, wie es in der folgenden Gleichung (3) ausgedrückt ist:
E = Σ(r(n) - g · q(n))2 (3)
Der optimale Gain g ist ein Wert, der erhalten wird, wenn E minimiert wird, und daher wird E einer partiellen Differenzierung unterworfen und dann nach g aufgelöst. Als Ergebnis wird der optimale Gain g wie in der folgenden Gleichung (4) ausgedrückt:
g = Σr(n)q(n)/Σq2(n) (4)
Der Rauschabstandswert S wird wie in der folgenden Gleichung (5) ausgedrückt, wobei der obige optimale Gain g verwendet wird:
Als nächstes bestimmt der Codierschema-Auswahlabschnitt 17 durch Verwenden des Rauschabstandswerts S, welches Codierschema zu verwenden ist. Das Auswahlverfahren wird durchgeführt, um die folgenden Gleichungen unter Verwendung eines Schwellenwerts A zu erfüllen, und eine Codierschema- Auswahlinformation I wird ausgegeben.
I = 1 wobei S ≥ A
I = 2 wobei S < A (6)
Der obige Ablauf wird in Fig. 2 zusammengefaßt. Zuerst wird ein Bezugsvektor p(n) von einem adaptiven Codebuch 14 im Schritt S11 extrahiert, und dann wird der Vektor p(n) durch ein Synthesefilter 105 geführt, um einen Synthesevektor q(n) zu erstellen. Als nächstes wird ein an einen Synthesevektor q(n) zu liefernder optimale Gain g im Schritt S13 und ferner ein Rauschabstandswert S für r(n) und g · q(n) erhalten. Zuletzt wird im Schritt S14 der Rauschabstandswert 5 und der Schwellenwert A miteinander verglichen, um beispielsweise eine Codierschema-Auswahlinformation I zum Auswählen eines niedrigen Bitraten-Codierschemas oder eines hohen Bitraten- Codierschemas zu bestimmen. Die Information I wird durch einen Ausgangsanschluß 13 ausgegeben.
Fig. 3 ist ein Blockdiagramm, das die Struktur eines Codierschema-Auswahlabschnitts 21 gemäß einer zweiten Ausführungsform der Erfindung zeigt. In der folgenden Erläuterung werden diejenigen Komponenten von Fig. 3, die die gleichen Funktionen wie diejenigen von Fig. 1 aufweisen, mit den gleichen Bezugssymbolen bezeichnet. Dieser Codierschema-Auswahlabschnitt 21 unterscheidet sich von demjenigen von Fig. 1 dadurch, daß ein Zielsignal r(n) durch einen Pitch-Analysator 22 analysiert wird, um einen Pitch T zu erhalten und dieser Pitch T wird verwendet, um einen Vektor p(n) zu bestimmen, auf den durch ein adaptives Codebuch 14 Bezug genommen wird. Daher wird der Pitch- Analysator 28 in der folgenden Erläuterung dargelegt.
Der Pitch-Analysator 28 verwendet ein vorheriges Signal r(n - T), das der Abtastung um eine Zeit T vorausgeht, um ein Zielsignal r(n) vorherzusagen, und gibt T als eine Pitch- Zeitspanne aus, die die Leistung E eines Voraussagefehlersignals der Voraussage minimiert. Insbesondere wird die Voraussagefehler-Signalleistung E wie folgt ausgedrückt:
E = (a(n) - g · a(n - T))² (7)
Hier bezeichnet g einen Pitch-Gain und N eine Pitch- Analyselänge. Um eine stabile Pitch-Zeitspanne zu erhalten, wird eine Pitch-Analyselänge von z. B. N = 256 bevorzugt. Die Gleichung (7) wird partiell differenziert, und die Voraussagefehler-Signalleistung E wird minimal für den Wert 0. Die Gleichung wird wie folgt gelöst:
Hier drückt der Wert von T, der die Gleichung (8) minimiert, die Pitch-Zeitspanne aus. Der erste Ausdruck auf der rechten Seite der Gleichung (8) ist eine Konstante, und daher wird nach einer Pitch-Zeitspanne T, die den zweiten Ausdruck auf der rechten Seite der Gleichung maximiert, bei tatsächlichen Prozeduren gesucht. Mit anderen Worten berechnet der Pitch- Analysator die rechte Seite der Gleichung (8), wenn die Pitch-Zeitspanne geändert wird, und gibt die Pitch-Zeitspanne aus, die erhalten wird, wenn die rechte Seite der Gleichung (8) einen maximalen Wert angibt. Die so erhaltene Pitch- Zeitspanne T wird verwendet, um einen Bezugsvektor p(n) aus dem adaptiven Codebuch 14 zu extrahieren.
Der obige Ablauf ist in Fig. 4 zusammengefaßt. Zuerst wird ein Zielsignal r(n) vom Pitch-Analysator 22 analysiert, um eine Pitch-Zeitspanne T im Schritt S21 zu erhalten. Als nächstes wird ein Vektor p(n), auf den Bezug zu nehmen ist, unter Verwendung der Pitch-Zeitspanne T im Schritt 22 extrahiert. Mit anderen Worten wird im adaptiven Codebuch 14 nach dem Bezugsvektor p(n) gesucht, der der so erhaltenen Pitch-Zeitspanne T entspricht. Die in den folgenden Schritten S23, S24 und S25 durchgeführte Verarbeitung ist jeweils die gleiche wie diejenige, die in den Schritten S12, S13 und S14 in Fig. 2 durchgeführt wurde, und daher wird deren Erläuterung hier weggelassen.
Obgleich erläutert wurde, daß die Pitch-Zeitspanne T gemäß dieser Ausführungsform unter Verwendung eines Zielsignals r(n) erhalten wird, kann eine geeignetere Pitch-Analyse unter Verwendung eines Eingangssprachsignals u(n) in dem Fall erreicht werden, indem das Zielsignal r(n) durch ein Hörgewichtungsfilter gewichtet wird. Da außerdem die Einhüll- Information O eines Sprachsignals unter Verwendung eines Voraussage-Restdifferenzsignals v(n) entfernt werden kann, das durch Durchführen eines Eingangssprachsignals u(n) durch ein LPC-Voraussagefilter erhalten wird, kann eine bessere Pitch-Analyse erreicht werden. Demgemäß kann bei dieser Ausführungsform ein Eingangssprachsignal u(n) oder ein Voraussage-Restdifferenzsignal v(n) anstelle eines Zielsignals r(n) verwendet werden. Obgleich eine Erläuterung eines Falls durchgeführt wurde, bei dem ein primärer Pitch- Voraussagefilter in dem Pitch-Analysator 22 verwendet wird, kann bei dieser Ausführungsform außerdem ein Voraussagefilter einer höheren Ordnung verwendet werden.
Fig. 5 ist ein Blockdiagramm, das die Struktur eines Codierschema-Auswahlabschnitts 31 gemäß einer dritten Ausführungsform der Erfindung zeigt. In der folgenden Erläuterung werden diejenigen Komponenten von Fig. 5, die die gleichen Funktionen wie diejenigen von Fig. 1 aufweisen, mit den gleichen Bezugssymbolen bezeichnet. Dieser Codierschema-Auswahlabschnitt 31 unterscheidet sich von dem Auswahlabschnitt der ersten Ausführungsform dadurch, daß alle 5 Vektoren in dem adaptiven Codebuch 14 als Kandidaten verwendet werden, wobei Synthesevektoren jeweils bezüglich der Bezugsvektoren durch das Synthesefilter 15 erhalten werden, und der Synthesevektor, der dem Zielvektor r(n) am ähnlichsten ist, wird von einem Suchabschnitt 32 gesucht. Daher wird die folgende Erläuterung bezüglich des Suchabschnitts 32 durchgeführt.
Der Suchabschnitt 32 sucht alle in dem adaptiven Codebuch 14 als Bezugsvektoren gespeicherte Vektoren, und veranlaßt das Ähnlichkeitsberechnungsmittel 16, einen Rauschabstandswert (SNR-Wert) 5 zu berechnen. Ferner verwendet der Suchabschnitt 32 den Wert von 5, der erhalten wird, wenn dieser Wert maximiert wird, um ein Codierschema mittels des Codierschema- Auswahlabschnitts 17 zu bestimmen, und gibt eine Codierschema-Auswahlinformation I aus.
In allgemeinen Fällen ist es jedoch nicht immer notwendig, für die Suche den SNR-Wert zu erhalten, sondern es ist nur notwendig, nach einem Bezugsvektor zu suchen, der durch den durch Gleichung (3) definierten quadratischen Fehlerwert E minimiert. In diesem Fall wird der Rauschabstandswert berechnet, nachdem der Bezugsvektor erhalten wird, der dem quadratischen Fehlerwert E minimiert, und der berechnete Rauschabstandswert wird an dem Codierbestimmungsabschnitt 17 ausgegeben.
Der obige Ablauf ist in Fig. 6 zusammengefaßt. Hier bezeichnet L die Anzahl der in dem adaptiven Codebuch 14 gespeicherten Vektoren. Ferner wird ein durch die Gleichung (4) ausgedrückter optimaler Gain g in die Gleichung (3) eingesetzt, und diese Gleichung (3) wird dann wie folgt entwickelt:
Wenn der quadratische Fehlerwert E ein minimierter Wert ist, wird der erste Ausdruck auf der rechten Seite der Gleichung (9) als ein Abhängigkeitsgrad wie folgt erhalten:
D = (Σr(n)q(n))²/Σg²(n) (10)
Dann wird der Bezugsvektor, der den Abhängigkeitsgrad maximiert, gesucht.
Zuerst werden in einem Schritt S30 Parameter derart eingestellt, daß i = 1, iopt = 1 und Dmax = 0 erfüllt sind. Als nächstes wird ein Synthesevektor qi(n) durch Schritte S31 und S32 erhalten. Es sei bemerkt, daß die Schritte S31 und S32 die gleichen Schritte wie die in Fig. 2 gezeigten Schritte S11 und S12 sind, und daher wird deren Erläuterung hier weggelassen. Dann wird der Abhängigkeitsgrad D aus einem Zielvektor r(n) und einem Synthesevektor qi(n) gemäß der Gleichung (10) erhalten. Ferner werden die Größen des Abhängigkeitsgrads D und des maximalen Abhängigkeitsgrads Dmax in einem Schritt S34 miteinander verglichen. Wenn der Abhängigkeitsgrad D hier größer als der maximale Abhängigkeitsgrad Dmax ist, dann wird der Wert von Dmax auf den gleichen Wert wie der Grad D in einem Schritt S35 aktualisiert, und der Wert von i wird zu diesem Zeitpunkt in dem iopt gespeichert. Dann springt die Verarbeitung zu einem Schritt S36. Wenn der Abhängigkeitsgrad D kleiner als der maximale Grad Dmax ist, dann springt die Verarbeitung direkt zu dem Schritt S36 und der Wert von i wird um 1 in dem Schritt S36 erhöht. Der Wert von i wird ferner mit der Anzahl L von Vektoren verglichen, die in dem adaptiven Codebuch 14 D enthalten sind. Wenn der Wert von i hier kleiner als L ist, springt die Verarbeitung zu dem Schritt S31 zurück, und der Ablauf der Verarbeitung wird, wie oben beschrieben ist, wiederholt. Wenn der Wert von i größer als L ist, entweicht der Ablauf der Verarbeitung aus dieser Schleife und geht zu einem Schritt S38. In dem Schritt S38 wird ein Rauschabstandswert für einen Zielvektor r(n) und g·qiopt(o) erhalten, und in einem Schritt S39 wird Codierschema- Auswahlinformation I auf der Grundlage des erhaltenen Rauschabstandswerts S ausgegeben. Die Einzelheiten der Schritte S38 und S39 sind die gleichen wie diejenigen der Schritte S13 und S14 in Fig. 2, und daher wird deren Erläuterung hier weggelassen.
Gemäß dieser Ausführungsform kann ein Bezugsvektor, der einen maximalen Rauschabstandswert ergibt, aus allen in dem adaptiven Codebuch 14 enthaltenen Vektoren erhalten werden. Daher besteht im Gegensatz zu der zweiten Ausführungsform ein Vorteil darin, daß der tatsächliche Wirkungsgrad des adaptiven Codebuchs 14 ohne Einflüsse auf die Präzision und Genauigkeit des durch die Pitch-Analyse erhaltenen Pitchs bezüglich einer Eingangssprache korrekt beurteilt werden kann, das besonders großes Hintergrundrauschen aufweist.
Obgleich erläutert wurde, daß ein Bezugsvektor aus allen Vektoren in dem adaptiven Codebuch 14 bei der obigen Ausführungsform erhalten wird, ist es möglich, nach einer bestimmten beschränkten Anzahl von Bezugsvektoren als Kandidaten zu durchsuchen.
Fig. 7 ist ein Blockdiagramm, das die Struktur eines Codierschema-Auswahlabschnitts 14 gemäß einer vierten Ausführungsform der Erfindung zeigt. In der folgenden Erläuterung werden diejenigen Komponenten von Fig. 7, die die gleichen Funktionen wie diejenigen von Fig. 1 aufweisen, durch die gleichen Bezugssymbole bezeichnet. Der Codierschema-Auswahlabschnitt 41 von Fig. 7 unterscheidet sich von demjenigen der ersten Ausführungsform dadurch, daß der Auswahlabschnitt 41 die zum Codieren eines vorherigen Frames erhaltenen Pitch-Information für ein aktuelles Frame verwendet, und daß ein Vektor p(n), auf den sich das adaptive Codebuch bezieht, auf der Grundlage der Pitch-Information für den vorhergehenden Frame bestimmt wird. Insbesondere wird diese Ausführungsform zusätzlich mit einem Puffer 42 versehen, und die für ein vorhergehendes Frame erhaltene Pitch-Information wird in dem Puffer 42 gespeichert. Diese Pitch-Information stellt ein Ergebnis eines Durchsuchens des adaptiven Codebuchs 14 dar, das erhalten wird, wenn eine Codierung für ein vorhergehendes Frame durchgeführt wird, d. h. ein Pitch, der durch Durchsuchen des adaptiven Codebuchs 14 bestimmt wird, wenn eine Codierung für ein vorhergehendes Frame durchgeführt wird.
Dann wird gemäß der in dem Puffer 42 gespeicherten Pitch- Information ein Bezugsvektor p(n) aus einem adaptiven Codebuch 14 extrahiert, und eine Codierschema- Auswahlinformation I wird durch ein Synthesefilter 15, ein Ähnlichkeitsberechnungsmittel 16 und ein Codierschema- Auswahlabschnitt 17 auf der Grundlage des Bezugsvektors p(n) ausgegeben. Die von dem Synthesefilter 15, dem Ähnlichkeitsberechnungsmittel 16 und dem Codierschema- Auswahlabschnitt 17 durchgeführte Verarbeitung ist jeweils die gleiche, wie diejenige, die von den entsprechenden Komponenten der ersten Ausführungsform ausgeführt wurde, und daher wird deren Erläuterung hier weggelassen.
Der obige Ablauf der Verarbeitung wird in Fig. 8 zusammengefaßt. Zuerst wird ein Bezugsvektor p(n) aus dem adaptiven Codebuch 14 unter Verwendung der in dem Puffer 42 gespeicherten Pitch-Zeitspanne T in einem Schritt S41 ausgewählt. Die Verarbeitung der folgenden Schritte S42, S43 und S44 sind jeweils die gleichen, wie diejenigen der Schritte S12, S13 und S14 in Fig. 2.
Da ein Bezugsvektor bei dieser Ausführungsform unter Verwendung einer Pitch-Information eines vorherigen Frames bestimmt wird, besteht ein Vorteil darin, daß die Berechnung zur Bestimmung eines Bezugsvektors, wie beispielsweise eine Pitch-Analyse, gemäß der zweiten Ausführungsform und ein Durchsuchen des adaptiven Codebuchs 14 gemäß der dritten Ausführungsform nicht speziell erforderlich sind, wobei jedoch die Codierschema-Auswahlinformation I mit einer viel kleineren Berechnungsmenge erhalten werden kann.
Nachfolgend wird eine Erläuterung bezüglich einer Ausführungsform durchgeführt, die den oben erwähnten Codierschema-Auswahlabschnitt auf eine Sprachcodiervorrichtung als eine fünfte Ausführungsform adoptiert. Fig. 9 ist eine Blockdiagramm, das die Struktur einer Sprachcodiervorrichtung gemäß dieser Ausführungsform zeigt, und der Codierschema-Auswahlabschnitt 52 nimmt eine der Strukturen der Codierschema-Auswahlabschnitte 11, 21, 31 und 41 an, die mit Bezug auf die ersten bis vierten Ausführungsformen erläutert wurden. Codierer 53 bis 55 weisen jeweils unterschiedliche Codierschemata auf, mit anderen Worten unterschiedliche Bitraten, und einer dieser wird von dem Codierschema-Auswahlabschnitt 92 ausgewählt.
Im Folgenden wird ein Betrieb dieser Ausführungsform erläutert. Zuerst wird ein Zielsignal von einem Eingangsanschluß 51 eingegeben. Dieses Zielsignal kann aus einem Signal bestehen, das veranlaßt wurde, durch ein Hörgewichtungsfilter zu durchlaufen, und auf das Einflüsse aus einem vorherigen Frame in verschiedenen Fällen verringert wurden. Diejenigen Abschnitte, die sich auf die Verarbeitung beziehen, werden aus dieser Figur weggelassen, um die Erläuterung zu vereinfachen. Das Zielsignal wird in dem Codierschema-Auswahlabschnitt 52 eingegeben, und die Codierschema-Auswahlinformation I wird ausgegeben. Auf der Grundlage der Codierschema-Auswahlinformation I wird einer der Codierer 53 bis 55 ausgewählt, und das Zielsignal wird in den ausgewählten Codierer eingegeben, um dadurch die Codierung durchzuführen. Bei Beendigung der Codierung werden Codierparameter, die als Codierergebnisse erhalten wurden, und die Codierschema-Auswahlinformation I in einen Multiplexer 56 eingegeben und in einen Bitstrom umgewandelt. Danach wird der Bitstrom durch einen Ausgangsanschluß 57 ausgegeben.
Bei dieser Ausführungsform wird eine Erläuterung von spezifischeren Beispielen einer Sprachcodiervorrichtung durchgeführt, bei der beispielsweise ein Codierer vom CELP- Verfahren als Codierer mit hoher Bitrate und ein LPC-Vocoder vom Zufallstreibertyp (der nachstehend als ein LPC-Vocoder bezeichnet wird) als ein Codierer mit niedriger Bitrate verwendet wird.
Fig. 10 ist ein Blockdiagramm einer Sprachcodiervorrichtung gemäß dieser Ausführungsform. Bei dem CELP-Verfahren sind die als ein Ausgangssignal an einen Decodierer zu übertragenden Parameter: (1) ein adaptiver Vektorindex eines adaptiven Codebuchs 67; (2) ein Rauschvektorindex eines Rauschvektor- Codebuchs 68; (3) ein Pitch-Gain-Index eines Pitch-Gain- Codebuchs 69; (4) ein Rausch-Gain-Index eines Rausch-Gain- Codebuchs 70 und (5) ein als ein Ergebnis einer Quantisierung durch einen LPC-Quantisierer 74 erhaltener LPC-Index.
Als Ausgangssignal von dem LPC-Vocoder an den Decodierer zu übertragenen Parameter sind: (1) ein Gain-Index eines Gain- Codebuchs 78; (2) ein als ein Ergebnis einer Quantisierung durch einen LPC-Quantisierer 82 erhaltener LPC-Index; (3) ein adaptiver Vektorindex eines adaptiven Codebuchs 67 und (4) ein Pitch-Gain-Index eines Pitch-Gain-Codebuchs 69.
Da hier ein LPC-Vocoder einen Zufallswert als ein Treibersignal verwendet, muß Information des Treibersignals nicht an den Decodierer übertragen werden, und daher kann die Codier-Bitrate auf einen extrem kleinen Wert gesetzt werden. Außerdem werden in vielen Fällen ein LPC-Quantisierer 82 und ein adaptives Gain-Codebuch 88 einer niedrigen Bitrate für einen LPC-Vocoder erstellt, und daher können die Bitraten insgesamt klein eingestellt werden.
Im nachfolgenden wird der Betrieb der Sprachcodiervorrichtung dieser Ausführungsform erläutert. Ein durch einen Eingangseinschluß 61 eingegebenes Sprachsignal wird einer LPC-Analyse durch einen LPC-Analysator 62 unterworfen, und ein linearer Voraussagekoeffizient (der nachstehend als ein LPC-Koeffizient bezeichnet wird) wird dadurch erhalten. Ein Synthesefilter 63, dessen Kennlinie durch den LPC- Koeffizienten definiert ist, wird mit einem von einem adaptiven Codebuch 67 erhaltenen adaptiven Vektor eingegeben, um dadurch ein Synthesesignal zu erhalten. Die Ähnlichkeit zwischen dem Synthesesignal und dem eingegebenen Sprachsignal wird durch ein Ähnlichkeitsberechnungsmittel 64 berechnet, und auf der Basis des Berechnungsergebnisses wird ein Codierschema durch ein Codierschema-Auswahlabschnitt 65 bestimmt.
Dann wird ein Codierer der CELP-Verfahrensart als ein Codierer mit hoher Bitrate oder ein LPC-Vocoder als ein Codierer mit niedriger Bitrate durch einen Selektor 66 in Übereinstimmung mit von dem Codierschema-Auswahlabschnitt 65 ausgegebenen Codierschema-Auswahlinformation ausgewählt.
Die folgende Erläuterung wird für einen Fall durchgeführt, bei dem ein Codierer des CELP-Verfahrens durch den Selektor 66 ausgewählt wird. Es sei bemerkt, daß ein Codierer des CELP-Verfahrens in Fig. 10 oberhalb der gestrichelten Linie angegeben ist.
Ein von einem adaptiven Codebuch 67 erhaltener adaptive Vektor und ein von einem Rauschcodebuch 68 erhaltener Rauschvektor werden jeweils durch ein von einem Pitch-Gain- Codebuch 69 erhaltenen Pitch-Gain und einem von einem Rausch- Gain-Codebuch 70 erhaltenen Rausch-Gain durch Multiplizierer 71 und 72 multipliziert. Nach der Multiplikation mit den Pitch- und Rausch-Gains werden ein adaptiver Vektor und ein Rauschvektor miteinander durch eine Addiervorrichtung 73 addiert, um dadurch ein Treibersignal für ein Synthesefilter 75 zu erzeugen.
Unterdessen wird die Kennlinie (characteristic) des Synthesefilters 75 auf der Grundlage eines durch Quantisieren eines von dem LPC-Analysator 62 erhaltenen LPC-Koeffizienten durch den LPC-Quantisierer 74 definiert, und ein von einem Addierer 73 ausgegebenes Treibersignal wird in das Synthesefilter 75 eingegeben, wodurch ein Synthesesignal erzeugt wird. Mit einem Signal, aus dem Einflüsse eines vorherigen Frame verringert sind, das als ein Zielsignal verwendet wird, wird dieses Synthesesignal durch eine Subtrahiervorrichtung 77 von dem Zielsignal subtrahiert, das dem Eingangssignal frei von Einflüssen des vorherigen Frames entspricht, um ein Fehlersignal zu erhalten.
Das Fehlersignal wird durch ein Hörgewichtungsfilter 78 gewichtet, und danach wird die elektrische Leistung des Signals durch eine Fehlerberechnungsvorrichtung 79 erhalten. Eine Kombination eines adaptiven Vektors, eines Rauschvektors, eines Pitch-Gain und eines Rausch-Gain, der die Fehlersignalleistung minimiert, wird aus einem adaptiven Codebuch 67, einem Rausch-Codebuch 68, einem Pitch-Gain- Codebuch 69 und einem Rausch-Gain-Codebuch 70 gesucht. Der adaptive Vektor, der Rauschvektor, der Pitch-Gain und der Rausch-Gain, der die Fehlersignalleistung minimiert, und die als Ergebnis der Suche erhalten werden, werden jeweils als ein adaptiver Vektorindex, ein Rausch-Vektorindex, ein Pitch- Gain-Index und ein Rausch-Gain-Index ausgedrückt. Dieser adaptive Vektorindex, Rauschindex, Pitch-Gain-Index und Rausch-Gain-Index und LPC-Index, der einen LPC-Koeffizient darstellt, werden als Codierparameter an ein Übertragungsmedium oder ein nicht gezeigtes Speichermedium ausgegeben und ferner an eine nicht gezeigte Sprachdecodiervorrichtung übertragen.
Die nächste Erläuterung wird für einen Fall durchgeführt, bei dem ein LPC-Vocoder durch den Selektor 66 ausgewählt wird. Es sei bemerkt, daß ein LPC-Vocoder in Fig. 10 unterhalb der gestrichelten Linie angegeben ist.
Der LPC-Vocoder sucht und bestimmt zuerst einen Index eines adaptiven Codebuchs 67 und einen Pitch-Gain eines Pitch-Gain- Codebuchs 69.
Ein Zufallswertvektor, der einen Mittelwert C und einen Abweichungswert I aufweist, wird durch einen Zufallswertgenerator 81 erzeugt. Dieser Zufallswertvektor wird mit einem Gain in einem Multiplizierer 89 multipliziert und zu diesem wird ein adaptiver Vektor von einem Multiplizierer 71 nach Multiplikation mit einem Pitch-Gain addiert, wodurch ein Treibersignal für ein Synthesefilter 82 erzeugt wird. Als nächstes wird ein LPC-Koeffizient durch einen LPC-Quantisierer 82 quantisiert, und die Kennlinie eines Synthesefilters 83 wird auf der Grundlage des LPC- Koeffizienten nach der Quantisierung definiert. Dem Synthesefilter 83 wird von dem Multiplizierer 89 ausgegebenen Treibersignal eingegeben und dadurch ein Synthesesignal erzeugt. Dieses Synthesesignal wird von einem Zielsignal durch eine Subtrahiervorrichtung 84 subtrahiert und dadurch ein Fehlersignal erhalten.
Das Fehlersignal wird durch ein Hörgewichtungsfilter 85 gewichtet, und danach wird die elektrische Leistung durch eine Fehlerberechnungsvorrichtung 86 erhalten. Ein Gain, der die Fehlersignalleistung minimiert, wird aus einem Gain- Codebuch 88 durch einen Suchabschnitt 87 erhalten. In diesem Fall kann der Gain mittels einer Analyse und nicht durch Suchen erhalten werden. Ein Gain-Index, der den Gain darstellt, der die Fehlersignalleistung minimiert, und ein LPC-Index, der einen LPC-Koeffizienten darstellt, werden als Codierparameter an ein Übertragungsmedium oder ein nicht gezeigtes Speichermedium ausgegeben und dann an eine nicht gezeigte Sprachcodiervorrichtung übertragen. Wie bei der fünften Ausführungsform erläutert wurde, wird eine von dem Codierschemabestimmungsabschnitt 65 erhaltene Codierschema-Auswahlinformation I zusammen mit Codierparametern in einem Bitstrom durch einen nicht gezeigten Multiplexer umgewandelt und an ein Übertragungsmedium oder ein Speichermedium ausgegeben.
Bei dieser Ausführungsform werden das adaptive Codebuch 67 als eine Komponente eines Codierers des CELP-Verfahrens und ein Synthesefilter 63 zur Auswahl eines Codierers (oder Codierschemas) verwendet, und daher ist es möglich, ein geeignetes Codierschema mit dem Codierschema- Auswahlabsohnitte auszuwählen, wie obenstehend bei den ersten bis vierten Ausführungsformen erläutert wurde.
Insbesondere kann in diesem Fall, wenn ein Eingangssprachsignal als Zielsignal ein Signal ist, daß eine intensive Periodizität aufweist, das Zielsignal mit einer hohen Genauigkeit durch einen Vektor eines in dem adaptiven Codebuchs 67 gespeicherten Treibersignals ausgedrückt werden. Sogar wenn die einem Treibersignal zugeordnete Anzahl von Bits für das Synthesefilter verringert wird, um klein zu sein, ist es daher möglich, ohne weiteres die Zielqualität zu erreichen und einen LPC-Vocoder mit einer niedrigen Codier- Bitrate zu verwenden, solange wie ein Zielsignal eine intensive Periodizität aufweist. Im Gegensatz dazu kann, wenn ein Zielsignal eine schwache Periodizität aufweist, das Zielsignal nicht allein durch das adaptive Codebuch mit einer hohen Genauigkeit ausgedrückt werden. In diesem Fall ist es daher möglich, eine Zielqualität unter Verwendung eines Codierers mit einem CELP-Verfahren mit einer hohen Codier- Bitrate zu erreichen.
Ferner ist es bei dieser Ausführungsform möglich, ohne weiteres die Zielqualität zu erreichen, während die Durchschnitts-Bitrate abgesenkt wird, indem eine Anordnung vorgesehen wird, durch die die Ähnlichkeit zwischen einem Synthesesignal, das durch Durchlaufen eines von dem adaptiven Codebuch 67 erhaltenen Bezugsvektor durch das Synthesefilter 73 erhalten wurde, und einem Eingangssprachsignal als Zielsignal durch einen Ähnlichkeitsberechnungsvorrichtung 116 erhalten wird, wie bei den ersten bis vierten Ausführungsformen erläutert wurde, und durch die ein Codierer mit niedriger Bitrate ausgewählt wird, wenn die Ähnlichkeit groß ist, wohingegen ein Codierer mit einer hohen Bitrate ausgewählt wird, wenn die Ähnlichkeit klein ist.
Obgleich die Struktur einer Sprachdecodiervorrichtung in den Zeichnungen nicht gezeigt ist, werden unterdessen ein Decodierer mit einem CELP-Verfahren und einem LPC-Vocoder- Verfahren vorgesehen, um der in Fig. 10 gezeigten Sprachcodiervorrichtung zu entsprechen. Gemäß der Codierschema-Auswahlinformation von der Sprachcodiervorrichtung wird einer dieser Decodierer ausgewählt, und ein ursprüngliches Sprachsignal wird gemäß den Codierparametern von der Sprachcodiervorrichtung durch den ausgewählten Decodierer decodiert.
Wie oben erläutert wurde, besteht die Grundlage der Erfindung darin, daß eines einer Mehrzahl von erstellten Codierschemata abhängig davon ausgewählt wird, wie genau ein adaptives Codebuch ein Zielsignal ausdrücken kann. Daher ist es erfindungsgemäß möglich, eine Codiervorrichtung vorzusehen, die eine Auswahl eines Codierschemas ermöglicht, das imstande ist, eine niedrige mittlere Rate und Zielqualität zu erreichen, während der für die Auswahl erforderliche Rechenbetrag verringert wird.
Als nächstes wird eine Sprachcodiervorrichtung gemäß einer weiteren Ausführungsform erläutert.
Fig. 11 ist ein schematisches Blockschaltbild einer Sprachcodiervorrichtung gemäß einer siebten Ausführungsform der Erfindung.
Gemäß dieser Ausführungsform wird ein durch einen Eingangsanschluß 1 eingegebenes Eingangssignal a(n) einer Pitch-Hervorhebung in dem Pitch-Hervorhebungsabschnitt 100 unterworfen und danach durch einen Codierer 200 codiert. Das codierte Signal wird durch einen Ausgangsanschluß 300 übertragen. Dies bedeutet, daß ein Pitch- Hervorhebungsabschnitt 100 zum Durchführen der Pitch-Analyse eines Eingangssignals und einer Pitch-Hervorhebung bei der vorhergehenden Verarbeitung einer Codierverarbeitung vorgesehen ist.
Der Pitch-Hervorhebungsabschnitt 100 umfaßt eine Pitch- Analyseberechnungseinheit 101 und eine Pitch- Hervorhebungsberechnungseinheit 102. Es sei bemerkt, daß der Inhalt der Verarbeitung der Pitch-Analyseberechnungseinheit 101 mit Bezug auf Fig. 14 erläutert wird. Ein Eingangssignal a(n) wird sequentiell in eine Pitch-Analyseberechnungseinheit 101 eingegeben. Die Pitch-Analyseberechnungseinheit 101 führt eine Pitch-Analyse bei bestimmten Analyseintervallen durch und gibt eine Pitch-Zeitspanne T und einen Pitch-Gain g aus. Unter Berücksichtigung der Sprachkonstanz und der Berechnungsmenge ist ein geeignetes Analyseintervall 5 ms bis 10 ms. Genauer gesagt analysiert die Pitch- Analyseberechnungseinheit 101 das Eingangssignal a(n) bei dem Analyseintervall 5 ms bis 10 ms, um die Pitch-Zeitspanne T und den Pitch-Gain g zu erhalten.
In der Pitch-Analyseberechnungseinheit 101 wird ein Eingangssignal a(n) unter Verwendung eines vorherigen Signals a(n - t) vorhergesagt, das um eine Zeit T vorhergeht, und gibt das T aus, das die Leistung des Voraussagefehlersignals minimiert. Insbesondere wird die Voraussagefehler- Signalleistung E wie folgt ausgedrückt:
E = (a(n) - g · a(n - T))² (11)
(T = 20 bis 147)
Hier bezeichnet g einen Pitch-Gain und N eine Pitch- Analyselänge. Um eine stabile Pitch-Zeitspanne zu erhalten, wird beispielsweise eine Pitch-Analyselänge von N = 40 bis 256 bevorzugt. Die Gleichung (11) wird partiell differenziert, und die Voraussagefehler-Signalleistung E wird minimal, wenn der Wert 0 wird. Die Gleichung wird wie folgt gelöst:
Der Wert von T, der die Gleichung (12) minimiert, drückt die Pitch-Zeitspanne aus. Der erste Ausdruck auf der rechten Seite in der Gleichung (12) ist eine Konstante, und daher wird eine Pitch-Zeitspanne T, die den zweiten Ausdruck auf der rechten Seite der Gleichung maximiert, in den tatsächlichen Prozeduren gesucht. In dieser Stufe wird der Pitch-Gain g wie folgt ausgedrückt:
g = ( a(n)a(n - T))/ a²(n - T) (13)
Außerdem werden, wenn ein verallgemeinerter Welligkeitsfaktor (generalized stationary) aus einem Eingangssignal a(n) angenommen werden kann, der zweite Ausdruck auf der rechten Seite der Gleichung (12) und der Nenner auf der rechten Seite der Gleichung (13) wie folgt ausgedrückt:
Nenner = a²(n) (14)
Wenn nur dieser Wert außerhalb der Suchschleife der Pitch- Zeitspanne T erhalten wird, kann die Berechnungsmenge verringert werden. Auf diese Art und Weise kann eine Pitch- Zeitspanne T und ein Pitch-Gain g durch die Pitch- Analyseberechnungsabschnitt 101 erhalten werden (in einem Schritt S10).
Obgleich die obige Erläuterung dieser Ausführungsform mit Bezug auf ein Verfahren zum Erhalten einer Pitch-Zeitspanne und eines Pitch-Gains unter Verwendung eines primären Pitch- Voraussagefilters durchgeführt wurde, kann ein Voraussagefilter höherer Ordnung verwendet werden. Außerdem kann ein weiteres Pitch-Analyseverfahren, z. B. ein Nulldurchgangsverfahren, ein Autokorrelationsverfahren, ein Cepstrum-Verfahren oder dergleichen verwendet werden.
Die nächste Erläuterung wird für den Pitch- Hervorhebungsberechnungsabschnitt 102 durchgeführt. Der Pitch-Hervorhebungsberechnungsabschnitt 102 verwendet eine Pitch-Zeitspanne T und einen Pitch-Gain g, der von dem Pitch- Analyseberechnungsabschnitt 101 erhalten wurde, um ein Eingangssignal a(n) hervorzuheben. Hier wird eine Erläuterung eines Falls durchgeführt, wobei ein All-Pol-Pitch-Filter verwendet wird. Die Übertragungsfunktion eines Pitch-Filters vom Poltyp kann wie folgt ausgedrückt werden:
Hier bezeichnet A(z) einen z-Transformationswert eines Eingangssignals a(n), B(z) einen z-Transformatianswert eines Eingangssignals b(n), G einen Gain und g einen Pitch-Gain. Ferner ist E eine Konstante, die gleich oder größer als 0 und kleiner als 1 ist, wobei &epsi; = 0,8 empfohlen wird. Um das Ausbilden eines Schwingungsfilters zu verhindern, ist eine Überwachung notwendig, so daß ein Produkt von g und &epsi; immer kleiner als 1 gehalten wird. Bei dem Fall, bei dem beispielsweise das Produkt von g und &epsi; 0,8 überschreitet, ist es notwendig, zusätzlich eine Sonderbehandlung vorzusehen, um das Produkt von g und &epsi; zwangsweise auf 0,8 zu begrenzen.
Die Gleichung (15) wird wie folgt innerhalb des Zeitbereichs ausgedrückt:
b(n) = G · a(n) + g · &epsi; · b(n - T) (16)
Gemäß der Gleichung (16) ist es möglich, ein Signal b(n) zu erzielen, das durch Unterziehen eines Eingangssignals einer Pitch-Hervorhebung erreicht wird (in einem Schritt S20).
Die obige Erläuterung wurde für einen Fall durchgeführt, bei dem ein primäres Pitch-Hervorhebungsfilter verwendet wird. Die Anzahl der Stufen des Pitch-Hervorhebungsfilters muß nicht immer eine Stufe sein, sondern das Pitch- Hervorhebungsfilter kann Stufen aufweisen, die in der Anzahl gleich der Anzahl der Analysestufen einer Pitch- Analyseberechnungseinheit 101 sind. Obgleich die obige Erläuterung für einen Fall durchgeführt wurde, bei dem ein Pitch-Filter vom Poltyp verwendet wird, ist es außerdem natürlich beispielsweise möglich, einen Gesamtnull-Pitch- Filter, ein PN-Pitch-Filter, etc., zu verwenden.
Obgleich die Kennlinie abhängig von dem Pitch-Gain g in dem durch Gleichung (16) ausgedrückten Pitch- Hervorhebungsberechnung geändert wird, ist es möglich, ein Verfahren zum Durchführen einer Pitch-Hervorhebung mit einer Pitch-Hervorhebungsberechnung durchzuführen, das durch eine vorbestimmte Konstante (z. B. 0,7) festgelegt ist, anstatt ein Produkt des Pitch-Gains g und einer Konstante &epsi; zu verwenden. In diesem Fall ist eine Berechnung des Pitch-Gain g nicht notwendig, und daher ist nur eine Pitch-Zeitspanne T ausreichend, die den Ausdruck im Nenner der Gleichung (13) maximiert, was dadurch zu einem Vorteil führt, daß die Berechnungsmenge verringert werden kann.
Fig. 13 zeigt ein weiteres Beispiel eines Pitch- Hervorhebungsabschnitts 100. Der Pitch-Hervorhebungsabschnitt 100 weist eine Struktur auf, die durch Hinzufügen einer Gain- Einstell-Berechnungseinheit 103 zu dem in Fig. 12 gezeigten Pitch-Hervorhebungsabschnitt erhalten wird. Die Gain- Einstell-Berechnungseinheit 103 empfängt ein Eingangssignal a(n) und ein Pitch-Signal b(n) von der Pitch- Hervorhebungsberechnungseinheit 102.
Der Gain G der Gleichung (16) ist so gegeben, daß die Leistung des Signals b(n) nach Durchführen der Pitch- Hervorhebungsberechnung gleich der Leistung des Eingangssignals a(n) ist. Bei der in Fig. 37 gezeigten Struktur führt ein Gain-Einstell-Berechnungsabschnitt 103 eine Gain-Einstellung durch, so daß die Leistung eines Eingangssignals a(n) der Leistung eines Signals b(n) nach Durchführen der Pitch-Hervorhebungsberechnung entspricht, vorausgesetzt, daß G = 1 ist. Der Gain-Einstell- Berechnungsabschnitt 103 führt eine Gain-Einstellung durch Multiplizieren eines Signals b(n) nach der Pitch- Hervorhebungsberechnung mit einem Koeffizienten durch, der aus der Leistung σa eines Eingangssignals a(n) und der Leistung σb eines Signals b(n) nach der Pitch- Hervorhebungsberechnung erhalten wurde. Der spezifische Inhalt dieser Verarbeitung wird mit Bezug auf Fig. 38 erläutert. Es sei bemerkt, daß diejenigen Komponenten von Fig. 37 und 38, auf die mit den gleichen Bezugsnamen wie diejenigen von Fig. 12 und 14 Bezug genommen wird, die gleichen Funktionen wie entsprechende Komponenten von Fig. 12 und 14 aufweisen. Daher wird eine Erläuterung dieser Komponenten hier weggelassen.
Die Leistung σa eines mit einer Frame-Länge L gepufferten Eingangssignals a(n) wird gemäß der folgenden Gleichung erhalten (in einem Schritt S1012). Eine bevorzugte Frame- Länge L beträgt etwa 40 bis 160.
σa = a²(n) (17)
Die Leistung σb eines Signals b(n) nach der Pitch- Hervorhebungsberechnung, die jeder Abtastung eines Eingangssignals a(n) entspricht, wird auf eine ähnliche Art und Weise wie die Gleichung (17) erhalten (in einem Schritt S1013). Obgleich die Pitch-Hervorhebungsberechnung gemäß der Gleichung (17) durchgeführt wird, sollte beachtet werden, daß der Gain G = 1 zugeführt wird (in einem Schritt S1013).
σb = b²(n) (18)
Ein Koeffizient wird gemäß der Gleichung (19) aus σa und σb wie folgt erhalten (in einem Schritt S1014).
= (σa/σb) (19)
Wobei g(n) ein Signal ist, daß durch Multiplizieren eines Signals b(n) nach der Pitch-Hervorhebungsberechnung mit für jede Abtastung erhalten wird, wobei g(n) ausgegeben wird, das wie folgt ausgedrückt werden kann (in einem Schritt S1015):
g(n) = · b(n) (n = 0 bis L - 1) (20)
Das durch eine Gain-Einstell-Berechnung 103 durchgeführte Verfahren einer Gain-Einstellung ist natürlich nicht auf das oben beschriebene Verfahren begrenzt, und basiert darauf, daß eine Gain-Einstellung durch Multiplizieren des Pitch eines Signals b(n) nach der Pitch-Hervorhebungsberechnung mit einem Koeffizienten erreicht wird, der aus σa und σb erhalten wird, so daß die Leistung eines Eingangssignals gleich der Leistung eines Ausgangssignals ist.
Fig. 39 zeigt eine weitere Struktur eines Pitch- Hervorhebungsabschnitts 100. Der in Fig. 39 gezeigte Pitch- Hervorhebungsabschnitt 100 weist eine Struktur auf, die erhalten wird, in dem ein mit einem Eingangssignal gelieferter Voraussagefilter 104, ein LPC-Analysator 105 und ein Synthesefilter 106 dem in Fig. 12 gezeigten Hervorhebungsabschnitt hinzugefügt wird. Der Inhalt der Verarbeitung wird mit Bezug auf Fig. 40 erläutert. Es sei bemerkt, daß diejenigen Komponenten von Fig. 39 und 40, auf die mit den gleichen Bezugsnamen wie diejenigen von Fig. 13 und 14 Bezug genommen wird, die gleichen Funktionen wie die entsprechenden Komponenten von Fig. 12 und 14 aufweisen, und daher wird eine Erläuterung dieser Komponenten hier weggelassen.
Zuerst wird eine LPC-Analyse unter mit einem Eingangssignal a(n) durchgeführt, um einen LPC-Koeffizienten {al : 1 = 1 bis = Psymbol 125 \f "Symbol" \s 12 zu erhalten (in einem Schritt S1101). P bezeichnet die Anzahl von zu analysierenden Buchstaben und wird in diesem Falle auf P = 10 gesetzt. Als ein LPC-Analyseverfahren gibt es ein Autokorrelationsverfahren, ein Kovarianzverfahren, ein FLAT- Algorithmus oder dergleichen, und jedes dieser Verfahren kann verwendet werden. Als nächstes wird ein Voraussagefilter aus einem LPC-Koeffizienten gebildet, und ein Eingangssignal wird durch das Voraussagefilter durchgelassen, um dadurch ein Voraussage-Restdifferenzsignal d(n) zu erzeugen (in einem Schritt S1102). Das Voraussage-Restdifferenzsignal d(n) wird mit einem LPC-Koeffizienten wie in der folgenden Gleichung (21) ausgedrückt. Hier bezeichnet L eine Frame-Länge, und L ist vorzugsweise 40 bis 160.
d(n) = a(n)- αia(n = i) (21)
wobei n = 0 bis L - 1 ist.
Als nächstes werden eine Pitch-Zeitspanne T und ein Pitch- Gain g, die E minimieren, gemäß der Gleichung (11) erhalten (in einem Schritt S1103). Es sei bemerkt, daß die Berechnung durchgeführt wird, wobei a(n) der Gleichung (11) durch d(n) ersetzt wird. Als nächstes wird ein Pitch-Hervorhebungssignal d(n) gemäß der Gleichung (16) erhalten (in einem Schritt S1104). Es sei bemerkt, daß die Berechnung durchgeführt wird, wobei a(n) der Gleichung (16) durch d(n) ersetzt wird.
Schließlich wird ein Synthesefilter aus einem LPC- Koeffizienten gebildet, und das Pitch-Hervorhebungssignal b(n) wird durch das Synthesefilter geführt, um ein Pitchhervorgehobenes Eingangssignal e(n) zu erzeugen (in einem Schritt S1105).
e(n) = b(n) + αia(n = i) (22)
wobei n = 0 bis L - 1 ist.
Das somit erhaltene Pitch-hervorgehobene Eingangssignal e(n) wird durch einen Codierer 200 codiert.
Fig. 41 zeigt eine weitere Struktur des Pitch- Hervorhebungsabschnitts 100. Der Inhalt der Verarbeitung ist in Fig. 42 dargestellt. Diese Struktur wird durch Aufweisen einer Gain-Einstell-Berechnung gekennzeichnet. Diejenigen Komponenten von Fig. 41 und 42, auf die mit dem gleichen Bezugsnamen wie diejenigen von Fig. 39 und 40 Bezug genommen wird, weisen jedoch die gleichen Funktionen wie entsprechende Komponenten von Fig. 39 und 40 auf, und daher wird eine Erläuterung dieser Komponenten hier weggelassen. Da die Gain-Einstell-Berechnung bereits mit Bezug auf Fig. 37 erläutert wurde, wird außerdem deren Erläuterung hier weggelassen.
Obgleich eine Erläuterung eines Verfahrens zum Analysieren eines Voraussage-Restdifferenzsignals d(n) durchgeführt wurde, wenn eine Pitch-Zeitspanne und ein Pitch-Gain in einem Schritt S11 erhalten werden, ist es möglich, ein Eingangssignal a(n) zu analysieren und zu erhalten. Es ist jedoch bekannt, daß ein Voraussage-Restdifferenzsignal eine genauere Pitch-Analyse gewährleistet, da eine Kurzzeit- Korrelation von dem Voraussage-Restdifferenzsignal entfernt wird, und daher wird ein Verfahren zum Analysierens eines Voraussage-Restdifferenzsignals d(n) empfohlen.
Somit werden jeweils ein Pitch-Hervorhebungssignal b(n), ein Pitch-Hervorhebungssignal g(n) nach einer Gain-Einstellung, ein einer Pitch-Hervorhebung unterworfenes Eingangssignal e(n) und ein Pitchhervorgehobenes Eingangssignal f(n) nach einer Gain-Einstellung in den Strukturen von Fig. 12, Fig. 37, Fig. 39 und Fig. 41 ausgegeben. Diese Ausgangssignale werden einem Codierabschnitt 200 zugeführt, und eine Codierverarbeitung wird durchgeführt. Ferner wird eine als Ergebnis einer Codierung durch den Codierabschnitt 200 erhaltene Indexinformation von einem Ausgangsanschluß 300 ausgegeben.
Der Codierabschnitt 200 kann eine Struktur eines CELP- Verfahrens annehmen, wie in dem in Fig. 13 gezeigten Blockdiagramm dargestellt ist. In dieser Figur wird ein, einer Pitch-Hervorhebung durch den Pitch- Hervorhebungsabschnitt 100 unterworfenes Eingangssignal a(n) über einen Eingangsanschluß 200 in Einheiten von Frames eingegeben. Ein Frame besteht aus L Signalabtastungen. Im allgemeinen wird L = 160 angenommen, wobei die Abtastfrequenz 8 kHz ist. Es sei bemerkt, daß vor einem Treibersignalvektor eine LPC-Analyse an einem einer Pitch-Hervorhebung unterworfenen Signal durch einen LPC-Analyseabschnitt 215 durchgeführt wird, wobei ein dadurch erhaltener LPC- Koeffizient durch einen LPC-Quantisierer 216 quantisiert wird, und der quantisierte LPC-Koeffizient αi (αi : i = 1, 2, ..., P) und ein Index (Anzahl) extrahiert werden. Der LPC- Koeffizient αi wird an ein LPC-Synthesefilter 213 geliefert. Es sei bemerkt, daß P eine Voraussage-Stufenanzahl ist, und im allgemeinen P = 10 verwendet wird. Eine Übertragungsfunktion für ein LPC-Synthesefilter 213 wird durch die folgende Gleichung (23) geliefert:
Als nächstes wird eine Erläuterung der Schritte zum Suchen nach einem optimalen Anregungssignalvektor während eines Synthetisieren eines Sprachsignals durchgeführt. Zuerst wird ein Einfluß auf ein aktuelles Frame eines internen Zustands des Synthesefilters 213 in einem vorhergehenden Frame von einem Sprachsignal-Frame, die in einen Eingangsanschluß 201 eingegeben wurden, durch eine Subtrahiervorrichtung 202 subtrahiert. Eine von der Subtrahiervorrichtung 202 erhaltene Signalfolge wird in vier Unter-Frames aufgeteilt, und bilden jeweils Zielsignalvektoren für die Unter-Frames.
Ein Treibersignal wird als ein Eingangssignal eines LPC- Synthesefilters 213 erhalten, indem ein Wert, der durch Multiplizieren mittels eines Multiplizierers 209 eines aus einem adaptiven Codebuch 207 ausgewählten adaptiven Vektors mit einem aus einem Gain-Codebuch 217 erhaltenen vorbestimmten Gain erhalten wird, mittels eines Addierers 212 zu einem Wert addiert wird, der durch Multiplizieren mittels eines Multiplizierers 210 eines aus einem Weiß-Rauschen- Codebuch 208 erhaltenen Rauschvektors mit einem aus einem Gain-Codebuch 218 erhaltenen vorbestimmten Gain erhalten wird.
Hier führt das adaptive Codebuch 207 eine in der vorbekannten Referenz 1 beschriebene Pitch-Voraussageanalyse durch einen Regelschleifenbetrieb oder Analyse durch Synthese durch, und deren Einzelheiten werden in W. B. Kleijin, D. J. Kransinski und R. H. Ketchum in "Improved Speech Quality and Efficient Vector Quantization in CEDLP", Proc. ICASSP, 1988, Seiten 155 bis 158, beschrieben (vorbekannte Referenz 2). Gemäß der Referenz 2 wird ein Treibersignal für das LPC-Synthesefilter 213 durch eine Verzögerungsschaltung 211 für einen Pitch- Suchbereich von a bis b um eine Abtastung verzögert (wobei a und b Abtastzahlen von Treibervektoren bezeichnen, d. h. a = 20 und b = 147), und ein adaptiver Vektor wird für die Pitch- Zeitspanne einer a - b Abtastung erstellt und in einem adaptiven Codebuch 207 gespeichert.
Um eine Suche nach einem optimalen adaptiven Vektor durchzuführen, werden Codewörter adaptiver Vektoren, die den jeweiligen Pitch-Zeitspannen entsprechen, aus dem adaptiven Codebuch 207 einer nach dem anderen ausgelesen und jeweils aurch die von dem Multiplizierer 209 erhaltenen vorbestimmten Gains multipliziert. Eine Filterverarbeitung wird durch ein LPC-Synthesefilter 213 durchgeführt, und ein synthetisierter Signalvektor wird erzeugt. Der so erzeugte synthetisierte Signalvektor wird einer Subtrahierung bezüglich eines Zielvektors durch eine Subtrahiervorrichtung 203 unterworfen. Eine Ausgabe der Subtrahiervorrichtung 203 wird durch ein Hörgewichtungsfilter 204 an ein Fehlerberechnungsmittel 205 eingegeben, und ein durchschnittlicher quadratischer Fehler wird erhalten. Information hinsichtlich des durchschnittlichen quadratischen Fehlers wird ferner in eine minimale Entzerrungs-Suchschaltung 206 eingegeben, und der Minimalwert wird erfaßt.
Die obigen Schritte werden an allen Kandidaten adaptiver Vektoren in dem adaptiven Codebuch 207 durchgeführt, und ein Index eines Kandidaten, der einen Minimalwert des durchschnittlichen quadratischen Fehlers in der minimalen Entzerrungs-Suchschaltung 206 wird erhalten. Der Index eines durch den Multiplizierer 209 zu multiplizierenden Gains wird bestimmt, um den durchschnittlichen quadratischen Fehler zu minimieren.
Der aus den obigen Schritten erhaltene adaptive Vektor wird mit einem Gain multipliziert, und ein synthetisierter Sprachsignalvektor wird durch eine Filterberechnung durch das LPC-Synthesefilter 213 erzeugt. Der so erzeugte Vektor wird von einem Zielvektor subtrahiert, wodurch ein Signal erhalten wird, das als ein Zielvektor verwendet wird, wenn nach einem Rest-Sprachvektor gesucht wird.
Als nächstes wird nach einem optimalen Rauschvektor auf eine ähnliche Art und Weise gesucht. Insbesondere werden Codewörter von Rauschvektoren aus dem Rauschcodebuch 208 einer nach dem anderen ausgelesen und einer Multiplikation mit einem von dem Gain-Codebuch 218 erhaltenen Gain durch den Multiplizierer 210 unterworfen, um eine Berechnung durch das LPC-Synthesefilter 213 zu filtern. Danach wird eine Erzeugung eines synthetisierten Sprachsignalvektors und eine Berechnung eines durchschnittlichen quadratischen Fehlers bezüglich eines Zielvektors an jedem Rauschvektor durchgeführt. Ein Index eines Rauschvektors und ein Index eines Gains, die einen Minimalwert des durchschnittlichen quadratischen Fehlers liefern, werden erhalten. Auf diese Art und Weise werden Indizes des adaptiven Codebuchs 207 und 208 und ein Index eines LPC-Koeffizienten α1 (i = j 1, 2, ..., P) durch den LPC-Quantisierer erhalten, und Indizes von in die Multiplizierer 209 und 210 einzugebenen Gains werden jeweils von einem Index-Selektor 214 übertragen. Es sei bemerkt, daß das Hörgewichtungsfilter 204 verwendet wird, um ein Spektrum eines von einem Subtrahiervorrichtung 203 ausgegebenen Fehlersignals zu bilden, wodurch die von menschlichen Ohren erfaßte Verzerrung verringert wird.
Wie oben beschrieben wurde, wird der Pitch eines Eingangssignals hervorgehoben, so daß das Signal viel leichter mit einem Treibersignalmodell übereinstimmt, das die Pitch-Information in Form eines adaptiven Codebuchs darstellt. Daher ist es möglich zu erklären, daß der Codierwirkungsgrad eines adaptiven Codebuchs und die subjektive Qualität synthetisierter Sprache verbessert wird.
Es sei bemerkt, daß das Codierschema nicht auf ein CELP- Verfahren beschränkt ist, sondern das andere Codierschemata ohne weiteres anwendbar sind.
Fig. 20 ist ein Blockdiagramm, das einen Sprachcodierer zeigt, der ein CELP-Verfahren verwendet. Ein adaptiver Vektor wird von einem adaptiven Codebuch 401 mit einem Index eines von einem Codierer übertragenen adaptiven Vektors extrahiert, und ein Gain wird von einem Gain-Codebuch 410 auf der Grundlage eines von dem Codierabschnitt übertragenen Index decodiert. Der adaptive Vektor und der Gain werden einer Multiplikation durch einen Multiplizierer 402 unterworfen.
Auf eine ähnliche Art und Weise wird ein Rauschvektor von einem Rauschcodebuch 407 extrahiert und mit einem von einem Gain-Codebuch 4101 decodierten Gain durch einen Multiplizierer 409 multipliziert.
Als nächstes werden diese Vektoren durch eine Addiervorrichtung 403 miteinander addiert, um einen Treibervektor zu erzeugen, der durch ein LPC-Synthesefilter 404 geführt wird, dessen Einstellung durch einen von einem Codierabschnitt übertragenen LPC-Koeffizienten durchgeführt wird, um dadurch ein Synthesesignal zu erzeugen. Um die subjektive Qualität des Synthesesignals zu verbessern, wird das Synthesesignal ferner durch ein Nachfilter 405 geführt, um eine synthetisierte Sprache zu erhalten, die durch einen Ausgangsanschluß 406 ausgegeben wird. Schließlich wird jedes Treibersignal um eine Abtastung verzögert und in dem adaptiven Codebuch 401 gespeichert, um für die nächste Verarbeitung bereit zu sein.
Bei der siebten Ausführungsform kann, obgleich die LPC- Analyse in dem Codierer 900 unter Verwendung eines Pitchhervorgehobenen Signals b(n) durchgeführt wird, die LPC- Analyse unter Verwendung eines Eingangssignals a(n) durchgeführt werden. In diesem Fall wird, wie in Fig. 27 gezeigt ist, ein Eingangssignal a(n) zusammen mit einem Pitch-hervorgehobenen Signal b(n) in den Codierabschnitt 200 eingegeben.
Ferner unterscheidet sich diese Ausführungsform von der Fig. 13 dadurch, daß die LPC-Analyse mit einem Eingangssignal a(n) durchgeführt wird, wie in Fig. 28 gezeigt ist. Ein Vorteil dieser Ausführungsform wird nachstehend mit Bezug auf Fig. 16, 17, 18 und 19 erläutert. Fig. 16 zeigt ein Spektrum eines Eingangssignals und Fig. 17 eine Spektrum-Einhüllende eines Eingangssignals und eine Spektrum-Feinstruktur. Fig. 18 zeigt ein Spektrum, wenn ein Eingangssignal einer Pitch- Hervorhebung unterworfen wird. Fig. 19 zeigt eine Spektrum- Einhüllende und eine Spektrum-Feinstruktur, wenn ein Eingangssignal einer Pitch-Hervorhebung unterworfen wird.
Im allgemeinen kann ein Kurzzeitspektrum von Sprache als ein Produkt einer Spektrum-Einhüllende, die phonemische Information ausdrückt, und einer Spektrum-Feinstruktur, die Pitch-Information ausdrückt, betrachtet werden. Ein LPC- Koeffizient drückt eine Spektrum-Einhüllende aus. Wenn eine LPC-Analyse bezüglich eines Pitch-hervorgehobenen Signals b(n) durchgeführt wird, wird eine Spektrum-Feinstruktur hervorgehoben, wie in Fig. 19 gezeigt ist, und daher wird ein Kurzzeitspektrum (Fig. 18) in einigen Fällen stark von der Spektrum-Feinstruktur beeinflußt. Daher kann es Fälle geben, bei denen es schwierig ist, einen genauen LPCKoeffizienten aus einem Signal zu extrahieren, das einer Pitch-Hervorhebung unterworfen wurde, wie es in Fig. 19 gezeigt ist, was zu einer Verschlechterung der subjektiven Qualität führt.
Im Gegensatz dazu wird gemäß dieser Ausführungsform ein Eingangssignal a(n) vor einer Pitch-Hervorhebung verwendet, um eine LPC-Analyse durchzuführen, und daher wird eine Kurzzeitspektrum eines in Fig. 16 gezeigten Eingangssignals nicht ohne weiteres von der Spektrum-Feinstruktur von Fig. 17 beeinflußt, so daß es möglich ist, einen LPC-Koeffizienten zu extrahieren, der ein wesentlich genaueres Spektrum ausdrückt, wie in Fig. 19 gezeigt ist.
Wenn der Pitch-Hervorhebungsabschnitt eine in Fig. 39 oder 41 gezeigte Struktur aufweist, führt der Pitch- Hervorhebungsabschnitt eine LPC-Analyse mit einem Signal a(n) durch, bevor es einer Pitch-Hervorhebung unterworfen wird, um einen LPC-Koeffizienten zu erhalten. Daher kann, wenn ein Codierabschnitt 900 mit einem LPC-Koeffizienten, der von dem Pitch-Hervorhebungsabschnitt erhalten wurde, zusammen mit einem Eingangssignal, das einer Pitch-Hervorhebung unterworfen wurde, beliefert wird, während der Codierer daran gehindert wird, eine erneute LPL-Analyse durchzuführen, ein genauer LPC-Koeffizient in dem Codierabschnitt verwendet werden, wie es oben erläutert wurde, und eine LPC-Analyse muß nicht von dem Codierabschnitt durchgeführt werden.
Fig. 43 zeigt einen Pitch-Hervorhebungsabschnitt 110, der die Struktur von Fig. 39 aufweist, und der einen LPC- Koeffizienten zusammen mit einem Pitch-Hervorhebungssignal ausgibt. Ebenso zeigt Fig. 44 einen Pitch- Hervorhebungsabschnitt 110, der die Struktur von Fig. 41 aufweist und einen LPC-Koeffizienten zusammen mit einem Pitch-Hervorhebungssignal ausgibt. Außerdem ist die Struktur eines Codierers, der den Pitch-Hervorhebungsabschnitt 110 verwendet, als ein Codierabschnitt 910 in Fig. 45 gezeigt. Fig. 45 unterscheidet sich von Fig. 28 dadurch, daß keine LPC-Analyse durchgeführt wird. Fig. 46 zeigt eine Struktur, bei der der Pitch-Hervorhebungsabschnitt 110 mit dem Codierabschnitt 910 verbunden ist. Hinsichtlich eines von dem Pitch-Hervorhebungsabschnitt 110 ausgegebenen Signals, wird ein einer Pitch-Hervorhebung unterworfenes Eingangssignal e(n) ausgegeben, wenn die Struktur von Fig. 43 verwendet wird, wohingegen ein einer Pitch-Hervorhebung nach einer Gain-Einstellung unterworfenes Eingangssignal f(n) ausgegeben wird, wenn die Struktur von Fig. 44 verwendet wird. Außerdem wird ein LPC-Koeffizient, der durch eine LPC-Analyse erhalten wurde, immer ausgegeben.
Als nächstes zeigt Fig. 15 eine Sprachcodiervorrichtung gemäß einer achten Ausführungsform der Erfindung. Diejenigen Komponenten, auf die mit dem gleichen Bezugsnamen wie diejenigen der siebten Ausführungsform Bezug genommen wird, weisen die gleichen Funktionen wie diejenigen von Fig. 1 auf.
Der Unterschied zwischen dieser Ausführungsform und der siebten Ausführungsform besteht darin, daß eine Pitch-Analyse und eine Pitch-Hervorhebung mit einem Signal c(n) durchgeführt wird, das als Ergebnis eines Durchleitens eines Eingangssignals a(n) durch eine Rauschlöschvorrichtung 400 erhalten wird. Bei dieser Ausführungsform wird ein Eingangssignal a(n) durch eine Rauschlöschvorrichtung durchgeleitet, um Hintergrundrauschen zu dämpfen, so daß die Pitch-Zeitspanne und der Pitch-Gain durch einen Pitch- Analysator mit einer höheren Genauigkeit erhalten werden kann. Außerdem ist es möglich, wie es oben beschrieben ist, einen LPC-Koeffizienten zu extrahieren, der im wesentlichen eine genaue Spektrumform ausdrückt, und daher kann eine LPC- Analyse unter Verwendung eines durch die Rauschlöschvorrichtung 400 erhaltenen Signals c(n) durchgeführt werden, wie es in Fig. 29 gezeigt ist.
Nun wird eine Sprachcodiervorrichtung gemäß der neunten Ausführungsform der Erfindung mit Bezug auf Fig. 21 erläutert. Es sei bemerkt, daß diejenigen Komponenten von Fig. 21, auf die mit den gleichen Bezugsziffern wie diejenigen von Fig. 1 Bezug genommen wird, die gleichen Funktionen wie diejenigen von Fig. 11 aufweisen, und eine Erläuterung dieser Komponenten wird hier weggelassen.
Diese Ausführungsform unterscheidet sich von der siebten Ausführungsform dadurch, daß ein Bestimmungsabschnitt 500 bestimmt, ob ein Eingangssignal, dessen Pitch hervorgehoben wurde, codiert wird, oder ein Eingangssignal auf der Grundlage eines Eingangssignals a(n) direkt codiert wird. Auf der Grundlage eines Ergebnisses einer Bestimmung, die von dem Bestimmungsabschnitt 500 durchgeführt wurde, beliefert der Bestimmungsabschnitt 500 einen Schalter 510 mit einer Anweisung. Wenn alle Eingangssignale einer Pitch-Hervorhebung unterworfen werden, wie bei der obigen Ausführungsform beschrieben ist, kann der Pitch-Gain g sogar dann kaum 0 werden, wenn das Eingangssignal im wesentlichen keine Pitch- Information enthält, und daher werden Eingangssignale mit einer beliebigen Pitch-Zeitspanne T hervorgehoben. Als ein Ergebnis wird eine übermäßige Hervorhebung an einem Eingangssignal durchgeführt, und daher kann sich die subjektive Qualität verschlechtern. Außerdem kann, wenn ein mit Hintergrundrauschen gemischtes Eingangssignal geliefert wird, das Signal bei einer Pitch-Zeitspanne T' hervorgehoben werden, die sich von der Pitch-Zeitspanne T einer Sprache unter Einflüssen des Hintergrundrauschens unterscheidet. Dieses führt zu einer Verschlechterung der subjektiven Qualität. Dieses Problem wird ernster, wenn das gemischte Hintergrundrauschen eine intensive Periodizität aufweist. Unter Berücksichtigung dieses Problems werden Pitches nicht aller Eingangssignale bei der folgenden Ausführungsform hervorgehoben, sondern die folgende Ausführungsform ist derart angeordnet, daß eine bestimmte Bestimmungsbedingung vorbereitet wird, und daß eine Pitch-Hervorhebung nur durchgeführt wird, wenn die Bedingung erfüllt ist. Daher kann das obige Problem vermieden werden. Als ein Bestimmungsbezug dieser Ausführungsform gibt es ein Verfahren, bei dem Pitch- Hervorhebung nicht durchgeführt wird, wenn ein Eingangssignal nicht viel Pitch-Information enthält, z. B. hinsichtlich eines Nichttonabschnitts oder eines Nichtstimmenabschnitts, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn ein Eingangssignal viel Pitch-Information enthält, z. B. hinsichtlich des Stimmenabschnitts. Als ein weiterer Bestimmungsbezug gibt es ein Verfahren, bei dem eine Pitch- Hervorhebung nicht durchgeführt wird, wenn die Hintergrundrauschleistung groß ist, wohingegen eine Pitch- Hervorhebung durchgeführt wird, wenn die Hintergrundrauschleistung klein ist. Ferner gibt es ein weiteres Verfahren, bei dem eine Pitch-Hervorhebung nicht durchgeführt wird, wenn periodisches Hintergrundrauschen in einem Eingangssignal gemischt ist, wohingegen eine Pitch- Hervorhebung durchgeführt wird, wenn ein nicht-periodisches Hintergrundrauschen in einem Eingangssignal gemischt ist. Nachfolgend werden drei Betriebsarten des Bestimmungsabschnitts 500 in Fig. 21 mit Bezug auf Fig. 23 bis 25 erläutert.
Zuerst wird eine Betriebsart des Bestimmungsabschnitts 500 mit Bezug auf Fig. 23 erläutert. Als ein Bestimmungsbezug dieser Ausführungsform wird eine Pitch-Hervorhebung nicht durchgeführt, wenn die Hintergrundrauschleistung groß ist, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn die Hintergrundrauschleistung klein ist.
Ein Eingangssignal (Block) a(n) wird eingegeben, und die Hintergrundrauschleistung des Eingangssignals wird analysiert (in einem Schritt S601). Ferner wird, in einem Schritt S602, eine Bestimmung abhängig von dem Schwellenwert S der Hintergrundrauschleistung hinsichtlich dessen durchgeführt, ob ein durch Hervorheben des Pitch des Eingangssignals erhaltenes Pitch-Hervorhebungssignal b(n) codiert ist (in einem Schritt S603) oder das Eingangssignal a(n) direkt codiert ist. Insbesondere wird, wenn die Hintergrundrauschleistung größer als der Schwellenwert 5 ist (beispielsweise wird 20 dB bevorzugt) ein Schalter 510 angewiesen, ein Eingangssignal a(n) direkt zu codieren. Wenn die Hintergrundrauschleistung kleiner als der Schwellenwert S ist, wird der Schalter 510 angewiesen, ein Pitch- Hervorhebungssignal zu codieren, das durch Hervorheben des Pitch eines Eingangssignals erhalten wurde. Ob ein Pitch- Hervorhebungssignal codiert oder ein Eingangssignal a(n) direkt codiert wird, wird somit abhängig von dem Schwellenwert bestimmt, da Signalkomponenten, die das Hintergrundrauschen bilden, unerwünschterweise einer Pitch- Hervorhebung unterworfen werden, wenn der Schwellenwert S für die Hintergrundrauschleistung zu hoch ist, und folglich wird ein codiertes Signal, dessen Rauschkomponenten hervorgehoben werden und ein klares Hören desselben schwierig ist, von der Decodierseite decodiert.
Als nächstes wird eine weitere Betriebsart des Bestimmungsabschnitts 500 mit Bezug auf Fig. 24 erläutert. Als ein Bestimmungsbezug dieser Ausführungsform gibt es ein Verfahren, bei dem eine Pitch-Hervorhebung nicht durchgeführt wird, wenn ein periodisches Hintergrundrauschen in einem Eingangssignal gemischt ist, wohingegen eine Pitch- Hervorhebung durchgeführt wird, wenn ein nicht-periodisches Hintergrundrauschen in einem Eingangssignal gemischt ist.
Ein Eingangssignal (Block) a(n) wird eingegeben (in einem Schritt S701), und die Hintergrundrauschleistung des Eingangssignals wird analysiert (in einem Schritt S702). Ferner wird in einem Schritt S703 abhängig von dem Schwellenwert S der Hintergrundrauschleistung bestimmt, ob ein Eingangssignal direkt codiert ist (in einem Schritt 5707), oder die Verarbeitung springt zu einem nächsten Schritt S704. Insbesondere wird ein Schalter 510 angewiesen (befohlen), ein Eingangssignal direkt zu codieren, wenn die Hintergrundrauschleistung größer als der Schwellenwert S ist (beispielsweise wird 20 dB bevorzugt). Wenn die Hintergrundrauschleistung kleiner als der Schwellenwert 5 ist, wird in dem Schritt S704 der Pitch-Gain der Hintergrundabschnitts analysiert, und das zu codierende Ziel wird abhängig davon umgeschaltet, ob der analysierte Pitch- Gain größer oder kleiner als ein Schwellenwert G' ist (in einem Schritt S705). Dies bedeutet, daß, wenn der Pitch-Gain größer als der Schwellenwert G' ist, der Schalter 510 angewiesen wird, ein Eingangssignal a(n) direkt zu codieren (in einem Schritt S707). Wenn der Pitch-Gain kleiner als der Schwellenwert G' ist, wird der Schalter 510 angewiesen, ein durch Hervorheben eines Eingangssignals erhaltenes Pitch- Hervorhebungssignal in Einheiten von einer Pitch-Zeitspanne zu codieren (in einem Schritt S707). Ob ein Pitch- Hervorhebungssignal codiert wird oder ein Eingangssignal a(n) direkt codiert wird, wird somit abhängig von dem Pitch-Gain des Hintergrundabschnitts bestimmt, da ein codiertes Signal, das etwas schwer zu hören ist, auf der Decodierseite decodiert wird, wenn eine Pitch-Hervorhebung durchgeführt wird, wenn die den Hintergrundabschnitt bildenden Signalkomponenten eine bestimmte Periodizität aufweisen.
Als nächstes wird eine Erläuterung einer weiteren Betriebsart des Bestimmungsabschnitts 500 mit Bezug auf Fig. 25 durchgeführt. Als ein Bestimmungsbezug dieser Ausführungsform gibt es ein Verfahren, bei dem eine Pitch-Hervorhebung nicht durchgeführt wird, wenn ein Eingangssignal nicht viel Pitch- Information aufweist, z. B. bezüglich einem Nicht-Ton- Abschnitts oder einem Nicht-Stimmen-Abschnitts, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn ein Eingangssignal viel Pitch-Information aufweist, z. B. bezüglich eines Stimmenabschnitts.
Ein Eingangssignal (Block) a(n) wird eingegeben (in einem Schritt S801), und die Hintergrundrauschleistung des Eingangssignals wird analysiert (in einem Schritt S802). Ferner wird in einem Schritt S803 abhängig von dem Schwellenwert S des Hintergrundrauschens bestimmt, ob zu einem Schritt S805 oder zu einem Schritt S806 zu springen ist. Insbesondere wird eine Analyse des Pitch-Gains des anderen Abschnitts außer dem Hintergrundabschnitt durchgeführt, wenn die Hintergrundrauschleistung größer als der Schwellenwert S ist (beispielsweise wird 20 dB bevorzugt), wohingegen der Pitch-Gain des Hintergrundabschnitts in dem Schritt S804 analysiert wird, wenn die Hintergrundrauschleistung kleiner als der Schwellenwert S ist. Wenn der Pitch-Gain des anderen Abschnitts als des Hintergrundabschnitts kleiner als der Schwellenwert G' ist, wird der Schalter 510 angewiesen, ein Eingangssignal a(n) direkt zu codieren (in einem Schritt S8101). Wenn der Pitch-Gain größer als der Schwellenwert G" ist, wird der Schalter angewiesen, ein Pitch- Hervorhebungssignal zu codieren, das durch Hervorheben des Pitch eines Eingangssignals erhalten wurde (in einem Schritt S812). Wenn der Pitch-Gain größer als der Schwellenwert G" als Ergebnis einer Analyse des Hintergrundabschnitts ist, wird unterdessen der Schalter 510 angewiesen, ein Eingangssignal a(n) direkt zu codieren (in einem Schritt S808). Wenn der Pitch-Gain kleiner als der Schwellenwert G" ist, wird der Schalter 510 angewiesen, ein durch Hervorheben eines Eingangssignals erhaltenes Pitch-Hervorhebungssignal in Einheiten einer Pitch-Zeitspanne zu codieren (in einem Schritt S810). Ob ein Pitch-Hervorhebungssignal B(n) codiert wird oder ein Eingangssignal a(n) direkt codiert wird, wird abhängig von den Pitch-Gains des Hintergrundabschnitts und des sich von dem Hintergrundabschnitts unterscheidenden Abschnitts bestimmt, da ein codiertes Signal, das etwas schwer zu hören ist, in der Decodierseite decodiert wird, wenn eine Pitch-Hervorhebung durchgeführt wird, wenn ein Hintergrundabschnitt eine konstante Periodizität aufweist.
Mit Bezug auf Sprache, bei der bereits erkannt wurde, daß sie im wesentlichen kein Hintergrundrauschen aufweist, gibt es außerdem ein Verfahren, bei dem die Pitch-Hervorhebung nicht durchgeführt wird, wenn nicht viel Pitch-Information in einem Eingangssignal enthalten ist, z. B. bezüglich eines Nicht- Tonabschnitts und eines Nicht-Stimmen-Abschnitts, wohingegen eine Pitch-Hervorhebung durchgeführt wird, wenn in einem Ausgangssignal viel Pitch-Information enthalten ist, z. B. bezüglich eines Sprachabschnitts. Dieses Verfahren wird mit Bezug auf Fig. 36 erläutert. Dieses Verfahren stellt dadurch einen Vorteil dar, daß Bestimmungsbedingungen abhängig von Hintergrundrauschen nicht notwendig sind, und dadurch, ob eine Pitch-Hervorhebung durchgeführt werden sollte oder nicht, durch viel einfachere Prozeduren bestimmt wird.
Ein Eingangssignal (Block) a(n) wird eingegeben (in einem Schritt 901), und die Leistung des Eingangssignals wird analysiert (in einem Schritt 902). Ferner wird abhängig von einem Schwellenwert 5 der Signalleitung in einem Schritt 903 bestimmt, ob zu einem Schritt 904 oder zu einem Schritt 906 zu springen ist. Insbesondere wird eine Pitch-Analyse des Eingangssignals durchgeführt, wenn die Hintergrundrauschleistung größer als der Schwellenwert 5 ist (beispielsweise wird 20 dB bevorzugt), wohingegen der Schalter 510 angewiesen wird, das Eingangssignal a(n) in einem Schritt 906 zu codieren, wenn die Hintergrundrauschleistung kleiner als der Schwellenwert 5 ist. Die Verarbeitung springt zu einem Schritt 907, wenn der in dem Schritt 904 erhaltene Pitch-Gain größer als ein Schwellenwert G' ist, wohingegen die Verarbeitung zu dem Schritt 906 springt, wenn der Pitch-Gain kleiner als der Schwellenwert G' ist. Dies bedeutet, daß der Schalter 510 angewiesen wird, ein Pitch-Hervorhebungssignal in dem Schritt 907 zu codieren, wenn der Pitch-Gain größer als der Schwellenwert G' ist, wohingegen der Schalter 510 angewiesen wird, das Eingangssignal a(n) zu codieren, wenn der Pitch- Gain kleiner als der Schwellenwert G' ist.
Fig. 30 zeigt eine Struktur, bei der eine LPC-Analyse mit einem Eingangssignal a(n) durchgeführt wird, um einen LPC- Koeffizienten zu erhalten, der eine genaue Spektrum- Einhüllende auf der Grundlage der in Fig. 21 gezeigten Struktur ausdrückt.
Ferner zeigt Fig. 31 eine Struktur, bei der eine Rauschlöschvorrichtung mit der Struktur von Fig. 21 kombiniert ist, und Fig. 32 zeigt eine Struktur, bei der eine Rauschlöschvorrichtung mit der Struktur von Fig. 30 kombiniert ist.
Als nächstes wird eine Sprachcodiervorrichtung gemäß einer zehnten Ausführungsform der Erfindung mit Bezug auf Fig. 22 erläutert. Es sei bemerkt, daß diejenigen Komponenten von Fig. 22, auf die mit den gleichen Ziffern von Fig. 11 Bezug 7 genommen wird, so definiert sind, daß sie die gleichen Funktionen wie diejenigen von Fig. 11 aufzuweisen, und ihre Erläuterung hier weggelassen wird.
Diese Ausführungsform unterscheidet sich von der neunten Ausführungsform dadurch, daß eine Bestimmung, ob ein durch Hervorheben des Pitch eines Eingangssignals erhaltenes Signal codiert wird oder ob ein Eingangssignal direkt codiert wird, von einem Bestimmungsabschnitt 520 abhängig von einem signal von einem Pitch-Hervorhebungsabschnitt 100 durchgeführt wird. Auf der Grundlage eines durch den Bestimmungsabschnitt 520 bestimmten Ergebnisses liefert der Bestimmungsabschnitt 520 eine Anweisung an den Schalter 510.
Ein Betrieb des Bestimmungsabschnitts 520 in Fig. 22 wird mit Bezug auf Fig. 26 erläutert. Ein durch einen Pitch- Analyseberechnungsabschnitt 101 erhaltener Pitch-Gain eines Pitch-Hervorhebungsabschnitts 100 wird eingegeben (in einem Schritt S813), und in einem Schritt S814 bestimmt der Pitch- Gain G abhängig von dem Schwellenwert S der Leistung, ob ein durch Hervorheben eines Eingangssignals erhaltenes Pitch- Hervorhebungssignal in Einheiten einer Pitch-Zeitspanne codiert ist (in einem Schritt S815) oder ein Eingangssignal a(n) direkt codiert ist (in einem Schritt S816).
Fig. 33 zeigt eine Struktur, bei der eine LPC-Analyse mit einem Eingangssignal a(n) durchgeführt wird, um einen LPC- Koeffizienten zu erhalten, der eine genaue Spektrum- Einhüllende auf der Grundlage der in Fig. 22 gezeigten Struktur ausdrückt. Ferner zeigt Fig. 34 eine Struktur, bei der eine Rauschlöschvorrichtung mit der Struktur von Fig. 22 kombiniert ist, und Fig. 35 zeigt eine Struktur, bei der eine Rauschlöschvorrichtung mit der Struktur von Fig. 35 kombiniert ist.
Die folgenden Fig. 47 bis 51 zeigen Strukturen, bei denen eine Rauschlöschvorrichtung 500 mit einem Bestimmungsabschnitt 500 oder 520 auf der Basis eines Pitch- Hervorhebungsabschnitts 110 und eines Codierabschnitt 910 kombiniert ist.
Fig. 47 zeigt eine Struktur, bei der eine Rauschlöschvorrichtung 400 mit der Struktur von Fig. 46 kombiniert ist.
Fig. 48 zeigt eine auf Fig. 46 basierende Struktur, bei der ein Bestimmungsabschnitt 500 bestimmt, ob ein Eingangssignal analysiert und ein Ausgangssignal eines Pitch- Hervorhebungsabschnitts 110 durch einen Codierabschnitt 910 codiert wird, oder ein Eingangssignal durch einen Codierabschnitt 910 codiert wird. Ein Schalter 530 gibt ein von dem Pitch-Hervorhebungsabschnitt 110 ausgegebenes Pitch- Hervorhebungssignal oder ein Eingangssignal auf der Basis des Bestimmungsergebnisses von dem Bestimmungsabschnitt 500 aus. Außerdem wird ein von dem Pitch-Hervorhebungsabschnitt 110 ausgegebener LPC-Koeffizient immer von einem Schalter 530 ausgegeben und an einen Codierabschnitt 910 geliefert.
Fig. 49 zeigt eine Struktur, bei der eine Rauschlöschvorrichtung mit Fig. 48 kombiniert ist. Fig. 50 zeigt eine im wesentlichen der Fig. 48 äquivalente Struktur, ausgenommen darin, daß ein von dem Bestimmungsabschnitt 520 analysiertes Signal ein Pitch-Hervorhebungssignal als eine Ausgabe von der Pitch-Hervorhebungsabschnitt 110 ist. Fig. 51 zeigt eine Struktur, bei der eine Rauschlöschvorrichtung 400 mit der Struktur von Fig. 50 kombiniert ist.
Wie oben erläutert wurde, wird gemäß der Sprachcodiervorrichtung der Erfindung eine Pitch-Hervorhebung vor einem Codieren eines Eingangssignals durchgeführt, und daher kann eine ausreichende Pitch-Information auf der Seite eines Decodierers sogar dann erhalten werden, wenn eine Pitch-Information bis zu einem gewissen Grad während der Codierprozeduren verloren geht, so daß eine subjektive Qualität verbessert wird.
Als nächstes wird eine Speicher/Transfervorrichtung für codierte Daten gemäß einer siebzehnten Ausführungsform mit Bezug auf die Zeichnungen erläutert.
Die in Fig. 52 gezeigte Speicher/Transfervorrichtung umfaßt einen Empfangsabschnitt 1110 zum Empfangen transferierter codierter Daten, einen Prozessor 1120 zum Verarbeiten so empfangener codierter Daten, einen Kompressions- Codierer/Decodierer 1130 zum Expandieren eines Kompressionscodes der so verarbeiteten codierten Daten (d. h. zum Freigeben einer Kompression derselben) und zum Decodieren der codierten Daten, um reproduzierte Daten zu erzeugen, einen Ausgabeabschnitt 1140 zum Ausgeben der reproduzierten Daten, einen Controller 1151 zum Entfernen von zum Speichern /Transferieren unnötiger Daten und zum Steuern von Schreiben /Speichern und Lesen von codierten Daten, zu denen notwendige Daten hinzugefügt sind, einen Schreibabschnitt 1152 zum Durchführen von Schreiben von codierten Daten zum Speichern/Transferieren, und einen Leseabschnitt 1154 zum Lesen gespeicherter codierter Daten auf der Grundlage einer Steuerung durch den Controller 1151, wenn ein Lesen codierter Daten notwendig ist.
Daten, die von einer die obige Struktur aufweisende Speicher/Transfer-Vorrichtung für codierte Daten behandelt werden, werden nachstehend aufgeteilt bezüglich eines Falls zum Speichern von Daten und eines Falls zum Reproduzieren von Daten erläutert.
Beim Speichern von Daten werden empfangene Daten 1011 an einen Empfangsabschnitt 1110 gesendet und dadurch in Transferpfad-Codierdaten 1012 umgewandelt, die einen Transferpfadcode aufweisen. Die Transferpfad-Codierdaten 1012 werden in einem Datenprozessor 1120 gesendet, wobei ein Transferpfadcode decodiert wird und eine Datenlöschung durch einen Transferpfadcode-Decodierer 1122 und einen Datenlöschabschnitt 1121 durchgeführt wird, die den Datenprozessor 1120 bilden. Die Daten werden dann als Kompressions-Codierdaten 1013 ausgegeben. Insbesondere wird, wie in dem Ablaufdiagramm von Fig. 53 gezeigt ist, ein in den Transferpfad-Codierdaten aufgenommener Transferpfadcode nach dem Start des Diagramms decodiert (in einem Schritt S1501), und dann werden unnötige Daten aus den Daten gelöscht (in einem Schritt S1502). Danach werden den Daten nach der Löschverarbeitung ein Fehlerkorrekturcode hinzugefügt, womit die Verarbeitung in dem Datenprozessor 1120 beendet ist. Um die obige Datenverarbeitung genauer zu erläutern, wird ein Transferpfadcode durch einen Transferpfadcodierer codiert, wie es in Fig. 54 gezeigt ist, und decodierte Daten, aus denen ein Fehlerkorrekturcode gelöscht ist, wie es ebenfalls in dieser Figur gezeigt ist, werden dadurch gebildet. Diese Daten weisen unnötige Daten auf, und die unnötigen Daten werden von dem Datenlöschabschnitt 1121 gelöscht, wohingegen decodierte Daten, die nur die notwendigen Daten aufweisen, von dem Datenlöschabschnitt 1121 ausgegeben werden. Diese decodierten Daten werden in einen Fehlerkorrekturcode- Addierer 1123 eingegeben, und ein Fehlerkorrekturcode wird den decodierten Daten hinzugefügt. Auf diese Art und Weise werden decodierte Daten der verarbeiteten Transferpfad- Codierdaten als Kompressions-Codierdaten 1013 von dem Fehlerkorrekturcode-Addierer 1123 ausgegeben.
Die Kompressions-Codierdaten 1013 von dem Datenprozessor 1120 werden in einem Aufzeichnungsmedium 1153 durch einen Schreibabschnitt 1152 gemäß einer Anweisung von dem Controller 1151 gespeichert. Beim Reproduzieren von Daten werden in dem Aufzeichnungsmedium 1153 gespeicherte Kompressions-Codierdaten, bei denen mindestens der Transferpfadcode gelöscht wurde, von dem Leseabschnitt 1154 ausgelesen und durch einen Kompressions-Code-Decodierer 1130 decodiert, so daß die Daten als reproduzierte Daten 1015 an einen Anwender durch einen Ausgabeabschnitt 1140 geliefert werden.
Wie oben erläutert wurde, werden Transferpfad-Codierdaten 1012 von dem Empfangsabschnitt 1110 ausgegeben, und die Transferpfad-Codierdaten 1012 werden einer Kompressionscodierung von Daten, wie beispielsweise Sprache und Bilder auf der Seite eines Empfängers unterworfen. Danach werden den Transferpfad-Codierdaten ein Fehlererfassungscode, ein Fehlerkorrekturcode und eine Verschachtelung hinzugerügt. Bei dem in dem Datenprozessor 1120 enthaltenen Transferpfadcode-Decodierer 1127 wird eine Entverschachtelung, eine Fehlerkorrektur-Decodierung und eine Fehlererfassungs-Decodierung durchgeführt, und das Ergebnis wird als Kompressions-Codierdaten ausgegeben. Bei dieser Stufe werden abhängig von dem Schema des Transferpfadcodierens ein Fehlererfassungsbit, das das Ergebnis einer Fehlerfassung angibt, in einigen Fällen unabhängig von den Kompressions-Codierdaten ausgegeben. In dem Fall, bei dem ein Fehlererfassungsbit ausgegeben wird, wird ein System vorgesehen, bei dem das Fehlererfassungsbit von dem Kompressions-Code-Decodierer 1130 überwacht wird, und eine Kompensationsverarbeitung wird durchgeführt, wenn ein Fehler erfaßt wird, so daß die Qualität von Reproduktionsdaten 1015 nicht verschlechtert wird.
Hinsichtlich eines Verfahrens zum Speichern des Fehlererfassungsbits können zwei Verfahren vorgeschlagen werden. Das erste Verfahren ist ein Verfahren zum Speichern eines Fehlererfassungsbits zusammen mit den Kompressions- Codierdaten 1013. Das zweite Verfahren ist ein Verfahren eines Speicherns von Kompressions-Codierdaten 1013 nachdem eine Kompensationsverarbeitung auf der Grundlage eines Fehlererfassungsbits durchgeführt wurde. Bei dem zweiten Verfahren ist es möglich, wenn eine Reproduzierungsvorrichtung 1202 getrennt vorgesehen ist, Reproduktionsdaten 1024 zu erhalten, die im wesentlichen denjenigen gleichwertig sind, die erhalten werden, indem eine Kompensationsverarbeitung ohne Vorsehen des Kompressions- Code-Decodierers 1280 mit einer Funktion eines Durchführens einer Kompensationsverarbeitung durchgeführt wird. Abhängig von dem Kompensationsverfahren ist es jedoch notwendig, eine Kompensation, wie beispielsweise eine Interpolationsverarbeitung für Reproduktionsdaten 1226, durchzuführen. Da in diesem Fall Reproduktionsdaten 1226 zusätzlich zu den Kompressions-Codierdaten 1223 für eine Kompensationsverarbeitung notwendig sind, ist es prinzipiell unmöglich, eine Kompensation nur durch Betreiben von Kompressions-Codierdaten 1223 durchzuführen, so daß das zweite Verfahren nicht verwendet werden kann.
Bei einigen Fällen wird ein unnötiger Abschnitt der durch den Transfer-Code-Decodierer 1222 decodierten Daten von dem im Datenprozessor 1220 enthaltenen Datenlöschabschnitt 1221 gelöscht. Dies ist so, da beispielsweise bezüglich der Kompressions-Codierdaten, die einer geschichteten Codierung (layered coding) oder dergleichen unterworfen sind, alle Kompressions-Codierdaten 1213 abhängig von der Auflösung einer zu verwendenden Reproduktionsvorrichtung in einigen Fällen nicht gespeichert/transferiert werden müssen. Ein weiteres Beispiel ist ein Fall eines Aufzeichnens von Sprachdaten, wie beispielsweise der Inhalt eines Telefongesprächs. In diesem Fall wird die ursprüngliche Aufgabe des Aufzeichnens des Inhalts eines Telefongesprächs sogar dann nicht beeinflußt, wenn eine Nicht-Ton-Zeitspanne oder eine Hintergrundrauschzeitspanne gelöscht wird. Außerdem werden in einem Fehlerkorrektur-Codier-Addierer 1223 durch einen Transferpfadcode-Decodierer 1222 decodierte Daten mit einem Fehlerkorrektur-Code einer kleinen Größe hinzugefügt. Dies ist so, da ein kleiner Fehler beim Speichern oder Transferieren von Daten auftreten kann, und daher können Daten geschützt werden, ohne die Datenmenge und die Berechnungsmenge beim Reproduzieren der Daten wesentlich zu beeinflussen, indem ein einfacher Fehlerkorrektur-Code hinzugefügt wird, obgleich der so hinzugefügte einfache Fehlerkorrektur-Code kein Erfassungs-Code oder Korrektur-Code von einer solchen großen Größe aufweist, wie sie der Transferpfadcode aufweist.
Der Transfer-Code-Decodierer 1222, der Datenlöschabschnitt 1221 und der Fehlerkorrektur-Code-Addierer 1223 können verschiedene Beziehungen untereinander aufweisen. Es gibt einen Fall, bei dem die Datenlöschung nach dem Decodieren eines Transferpfadcodes durchgeführt wird, wie es oben beschrieben ist. Andererseits kann eine Transferpfadcode- Decodierung nach der Datenlöschung durchgeführt werden. Außerdem gibt es einen Fall, bei dem der Fehlerkorrektur- Code-Addierer Daten sofort nach einem Transferpfadcode- Decodieren behandelt, und in einem weiteren Fall, in dem der Fehlerkorrektur-Code-Addierer Daten, die einmal einer Datenlöschung unterworfen wurden, behandelt. Außerdem gibt es einen Fall, bei dem die Datenlöschung oder die Hinzufügung eines Fehlerkorrektur-Codes nicht durchgeführt wird. Die Beziehung zwischen diesen drei Komponenten kann daher abhängig von dem Kompressions-Decodierschema, dem Transferpfad-Codierschema, den Spezifikationen der Speicher/Transfervorrichtung und der Reproduktionsvorrichtung bestimmt werden.
Die so erhaltenen Kompressions-Codierdaten 1213 (die manchmal einen Fehlererfassungsbit aufweisen) werden in ein Speichermedium 1253 durch einen Schreibabschnitt 1252 gemäß einer Anweisung vom Steuerabschnitt 1251 geschrieben. Ein Halbleiterspeicher, eine Magnetplatte, eine IC-Karte oder dergleichen können als das Speichermedium 1253 verwendet werden. Wenn die Kompressions-Codierdaten 1213 gleichzeitig an den Kompressions-Code-Decodierer 1230 geliefert werden, ist es außerdem möglich, die einem Speichervorgang unterzogenen Daten zu decodieren und die Daten für einen Anwender durch den Ausgabeabschnitt 1240 zu liefern. Beim Reproduzieren von Daten werden gespeicherte Daten als Kompressions-Codierdaten 1014 durch einen Leseabschnitt 1254 ausgegeben und durch den Kompressions-Code-Decodierabschnitt 1230 decodiert. Danach werden die Daten an einen Anwender durch den Ausgabeabschnitt 1240 geliefert.
Vorteile einer Speicher/Transfervorrichtung, die die obige Struktur verwendet, wird mit Bezug auf verschiedene Beispiele erläutert. Im Fall eines standardmäßigen Sprach-Codierschemas eines digitalen tragbaren Telefons werden die Kompressions- Codierdaten mit 3,45 Kbps, wie oben beschrieben, und die Transferpfad-Codierdaten mit 5,6 Kbps übertragen. Wenn der Gesprächsinhalt auf der Empfängerseite mit einem Speichermedium mit einem 1-Mbyte-Halbleiterspeicher gespeichert wird, werden nur Daten, die etwa 24 Minuten entsprechen, gemäß einem herkömmlichen Verfahren eines Speicherns von Transferpfad-Codierdaten aufgezeichnet. Bei diesem Fall kann jedoch eine Aufzeichnung von etwa 38 Minuten einschließlich Fehlererfassungsbits gemäß der elften Ausführungsform der Erfindung verwirklicht werden, wobei der Datenprozessor nur ein Transferpfad-Decodiermittel aufweist, und diese Aufzeichnungszeit ist um 14 Minuten länger als beim herkömmliche Verfahren. Hinsichtlich der Berechnungsmengen auf der Empfängerseite ist die Berechnungsmenge des Transferpfadcode-Decodierers außerdem zwei- oder dreimal größer als die Berechnungsmenge des Kompressions-Code- Decodierers. Daher kann eine Reproduktion gemäß dieser Ausführungsform mit einer Berechnungsmenge von 1/3 bis 1/4 einer herkömmlichen Speicher/Transfervorrichtung erreicht werden, so daß ein entsprechender elektrischer Leistungsverbrauch eingespart werden kann, wodurch die Lebensdauer der Batterie verlängert wird.
Fig. 55 zeigt ein Blockdiagramm, das die Struktur einer Speicher/Transfervorrichtung zum Codieren von Daten gemäß einer achtzehnten Ausführungsform der Erfindung zeigt. Diese zwölfte Ausführungsform schränkt die Verarbeitungsprozeduren eines Datenprozessors bei der in Fig. 52 gezeigten siebzehnten Ausführungsform ein. Transferpfadcodedaten 1012 werden durch einen Transferpfadcode-Decodierer 1222 decodiert und danach ein Fehlerkorrektur-Code durch einen Fehlerkorrektur-Code-Addierer 1223 hinzugefügt.
Ein Speicher/Transfersystem, bei dem Daten in einem Speichermedium, wie beispielsweise einer Festplatte oder einem Halbleiterspeicher, gespeichert/transferiert werden, kann ein Auftreten eines Bitfehlers nicht verhindern, obgleich diese Art von system eine niedrigere Wahrscheinlichkeit eines Auftretens im Vergleich mit einem Übertragungssystem erreicht. Obgleich die Wahrscheinlichkeit eines Auftretens eines Bitfehlers somit in einem Speicher/Transfersystem niedriger ist, kann ein Auftreten eines Bitfehlers nicht vernachlässigt werden, um die gespeicherten Lesedaten richtig zu lesen. Gemäß der Struktur dieser achtzehnten Ausführungsform wird ein Fehlerkorrektur- Code kleiner Größe zum Schützen von Daten vor einem leichten Fehler, der in einem Speicher/Transfersystem auftreten kann, hinzugefügt, nachdem ein Transferpfadcode zum Schützen von Daten vor einem schweren Codefehler, die in einem Transferpfad auftreten können, entfernt wurde, und folglich können Daten von einem Fehler in einem Speicher/Transfersystem geschützt werden, wobei die erforderlichen Bits nur minimal erhöht werden.
Außerdem kann eine Erhöhung der Anzahl von Bits eingeschränkt werden, so daß sie viel kleiner ist, indem eine Codeoptimierung für die Merkmale eines Speicher/Transfersystems verwendet wird, wenn ein Fehlerkorrektur-Code hinzugefügt wird.
Fig. 56 zeigt ein Blockdiagramm, das die Struktur einer Speicher/Transfervorrichtung für codierte Daten gemäß der neunzehnten Ausführungsform der Erfindung hinsichtlich der Beziehung zu einer Übertragungsvorrichtung zeigt. Die Struktur und der Betrieb einer Speicher/Transfervorrichtung für codierte Daten sind die gleichen wie diejenigen der in Fig. 52 gezeigten siebzehnten Ausführungsform. Fig. 56 offenbart eine spezifische Struktur der Übertragungsvorrichtung zum Übertragen von Eingangsdaten eines Empfangsabschnitts 1110 der Speicher/Transfervorrichtung. In dieser Figur umfaßt die Übertragungsvorrichtung einen Transfercode-Addierer 1410 zum Addieren eines Transferpfadcodes zu den zu übertragenden Daten, einen Speicherabschnitt 1420 zum Speichern der zu übertragenden Daten und einen Übertragungsabschnitt 1430 zum Übertragen von Kompressions-Codierdaten zum Transferpfad, denen ein Transferpfadcode hinzugefügt wurde.
Die in Fig. 56 gezeigte Speicher/Transfervorrichtung für codierte Daten gemäß der neunzehnten Ausführungsform ist mit einem Transferpfadcode-Addierer 1410 zum Schützen von Daten vor dem Auftreten eines großen Fehlers in einem Transferpfad versehen und sie wird gleichzeitig mit einem Datenprozessor 1220 versehen, um so dem Addierer 1410 über dem Transferpfad zu entsprechen. Auf der Übertragungsseite fügt der Transferpfadcode-Addierer 1410 einen Transferpfadcode vor einem Übertragen hinzu und überträgt dann Daten, um die Daten im Transferpfad zu schützen. Auf der Empfängerseite decodiert der Datenprozessor 1220 den Transferpfadcode teilweise, wobei nur ein Fehlerkorrektur-Code zum Speichern und Transferieren übrigbleibt und entfernt wird, wodurch die zu speichernde und transferierende Datenmenge verringert wird. Folglich wird ein Vorteil dadurch erreicht, daß Daten zum Speichern und Transferieren ohne Addieren irgendeines neuen Fehlerkorrektur-Codes erhalten werden. Außerdem kann beispielsweise, wenn eine Mehrzahl von Arten von hinzuzufügenden Transferpfadcodes in der Addiervorrichtung 1410 auf der Übertragungsseite in Übereinstimmung mit der Struktur eines Speichersystems, wie beispielsweise der Art einer Speicherung, erstellt werden, der Speicherwirkungsgrad des Speicher/Transfersystems sehr stark verbessert werden.
Fig. 57A und 57B sind Blockdiagramme, die eine Bezugsstruktur zwischen einer Speicher/Transfervorrichtung und einer Reproduktionsvorrichtung für codierte Daten gemäß der zwanzigsten Ausführungsform der Erfindung zeigen. Diese Ausführungsform unterscheidet sich von der elften Ausführungsform dadurch, daß eine Reproduktionsvorrichtung 1202 unabhängig von einer Speichervorrichtung 1201 vorgesehen ist. In der Speichervorrichtung 1201 werden von einem Datenprozessor 1220 ausgegebene Kompressionsdaten 1023 in einem Speichermedium 1263 durch einen Schreibabschnitt 1262 gemäß einer Anweisung eines Controllers 1261 gespeichert. In der Reproduktionsvorrichtung 1202 werden im Speichermedium 1271 gespeicherte Daten aus dem Leseabschnitt 1272 ausgelesen und als Kompressions-Codierdaten 1025 ausgegeben, die vom Kompressions-Code-Decodierer 1280 decodiert und als Reproduktionsdaten 1026 durch einen Ausgabeabschnitt 1290 an einen Anwender geliefert werden. Bei einem herkömmlichen Verfahren, bei dem ein Transferpfadcode-Decodierer 1222 im Speichermedium 1263 gespeichert ist, verlangt die Reproduktionsvorrichtung 1202 einen Transferpfadcode- Decodierer 1222 und einen Kompressions-Code-Decodierer 1280. Gemäß der Struktur diese zwanzigsten Ausführungsform erfordert unterdessen die Reproduktionsvorrichtung 1202 keinen Transferpfadcode-Decodierer 1222 und daher ist es möglich, die Schaltkreisgröße der Reproduktionsvorrichtung 1202 zu verringern oder den elektrischen Leistungsverbrauch einzusparen.
Fig. 58A und 58B sind Blockdiagramme, die Bezugsstrukturen einer Speicher/Transfervorrichtung für codierte Daten gemäß der einundzwanzigsten Ausführungsform der Erfindung und eine damit verbundene Reproduktionsvorrichtung zeigen. Die fünfzehnte Ausführungsform unterscheidet sich von der vierzehnten Ausführungsform dadurch, daß die Transfervorrichtung 1301 einen Transferabschnitt 1342 anstelle eines Schreibabschnitts 1262 und eines Speichermediums 1263 umfaßt, sowie dadurch, daß die Reproduktionsvorrichtung 1302 einen Empfangsabschnitt 1350 anstelle eines Leseabschnitts 1272 und eines Speichermediums 1271 umfaßt. Von einem Datenprozessor 1320 ausgegebene Kompressions-Codierdaten werden an einen Transferpfad durch den Transferabschnitt 1342 ausgegeben. Die Reproduktionsvorrichtung 1302 empfängt die transferierten Daten 1335 mittels des Empfangsabschnitts 1350 und decodiert die Daten mittels des Kompressions-Code-Decodierers 1360. Danach werden die decodierten Daten an einen Anwender durch einen Ausgabeabschnitt 1370 geliefert. Bei der fünfzehnten Ausführungsform würde es vorteilhafter sein, eine Anordnung zu machen, bei der ein einfacher Fehlerkorrektur-Code durch einen Fehlerkorrektur-Code-Addierer 1323 den vom Transferpfadcode-Decodierer 1322 decodierten Daten hinzugefügt wird, um Daten vor einem Fehler zu schützen, wenn Daten transferiert werden. Ferner muß im Fall, bei dem Daten an eine Anzahl von Reproduktionsvorrichtungen 1302 durch ein Netzwerk oder dergleichen transferiert werden, die Reproduktionsvorrichtung 1302 dieser fünfzehnten Ausführungsform nicht mit einem Transferpfadcode-Decodierer 1322 versehen werden, und daher ist es möglich, die Schaltkreisgröße oder den elektrischen Leistungsverbrauch zu verringern. Folglich ist es möglich, die Kosten für die Reproduktionsvorrichtung 1302 zu senken, so daß eine Anzahl von Reproduktionsvorrichtungen 1302 mit einem niedrigen Preis verwendet werden können.
Wie oben erläutert wurde, wird gemäß den Ausführungsformen der Erfindung, wenn transferierte codierte Daten, denen ein Transferpfadcode durch ein Sendesystem hinzugefügt wurde, in einem Speichermittel in einem Empfängersystem gespeichert/transferiert werden, ein Transferpfadcode oder dergleichen, der zum Speichern und Transferieren unnötig ist, decodiert, wodurch eine Datenlöschung bezüglich der empfangenen codierten Daten durchgeführt und ein Fehlerkorrektur-Code einer kleinen Größe zum Verhindern eines Ausfalls von Daten während des Speicherns/Transferierens den Daten hinzugefügt wird. Danach werden codierte Daten in einem Speichersystem gespeichert oder an ein Transfersystem transferiert. Auf diese Art und Weise wird eine wirksame Speicherung/Transferierung verwirklicht, und der Anwendungswirkungsgrad eines Speichermediums und eines Transferpfads kann verbessert werden, wodurch ein Vorteil dahingehend erreicht wird, daß die Schaltkreisgröße der Reproduktionsvorrichtung und der elektrische Leistungsverbrauch der Reproduktionsvorrichtung verringert wird.

Claims

1. Codiervorrichtung mit:

einem Eingangsanschluß (12), dem ein Eingangssignal zugeführt wird;

einem adaptiven Codierbuch (14) zum Speichern von Anregungssignalen als Vektoren;

einem Synthetisierfilter (15) zur Ausbildung eines synthetisierten Signals aus den in dem adaptiven Codebuch gespeicherten Vektoren,

gekennzeichnet durch,

Ähnlichkeitsberechnungsmittel (16) zur Berechnung einer Ähnlichkeit zwischen dem synthetisierten Signal, das von dem Synthetisierfilter erhalten wird, und einem Eingangssignal;

Codierschemabestimmungsmittel (17) zum Bestimmen eines Codierschemas aus einer Mehrzahl von Codierschemata, die jeweils unterschiedliche Codierbitraten haben, auf der Grundlage der Ähnlichkeit, die von den Ähnlichkeitsberechnungsmittel erhalten wurde; und

einer Mehrzahl von Codiermittel (53-55), die voneinander verschiedene Codierschemata haben, wobei eines der Codiermittel von dem Codierschemabestimmungsmittel (17) ausgewählt wird, und wobei das Eingangssignal dem ausgewählten Codiermittel eingegeben wird, wodurch die Codierung des Eingangssignals in Übereinstimmung mit dem bestimmten Codierschemata durchgeführt wird.

2. Codiervorrichtung nach Anspruch 1, mit einem Zwischenabstandsanalysemittel (22) zur Analyse eines Zwischenabstands des Eingangssignals, um eine Zwischenabstandsinformation zu erhalten, und das adaptive Codebuch durch die Zwischenabstandsinformation auszuwählen, und wobei das adaptive Codebuch einen Referenzvektor an das Synthetisierfilter ausgibt, der durch die Zwischenabstandsinformation ausgewählt wurde.

3. Codiervorrichtung nach Anspruch 1, mit einem Mittel (32) zum Suchen aller Referenzvektoren, die in dem adaptiven Codebuch gespeichert sind, für einen Referenzvektor, bei dem die von dem Ähnlichkeitsberechnungsmittel erhaltene Ähnlichkeit einen Maximalwert anzeigt, und wobei das Codierschemabestimmungsmittel (17) eines der Mehrzahl von Codierschemata in Übereinstimmung mit der Ähnlichkeit auswählt, die durch das Ähnlichkeitsberechnungsmittel in Übereinstimmung mit dem Referenzwert berechnet wird, der von dem Suchmittel gesucht wurde.

4. Codiervorrichtung nach Anspruch 1 mit einem Zwischenabstandanalysemittel (22) zur Analyse eines Zwischenabstands des Eingangssignals, um Zwischenabstandsinformationen zu erhalten, und einem Mittel (42) zum Speichern der Zwischenabstandsinformation, die für ein vergangenes Eingangssignal erhalten wurde, wobei das adaptive Codebuch (14) den Bezugsvektor an das Synthetisierfilter ausliest, der durch die Zwischeninformation bestimmt ist, wobei das Synthetisierfilter (15) ein Synthetisiersignal entsprechend einem gegenwärtigen Eingangssignal aus dem aus dem adaptiven Codebuch ausgelesenem Bezugsvektor bildet, und wobei das Ähnlichkeitsberechnungsmittel (16) eine Ähnlichkeit zwischen dem synthetisierten Signal und dem gegenwärtigen Eingangssignal berechnet.