[go: up one dir, main page]

DE69736279T2 - Tonwiedergabe-geschwindigkeitsumwandler - Google Patents

Tonwiedergabe-geschwindigkeitsumwandler Download PDF

Info

Publication number
DE69736279T2
DE69736279T2 DE69736279T DE69736279T DE69736279T2 DE 69736279 T2 DE69736279 T2 DE 69736279T2 DE 69736279 T DE69736279 T DE 69736279T DE 69736279 T DE69736279 T DE 69736279T DE 69736279 T2 DE69736279 T2 DE 69736279T2
Authority
DE
Germany
Prior art keywords
waveform
linear predictive
speech
speech signal
predictive coefficients
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69736279T
Other languages
English (en)
Other versions
DE69736279D1 (de
Inventor
Naoya Tanaka
Hiroaki-Room 203 Motosumiyoshi Kopo TAKEDA
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE69736279D1 publication Critical patent/DE69736279D1/de
Publication of DE69736279T2 publication Critical patent/DE69736279T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)

Description

  • Technisches Sachgebiet
  • Die vorliegende Erfindung bezieht sich auf eine Vorrichtung zum Umwandeln einer Sprachwiedergaberate, um digitalisierte Sprachsignale unter einer wahlweisen Rate ohne Transformieren (Ändern) eines Pitch einer Sprache wiederzugeben.
  • In dieser Spezifikation (Beschreibung) werden "Sprache" und "Sprachsignal" dazu verwendet, alle akustischen Signale, erzeugt von Instrumenten und anderen, nicht nur Sprache, die von einer Person geäußert wird, darzustellen.
  • Hintergrund
  • Als ein Verfahren zum Umwandeln einer Wiedergaberate zu einer wahlweisen Rate ohne Transformieren eines Pitch einer Sprache ist ein PICOLA (Pointer Interval Control Overlap and Add) Verfahren bekannt. Das Prinzip des PICOLA-Verfahrens wird durch "Time-Scale Modification Algorithm for Speech by Use of Pointer Interval Control Overlap and Add (PICOLA) and Its Evaluation", geschrieben von MORITA, Naotaka und ITAKURA, Fumitada, in Proceeding of National Meeting of The Acoustic Society of Japan 1-4-14 (Oktober 1986), eingeführt.
  • Und die Anwendung des PICOLA-Verfahrens für Sprachsignale, aufgeteilt in Frames, um eine Wiedergaberate mit weniger Pufferspeichern umzuwandeln, ist in der Japanischen, ungeprüften Patentveröffentlichung No. 8-137491 offenbart.
  • 9 stellt ein Blockdiagramm einer herkömmlichen Vorrichtung zum Umwandeln einer Sprachwiedergaberate in einem PICOLA-Verfahren dar. In der Vorrichtung zum Umwandeln einer Sprachwiedergaberate, dargestellt in 9, werden digitalisierte Sprachsignale auf einem Aufzeichnungsmedium 1 aufgezeichnet, und ein Framing-Abschnitt 2 ruft ein Sprachsignal in einem Frame einer Abtastung einer vorgegebenen Länge LF von einem Aufzeichnungsmedium 1 ab. Das Sprachsignal, das von dem Framing-Abschnitt 2 abgerufen ist, wird in einem Pitchperioden-Berechnungsabschnitt 6 bereitgestellt und gleichzeitig temporär in einem Pufferspeicher 3 gespeichert. Der Pitchperioden-Berechnungsabschnitt 6 berechnet eine Pitchperiode Tp des Sprachsignals, um sie in einem Wellenform-Überlappungsabschnitt 4, zusammen mit einem Speichern eines Hinweiszeigers einer Verarbeitungs-Start-Position in einen Pufferspeicher 3 hinein, bereitzustellen. Der Wellenform-Überlappungsabschnitt überlappt Wellenformen von Sprachsignalen, die in dem Pufferspeicher 3 gespeichert sind, unter Verwendung der Pitchperiode der Eingabesprache, und gibt dann die überlappte Wellenform in den Wellenform-Synthetisierabschnitt 5 ein. Der Wellenform-Synthetisierabschnitt 5 synthetisiert eine Ausgabesprachsignal-Wellenform von der Sprachsignal-Wellenform, die in dem Pufferspeicher 3 gespeichert ist, und der überlappten Wellenform, die an dem Wellenform-Überlappungsabschnitt 4 verarbeitet ist, um die Ausgabesprache bereitzustellen.
  • In dieser Vorrichtung zum Umwandeln einer Sprachwiedergaberate wird eine Wiedergaberate ohne Transformieren eines Pitch entsprechend zu dem Prozess, wie nachfolgend, umgewandelt.
  • Zuerst wird ein Verarbeitungsverfahren für eine Wiedergabe unter einer hohen Rate anhand von 10 und 11 erläutert. In den Figuren ist P0 ein Hinweiszeiger, der einen Kopf eines Wellenform-Überlappungs-Verarbeitungsframe angibt. In der Wellenform-Überlappungsverarbeitung ist ein Verarbeitungsframe eine LW-Abtastung mit einer Länge von zwei Perioden einer Sprachpitchperiode Tp. Und wenn eine Rate einer Eingangssprache 1 ist und eine erwünschte Wiedergaberate durch r gegeben ist, ist L die Anzahl von Abtastungen, die durch die folgende Formel gegeben ist: L = Tp{1/(r – 1)} (1)
  • L ist eine Abtastung entsprechend einer Länge einer Ausgangs-Wellenform (c), und eine Eingangssprache einer Tp + L-Abtastung wird als eine Ausgangssprache einer L-Abtastung wiedergegeben, wie dies später erwähnt ist. Entsprechend wird, wobei r = (Tp + L)/L gegeben ist, dann die Formel (1) eingeführt.
  • Eine Eingangssprache, abgerufen von dem Aufzeichnungsmedium 1 durch einen Framing-Abschnitt 2, wird in einem Pufferspeicher 3 gespeichert. Gleichzeitig berechnet ein Pitchperioden-Berechnungsabschnitt 6 eine Pitchperiode Tp der Eingangssprache, um sie zu dem Wellenform-Überlappungsabschnitt 4 einzugeben. Und der Pitchperioden-Berechnungsabschnitt 6 berechnet L von der Pitchperiode Tp unter Verwendung der Formel (1), bestimmt P0', was eine Startposition für eine nächste Verarbeitung ist, und führt es zu dem Pufferspeicher 3 als einen Hinweiszeiger in den Pufferspeicher.
  • Der Wellenform-Überlappungsabschnitt 4 ruft eine Wellenform einer Abtastung von dem Wellenform-Überlappungs-Verarbeitungsframe LW (= 2Tp) von einem Verarbeitungsstartpunkt, angezeigt durch einen Hinweiszeiger P0, von dem Pufferspeicher 3 ab, verringert den ersten Teil des Verarbeitungsframe (Wellenform A) in der Richtung der Zeitachse und erhöht den letzteren Teil des Verarbeitungsframe (Wellenform B) in der Richtung der Zeitachse entsprechend zu der Dreieckfensterfunktion, addiert die Wellenform A und die Wellenform B und berechnet dann die überlappte Wellenform C.
  • Der Wellenform-Synthetisierungsabschnitt 5 entfernt die Wellenform des Wellenform-Überlappungs-Verarbeitungsframe (Wellenform A + Wellenform B) von der Eingangssprache-Wellenform und setzt die überlappte Wellenform (Wellenform C), dargestellt in 10, anstelle der entfernten Wellenform ein. Dann wird die Eingangssprache-Wellenform D zu der überlappten Wellenform addiert, bis P0' eine Position eines (P0 + Tp + L) Punkts anzeigt (was P1 ist, das eine Position eines Kopfs + L Punkts in der Wellenform C auf der synthetisierten Wellenform anzeigt). Zusätzlich existiert P1 in der Wellenform C, wenn r > 2 gilt, wobei, in diesem Fall, die Wellenform C ausgegeben wird, bis die Position durch P1 angezeigt ist.
  • Als eine Folge ist die Länge der synthetisierten Ausgangs-Wellenform (c) eine L-Abtastung, wobei dann eine Eingangssprache einer Tp + L Abtastung als eine Ausgangssprache der L-Abtastung wiedergegeben wird. Als Nächstes wird eine Wellenform-Überlappungs-Verarbeitung von einem Punkt P0' auf der Eingangs-Wellenform begonnen.
  • 11 stellt die Beziehung von Sprachsignalen, gespeichert im Pufferspeicher 3, und eines Framing durch den Framing-Abschnitt 2 in der vorstehenden Verarbeitung, erläutert unter Verwendung von 10, dar.
  • Ursprünglich beträgt eine Pufferlänge, die für die Wellenform-Überlappungs-Verarbeitung in dem Pufferspeicher 3 notwendig ist, zwei Perioden einer maximalen Pitchperiode Tp max einer Eingangssprache. Allerdings liegt, da die Eingangssprache in Abtastungen einer vorbestimmten Framelänge LF unterteilt wird, um eingegeben zu werden, die Verarbeitungsstartposition P0 an einer wahlweisen Position in dem ersten Frame einer Eingangssprache und die Pufferlänge sollte ein Ganzzahliges der Eingangsframelänge sein. Dementsprechend ist die Pufferlänge der minimale Wert in Vielfachen von LF über (LF + 2Tp max). Zum Beispiel benötigt, wenn die Eingangsframelänge LF 160 Abta stungen beträgt und der maximale Wert einer Pitchperiode Tp max 145 ist, die Pufferlänge 3LF = 480 Abtastungen.
  • Bei der Verarbeitung in dem Pufferspeicher wird der Inhalt des Pufferspeichers zu jedem Zeitpunkt einer Eingabe einer LF-Abtastung verschoben und die Wellenform-Überlappung wird nur dann verarbeitet, wenn die Verarbeitungsstartposition P0 in dem ersten Frame eingegeben ist. Zu einem anderen Zeitpunkt werden Eingangssignale als Ausgangssignale ohne eine Verarbeitung zugeführt.
  • Als Nächstes wird ein Verfahren für eine Wiedergabe unter niedriger Rate unter Bezugnahme auf 12 erläutert.
  • Ebenso wie unter einer Wiedergabe mit einer hohen Rate ist P0 ein Hinweiszeiger, der einen Kopf eines Wellenform-Überlappungs-Verarbeitungsframe anzeigt. In der Wellenform-Überlappungs-Verarbeitung ist ein Verarbeitungsframe eine LW-Abtastung mit einer Länge von zwei Perioden einer Sprach-Pitchperiode Tp. Und wenn eine Rate einer Eingangssprache 1 ist und eine erwünschte Wiedergaberate mit r angegeben ist, ist L die Anzahl von Abtastungen, die durch die folgende Formel gegeben ist: L = Tp{r/(1 – r)} (2)
  • In dem Fall einer Wiedergabe unter niedriger Rate wird eine Eingangssprache einer L Abtastung als eine Ausgangssprache einer Tp + L Abtastung wiedergegeben, wie dies später erwähnt ist. Demzufolge wird, unter Vorgabe von r = L/(Tp + L), dann die Formel (2) eingeführt.
  • Der Wellenform-Überlappungsabschnitt 4 erhöht den ersten Teil des Verarbeitungsframe (Wellenform A) in der Richtung der Zeitachse, verringert den letzteren Teil des Verarbeitungsframe (Wellenform B) in der Zeit-Richtung entsprechend der Dreieckfensterfunktion, addiert die Wellenform A und die Wellenform B und berechnet eine überlappte Wellenform c.
  • Der Wellenform-Synthetisierabschnitt 5 setzt die überlappte Wellenform (Wellenform C) zwischen Wellenform A und Wellenform B der Eingangssignalwellenform (a), dargestellt in 12, ein. Dann wird die Eingangssprache-Wellenform B zu der überlappten Wellenform addiert, bis P0' eine Position eines Punkts (P0 + L) anzeigt (was bedeutet, dass P1 eine Position eines Kopfs + einen Punkt L der Wellenform C auf der synthetisierten Wellenform anzeigt). Dann wird, wenn r > 0,5 gilt, P1 nicht auf der Eingangssprache-Wellenform B liegt, sondern auf der Wellenform D, fortgeführt von dem überlappten Verar beitungsframe, in diesem Fall, liegt, die Wellenform D bis zu der Position, angezeigt durch P0', ausgegeben.
  • Als eine Folge ist die Länge einer synthetisierten Ausgangs-Wellenform (C) eine Abtastung TP + L, wobei dann eine Eingangssprache einer Abtastung L als eine Ausgangssprache einer Abtastung Tp + L wiedergegeben wird. Und als Nächstes wird die Wellenform-Überlappungsverarbeitung von dem Punkt P0' der Eingangs-Wellenform aus begonnen.
  • Die Beziehung von Sprachsignalen, gespeichert in dem Pufferspeicher 3, und eines Framing des Framing-Abschnitts 2 ist dieselbe wie diejenige einer Wiedergabe unter einer hohen Rate.
  • Dabei wird, in der Vorrichtung zum Umwandeln einer Sprachwiedergaberate, wie dies vorstehend beschrieben ist, eine Pitchperiode einer Eingangssprache dann erhalten, wenn das Überlappen einer Wellenform auf der Basis der Pitchperiode ausgeführt wird. Eine Eingangssprache, geteilt in der Pitchperiode, wird als eine Pitch-Wellenform bezeichnet, und da allgemein Pitch-Wellenformen eine hohe Ähnlichkeit zueinander haben, sind sie zur Verwendung für eine Wellenform-Überlappungsverarbeitung geeignet.
  • Allerdings erhöht sich, wenn ein Berechnungsfehler in einer Pitchperioden-Berechnung auftritt, die Differenz zwischen benachbarten Pitch-Wellenformen, was das Problem mit sich bringt, dass sich die Qualität einer Ausgangssprache nach einer Wellenform-Überlappung verringert. Als eine primäre Ursache werden, um einen Berechnungsfehler einer Pitchperiode hervorzurufen, die folgenden Faktoren angesehen. Allgemein stellt die berechnete Pitchperiode ein bestimmtes Intervall einer Eingangssprache dar (bezeichnet als Pitchperiode-Analyse-Intervall). Wenn die Pitchperiode sehr stark in dem Pitchperiode-Analyse-Intervall variiert, erhöht sich die Differenz zwischen der berechneten Pitchperiode und der tatsächlichen Pitchperiode. Dementsprechend ist es, um die Verringerung einer Qualität einer Ausgangssprache zu unterdrücken, notwendig, die geeigneteste Pitch-Wellenform an der Position einer Wellenform-Überlappungs-Verarbeitungsposition zu erhalten.
  • Das Dokument EP0 608 833 A2 offenbart eine Vorrichtung zum Transformieren eines Eingangssignals, das eine Zeitlänge L besitzt, in ein Ausgangssignal, das eine Zeitlänge αL besitzt, entsprechend zu einem gegebenen Zeitskala-Modifikationsverhältnis α, was einen Korrelator zum Berechnen eines Werts einer Korrelationsfunktion zwischen ei nem ersten Signal und einem zweiten Signal anzeigt, das eine Zeitlänge T besitzt, und zum Bestimmen einer Zeitverzögerung Tc, bei der der Wert der Korrelationsfunktion der größte wird; einen Addierer zum Addieren des ersten Signals, multipliziert mit einer ersten Fensterfunktion, zu dem zweiten Signal, multipliziert mit einer zweiten Fensterfunktion mit einer Verschiebung der Zeitverzögerung Tc; und eine Ausgabeschaltung zum wahlweisen Ausgeben des Ausgangs des Addierers und eines dritten Signals, das dem Ausgang des Addierers folgt, so dass die Summe einer Zeitlänge des Ausgangs des Addierers und einer Zeitlänge des dritten Signals im Wesentlichen gleich zu einer Zeitlänge, definiert durch das Zeitskala-Modifikationsverhältnis α, die Zeitverzögerung Tc und die Zeitlänge T ist.
  • Offenbarung der Erfindung
  • Die vorliegende Erfindung ist unter Berücksichtigung der Fakten, die vorstehend beschrieben sind, gemacht worden, und hat die Aufgabe, eine Vorrichtung zum Umwandeln einer Sprachwiedergaberate, geeignet zum Verringern der Verzerrung, verursacht durch überlappende Wellenformen, um eine Sprachwiedergaberate umzuwandeln, und zum Verbessern der Qualität der Ausgangssprache, zu schaffen.
  • Um die Aufgabe, die vorstehend beschrieben ist, zu lösen, wird, bei der vorliegenden Erfindung, eine Sprachwiedergaberate durch Auswählen von zwei Wellenformen in Eingangs-Sprachsignale oder Eingangs-Restsignale umgewandelt, in denen die Formdifferenz zwischen zwei benachbarten Wellenformen derselben Länge das Minimum ist, um eine überlappte Wellenform zu berechnen, dann Ersetzen davon gegen einen Teil der Eingangs-Sprachsignale oder der Eingangs-Restsignale oder Einsetzen davon in die Eingangs-Sprachsignale oder die Eingangs-Restsignale.
  • Gemäß der vorliegenden Erfindung ist es möglich, Wellenformen auszuwählen, um exakt zu überlappen, was ermöglicht, die Qualität der raten-umgewandelten Sprache zu verbessern.
  • Und in der vorliegenden Erfindung werden Ausgangs-Informationen von einer Sprachcodiervorrichtung durch Kombinieren eines Decodierers einer Sprachcodiervorrichtung zum Codieren von Sprachsignalen durch Dividieren davon in einen Linear-Predictive-Koeffizienten, Spektrum-Informationen, Teilungsperiode-Informationen und Sprachquellen-Informationen darstellend, die einen Vorhersage-Rest angeben, verwendet.
  • Gemäß der vorliegenden Erfindung ist es, unter Verwendung von Ausgangs-Informationen von einer Sprachcodiervorrichtung, möglich, stark die Berechnungskosten beim Umwandeln einer Wiedergaberate codierter Sprachsignale zu verringern.
  • Gemäß der vorliegenden Erfindung weist eine Vorrichtung zum Umwandeln einer Sprachwiedergaberate auf: einen Pufferspeicher, in dem digitalisierte Eingangs-Sprachsignale temporär gespeichert werden, einen Wellenform-Überlappungsabschnitt zum Überlappen von Sprachwellenformen, gespeichert in dem Pufferspeicher, und einen Wellenform-Synthetisierabschnitt zum Synthetisieren einer Ausgangssprach-Wellenform von der Eingangssprach-Wellenform in dem Pufferspeicher und der überlappten Sprachwellenform, einen Wellenform-Abrufabschnitt, um benachbarte zwei Wellenformen derselben Länge von dem Pufferspeicher abzurufen bzw. zu bestimmen, und einen Form-Differenz-Berechnungsabschnitt, um eine Formdifferenz zwischen solchen zwei Sprachwellenformen abgerufen durch den Wellenform-Abrufabschnitt, zu berechnen, wobei der Wellenform-Überlappungsabschnitt zwei Sprachwellenformen auswählt, die die minimale Formdifferenz, berechnet durch den Form-Differenz-Berechnungsabschnitt, um zu überlappen, haben.
  • Und in der vorliegenden Erfindung werden ein Linear-Predictive-Analyseabschnitt, um die Linear-Predictive-Koeffizienten, Spektrum-Informationen eines Eingangs-Sprachsignals darstellend, zu berechnen, ein inverses Filter, um ein Vorhersage-Restsignal von dem Eingangs-Sprachsignal unter Verwendung der berechneten Linear-Predictive-Koeffizienten, und ein Synthesefilter, um ein Sprachsignal von dem Vorhersage-Restsignal unter Verwendung der Linear-Predictive-Koeffizienten zu synthetisieren, präpariert, wobei das Vorhersage-Restsignal, berechnet durch das inverse Filter, in dem Pufferspeicher gespeichert wird und das Vorhersage-Restsignal, berechnet durch den Wellenform-Synthetisierabschnitt, in das Synthesefilter ausgegeben wird.
  • Demzufolge kann die Wiedergaberate-Umwandlungsverarbeitung unter Verwendung eines Predictive-Restsignals einfach ausgeführt werden, um eine Pitch-Wellenform zu beurteilen, die ermöglicht, die Pitch-Wellenform exakt zu bestimmen. Dies verbessert die Qualität der wiedergegebenen Sprache.
  • Und in der vorliegenden Erfindung wird eine Sprachcodiervorrichtung zum Codieren von Sprachsignalen durch Teilen davon in Linear-Predictive-Koeffizienten darstellende Spektrum-Informationen, Pitchperiode-Informationen und Sprachquellen-Informationen, die einen Vorhersage-Rest darstellen, kombiniert, wobei die Sprachquellen-Informationen, die einen Vorhersage-Rest darstellen, in dem Pufferspeicher temporär gespeichert werden, und der Wellenform-Bestimmungsabschnitt den Bereich einer Länge einer Sprachwellenform, bestimmt aus dem Pufferspeicher auf der Basis von den Teilungsperiode-Informationen, darstellt.
  • In der vorliegenden Erfindung werden ein Linear-Predictive-Analyseabschnitt, um die die Linear-Predictive-Koeffizienten darstellenden Spektrum-Informationen eines Eingangs-Sprachsignals zu berechnen, ein inverses Filter, um ein Vorhersage-Restsignal von dem Eingangs-Sprachsignal unter Verwendung der berechneten, Linear-Predictive-Koeffizienten zu berechnen, ein Linear-Predictive-Koeffizienten interpolierenden Abschnitt, um die Linear-Predictive-Koeffizienten zu interpolieren, und ein Synthesefilter, um ein Sprachsignal von dem Vorhersage-Restsignal unter Verwendung der Linear-Predictive-Koeffizienten zu synthetisieren, präpariert, wobei das Vorhersage-Restsignal, berechnet durch das inverse Filter, in dem Pufferspeicher temporär gespeichert wird, der Wellenform-Synthetisierabschnitt das synthetisierte Vorhersage-Restsignal in das Synthesefilter ausgibt, der die Linear-Predictive-Koeffizienten interpolierende Abschnitt die Linear-Predictive-Koeffizienten interpoliert, um sie zu den geeignetesten Koeffizienten für das synthetisierte Vorhersage-Restsignal zu machen, und das Synthesefilter ein Ausgangssprachsignal unter Verwendung der interpolierten Linear-Predictive-Koeffizienten ausgibt.
  • Dementsprechend wird ein Ausgangssprachsignal unter Verwendung der Linear-Predictive-Koeffizienten, interpoliert so, um sie zu den geeignetsten Koeffizienten für das synthetisierte Vorhersage-Restsignal zu machen, synthetisiert, was die Sprachqualität verbessert.
  • Kurze Beschreibung der Zeichnungen
  • 1 zeigt ein Blockdiagramm einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der ersten Ausführungsform der vorliegenden Erfindung;
  • 2 zeigt ein Diagramm einer Wellenform des Objekts zum Umwandeln einer Wiedergaberate in der ersten Ausführungsform der vorliegenden Erfindung;
  • 3 zeigt ein Blockdiagramm einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der zweiten Ausführungsform der vorliegenden Erfindung;
  • 4 zeigt ein Blockdiagramm einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der dritten Ausführungsform der vorliegenden Erfindung;
  • 5 zeigt ein Blockdiagramm einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der vierten Ausführungsform der vorliegenden Erfindung;
  • 6 zeigt ein Blockdiagramm einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der fünften Ausführungsform der vorliegenden Erfindung;
  • 7 zeigt ein Diagramm, das die Beziehung einer Position eines Verarbeitungsframes, einer Funktionsform und eines Gewichts und der Überlappungsverarbeitung darstellt;
  • 8 zeigt ein Blockdiagramm einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der sechsten Ausführungsform der vorliegenden Erfindung;
  • 9 zeigt ein Blockdiagramm einer herkömmlichen Vorrichtung zum Umwandeln einer Sprachwiedergaberate;
  • 10 zeigt ein Diagramm, das die Beziehung einer Eingangs-Wellenform einer überlappten Wellenform und einer Ausgangs-Wellenform in dem Fall einer Wiedergabe mit hoher Rate darstellt;
  • 11 zeigt ein Diagramm, das die Beziehung eines mit Frame versehenen Eingangssignals, eines Eingangssignals in einem Pufferspeicher und eines verschobenen Eingangssignals in einem Pufferspeicher darstellt; und
  • 12 zeigt ein Diagramm, das die Beziehung einer Eingangs-Wellenform, einer überlappten Wellenform und einer Ausgangs-Wellenform in dem Fall einer Wiedergabe unter niedriger Rate darstellt.
  • Bester Modus zum Ausführen der Erfindung
  • Die Ausführungsformen der vorliegenden Erfindung werden konkret unter Bezugnahme auf die Zeichnungen erläutert.
  • (Erste Ausführungsform)
  • 1 stellt Funktionsblöcke einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der ersten Ausführungsform der vorliegenden Erfindung dar. Zusätzlich sind die Abschnitte in 1, die dieselbe Funktion wie diejenigen jedes Abschnitts der Vorrichtung, die in 9 dargestellt ist, die zuvor erwähnt sind, haben, mit denselben Markierungen wie diese versehen.
  • In dieser Vorrichtung zum Umwandeln einer Sprachwiedergaberate liefert der Wellenform-Bestimmungsabschnitt 7 eine Startposition und eine Länge einer Wellenform, um sie in den Pufferspeicher 3 hinein abzurufen, und ruft (eine Mehrzahl von) benachbarten zwei Sprachwellenformen derselben Länge von dem Pufferspeicher 3 ab. Der Form-Differenz-Berechnungsabschnitt 8 berechnet eine Form-Differenz zwischen zwei Sprachwellenformen, die durch den Wellenform-Bestimmungsabschnitt 7 abgerufen sind, wählt zwei Wellenformen der Länge aus, wo die Form-Differenz das Minimum ist, und bestimmt Frames für eine Überlappungsverarbeitung. Dann überlappt der Wellenform-Überlappungsabschnitt 9 zwei Wellenformen, bestimmt an dem Form-Differenz-Berechnungsabschnitt 8.
  • Zusätzlich werden, in derselben Art und Weise wie bei der Vorrichtung, die in 9 dargestellt ist, die zuvor beschrieben ist, digitalisierte Sprachsignale in dem Aufzeichnungsmedium 1 aufgezeichnet, der Framing-Abschnitt 2 ruft ein Sprachsignal in einem Frame einer Abtastung einer vorgegebenen Länge LF von dem Aufzeichnungsmedium 1 ab und das Sprachsignal, abgerufen durch den Framing-Abschnitt 2, wird in dem Pufferspeicher 3 temporär gespeichert. Und der Wellenform-Synthetisierabschnitt 5 synthetisiert eine Ausgangssprachsignal-Wellenform von der Sprachsignal-Wellenform, die in dem Pufferspeicher 3 gespeichert ist und der überlappten Wellenform, die an dem Wellenform-Überlappungsabschnitt 9 verarbeitet ist.
  • Die Funktionen eines Aufzeichnungsmediums 1 eines Framing-Abschnitts 2, eines Pufferspeichers 3, eines Wellenform-Überlappungsabschnitts 9 und eines Wellenform-Synthetisierabschnitts 5 in dieser Vorrichtung und die Verarbeitung zum Umwandeln einer Wiedergaberate sind dieselben wie solche einer herkömmlichen Vorrichtung. Deshalb ist die Erläuterung für diese weggelassen und die Funktionen des Wellenform-Bestimmungsabschnitts 7 und des Form-Differenz-Berechnungsabschnitts 8 und der Vorgang zum Bestimmen eines Überlappungs-Verarbeitungsframes werden grundsätzlich erläutert.
  • Der Wellenform-Bestimmungsabschnitt 7, wie er in 2 dargestellt ist, ruft benachbarte zwei Wellenformen derselben Länge Tc (Wellenform A und Wellenform B) von dem Hinweiszeiger P0 einer Verarbeitungsstartposition von dem Pufferspeicher 3 als eine Kandidaten-Wellenform 19 für einen Überlappungs-Verarbeitungsframe ab.
  • Der Form-Differenz-Berechnungsabschnitt 8 berechnet eine Form-Differenz zwischen zwei Wellenformen einer Wellenform A und einer Wellenform B. Die Form-Differenz zwischen den zwei Wellenform Err ist als die nachfolgende Formel dargestellt, wobei die Wellenform A x(n) ist, die Wellenform B y(n) ist und n eine Abtastposition ist. Err = Σ{x(n) – y(n)}2 (3)(Die Summe reicht von N = 0 bis N = Tc – 1)
  • Der Form-Differenz-Berechnungsabschnitt 8 ruft andere, benachbarte zwei Wellenformen der Wellenform A und B einer unterschiedlichen Länge (die Zahl von Abtastungen) von dem Hinweiszeiger P0, festgelegt als eine Verarbeitungsstartposition, von dem Pufferspeicher 3 ab und berechnet eine Form-Differenz Err zwischen zwei Wellenformen.
  • Eine Mehrzahl von Form-Differenzen Err wird unter Heranziehen von zwei Wellenformen A und B einer unterschiedlichen Länge (die Anzahl von Abtastungen) sequenziell berechnet. Und die Kombination einer Wellenform A und B, die die minimale Form-Differenz Err besitzt, wird ausgewählt.
  • In diesem Fall ist es, da Err eine Summendifferenz von Abtastungen bei einer Wellenformlänge Tc ist, unmöglich, direkt die Differenzen von Wellenformen unterschiedlicher Längen Tc zu vergleichen. Deshalb ist es, zum Beispiel unter Verwendung des Werts von Err geteilt durch die Anzahl von Abtastungen in Tc, das bedeutet eine durchschnittliche Differenz Err/Tc für eine Abtastung, möglich, die Differenzen zu vergleichen. Der Bereich von Abtastzahlen in einer Wellenformlänge Tc ist vorbestimmt, zum Beispiel können für Sprachsignale mit einer Abtastung von 8 kHz 16 bis 160 Abtastungen geeignet sein. Durch Variieren einer Wellenformlänge Tc innerhalb eines vorbestimmten Bereichs, unter Berechnen der durchschnittlichen Differenz Err/Tc für jedes Tc und Vergleichen davon, wird Tc der minimalen, durchschnittlichen Differenz als die Länge der Wellenform, um sie zu erhalten, bestimmt.
  • Der Wellenform-Überlappungsabschnitt 9 ruft zwei Wellenformen A und B, ausgewählt von dem Differenz-Berechnungsabschnitt 8, als einen Überlappungs-Verarbeitungsframe 14 ab, verarbeitet einen Verarbeitungsframe (Wellenform A) und einen anderen Verarbeitungsframe (Wellenform B) separat entsprechend zu unterschiedlichen Dreieckfensterfunktionen, wobei dann eine überlappte Wellenform 15 durch Überlappen von beiden Wellenformen erzeugt wird.
  • Der Wellenform-Synthetisierabschnitt 5 ruft eine Eingangssprach-Wellenform 16 von dem Pufferspeicher 3 ab und ersetzt einen Teil einer Eingangssprach-Wellenform 16 gegen die überlappte Wellenform 15 oder setzt die überlappte Wellenform 15 in die Eingangssprach-Wellenform 16 auf der Basis der Wiedergaberate r ein, um eine in der Rate umgewandelte Ausgangssprache 17 zu erzeugen.
  • Gemäß der Ausführungsform der vorliegenden Erfindung variiert, da der Wellenform-Abrufabschnitt 7 ein Paar von benachbarten Wellenform A und B als einen Kandidaten für eine Wellenform, um von dem Pufferspeicher 3 zu synthetisieren, abruft, er graduell eine Länge einer Wellenform, um sie abzurufen, berechnet Err/Tc, was eine Form-Differenz zwischen Wellenformen in jedem Wellenformpaar ist, und wählt das Paar der Wellenformen A und B der minimalen Form-Differenz Err/Tc aus, um zu synthetisieren, wobei die Verzerrung, verursacht durch die sich überlappenden Wellenformen A und B, verringert wird, was ermöglicht, die Qualität der Ausgangssprache zu verbessern.
  • (Zweite Ausführungsform)
  • Die zweite Ausführungsform stellt den Fall dar, bei dem die Umwandlung einer Wiedergaberate mit dem Restsignal verarbeitet wird, was eine Pitch-Wellenform feststellbar darstellt.
  • 3 stellt Funktionsblöcke einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der zweiten Ausführungsform der vorliegenden Erfindung dar. Zusätzlich sind die Abschnitte in 3, die dieselbe Funktion wie diejenige jedes Abschnitts der Vorrichtung, dargestellt in 1 und 9, erwähnt zuvor, haben, mit denselben Markierungen wie diese markiert.
  • Diese Vorrichtung zum Umwandeln einer Sprachwiedergaberate weist einen Linear-Predictive-Analyseabschnitt 30, um die Linear-Predictive-Koeffizienten, die Spektrum-Informationen von Eingangs-Sprachsignalen darstellen, ein inverses Filter 31, um das Vorhersage-Restsignal mit den berechneten Linear-Predictive-Koeffizienten von den Eingangs-Sprachsignalen zu berechnen, und ein Synthesefilter 32, um Sprachsignale mit den Linear-Predictive-Koeffizienten von dem Vorhersage-Restsignal zu synthetisieren, auf. Der weitere Aufbau der Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der Ausführungsform der vorliegenden Erfindung ist derselbe wie derjenige der ersten Ausführungsform der vorliegenden Erfindung.
  • In der Vorrichtung zum Umwandeln einer Sprachwiedergaberate, aufgebaut so, wie dies vorstehend beschrieben ist, wird die Eingangssprache in einem Frame 12, abgerufen an dem Framing-Abschnitt 2, in einen Linear-Predictive-Analyseabschnitt 30 und ein inverses Filter 31 eingegeben. Linear-Predictive-Koeffizienten 33 werden von der Eingangssprache 12 in einem Frame an einem Linear-Predictive-Analyseabschnitt 30 berechnet und ein Restsignal 34 wird von der Eingangssprache 12 mit den Linear-Predictive-Koeffizienten 33 an dem inversen Filter 31 berechnet.
  • Das Restsignal 34, berechnet an dem inversen Filter 31, wird an dem Pufferspeicher 3, dem Wellenform-Abrufabschnitt 7, dem Form-Differenz-Berechnungsabschnitt 8 und dem Wellenform-Überlappungsabschnitt 9 entsprechend der Verarbeitung einer Umwandlung einer Sprachwiedergaberate, erläutert in der ersten Ausführungsform der vorliegenden Erfindung, synthetisiert, und wird als Synthese-Restsignal 35 von dem Wellenform-Synthetisierabschnitt 5 ausgegeben.
  • Das Synthesefilter 32 berechnet eine synthetisierte Ausgangssprache 36 von dem Synthese-Restsignal 35 mit Linear-Predictive-Koeffizienten 33, bereitgestellt von dem Linear-Predictive-Analyseabschnitt 30, um sie auszugeben.
  • In der Ausführungsform der vorliegenden Erfindung, wie sie vorstehend beschrieben ist, werden zwei Wellenformen abgerufen und in der Wellenform von dem Vorhersage-Restsignal synthetisiert, das ein Eingangs-Sprachsignal ist, in dem Spektrum-Einhüll-Informationen, dargestellt durch Linear-Predictive-Koeffizienten, entfernt sind. Da das Vorhersage-Restsignal eine Teilungswellenform stärker erkennbar als das originale Eingangssignal darstellt, und zwar durch eine Verarbeitungsumwandlung einer Sprachwiedergaberate mit dem Restsignal, wie dies in der Ausführungsform der vorliegenden Erfindung beschrieben ist, kann eine Pitch-Wellenform exakt abgerufen werden und die Qualität einer wiedergegebenen Sprache kann verbessert werden.
  • (Dritte Ausführungsform)
  • In der dritten Ausführungsform wird eine Rechenkomplexität durch Kombinieren einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate mit einer Sprachcodiervorrichtung und unter Verwendung von Sprachcodier-Informationen, bereitgestellt von der Sprachcodiervorrichtung, unter der Ratenumwandlungsverarbeitung, reduziert.
  • 4 stellt Funktionsblöcke einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der Ausführungsform der vorliegenden Erfindung dar. Zusätzlich sind die Abschnitte in 4, die dieselbe Funktion wie diejenige jedes Abschnitts der Vorrichtung, die in 1, 3 und 9, die zuvor erwähnt sind, dargestellt sind, haben, mit denselben Markierungen wie solche versehen.
  • In dieser Vorrichtung zum Umwandeln einer Sprachwiedergaberate sind ein Aufzeichnungsmedium 1, ein Framing-Abschnitt 2, ein Linear-Predictive-Analyseabschnitt und ein inverses Filter 32 in der zweiten Ausführungsform der vorliegenden Erfindung durch einen Decodierer einer Sprachcodiervorrichtung 40, aufweisend die Abschnitte, die vorstehend beschrieben sind, ersetzt. Der Decodierer der Sprachcodiervorrichtung 40 besitzt die Funktion eines Codierens eines Sprachsignals durch Teilen davon in Linear-Predictive-Koeffizienten, die Spektrum-Informationen darstellen, Pitchperiode-Informationen und Sprachquellen-Informationen, die einen Vorhersage-Rest darstellen. Als eine Sprachcodiervorrichtung, die vorstehend beschrieben ist, ist CELP (Code Excited Linear-Predictive coding) in erster Linie bekannt. Und allgemein werden, in einer hoch effizienten Sprachcodiervorrichtung ähnlich CELP, alle Codierinformationen in einem Frame codiert. Dementsprechend kann, da eine Sprachsignalquelle 41, ausgegeben von dem Decodierer 40, ein Signal in einem Frame einer Länge, vorbestimmt durch die Sprachcodiervorrichtung, ist, dieses direkt als ein Eingang für die Vorrichtung zum Umwandeln einer Sprachwiedergaberate der vorliegenden Erfindung verwendet werden.
  • In der Vorrichtung zum Umwandeln einer Sprachwiedergaberate in dieser Ausführungsform der vorliegenden Erfindung wird ein Sprachquellensignal in einem Frame 41, ausgegeben von dem Decodierer 40, in einem Pufferspeicher 3 gespeichert, Pitchperiode-Informationen 42 werden in einen Wellenform-Abrufabschnitt 43 eingegeben und Linear-Predictive-Koeffizienten 33 werden in ein Synthesefilter 32 eingegeben.
  • Ein Wellenform-Bestimmungsabschnitt 43 ruft benachbarte Wellenformen A und B einer Länge Tc von dem Pufferspeicher 3 ab und liefert eine Mehrzahl von Paaren von Wellenformen A und B einer unterschiedlichen Länge aufeinander folgend zu dem Form-Differenz-Berechnungsabschnitt 8. Und da der Bereich einer Länge Tc von abgerufenen Wellenformen entsprechend zu Pitchperiode-Informationen 42 an dem Wellenform-Bestimmungsabschnitt 43 variiert wird, kann die rechenmäßige Komplexität, um Differenzen zu berechnen, stark verringert werden. Und Linear-Predictive-Koeffizienten 33, ausgegeben von dem Decodierer, werden als ein Eingang für das Synthesefilter 32 verwendet.
  • Auf diese Weise ist es, durch Kombinieren eines Decodierers einer Sprachcodiervorrichtung zum Codieren von Sprachsignalen durch Teilen davon in Linear-Predictive-Koeffizienten, die Spektrum-Informationen darstellen, Teilungsperiode-Informationen und Sprachquellen-Informationen, die einen Vorhersage-Rest darstellen, und eine Vorrichtung zum Umwandeln einer Wiedergaberate der vorliegenden Erfindung, möglich, Informatio nen, ausgegeben von der Sprachcodiervorrichtung, zu verwenden und eine Wiedergaberate von Sprachsignalen, codiert an der Sprachcodiervorrichtung, unter einer geringeren, rechenmäßigen Komplexität umzuwandeln.
  • (Vierte Ausführungsform)
  • In einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der vierten Ausführungsform der vorliegenden Erfindung wird eine rechenmäßige Komplexität durch Kombinieren davon mit einer Sprachcodiervorrichtung und unter Verwendung von Sprachcodier-Informationen, bereitgestellt von der Sprachcodiervorrichtung, verringert.
  • 5 stellt Funktionsblöcke einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der Ausführungsform der vorliegenden Erfindung dar. Zusätzlich sind die Abschnitte in 5, die dieselbe Funktion wie diejenige der dritten Ausführungsform der vorliegenden Erfindung, die zuvor erwähnt ist, haben, mit denselben Markierungen wie diese versehen.
  • In der Vorrichtung zum Umwandeln einer Sprachwiedergaberate wird ein Synthesefilter 32', das dieselbe Funktion wie diejenige des Synthesefilters 32, vorhanden in der dritten Ausführungsform der vorliegenden Erfindung, besitzt, zwischen einem Decodierer, einer Sprachcodiervorrichtung 40 und einen Pufferspeicher 3 vorgesehen. Das Synthesefilter 32' erzeugt ein decodiertes Sprachsignal von dem Sprachquellensignal 41 in einem Frame und Linear-Predictive-Koeffizienten 33 und speichert sie als ein Synthesesprachsignal 44 in dem Pufferspeicher. Da das Sprachquellensignal 41 zu dem Decodierer 40 in einem Frame eingegeben wird, ist das Synthesesprachsignal 44 auch ein Signal in einem Frame. Dementsprechend ist es so verfügbar, um es direkt als einen Eingang der Vorrichtung zum Umwandeln einer Sprachwiedergaberate der vorliegenden Erfindung zu verwenden.
  • Wie vorstehend beschrieben ist, ist es, durch Kombinieren einer Sprachcodiervorrichtung 40 zum Codieren von Sprachsignalen durch Teilen davon in Linear-Predictive-Koeffizienten, die Spektrum-Informationen darstellen, Pitchperiode-Informationen und Sprachquellen-Informationen, die einen Vorhersage-Rest darstellten, und eine Vorrichtung zum Umwandeln einer Wiedergaberate der vorliegenden Erfindung, möglich, Informationen, ausgegeben aus der Sprachcodiervorrichtung zu Verwenden und eine Wiedergaberate von Sprachsignalen, codiert an der Sprachcodiervorrichtung, mit einer geringeren rechtmäßigen Komplexität umzuwandeln.
  • (Fünfte Ausführungsform)
  • In einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der fünften Ausführungsform der vorliegenden Erfindung kann, durch Interpolieren der Linear-Predictive-Koeffizienten, um sie zu den geeignetsten Koeffizienten für das synthetisierte Restsignal zu machen, die Sprachqualität verbessert werden.
  • 6 stellt Funktionsblöcke einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der Ausführungsform der vorliegenden Erfindung dar. Zusätzlich sind die Abschnitte in 6, die dieselbe Funktion wie diejenige jeder Ausführungsform der vorliegenden Erfindung, die zuvor erwähnt ist, haben, mit denselben Markierungen wie diese versehen.
  • Diese Vorrichtung zum Umwandeln einer Sprachwiedergaberate weist einen Linear-Predictive-Analyseabschnitt 30, um die Linear-Predictive-Koeffizienten zu berechnen, die Spektrum-Informationen von Eingangs-Sprachsignalen darstellen, ein inverses Filter 31, um das Vorhersage-Restsignal 34 mit den berechneten, Linear-Predictive-Koeffizienten 33 von Eingangs-Sprachsignalen zu berechnen, und ein Synthesefilter 32, um Sprachsignale mit den Linear-Predictive-Koeffizienten von den Eingangs-Sprachsignalen zu synthetisieren, und einen Linear-Predictive-Koeffizienten-Interpolationsabschnitt 60, um Linear-Predictive-Koeffizienten 33 zu interpolieren, um sie zu den geeignetesten Koeffizienten für das synthetisierte Restsignal zu machen, auf. Der andere Aufbau in dieser Vorrichtung ist derselbe wie derjenige der ersten Ausführungsform der vorliegenden Erfindung (1).
  • In dieser Vorrichtung zum Umwandeln einer Sprachwiedergaberate, aufgebaut so, wie dies vorstehend beschrieben ist, wird eine Eingangssprache in einem Frame 12, abgerufen von dem Aufzeichnungsmedium an einem Framing-Abschnitt 2, in den Linear-Predictive-Analyseabschnitt 30 eingegeben. Der Linear-Predictive-Analyseabschnitt 30 berechnet Linear-Predictive-Koeffizienten 33 von einer Eingangssprache in einem Frame 12, um sie zu dem inversen Filter 31 und den Interpolationsabschnitt 60 für Linear-Predictive-Koeffizienten einzugeben. Das inverse Filter 31 berechnet ein Restsignal von der Eingangssprache 12 mit Linear-Predictive-Koeffizienten 33. Dieses Restsignal 34 wird durch die Verarbeitung zum Umwandeln einer Sprachwiedergaberate, erläutert in der ersten Ausführungsform der vorliegenden Erfindung, in der Wellenform synthetisiert und wird als Synthese-Restsignal 35 von dem Wellenform-Syntheseabschnitt 5 ausgegeben.
  • Der Interpolationsabschnitt 60 für Linear-Predictive-Koeffizienten empfängt Verarbeitungsframe-Positions-Informationen 61 von dem Wellenform-Synthetisierabschnitt 40 und interpoliert Linear-Predictive-Koeffizienten 33, um sie zu den geeignetestens Koeffizienten für ein Synthese-Restsignal 35 zu machen. Die interpolierten Linear-Predictive-Koeffizienten 32 werden in das Synthesefilter 32 eingegeben und das Ausgangssprachsignal 36 wird von dem Synthese-Restsignal 35 synthetisiert.
  • Ein Beispiel einer Interpolation von Linear-Predictive-Koeffizienten 33, um sie zu dem geeignetesten Koeffizienten für ein Syntheserestsignal 35 zu machen, wird unter Bezugnahme auf 7 erläutert. Wie in 7a dargestellt ist, wird angenommen, dass ein Verarbeitungsframe, um ein Synthese-Restsignal 35 zu berechnen, über Eingangsframes 1, 2 und 3 kreuzt. Die Form einer Fensterfunktion, um die sich überlappenden Wellenformen zu verwenden, wird dahingehend angenommen, dass sie die Form und das Gewicht besitzen, wie dies in 7b dargestellt ist. Dementsprechend ist, wie in 7c dargestellt ist, die Datenmenge, die in der überlappten Wellenform umfasst ist, erzeugt durch eine Überlappungsverarbeitung, die Datenmenge, die in Intervallen F1, F2 und F3, gewichtet mit w1, w2 und w3, unter Berücksichtigung der Fensterfunktionsform, umfasst ist. Indem die originale Datenmenge, die in dieser überlappten Wellenform enthalten ist, zu einer Basis gemacht wird, werden die interpolierten Linear-Predictive-Koeffizienten 62 entsprechend der folgenden Formel erhalten. (interpolierte Linear-Predictive-Koeffizienten) = (Linear-Predictive-Koeffizienten eines Frame 1) × (Gewichtung w1) + (Linear-Predictive-Koeffizienten eines Frame 2) × (Gewichtung w2) + (Linear-Predictive-Koeffizienten eines Frame 3) × (Gewichtung w3)wobei w1 + w2 + w3 = 1 gilt.
  • Zusätzlich sind, unter Berücksichtigung der Gewichtung w1, w2 und w3, die Faktoren, die zu berücksichtigen sind, nicht nur die Fensterfunktionsform, sondern auch die Ähnlichkeit von Linear-Predictive-Koeffizienten jedes der Frames 1, 2 und 3 und anderer. Und es sind, als interpolierte Linear-Predictive-Koeffizienten, um sie zu berechnen, nicht nur ein Koeffizient, sondern eine Mehrzahl von Koeffizienten verfügbar, die durch Teilen der überlappten Wellenform in eine Mehrzahl von Teilen und Berechnen der geeignetesten, interpolierten Linear-Predictive-Koeffizienten für jeden Teil erhalten werden. Und bei der Verarbeitung eines Interpolierens der Linear-Predictive-Koeffizienten kann die Funkti onsweise durch Umwandeln jedes Linear-Predictive-Koeffizienten in einen LSP-Parameter, usw., geeignet für die Interpolationsverarbeitung, die Interpolationsverarbeitung des umgewandelten LSP-Parameters, usw., und Wiederumwandeln des berechneten Ergebnisses in die Linear-Predictive-Koeffizienten verbessert werden.
  • (Sechste Ausführungsform)
  • In einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in der sechsten Ausführungsform der vorliegenden Erfindung wird der Umfang einer Berechnung durch Kombinieren davon mit einer Sprachcodiervorrichtung und unter Verwendung von Sprachcodier-Informationen, geliefert von der Sprachcodiervorrichtung, verringert.
  • 8 stellt Funktionsblöcke einer Vorrichtung zum Umwandeln einer Sprachwiedergaberate in einer Ausführungsform der vorliegenden Erfindung dar.
  • In dieser Vorrichtung wird, zum Umwandeln einer Sprachwiedergaberate, eine Sprachcodiervorrichtung (Decodierer 40), die in der dritten Ausführungsform verwendet wird, zum Codieren von Sprachsignalen durch Teilen davon in Linear-Predictive-Koeffizienten, die Spektrum-Informationen darstellen, Pitchperiode-Informationen und Sprachquellen-Informationen, die einen Vorhersage-Rest darstellen, durch Ersetzen davon gegen ein Aufzeichnungsmedium 1 und einen Framing-Abschnitt 2 in der fünften Ausführungsform der vorliegenden Erfindung, präpariert.
  • Ein Sprachquellensignal in einem Frame 41, ausgegeben von dem Decodierer 40, wird in einen Pufferspeicher 3 eingegeben und Linear-Predictive-Koeffizienten 33 werden in einen Interpolationsabschnitt 60 für Linear-Predictive-Koeffizienten eingegeben. Und Pitchperiode-Informationen 42 werden in den Wellenform-Abrufabschnitt 43 eingegeben und der Bereich einer Länge Tc einer Wellenform, um ihn an dem Wellenform-Bestimmungsabschnitt 43 abzurufen, wird entsprechend Pitchperiode-Informationen 42 umgeschaltet. Dementsprechend hierzu kann, während der Bereich eine Länge Tc einer Wellenform, um abzurufen, beschränkt ist, eine rechenmäßige Komplexität, um eine Differenz zu erhalten, stark verringert werden.
  • Gemäß der Ausführungsform der vorliegenden Erfindung, wie sie vorstehend beschrieben ist, ist es, durch Kombinieren einer Sprach-Codiervorrichtung 40 zum Codieren von Sprachsignalen durch Teilen davon in Linear-Predictive-Koeffizienten, Spektrum-Informationen darstellend, in Pitchperiode-Informationen und Sprachquellen-Informationen die einen Vorhersage-Rest darstellen, und eine Vorrichtung zum Umwandeln einer Wie dergaberate der vorliegenden Erfindung möglich, Informationen, ausgegeben von der Sprachcodiervorrichtung, zu verwenden und eine Wiedergaberate von Sprachsignalen, codiert an der Sprachcodiervorrichtung, mit einer geringeren, rechenmäßigen Komplexität, umzuwandeln.
  • (Siebte Ausführungsform)
  • Eine Vorrichtung zum Umwandeln einer Sprachwiedergaberate der vorliegenden Erfindung wird unter Verwendung einer Software, in der der Algorithmus der Verarbeitung in einer Programmiersprache beschrieben ist, erreicht. Durch Aufzeichnen des Programms auf einem Aufzeichnungsmedium, wie beispielsweise einer Floppy-Disk (FD), usw., Verbinden des Aufzeichnungsmediums mit einer Signalverarbeitungsvorrichtung für allgemeine Zwecke, wie beispielsweise einem Personal Computer, usw., und Ausführen des Programms wird die Funktion der Vorrichtung zum Umwandeln einer Sprachwiedergaberate der vorliegenden Erfindung erreicht. Die vorliegende Erfindung ist nicht durch die Ausführungsformen, die vorstehend beschrieben sind, beschränkt, sondern kann für eine modifizierte Ausführungsform innerhalb des Schutzumfangs der vorliegenden Erfindung angewandt werden.
  • Industrielle Anwendbarkeit
  • Eine Vorrichtung zum Umwandeln einer Sprachwiedergaberate der vorliegenden Erfindung ist, wie dies vorstehend beschrieben ist, dazu nützlich, ein Sprachsignal, aufgezeichnet auf einem Aufzeichnungsmedium unter einer wahlweisen Rate, ohne Transformieren des Pitchs einer Sprache wiederzugeben, und ist zum Verbessern der Qualität einer Ausgangssprache geeignet.

Claims (11)

  1. Vorrichtung zum Umwandeln einer Sprachwiedergaberate eines Eingangs-Sprachsignals (11), wobei die Vorrichtung umfasst: a) einen Wellenform-Erfassungsabschnitt (7), der so eingerichtet ist, dass er für variierende Segmentlängen (Tc) Kandidatenpaare benachbarter Wellenform-Segmente (Wellenform A, Wellenform B) aus einem hergeleiteten Sprachsignal (12, 34 oder 41) erfasst, das aus dem Eingangs-Sprachsignal (11) hergeleitet wird, so dass die benachbarten Wellenform-Segmente in einem derartigen Kandidatenpaar gleiche Segmentlänge (Tc) haben; b) einen Formdifferenz-Berechnungsabschnitt (8), der so eingerichtet ist, dass er für jedes der Kandidatenpaare einen Formdifferenzwert berechnet, der repräsentativ für die Wellenformdifferenz zwischen den Segmenten gleicher Länge des Kandidatenpaars benachbarter Wellenform-Segmente ist, und als überlappbares Paar eines der Kandidatenpaare benachbarter Wellenform-Segmente erfasst, in denen der Formdifferenzwert unter einer Vielzahl der Kandidatenpaare variierender Länge (Tc), die von dem Wellenform-Erfassungsabschnitt erfasst werden, als minimal bestimmt wird; c) einen Wellenform-Überlappungsabschnitt (9), der so eingerichtet ist, dass er das erfasste überlappbare Paar erfasst und daraus ein überlapptes Wellenform-Segment (15) erzeugt, d) einen Wellenform-Synthetisierungsabschnitt (5), der so eingerichtet ist, dass er entweder einen Teil eines gepufferten Sprachsignals durch das überlappte Wellenform-Segment ersetzt oder das überlappte Wellenform-Segment in das gepufferte Sprachsignal einfügt, um ein Ausgangs-Sprachsignal mit umgewandelter Rate zu erzeugen, wobei das gepufferte Sprachsignal gewonnen wird, indem das hergeleitete Sprachsignal gepuffert wird, dadurch gekennzeichnet, dass e) der Formdifferenz-Berechnungsabschnitt (8) so eingerichtet ist, dass er den Formdifferenzwert als eine Summe quadratischer Fehler dividiert durch die Segmentlänge (Err/Tc) berechnet.
  2. Vorrichtung nach Anspruch 1, wobei in dem Sprachsignal (12, 34 oder 41), das mit einer Rate von N kHz abgetastet wird, die Anzahl von Abtastwerten der Kandidatenpaare benachbarter Wellenform-Segmente zwischen 2N und 20N liegt.
  3. Vorrichtung nach Anspruch 1, wobei in dem Sprachsignal (12, 34 oder 41), das mit einer Rate von 8 kHz abgetastet wird, die Anzahl von Abtastwerten der Kandidatenpaare benachbarter Wellenform-Segmente in einem Bereich zwischen 16 und 160 liegt.
  4. Vorrichtung nach einem der Ansprüche 1–3, wobei der Wellenform-Erfassungsabschnitt (7) Wellenformen eines Vorhersage-Restfehlersignals (prediction residual signal) verwendet, das einzelne Pitch-Wellenformen aus den Kandidatenpaaren benachbarter Wellenform-Segmente umfasst.
  5. Vorrichtung nach einem der Ansprüche 1–4, die des Weiteren umfasst: einen Linear-Predictive-Analysator (30), der Linear-Predictive-Koeffizienten berechnet, die Spektrum-Informationen des Sprachsignals (12) darstellen; ein inverses Filter (31), das das Vorhersage-Restfehlersignal aus dem Sprachsignal (12) unter Verwendung der Linear-Predictive-Koeffizienten berechnet; und ein Synthesefilter (32), das unter Verwendung der Linear-Predictive-Koeffizienten ein Sprachsignal aus einer Wellenform des Vorhersage-Restfehlersignals mit einer umgewandelten Wiedergaberate synthetisiert.
  6. Vorrichtung nach einem der Ansprüche 1–5, das des Weiteren einen Interpolator (60) für Linear-Predictive-Koeffizienten umfasst, der so eingerichtet ist, dass er die Linear-Predictive-Koeffizienten so interpoliert, dass die Linear-Predictive-Koeffizienten optimal für die Wellenform des Vorhersage-Restfehlersignals mit der umgewandelten Wiedergaberate sind, wobei das Synthesefilter (32) das Sprachsignal unter Verwendung der interpolierten Linear-Predictive-Koeffizienten synthetisiert.
  7. Vorrichtung nach Anspruch 1, die mit einem Decoder (40) verbunden ist, der ein Sprachsignal aus Codier-Parametern decodiert, die einen Linear-Predictive-Koeffizienten der Spektrum-Informationen, Pitchperioden-Informationen und Sprachquellen-Informationen enthalten, die einen Vorhersage-Restfehler darstellen, wobei die Wiedergaberate des Sprachsignals unter Verwendung der Codier-Parameter umgewandelt wird.
  8. Vorrichtung nach Anspruch 1 oder 7, wobei der Wellenform-Erfassungsabschnitt (7) eine Länge der Kandidatenpaare benachbarter Wellenform-Segmente auf Basis von Pitchperioden-Informationen in den Codier-Parametern bestimmt.
  9. Vorrichtung nach einem der Ansprüche 1, 7 und 8, wobei eine Wellenform des Vorhersage-Restfehlersignals, die aus den Sprachquellen-Informationen erzeugt wird, in den Wellenform-Erfassungsabschnitt (7) eingegeben wird, und die Vorrichtung des Weiteren ein Synthesefilter (32) umfasst, das den Linear-Predictive-Koeffizienten in den Codier-Parametern verwendet und so eingerichtet ist, dass es ein Sprachsignal aus der Wellenform eines Vorhersage-Restfehlersignals mit einer umgewandelten Wiedergaberate synthetisiert.
  10. Vorrichtung nach einem der Ansprüche 1, 7, 8 und 9, die des Weiteren einen Interpolator (60) für Linear-Predictive-Koeffizienten umfasst, der so eingerichtet ist, dass er die Linear-Predictive-Koeffizienten so interpoliert, dass die Linear-Predictive-Koeffizienten optimal für das Vorhersage-Restfehlersignal sind, das die Wellenform mit der umgewandelten Wiedergaberate hat, wobei das Synthesefilter (32) das Sprachsignal unter Verwendung der interpolierten Linear-Predictive-Koeffizienten synthetisiert.
  11. Vorrichtung nach Anspruch 8, die des Weiteren ein Synthesefilter (32) umfasst, das so eingerichtet ist, dass es ein Sprachsignal unter Verwendung der Linear-Predictive-Koeffizienten in den Code-Parametern synthetisiert, und wobei das synthetisierte Sprachsignal dem Wellenform-Erfassungsabschnitt (7) zugeführt wird.
DE69736279T 1996-11-11 1997-11-10 Tonwiedergabe-geschwindigkeitsumwandler Expired - Lifetime DE69736279T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP31259396 1996-11-11
JP31259396 1996-11-11
PCT/JP1997/004077 WO1998021710A1 (fr) 1996-11-11 1997-11-10 Convertisseur de rapidite de reproduction de sons

Publications (2)

Publication Number Publication Date
DE69736279D1 DE69736279D1 (de) 2006-08-17
DE69736279T2 true DE69736279T2 (de) 2006-12-07

Family

ID=18031074

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69736279T Expired - Lifetime DE69736279T2 (de) 1996-11-11 1997-11-10 Tonwiedergabe-geschwindigkeitsumwandler

Country Status (10)

Country Link
US (1) US6115687A (de)
EP (1) EP0883106B1 (de)
JP (1) JP3891309B2 (de)
KR (1) KR100327969B1 (de)
CN (1) CN1163868C (de)
AU (1) AU4886397A (de)
CA (1) CA2242610C (de)
DE (1) DE69736279T2 (de)
ES (1) ES2267135T3 (de)
WO (1) WO1998021710A1 (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1071079B1 (de) * 1996-11-07 2002-06-26 Matsushita Electric Industrial Co., Ltd. Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs
JP4505899B2 (ja) * 1999-10-26 2010-07-21 ソニー株式会社 再生速度変換装置及び方法
JP3630609B2 (ja) * 2000-03-29 2005-03-16 パイオニア株式会社 音声情報再生方法ならびに装置
EP1143417B1 (de) * 2000-04-06 2005-12-28 Telefonaktiebolaget LM Ericsson (publ) Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, Verwendung des Verfahrens, und Anordnung zur Durchführung des Verfahrens
CN1432177A (zh) * 2000-04-06 2003-07-23 艾利森电话股份有限公司 语音速率转换
JP2005520206A (ja) * 2002-03-12 2005-07-07 ディリチウム ネットワークス ピーティーワイ リミテッド オーディオ・トランスコーダにおける適応コードブック・ピッチ・ラグ計算方法
JP3871657B2 (ja) * 2003-05-27 2007-01-24 株式会社東芝 話速変換装置、方法、及びそのプログラム
KR100750115B1 (ko) * 2004-10-26 2007-08-21 삼성전자주식회사 오디오 신호 부호화 및 복호화 방법 및 그 장치
CN101203907B (zh) * 2005-06-23 2011-09-28 松下电器产业株式会社 音频编码装置、音频解码装置以及音频编码信息传输装置
EP3301672B1 (de) * 2007-03-02 2020-08-05 III Holdings 12, LLC Audiocodierungsvorrichtung und audiodecodierungsvorrichtung
JP4390289B2 (ja) 2007-03-16 2009-12-24 国立大学法人電気通信大学 再生装置
CN102117613B (zh) * 2009-12-31 2012-12-12 展讯通信(上海)有限公司 数字音频变速处理方法及其设备
CN111583903B (zh) * 2020-04-28 2021-11-05 北京字节跳动网络技术有限公司 语音合成方法、声码器训练方法、装置、介质及电子设备

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5681900A (en) * 1979-12-10 1981-07-04 Nippon Electric Co Voice synthesizer
JPH0754440B2 (ja) * 1986-06-09 1995-06-07 日本電気株式会社 音声分析合成装置
JPH01267700A (ja) * 1988-04-20 1989-10-25 Nec Corp 音声処理装置
JP3278863B2 (ja) * 1991-06-05 2002-04-30 株式会社日立製作所 音声合成装置
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
US5630013A (en) * 1993-01-25 1997-05-13 Matsushita Electric Industrial Co., Ltd. Method of and apparatus for performing time-scale modification of speech signals
JP2957861B2 (ja) * 1993-09-09 1999-10-06 三洋電機株式会社 音声時間軸圧縮伸長装置
US5717823A (en) * 1994-04-14 1998-02-10 Lucent Technologies Inc. Speech-rate modification for linear-prediction based analysis-by-synthesis speech coders
JPH0822300A (ja) * 1994-07-11 1996-01-23 Olympus Optical Co Ltd 音声復号化装置
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
JPH08137491A (ja) * 1994-11-14 1996-05-31 Matsushita Electric Ind Co Ltd 再生速度変換装置
JPH08202397A (ja) * 1995-01-30 1996-08-09 Olympus Optical Co Ltd 音声復号化装置
US5991725A (en) * 1995-03-07 1999-11-23 Advanced Micro Devices, Inc. System and method for enhanced speech quality in voice storage and retrieval systems
JPH09152889A (ja) * 1995-11-29 1997-06-10 Sanyo Electric Co Ltd 話速変換装置
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JP3619946B2 (ja) * 1997-03-19 2005-02-16 富士通株式会社 話速変換装置、話速変換方法及び記録媒体
JP3317181B2 (ja) * 1997-03-25 2002-08-26 ヤマハ株式会社 カラオケ装置

Also Published As

Publication number Publication date
CN1163868C (zh) 2004-08-25
EP0883106A1 (de) 1998-12-09
ES2267135T3 (es) 2007-03-01
JP3891309B2 (ja) 2007-03-14
CA2242610A1 (en) 1998-05-22
AU4886397A (en) 1998-06-03
US6115687A (en) 2000-09-05
KR100327969B1 (ko) 2002-04-17
CN1208490A (zh) 1999-02-17
DE69736279D1 (de) 2006-08-17
WO1998021710A1 (fr) 1998-05-22
EP0883106A4 (de) 2000-02-23
EP0883106B1 (de) 2006-07-05
CA2242610C (en) 2003-01-28
KR19990077151A (ko) 1999-10-25

Similar Documents

Publication Publication Date Title
DE69527410T2 (de) CELP-Koder und -Dekoder und Verfahren dazu
DE3036680C2 (de) Sprachsynthesizer mit dehnbarer und komprimierbarer Sprachzeit
DE69736279T2 (de) Tonwiedergabe-geschwindigkeitsumwandler
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE69811656T2 (de) Stimmentransformation nach einer zielstimme
DE69219718T2 (de) Digitales Datenkodierungs-und Dekodierungsgerät mit hoher Wirksamkeit
DE69329511T2 (de) Verfahren und Einrichtung zum Unterscheiden zwischen stimmhaften und stimmlosen Lauten
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60202881T2 (de) Wiederherstellung von hochfrequenzkomponenten
DE69614782T2 (de) Verfahren und Einrichtung zur Wiedergabe von Sprachsignalen und Verfahren zu seiner Übertragung
DE69625874T2 (de) Verfahren und Vorrichtung zur Wiedergabe von Sprachsignalen, zur Dekodierung, zur Sprachsynthese und tragbares Funkendgerät
DE69023402T2 (de) Verfahren zur Sprachkodierung und -dekodierung.
DE60317722T2 (de) Verfahren zur Reduzierung von Aliasing-Störungen, die durch die Anpassung der spektralen Hüllkurve in Realwertfilterbanken verursacht werden
DE69531642T2 (de) Synthese eines Anregungssignals bei Ausfall von Datenrahmen oder Verlust von Datenpaketen
EP1979901B1 (de) Verfahren und anordnungen zur audiosignalkodierung
DE69618422T2 (de) Verfahren zur Sprachdekodierung und tragbares Endgerät
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
EP0076234B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE69836472T2 (de) Tonverarbeitungsverfahren, tonprozessor und aufzeichnungs-/wiedergabevorrichtung
DE69223335T2 (de) Sprachkodiersystem
DE19715126C2 (de) Sprachsignal-Codiervorrichtung
DE69033510T3 (de) Numerischer sprachcodierer mit verbesserter langzeitvorhersage durch subabtastauflösung
DE60031812T2 (de) Vorrichtung und Verfahren zur Klangsynthesierung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP