DE4425767C2 - Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit - Google Patents
Verfahren zur Wiedergabe von Signalen mit veränderter GeschwindigkeitInfo
- Publication number
- DE4425767C2 DE4425767C2 DE19944425767 DE4425767A DE4425767C2 DE 4425767 C2 DE4425767 C2 DE 4425767C2 DE 19944425767 DE19944425767 DE 19944425767 DE 4425767 A DE4425767 A DE 4425767A DE 4425767 C2 DE4425767 C2 DE 4425767C2
- Authority
- DE
- Germany
- Prior art keywords
- block
- signal
- speed
- blocks
- values
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 42
- 230000008569 process Effects 0.000 title claims description 10
- 230000007704 transition Effects 0.000 claims description 16
- 230000008859 change Effects 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000007906 compression Methods 0.000 claims description 9
- 230000006835 compression Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims 1
- 238000004904 shortening Methods 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 18
- 230000009466 transformation Effects 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 9
- 230000003595 spectral effect Effects 0.000 description 7
- 230000003936 working memory Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000005562 fading Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008521 reorganization Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 125000000391 vinyl group Chemical group [H]C([*])=C([H])[H] 0.000 description 1
- 229920002554 vinyl polymer Polymers 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H7/00—Instruments in which the tones are synthesised from a data store, e.g. computer organs
- G10H7/02—Instruments in which the tones are synthesised from a data store, e.g. computer organs in which amplitudes at successive sample points of a tone waveform are stored in one or more memories
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/131—Mathematical functions for musical analysis, processing, synthesis or composition
- G10H2250/215—Transforms, i.e. mathematical transforms into domains appropriate for musical signal processing, coding or compression
- G10H2250/235—Fourier transform; Discrete Fourier Transform [DFT]; Fast Fourier Transform [FFT]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft ein Verfahren nach dem Oberbegriff des Anspruchs 1. Ein
derartiges Verfahren ist aus der US-Patentschrift 3 803 363 bekannt.
Es ist bekannt, daß Signale, die mit veränderter Geschwindigkeit wiedergegeben werden,
ihr Frequenzspektrum zum Teil bis zur Unkenntlichkeit ändern. Ein Beispiel hierfür ist
die Wiedergabe einer Schallplatte mit falscher Drehzahl.
Das Spektrum wird bei schnellerer Wiedergabe um den Faktor k der Geschwindigkeits
änderung gedehnt und bei langsamerer Wiedergabe entsprechend gestaucht.
Es sind, vorwiegend für die Klasse der Sprachsignale,Verfahren bekannt, die die genannte
Verfälschung kompensieren. Diese Verfahren gliedern sich in Lösungen
im Frequenzbereich mit Hilfe der Fouriertransformation
US 4246617, 20.01.1981; US 4417103, 22.11.1983;
WO 8605617 A1, 25.09.1986; US 4961130, 2.10.1990 und Lösungen im Zeitbereich
DE 30 36 680 A1, 16.04.1981; EP 127892 A1, 12.12.1984;
US 4864620, 5.09.1989; JP 1233835 A2, 19.09.1989;
IL 84903 A1, 15.12.1991; US 5163110, 10.11.1992;
US 5175769, 29.12.1992; US 5216744, 1.06.1993.
US 4246617, 20.01.1981; US 4417103, 22.11.1983;
WO 8605617 A1, 25.09.1986; US 4961130, 2.10.1990 und Lösungen im Zeitbereich
DE 30 36 680 A1, 16.04.1981; EP 127892 A1, 12.12.1984;
US 4864620, 5.09.1989; JP 1233835 A2, 19.09.1989;
IL 84903 A1, 15.12.1991; US 5163110, 10.11.1992;
US 5175769, 29.12.1992; US 5216744, 1.06.1993.
Dabei stellen die Lösungen im Frequenzbereich zum Teil theoretisch sehr gute Verfahren
dar, die aber, wegen der großen Punktdichte bei höheren Qualitätsanforderungen trotz
guter Transformations-Algorithmen, sehr rechenintensiv werden, so daß man in vielen
Fällen einen Kompromiß zwischen Qualität und Aufwand machen muß, was die
Anwendungsmöglichkeiten bzgl. der Bandbreite bei vorgegebener spektraler Auflösung
und maximaler Anzahl der zu transformierenden Punkte bei der diskreten
Fouriertransformation einschränkt. Deshalb sind diese Verfahren besonders für Signale
mit geringerer Bandbreite, wie etwa Sprache, geeignet. Bei Signalen mit höheren
Qualitätsanforderungen und größerer Bandbreite wird die Anwendung der
Fouriertransformation immer aufwendiger, da die Rechenzeit mit steigender Punktzahl
leicht überproportional wächst.
Die Lösungen im Zeitbereich verwenden alle eine Unterteilung des Signals in einzelne
Blöcke, innerhalb derer das Signal mit verschiedenen Verfahren zeitlich so gedehnt oder
gestaucht wird, daß sich beim schnelleren oder langsameren Abspielen innerhalb eines
Blockes die Wiedergabegeschwindigkeit gegenüber der ursprünglichen nicht ändert.
Die Voraussetzung für das Funktionieren des Verfahrens ist dabei, daß die Signalblöcke
einerseits so kurz sind, daß das Frequenzspektrum während der Blockdauer als
quasistationär angenommen werden kann, andererseits lang genug sind, um die
geforderte spektrale Auflösung zu gewährleisten. Am Beispiel von Audiosignalen
bedeutet das, daß das menschliche Ohr innerhalb der Blockdauer zwei
aufeinanderfolgende Geräusche zeitlich nicht mehr voneinander unterscheiden kann und
somit als einen Klang wahrnimmt. Das mit den betrachteten Verfahren erzielte
Ausgangssignal besteht, vereinfacht ausgedrückt, aus einer "Aneinanderreihung von
Klängen". Die Verfahren besitzen alle ein Zeitdehnungs- oder Stauchungsverfahren, daß
entweder mit einem Interpolationsverfahren oder mit einer Abtastwerteumordnung und
verschiedenen Ein- und Auslesegeschwindigkeiten arbeitetet und meist mit vertretbarem
Aufwand realisierbar ist.
Die Verfahren im Zeitbereich haben gegenüber denen im Frequenzbereich aber den
Nachteil, daß die Phasenwinkel des Signals und damit die Augenblickswerte
aufeinanderfolgender Signalblöcke im Moment des Blockwechsels, bedingt durch die
Zeitdehnung oder Stauchung, an den Blockgrenzen nicht mehr übereinstimmen. Dadurch
entstehen im Ausgangssignal Sprungstellen mit rechteckförmigen Flanken, die im
Gegensatz zu einem natürlichen, bandbegrenzten Signal, wie etwa eine Schallwelle,
unstetig und im mathematischen Sinne "nicht differenzierbar" sind. Ohne weitere
Kompensation entsteht eine starke Störung, die die Qualität des Ausgangssignals
erheblich vermindert, bei Audiosignalen vergleichbar mit dem Abspielen stark verkratzter
Schallplatten.
Bei dem theoretisch optimalen Verfahren mit Hilfe der Fouriertransformation gemäß
US 4417103 wird dieser Mangel durch Auswertung der Phasenwinkel aller Spektrallinien
und entsprechende zeitliche Einpassung beseitigt, wofür allerdings ein aufwendiger,
eigens in US 4961130 beschriebener, Kontrollbaustein erforderlich ist.
Bei den bisherigen Verfahren im Zeitbereich wird dieses Problem entweder durch
geschickte Ausnutzung von Signalpausen während der Blockübergänge bei
Sprachsignalen oder durch teilweises Ineinanderschieben und Überlagern
aufeinanderfolgender Blöcke gelöst. Im ersten Fall hat man eine Einschränkung der
Anwendung auf Signale mit Pausen, im zweiten Fall wird zwischen den benachbarten
Blöcken eine Korrelation in den Überlappungsbereichen erzeugt. Diese Korrelation, die
als Werkzeug im Bereich der Sprachverarbeitung eingesetzt wird, wirkt hier ähnlich wie
ein digitales Filter und führt zu einem Verlust von Signalinformation. Der störende
Signalsprung kann beim verfeinerten Verfahren mit gewichteter Überblendung von einem
Block in den nächsten gemäß US 4864620 zwar wirkungsvoll unterdrückt werden, dafür
geht aber Signalinformation verloren, die den Anwendungsbereich auf bestimmte
Signalklassen, wie etwa die der Sprache einschränkt.
Aus der DE-OS 14 72 004 ist ein Verfahren zur Aufbereitung von
Sprachsignalen, bei dem zur Erreichung eines kontinuierlichen
Überganges zwischen aufeinanderfolgenden Signal-Blöcken und
Signal-Blockabschnitten der Amplitudenverlauf mit Hilfe einer
Anpassungsfunktion derart verändert wird, daß diese
kontinuierlich ineinander übergehen und ein stetiger
Signalverlauf erhalten wird, bekannt. Dabei erfolgt eine
Addition der Anpassungsfunktion zum Signal im gesamten
Blockbereich.
Die bisherigen Verfahren zur Wiedergabe von Sprach- und Audiosignalen haben den
Nachteil, daß sie entweder Einschränkungen in der Qualität bzw. der Anwendungs
möglichkeiten unterliegen oder aber zumindest so aufwendig werden, daß sie nicht mit
relativ einfachen Mitteln beherrschbar sind.
Die Aufgabe der Erfindung ist es, beliebige Audiosignalaufnahmen, wie z. B. Musik
stücke, Sprache und Geräusche mit vertretbarem Aufwand, in guter Qualität und un
abhängig von deren Charakteristik mit veränderter Geschwindigkeit ohne Tonhöhen
änderung, mit veränderten Tonhöhen ohne Änderung der Wiedergabegeschwindigkeit
sowie mit veränderter Geschwindigkeit und einer bzgl. der natürlichen Tonhöhen
verschiebung zusätzlichen, unabhängigen Tonhöhenvariation wiedergeben zu können.
Diese Aufgabe wird mit den Merkmalen des Anspruchs 1 erreicht.
Die Lösung des Problems erfolgte mit Hilfe der digitalen Signalverarbeitung, die ein
analoges Signal als Folge von Binärzahlen darstellt, modifiziert und schließlich wieder in
ein analoges Signal überführt. Vorteilhaft ist hierbei, daß sich die Signalverarbeitung,
wenn die entsprechende Folge von Binärzahlen einmal vorliegt, mit Digitalrechnern sehr
präzise und anwenderspezifisch durchführen läßt.
Deshalb wurde zunächst ein System entsprechend Fig. 1, bestehend aus Signalquelle mit
variabler Geschwindigkeit (1), Anti-Aliasing-Filtern (2), (3), Analog/Digital- und
DigitaI/Analog-Wandlern (4), (5), zwei Arbeitsspeicherbereichen für die Ein- und
Ausgabe (6), (7), einem Digitalrechner mit einem problemangepaßten Rechen- und
Zuordnungsverfahren als Zentraleinheit (8), einer analogen Amplitudenskalier- und
Verstärkungsmöglichkeit mit Impedanzanpassung (9), einem Lautsprecher (10) und einer
Trennmöglichkeit des Rechners mit Arbeitsspeicher vom Restsystem (11), (12)
entworfen.
Wegen der besseren Überschaubarkeit bei allgemeinen Untersuchungen wurde festgelegt,
daß die Anzahl der eingelesenen Binärzahlen in dem einen Arbeitsspeicherbereich (6) in
jedem Zeitintervall gleich der Anzahl der ausgelesenen Binärzahlen aus dem anderen
Arbeitsspeicherbereich (7) sein soll.
Die Zahlenfolge eines Signals, wie etwa ein Musikstück, wird im Rahmen der hier
durchgeführten Betrachtung als "quasi unendlich" lang angesehen. Der Erfindung wird
hier das Modell der "Aneinanderreihung von Klängen bzw. Signalsequenzen"
zugrundegelegt, indem der Zahlenstrom in Blöcke (13) mit fester und gleichbleibender
Anzahl von Zahlen unterteilt wird, die dann sequentiell aus dem
Eingangsarbeitsspeicherbereich (6) entnommen, entsprechend der gewünschten
Geschwindigkeitsänderung umgeformt und im Ausgangsarbeitsspeicherbereich (7)
abgelegt werden.
Die Parameter-Blockdauer und Anzahl der Punkte je Block stellen für die
Funktionstüchtigkeit und Qualität entscheidende Größen dar. Um diese Größen
optimieren zu können, sollte die Blocklänge zwar innerhalb eines Durchlaufes fest, aber
bei jedem Versuch frei vorgebbar sein.
Mit dem beschriebenen System ist das Problem zunächst auf die Umformung von
Blöcken endlicher Dauer und die Einstellung einer Blocklänge reduziert. Wichtig für die
Einstellung der Blocklänge ist die Forderung, daß das Signal keine bzgl. der Anwendung
relevanten Informationen enthält, die sich aus einer Änderung des Frequenzspektrums
innerhalb der eingestellten Blockdauer ergeben, was bei Audiosignalen durch die
begrenzte zeitliche Trennfähigkeit des menschlichen Hörvermögens bezüglich schnell
aufeinanderfolgender Einzelgeräusche gegeben ist. Andererseits kann ein
zusammenhängender Block als Signalausschnitt umso mehr Information enthalten, umso
länger er ist. Es war deshalb zu erwarten, daß bei unabhängiger Umformung eines
Blockes von seinen Nachbarblöcken die Qualität mit steigender Länge zunimmt.
Nachdem das Problem auf die Umformung von endlich langen Zahlenblöcken reduziert
war, bot sich die Lösung mit Hilfe der diskreten Fourieranalyse an, die sich aber
entsprechend ihrer Definition eigentlich nur auf die unendliche periodische Fortsetzung
des gerade betrachteten Blockes anwenden läßt. Die Fouriertheorie besagt, daß im Falle
der unendlichen Wiederholung eines Signalblockes ein zeitinvariantes, diskretes
Frequenzspektrum der gesamten Blockfolge existiert und daß sich der Abstand der
Spektrallinien bei schnellerer Blockabfolge entsprechend dem Faktor der
Geschwindigkeitsänderung k linear dehnt bzw. staucht. Am Beispiel eines Audiosignals
bedeutet das: Wird ein immer gleich klingender Orgelklang auf einem Tonband
wiedergegeben, so klingt er höher, wenn das Tonband schneller abgespielt wird und sonst
ändert sich nichts. Wird aber eine Melodie schneller abgespielt, so ist die Voraussetzung
der unendlichen Periodizität des charakteristischen Signals für die Anwendung der
Fouriertransformation nicht mehr gegeben und das Spektrum wird zeitvariant. Zusätzlich
zur Frequenzskalierung des Spektrums ändert sich auch die Geschwindigkeit der
Variation des Spektrums, was bei der Lösung des Problems gerade erwünscht ist. Die
reine Anwendung der Fourieranalyse auf das bestehende Problem kann aber nur
Hilfsmittel für die Approximation des gewünschten Verhaltens sein; das Problem läßt
sich mit der Fourieranalyse alleine nicht lösen. Dennoch ist ihre Zeitskalierungs
eigenschaft von fundamentaler Bedeutung. Diese besagt, daß sich die dem Problem
zugrunde liegenden Frequenzverschiebungen, wie die spektrale Dehnung oder Stauchung
durch zeitliche Dehnung oder Stauchung und weglassen oder periodisches Auffüllen von
überflüssigen bzw. fehlenden Elementen kompensieren lassen.
Um nun ein System zu erhalten, bei dem möglichst viele charakteristische Größen
einstellbar sind, wurde die Blockumformung zunächst, wie in Fig. 2 vereinfacht
dargestellt, durch Fouriertransformation (1), Spektrale Dehnung oder Stauchung (2) und
inverse Fouriertransformation (3) durchgeführt. Dabei erwies sich das Verfahren trotz
schneller Transformations-Algorithmen bei größeren Blocklängen als so rechenintensiv,
daß eine unmittelbare Anwendung als sehr unattraktiv erscheint. Außerdem konnte das
Problem der unstetigen Blockübergänge nicht unmittelbar gelöst werden.
Dennoch zeigten Versuche mit diesem und den daraus hervorgegangenen Verfahren, daß
die Qualität des Höreindruckes von Audiosignalen bei gegebener Abtastrate von
198,4 kHz sich maßgeblich mit der Blocklänge und somit dem "spektralen
Auflösungsvermögen" (4) des Systems verbessert. In den durchgeführten Versuchen war
der Höreindruck - unabhängig von anderen Störungen - erst ab einer Blocklänge von über
2000 Signalpunkten brauchbar und ab 4000 Punkten gut. Das bedeutet, daß enorme
Rechnerleistungen erforderlich sind, die dieses Verfahren unwirtschaftlich machen.
Aus den Nachteilen des Standes der Technik ergeben sich die folgenden Entwurfskriterien
für das neue Verfahren:
- a) Verfahren mit Zusammenfassung einer konstanten Zahl von äquidistanten Abtastwerten zu Signalblöcken
- b) möglichst kurzer Blockdauer bzgl. der zeitlichen Trennfähigkeit des menschlichen Hörvermögens, wobei sichergestellt wird, daß trotzdem eine Stetigkeit im Abspielverhalten erreicht wird
- c) ausreichend große Punktdichte der Abtastwerte, so daß die Klangtreue auch bei Wiedergabe mit stark veränderten Geschwindigkeiten erhalten bleibt
- d) möglichst kleiner Übergangsbereich mit stetigem Übergang von einem Block zum nächsten.
Entsprechend wurde das neue Verfahren entwickelt, dessen Funktionsweise im folgenden
erläutert wird.
Wie in Fig. 1 dargestellt, erzeugt eine Signalquelle (1), wie z. B. ein Tonband, durch
Veränderung der Laufwerksdrehzahl ein mit einer um den Faktor k erhöhten oder
verminderten Geschwindigkeit wiedergegebenes Signal. Dabei erfolgt die einem Ton
zugrundegelegte Schwingung bei erhöhter Wiedergabegeschwindigkeit schneller und bei
verminderter Geschwindigkeit langsamer. Da eine schnellere Schwingung eine höhere und
eine langsamere Schwingung eine niedrigere Frequenz hat, verschieben sich mit der
Veränderung der Wiedergabegeschwindigkeit auch die Tonhöhen entsprechend dem
Faktor der Geschwindigkeitsänderung. Um die dadurch entstandene Verfälschung des
Signals wieder rückgängig zu machen, folgt der Signalquelle die in Fig. 1 dargestellte
Signalverarbeitung.
Das Signal durchläuft zunächst ein Filter (2), das eventuell vorhandenes Rauschen im
hochfrequenten, nicht hörbaren Bereich unterdrückt. Danach wird es mit einem Analog-
Digital-Wandler (4) in eine Zahlenfolge umgewandelt und im Arbeitsspeicherbereich (6)
eines Computers abgelegt. Der Computer selbst (8) macht die Tonhöhenverschiebungen
blockweise rückgängig und legt die umgeformten Blöcke in einem anderen
Arbeitsspeicherbereich (7) ab. Die umgewandelte Zahlenfolge wird anschließend an einen
Digital-Analog-Wandler (5) ausgegeben, der daraus eine zum Eingangssignal
korrespondierende, bzgl. der Tonhöhen umgewandelte, treppenförmige Folge von
Spannungswerten erzeugt. Ein nachfolgendes Filter (3) glättet die durch die Digital-
Analog-Wandlung entstandenen Kanten der treppenförmigen Ausgangsspannung und
erzeugt so wieder einen kontinuierlichen Signalverlauf. Das so erhaltene Signal kann
danach mit einer Verstärker-Lautsprecheranordnung (9), (10) hörbar gemacht werden.
Die Rückgängigmachung der Tonhöhenverschiebungen beruht, wie in Fig. 3 dargestellt,
auf einer zeitlich gestauchten oder gedehnten Anordnung der Amplitudenwerte auf der
Zeitachse. Dabei ändern sich prinzipiell weder die Amplitudenwerte selbst, noch ihre
Reihenfolge. Dadurch entfällt ein aufwendiges Rechenverfahren. Die gestauchte oder
gedehnte Anordnung der Abtastwerte auf der Zeitachse erstreckt sich jeweils auf einen
Block. Dabei erfolgt bei einer langsameren Wiedergabe die Erhöhung der Tonhöhen
entsprechend Fig. 3a durch gestauchte Anordnung der Amplitudenwerte auf der
Zeitachse. Durch die gestauchte Anordnung des Blockinhaltes verbleibt ein unbesetzter
Zeitraum zwischen dem Ende des gestauchten und dem Ende des ursprünglichen Blockes.
Dieser Zeitraum wird mit einer Folge von Amplitudenwerten des bereits gestauchten
Blockes aufgefüllt, die entweder aus dessen Anfang, aus dessen Mitte oder aus dessen
Ende entnommen werden.
Bei einer schnelleren Wiedergabe erfolgt die Absenkung der Tonhöhen entsprechend Fig.
3b durch eine gedehnte Anordnung der Amplitudenwerte auf der Zeitachse, wobei der
Anteil des Zahlenblockes, dessen gedehnte Anordnung einen über das ursprüngliche
Blockende hinausragenden Signalverlauf verursachen würde, einfach weggelassen wird.
Die beim Übergang zwischen aufeinanderfolgenden Signalblöcken oder Blockabschnitten
durch die zeitliche Stauchung oder Dehnung entstehenden Signalsprünge werden
durch Konstruktion eines stetigen, möglichst glatten, d. h. im mathematischen Sinne
differenzierbaren, Signalverlaufes beseitigt, wobei der zur Konstruktion benötigte
Übergangsbereich möglichst klein sein sollte. Eine einfache Möglichkeit der Konstruktion
eines stetigen Signalüberganges besteht in der Amplitudenmodulation bzw.
Multiplikation des zeitlich gedehnten oder gestauchten Signals mit einer Hüllkurve, die an
den Block- oder Blocksegmentgrenzen den Wert "Null", an den Block(segment)anfängen
einen cosinusförmigen Anstieg, an den Block(segment)enden einen cosinusförmigen
Abfall, und dazwischen einen konstanten, von Null verschiedenen Wert, vorzugsweise
"1", hat. Eine solche Hüllkurve ist in Fig. 3 angegeben und kann, wie folgt, mathematisch
explizit angegeben werden:
Bei der Multiplikation des modifizierten Signals mit dieser Hüllkurve erreicht man die
Stetigkeit durch Erzwingen eines Nulldurchganges und die Differenzierbarkeit durch ein
"weiches", cosinusförmiges Auf- und Abklingen des Signals an der Übergangsstelle. Bei
Versuchen zeigte sich, daß man gute Ergebnisse bei Anstiegs- und Abfallzeiten im
Bereich von 1% der Blockdauer erhält. Vorteil der Konstruktion eines stetigen
Blocküberganges durch Multiplikation eines Signals mit einer Hüllkurve ist, daß die
Multiplikation wegen der periodischen Wiederholung der Hüllkurve auch nach der
Digital-Analog-Wandelung mit einem gegenüber einem Rechner erhöhter Leistung
kostengünstigeren Analogmultiplizierer durchgeführt werden kann.
Die zeitlich gestauchte oder gedehnte Anordnung der Abtastwerte auf der Zeitachse
erfolgt mit Hilfe eines Interpolationsverfahrens. Da sich die Anzahl der Amplitudenwerte
eines Blockes bei der zeitlichen Stauchung oder Dehnung nicht ändern soll, werden im
Fall der Dehnung die fehlenden Zwischenwerte durch Interpolation aus den benachbarten
vorhandenen Abtastwerten berechnet und der gedehnte Block wird mit den interpolierten
Zwischenwerten entsprechend ergänzt. Im Falle der zeitlichen gestauchten Anordnung
können die gewünschten Zahlenwerte jeweils aus den beiden nächstliegenden Werten der
dann dichter zusammengedrängten, gedachten Zahlenfolge durch Interpolation ermittelt
werden. Würde man auf das Interpolationsverfahren verzichten, so müßten unbekannte
Zwischenwerte entweder mit dem vorausgehenden oder folgenden Wert besetzt oder
einfach weggelassen werden, was einer Reduktion der effektiven Punktdichte und damit
bei gegebener Abtastrate einer Qualitätsverschlechterung entspricht.
Ein Ausführungsbeispiel der Erfindung ist anhand von Zeichnungen als Folge von
Figuren dargestellt. Davon zeigt
Fig. 1 das Blockschaltbild der Signalverarbeitung zur Kompensation der
Tonhöhenverschiebungen;
Fig. 2 die Anzahl der Zwischenergebnisse und der Rechenaufwand bei einer
Signalverarbeitung im Frequenzbereich mit Hilfe der
Fouriertransformation;
Fig. 3a-b die Kompensation der Tonhöhenverschiebungen im Zeitbereich und das
Erzeugen von stetigen Signalübergängen zwischen Blöcken und
Blocksegmenten;
Fig. 4 das Blockschaltbild eines Ausführungsbeispiels der Erfindung.
Die Anordnung der Komponenten eines Ausführungsbeispiels ist in Fig. 4 dargestellt.
Als Signalquelle dient ein Cassettenrecorder (1) mit einem Laufwerk, dessen Drehzahl
einstellbar ist. Diese Drehzahl wird über eine Einstellmöglichkeit (8) entsprechend der
gewünschten, im Algorithmus (7) voreingestellten Geschwindigkeitsvariation geändert.
Das so erzeugte Signal wird dann unmittelbar einer 12-Bit-Analog-Digital-Wandlerkarte
(2) zugeführt, die eine Computerschnittstelle besitzt. Die A/D-Wandlerkarte ordnet das
Signal innerhalb des Aussteuerbereiches proportional zum Spannungswert einer Zahl
zwischen 0 und 4095 zu. Die vom A/D-Wandler erreichte Abtastpunktdichte liegt bei
198400 Abtastwerten pro Sekunde.
Die so erzeugten Zahlenwerte werden unmittelbar nach ihrer Entstehung über eine
Schnittstelle an einen Computer (9) übergeben. Dieser legt die Werte zunächst in einem
Speicherbereich (5) ab. Nach dem Ende des abgespielten Signalstückes entnimmt der
Rechner (4) die abgespeicherten Zahlen blockweise aus dem Speicher, transformiert sie
entsprechend dem eingegebenen Geschwindigkeitstransformationsalgorithmus (7) gemäß
Anspruch 2 und legt sie wiederum in einem anderen Speicherbereich (5) ab. Die so
gebildeten Blöcke bestehen jeweils aus 4096 Zahlenwerten. Vom Speicher (5) werden die
Zahlenwerte jeweils über eine Schnittstelle an einen 12-Bit-Digital-Analog-Wandler (3)
übergeben, der die Zahlen zwischen 0 und 4095 wieder in eine proportionale Spannung
umwandelt. Diese wird dann unmittelbar entweder über eine Verstärker-Lautsprecher-
Anordnung (10), (11) ausgegeben oder mit einem zweiten Cassettenrecorder (12)
festgehalten.
Bei dem dargestellten Ausführungsbeispiel erreicht man eine Entkoppelung des
Rechenverfahrens vom Einlese- und Wiedergabeprozeß. Vorteil dabei ist die hohe
Flexibilität des Systems bzgl. Parametervorgaben, Nachteil ist die durch die Größe des
Arbeitsspeichers begrenzte Dauer einer Wiedergabe und eine Wartezeit zwischen
Einlesen und Wiedergabe.
Das Beispiel stellt demnach eine sog. "Off-Line"-Version dar, die ohne
Echtzeitberechnung auskommt. Durch Optimieren der Algorithmen, Programme, und
durch den Einsatz von schnellen Mikroprozessorsystemen, die nicht mehr mit der
Betriebssystemsteuerung des gesamten Computers belastet werden, sind aber auch
Echtzeit- bzw. "On-Line"-Verfahren denkbar, die dann Signalsequenzen unbegrenzter
Länge ohne wahrnehmbare Verzögerungszeit wiedergeben können.
Mit diesem Verfahren wurde schließlich eine hinreichend gute, gegenüber allen hier
vorher erprobten Ansätzen mit Hilfe von Fourieranalyse und Korrelation verbesserte,
Qualität erreicht. Gegenüber einem entsprechenden, natürlich erzeugten Signal verbleibt
lediglich im Hintergrund ein schwaches Auf- und Abklingen, ähnlich einer
niederfrequenten Schwebung, das durch die Modulation verursacht wird. Dieser sehr
schwache Effekt kann aber wegen der konstanten Modulationsfrequenz entweder durch
Misch- und Filtertechniken oder durch Konstruktion von weiteren stetigen Übergängen
minimiert werden.
Die hier dargelegte Lösung des Problems stellt ein relativ kostengünstiges Verfahren dar,
das die Wiedergabe von Signalen, insbesondere von Audiosignalen, in hinreichend guter
Qualität und variabler Geschwindigkeit erlaubt, ohne daß sich das Frequenzspektrum
bzw. die Tonhöhen ändern. Dabei werden die Vorzüge einer einfachen Umordnung der
Abtastwerte mit denen einer wirkungsvollen Sprungstellenunterdrückung kombiniert.
Vorteil dabei ist, daß die ausgegebenen Zahlenwerte gegenüber den ursprünglichen,
abgesehen von den Werten in der Umgebung der Blockübergänge, nicht mit
maßgeblichen Rechenfehlern behaftet sind, wodurch sich bei Optimierung des
Blockübergangsverhaltens eine hohe Klangtreue erzielen läßt. Ein weiterer Vorteil des
Verfahrens besteht darin, daß sich der Aufwand bei der Anwendung durch Wahl
geeigneter Abtastpunktdichten und Signalblocklängen sehr gut auf Signale
unterschiedlicher Frequenzbereiche und Qualitätsanforderungen abstimmen läßt, wodurch
unnötige Rechnerkapazitäten vermieden und vorhandene Rechnerleistungen voll
ausgeschöpft werden können. Die hier aufgezeigten Optimierungsmöglichkeiten lassen
eine weitere Verbesserung bis hin zur nicht mehr wahrnehmbaren Unterscheidbarkeit von
entsprechend natürlich erzeugten Signalen vermuten.
Die Anwendungsmöglichkeiten des Verfahrens bestehen in folgenden:
- - Bei Audio-, Video- und sonstigen Systemen besteht die Möglichkeit, die Audio-, Video- oder sonstigen Signale entweder langsamer oder schneller wiederzugeben, ohne daß sich das Frequenzspektrum staucht oder dehnt. Außerdem können die Signale bei gleicher Wiedergabegeschwindigkeit derart wiedergegeben werden, daß sich ihr Frequenzspektrum staucht oder dehnt, d. h. im Falle von Audiosignalen, daß sich die Tonhöhen entweder absenken oder anheben.
- - Durch Variation der Abspielgeschwindigkeit läßt sich die Dauer eines ausgesprochenen Wortes oder Satzes exakt auf eine im Film aufgenommene Mundbewegung eines Schauspielers anpassen. Dadurch kann die Sprachsynchronisation von Tonfilmen erheblich verbessert werden.
- - Durch Variation der Wiedergabegeschwindigkeit von komplett aufgenommenen Rundfunk- und Fernsehsendungen läßt sich eine bezüglich der Zeitvorgabe "überzogene" Sendung nachträglich in den vorgegebenen Zeitrahmen einpassen.
- - Beliebige Musikstücke, Sprachsequenzen, und Geräusche können zum Zwecke der Melodie-, Rhythmus-, Sprach-, Geräusch- und Stimmerkennung für musikdidaktische, linguistische und und kriminalistische Zwecke extrem langsam wiedergegeben und somit nachvollziehbar gemacht werden.
- - Musikstücke können sehr langsam und exakt gespielt aufgenommen und später in hoher musikalischer Qualität sehr schnell wiedergegeben werden.
- - Musikstücke können, durch Tonhöhenverschiebung bei unveränderter Wiedergabegeschwindigkeit beispielsweise eine Oktave höher oder tiefer gespielt wiedergegeben und ggf. dem Originalsignal überlagert werden. Dadurch lassen sich Effektgeräte mit mehrstimmiger Wiedergabe eines Musikstückes konzipieren.
- - Bei der Wiedergabe von Geräuschen in geschwindigkeitsabhängigen Simulatoren können Situationen mit veränderten Geschwindigkeiten durchlaufen werden, ohne daß die Geräuschquelle für jede Geschwindigkeit neu aufgenommen werden muß.
- - Im Bereich der Nachrichtenübertragung kann ein Signal mit gleicher Geschwindigkeit, aber mit abgesenkten Tonhöhen übertragen werden, wobei die Tonhöhen nach der Übertragung wieder angehoben werden. Durch die Übertragung mit niedrigeren Tonhöhen bzw. mit gestauchtem Frequenzspektrum wird die benötigte Bandbreite im Übertragungskanal je nach Stauchungsfaktor u. U. erheblich reduziert.
Stellt man sich als Übertragungskanal ein Satellitenübertragungssystem zwischen zwei
Kontinenten vor, so können, bei sonst gleichen Kosten des Satellitensystems gleichzeitig
um den Faktor der Frequenzstauchung k mal mehr Telefongespräche übertragen und die
entsprechenden Gebühren erwirtschaftet werden, wofür sonst die Einrichtung eines
weiteren Satellitensystems erforderlich wäre. Man erzielt so eine
Sprachdatenkompression, was bei der Ausnutzung von Fernsprecheinrichtungen enorme
Verbesserungen der Wirtschaftlichkeit bedeuten kann.
Claims (5)
1. Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit
ohne Dehnung oder Stauchung des Frequenzspektrums, zur Wiedergabe von Signalen mit
unveränderter Geschwindigkeit und gedehntem oder gestauchtem Frequenzspektrum,
d. h. mit höherer oder niedrigerer Frequenz oder einer Kombination aus beiden,
wobei die Signale in Blöcke definierter Länge zerlegt werden und anschließend die
Augenblickswerte in n äquidistanten Zeitabschnitten ermittelt und digitalisiert werden,
anschließend zur Erhöhung der Geschwindigkeit die digitalisierten Blöcke um den
Faktor der Geschwindigkeitsänderung gekürzt werden und jeder gekürzte Block
proportional im Hinblick auf seine digitalisierten Werte auf seine ursprüngliche Länge
gedehnt wird, so daß zur Verringerung der Geschwindigkeit die digitalisierten Blöcke
um den Faktor der Geschwindigkeitsänderung gestaucht werden und die Differenz zur
ursprünglichen Blocklänge durch Einfügung jeweils eines Blockabschnittes des
gestauchten Blockes ergänzt wird, dadurch gekennzeichnet, daß zur Erreichung eines
kontinuierlichen Übergangs zwischen aufeinanderfolgenden Blöcken und
Blockabschnitten der Amplitudenverlauf im jeweiligen Übergangsbereich der Blöcke
durch Multiplikation mit einer stetigen, differenzierbaren Hüllkurve, die an den
Signalsegmentgrenzen den Wert "Null", an den Segmentanfangen einen cosinusförmigen
oder sinusförmigen Anstieg, an den Segmentenden einen cosinusförmigen oder
sinusförmigen Abfall und sonst einen konstanten, von "Null" verschiedenen Wert hat,
derart gedämpft wird, daß diese kontinuierlich ineinander übergehen, so daß ein im
mathematischen Sinne differenzierbarer Signalverlauf erhalten wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die zeitliche Dehnung
oder Stauchung mit Hilfe eines Interpolations- oder Umordnungsverfahrens erfolgt,
wobei eine zeitliche Verlängerung oder Verkürzung bezüglich des ursprünglichen
Blockinhaltes aus einem diskreten Bruchteil aus Zahler durch Nenner der ursprünglichen
Blocklänge besteht und ein Signalsegment dadurch in eine Anzahl aus der Summe von
Zähler und Nenner gedehnte oder gestauchte Untersegmente unterteilt werden kann,
wobei Zähler und Nenner jeweils ganze Zahlen sind.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei dem die
durch die Zielpunktanzahl vorgegebene Menge der zu erzeugenden Zahlenwerte
unter Auswertung aller Quellzahlenwerte ermittelt oder berechnet wird, wodurch
die zur Beibehaltung der Signalqualität bzw. Signalinformation notwendige Abtastrate
bezüglich der Geschwindigkeitsvariation minimal wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß
bei einer Dehnung eines Blockabschnittes zusätzliche Werte durch Interpolation
benachbarter Werte erhalten werden.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß bei einer
Geschwindigkeitsverringerung der ergänzende Blockabschnitt aus dem Anfang,
der Mitte oder dem Ende des gestauchten Blockes generiert wird.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19944425767 DE4425767C2 (de) | 1994-07-21 | 1994-07-21 | Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19944425767 DE4425767C2 (de) | 1994-07-21 | 1994-07-21 | Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4425767A1 DE4425767A1 (de) | 1996-01-25 |
DE4425767C2 true DE4425767C2 (de) | 1997-05-28 |
Family
ID=6523727
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19944425767 Expired - Fee Related DE4425767C2 (de) | 1994-07-21 | 1994-07-21 | Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE4425767C2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005049485A1 (de) * | 2005-10-13 | 2007-04-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Steuerung der Wiedergabe von Audioinformationen |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US417103A (en) * | 1889-12-10 | skinner | ||
US3369077A (en) * | 1964-06-09 | 1968-02-13 | Ibm | Pitch modification of audio waveforms |
US3803363A (en) * | 1972-01-17 | 1974-04-09 | F Lee | Apparatus for the modification of the time duration of waveforms |
US4246617A (en) * | 1979-07-30 | 1981-01-20 | Massachusetts Institute Of Technology | Digital system for changing the rate of recorded speech |
JPS5650398A (en) * | 1979-10-01 | 1981-05-07 | Hitachi Ltd | Sound synthesizer |
AU3063584A (en) * | 1983-06-03 | 1985-01-04 | Variable Speech Control Company ("vsc"). The | Method and apparatus for pitch period controlled voice signalprocessing |
WO1986005617A1 (en) * | 1985-03-18 | 1986-09-25 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
IL84902A (en) * | 1987-12-21 | 1991-12-15 | D S P Group Israel Ltd | Digital autocorrelation system for detecting speech in noisy audio signal |
JPH01233835A (ja) * | 1988-03-14 | 1989-09-19 | Mitsubishi Electric Corp | 音声時間軸圧縮符号化装置 |
US4961130A (en) * | 1989-12-11 | 1990-10-02 | Sundstrand Corporation | Voltage inverter control applying real-time angle pattern determination |
US5163110A (en) * | 1990-08-13 | 1992-11-10 | First Byte | Pitch control in artificial speech |
US5216744A (en) * | 1991-03-21 | 1993-06-01 | Dictaphone Corporation | Time scale modification of speech signals |
US5175769A (en) * | 1991-07-23 | 1992-12-29 | Rolm Systems | Method for time-scale modification of signals |
-
1994
- 1994-07-21 DE DE19944425767 patent/DE4425767C2/de not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102005049485A1 (de) * | 2005-10-13 | 2007-04-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Steuerung der Wiedergabe von Audioinformationen |
DE102005049485B4 (de) * | 2005-10-13 | 2007-10-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Steuerung der Wiedergabe von Audioinformationen |
Also Published As
Publication number | Publication date |
---|---|
DE4425767A1 (de) | 1996-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0624866B1 (de) | Frequenzanalyseverfahren | |
DE60225400T2 (de) | Verfahren und Vorrichtung zur Verarbeitung eines dekodierten Sprachsignals | |
DE69219718T2 (de) | Digitales Datenkodierungs-und Dekodierungsgerät mit hoher Wirksamkeit | |
DE60225130T2 (de) | Verbesserung der transientenleistung bei kodierern mit niedriger bitrate durch unterdrückung des vorgeräusches | |
DE69816221T2 (de) | Sprachschnellheitsveränderungsverfahren und vorrichtung | |
DE4227826C2 (de) | Digitales Verarbeitungsgerät für akustische Signale | |
DE102006047197B3 (de) | Vorrichtung und Verfahren zum Verarbeiten eines reellen Subband-Signals zur Reduktion von Aliasing-Effekten | |
DE69800717T2 (de) | Kodierung von tonrastern mit verstärkungregelungswörtern | |
DE68912380T2 (de) | Vorrichtung zur Synthese von analogen Signalen in PCM. | |
DE4225434A1 (de) | Vorrichtung zur aufzeichnung und wiedergabe von komprimierten digitalen daten auf bzw. von einem aufzeichnungstraeger und dabei anwendbares verfahren zur bitentfernung | |
WO1988004117A1 (en) | Process for transmitting digital audio-signals | |
DE19720651C2 (de) | Hörgerät mit verschiedenen Baugruppen zur Aufnahme, Weiterverarbeitung sowie Anpassung eines Schallsignals an das Hörvermögen eines Schwerhörigen | |
DE69836472T2 (de) | Tonverarbeitungsverfahren, tonprozessor und aufzeichnungs-/wiedergabevorrichtung | |
DE69629934T2 (de) | Umgekehrte transform-schmalband/breitband tonsynthese | |
DE69612958T2 (de) | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals | |
DE69317802T2 (de) | Verfahren und Vorrichtung für Tonverbesserung unter Verwendung von Hüllung von multibandpassfiltrierten Signalen in Kammfiltern | |
DE19861167A1 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten | |
DE60307965T2 (de) | Vorrichtung und Verfahren zum Ändern der Wiedergabegeschwindigkeit von gespeicherten Sprachsignalen | |
DE19714688A1 (de) | Verfahren zur Reproduzierung von Audiosignalen und Audioabspielgerät | |
DE69632351T2 (de) | Verfahren und Vorrichtung zur Musiktonerzeugung | |
DE69736279T2 (de) | Tonwiedergabe-geschwindigkeitsumwandler | |
DE4190102B4 (de) | Datenverdichtung von Tondaten | |
WO1990014719A1 (de) | Verfahren zur übertragung eines signals | |
DE4425767C2 (de) | Verfahren zur Wiedergabe von Signalen mit veränderter Geschwindigkeit | |
DE69612678T2 (de) | Vorrichtung zur Synthese eines Subband-Audiosignals |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |