JP7387634B2 - 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 - Google Patents
機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 Download PDFInfo
- Publication number
- JP7387634B2 JP7387634B2 JP2020555354A JP2020555354A JP7387634B2 JP 7387634 B2 JP7387634 B2 JP 7387634B2 JP 2020555354 A JP2020555354 A JP 2020555354A JP 2020555354 A JP2020555354 A JP 2020555354A JP 7387634 B2 JP7387634 B2 JP 7387634B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- neural network
- audio
- loss function
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- User Interface Of Digital Computer (AREA)
Description
(EEE1)コンピュータにより実施される音声処理方法であって、
1つ以上のプロセッサと1つ以上の非一時的記憶媒体とを含む制御システムにより実装されるニューラルネットワークにより、入力音声信号を受信するステップと、
前記ニューラルネットワークにより及び前記入力音声信号に基づき、符号化音声信号を生成するステップと、
前記制御システムにより、前記符号化音声信号を復号して、復号トレーニング音声信号を生成するステップと、
前記制御システムにより実装される損失関数生成モジュールにより、前記復号音声信号及びグラウンドトルース音声信号を受信するステップと、
損失関数生成モジュールにより、前記復号音声信号に対応する損失関数値を生成するステップであって、前記損失関数値を生成するステップは心理音響モデルを適用するステップを含む、ステップと、
前記損失関数値に基づき前記ニューラルネットワークをトレーニングするステップであって、前記トレーニングするステップは前記ニューラルネットワークの少なくとも1つの重みを更新するステップを含む、ステップと、を含む方法。
(EEE2)前記ニューラルネットワークは、前記損失関数値に基づく後方伝搬を含む、EEE1に記載の方法。
(EEE3)前記ニューラルネットワークは、自己符号化器を含む、EEE1又はEEE2に記載の方法。
(EEE4)前記ニューラルネットワークをトレーニングするステップは、前記ニューラルネットワークの少なくとも1つの重みに対応する少なくとも1つの非一時的記憶媒体位置の物理状態を変化させるステップを含む、EEE1~3のいずれか一項に記載の方法。
(EEE5)前記ニューラルネットワークの第1部分は前記符号化音声信号を生成し、前記ニューラルネットワークの第2部分は前記符号化音声信号を復号する、EEE1~4のいずれか一項に記載の方法。
(EEE6)前記ニューラルネットワークの前記第1部分は、入力ニューロン層と複数の隠れニューロン層とを含み、前記入力ニューロン層は、最終隠れニューロン層より多くのニューロンを含む、EEE5に記載の方法。
(EEE7)前記ニューラルネットワークの前記第1部分の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成される、EEE5に記載の方法。
(EEE8)前記ニューラルネットワークの前記第2部分の隠れ層の中の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成され、前記第2部分の出力層の中の少なくとも幾つかのニューロンは、シグモイド活性化関数により構成される、EEE5に記載の方法。
(EEE9)前記心理音響モデルは、1つ以上の心理音響マスク閾値に少なくとも部分的に基づく、EEE1~8のいずれか一項に記載の方法。
(EEE10)前記心理音響モデルは、以下:
外耳伝達関数のモデル化、
臨界帯域へのグループ化、
限定ではなくレベル依存拡散を含む周波数ドメインマスキング、
周波数依存聴力閾値のモデル化、
又はノイズ対マスク比の計算、
のうちの1つ以上を含む、EEE1~9のいずれか一項に記載の方法。
(EEE11)前記損失関数は、平均ノイズ対マスク比を計算するステップを含み、前記トレーニングするステップは、前記平均ノイズ対マスク比を最小化するステップを含む、EEE1~10のいずれか一項に記載の方法。
(EEE12)音声符号化方法であって、
1つ以上のプロセッサと前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体とを含む制御システムにより、現在入力音声信号を受信するステップであって、前記制御システムは、EEE1~11に記載の方法のうちのいずれか1つに従いトレーニングされたニューラルネットワークを含む音声エンコーダを実装するよう構成される、ステップと、
前記音声エンコーダにより、前記現在入力音声信号を圧縮音声フォーマットに符号化するステップと、
前記圧縮音声フォーマットの符号化音声信号を出力するステップと、を含む方法。
(EEE13)音声復号方法であって、
1つ以上のプロセッサと前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体とを含む制御システムにより、現在入力圧縮音声信号を受信するステップであって、前記制御システムは、EEE1~11に記載の方法のうちのいずれか1つに従いトレーニングされたニューラルネットワークを含む音声デコーダを実装するよう構成される、ステップと、
前記音声デコーダにより、前記現在入力圧縮音声信号を復号するステップと、
前記復号音声信号を出力するステップと、を含む方法。
(EEE14)1つ以上のトランスデューサにより、前記復号音声信号を再生するステップを更に含むEEE13に記載の方法。
(EEE15)機器であって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合された1つ以上の非一時的記憶媒体を含む制御システムであって、前記制御システムは、EEE1~14のいずれか一項に記載の方法を実施するよう構成される、制御システムと、
を含む機器。
(EEE16)ソフトウェアを記憶している1つ以上の非一時的媒体であって、前記ソフトウェアは、EEE1~14のいずれか一項に記載の方法を実行するよう1つ以上の装置を制御するための命令を含む、非一時的媒体。
(EEE17)音声符号化機器であって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体を含む制御システムであって、前記制御システムは音声エンコーダを実装するよう構成され、前記音声エンコーダは、EEE1~11のいずれか一項に記載の方法に従いトレーニングされたニューラルネットワークを含む、制御システムと、を含み、
前記制御システムは、
現在入力音声信号を受信し、
前記現在入力音声信号を圧縮音声フォーマットに符号化し、
前記圧縮音声フォーマットの符号化音声信号を出力する、
よう構成される、機器。
(EEE18)音声符号化機器であって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体を含む制御システムと、を含み、
前記制御システムは、音声エンコーダを実装するよう構成され、前記音声エンコーダは、処理に従いトレーニングされたニューラルネットワークを含み、前記処理は、
前記ニューラルネットワークにより及び前記インタフェースシステムを介して、入力トレーニング音声信号を受信するステップと、
前記ニューラルネットワークにより及び前記入力トレーニング音声信号に基づき、符号化トレーニング音声信号を生成するステップと、
前記制御システムにより、前記符号化トレーニング音声信号を復号して、復号トレーニング音声信号を生成するステップと、
前記制御システムにより実装される損失関数生成モジュールにより、前記復号トレーニング音声信号及びグラウンドトルース音声信号を受信するステップと、
前記損失関数生成モジュールにより、前記復号音声信号に対応する損失関数値を生成するステップであって、前記損失関数値を生成するステップは、心理音響モデルを適用するステップを含む、ステップと、
前記損失関数値に基づき前記ニューラルネットワークをトレーニングするステップと、
を含み、前記音声エンコーダは、
現在入力音声信号を圧縮音声フォーマットに符号化し、
前記圧縮音声フォーマットの符号化音声信号を出力する、よう更に構成される、機器。
(EEE19)音声復号機器を含むシステムであって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体を含む制御システムと、を含み、
前記制御システムは、音声デコーダを実装するよう構成され、前記音声デコーダは、処理に従いトレーニングされたニューラルネットワークを含み、前記処理は、
前記ニューラルネットワークにより及び前記インタフェースシステムを介して、入力トレーニング音声信号を受信するステップと、
前記ニューラルネットワークにより及び前記入力トレーニング音声信号に基づき、符号化トレーニング音声信号を生成するステップと、
前記制御システムにより、前記符号化トレーニング音声信号を復号して、復号トレーニング音声信号を生成するステップと、
前記制御システムにより実装される損失関数生成モジュールにより、前記復号トレーニング音声信号及びグラウンドトルース音声信号を受信するステップと、
前記損失関数生成モジュールにより、前記復号トレーニング音声信号に対応する損失関数値を生成するステップであって、前記損失関数値を生成するステップは、心理音響モデルを適用するステップを含む、ステップと、
前記損失関数値に基づき前記ニューラルネットワークをトレーニングするステップと、
を含み、前記音声デコーダは、
圧縮音声フォーマットの現在入力符号化音声信号を受信し、
前記現在入力符号化音声信号を非圧縮音声フォーマットへと復号し、
前記非圧縮音声フォーマットの復号音声信号を出力する、よう更に構成される、機器。
(EEE20)前記システムは、前記復号音声信号を再生するよう構成される1つ以上のトランスデューサを更に含む、EEE19に記載のシステム。
Claims (19)
- 1つ以上のプロセッサと1つ以上の非一時的記憶媒体とを含む制御システムにより実装される自己符号化器ニューラルネットワークをトレーニングする、コンピュータにより実施される方法であって、
前記自己符号化器ニューラルネットワークにより、音声信号を含む入力音声信号を受信するステップと、
前記自己符号化器ニューラルネットワークのエンコーダ部分により、前記入力音声信号に基づき、符号化音声信号を生成するステップと、
前記自己符号化器ニューラルネットワークのデコーダ部分により、前記符号化音声信号を復号して、復号音声信号を生成するステップと、
前記制御システムにより実装される損失関数生成モジュールにより、前記復号音声信号と、グラウンドトルース音声信号と、を受信するステップと、
前記損失関数生成モジュールにより、前記復号音声信号に対応する損失関数値を生成するステップと、
前記損失関数値に基づき、前記自己符号化器ニューラルネットワークをトレーニングするステップであって、前記トレーニングは、前記自己符号化器ニューラルネットワークの少なくとも1つの重みを更新するステップを含む、ステップと、
を含み、前記損失関数値を生成するステップは、ノイズ対マスク比の計算を含む心理音響モデルを適用するステップを含む、方法。 - 前記自己符号化器ニューラルネットワークは、前記損失関数値に基づく後方伝搬を含む、請求項1に記載の方法。
- 前記自己符号化器ニューラルネットワークをトレーニングするステップは、前記自己符号化器ニューラルネットワークの少なくとも1つの重みに対応する少なくとも1つの非一時的記憶媒体位置の物理状態を変化させるステップを含む、請求項1又は2に記載の方法。
- 前記自己符号化器ニューラルネットワークの前記エンコーダ部分は、入力ニューロン層と複数の隠れニューロン層とを含み、前記入力ニューロン層は、最終隠れニューロン層より多くのニューロンを含む、請求項1~3のいずれか一項に記載の方法。
- 前記自己符号化器ニューラルネットワークの前記エンコーダ部分の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成される、請求項1~4のいずれか一項に記載の方法。
- 前記自己符号化器ニューラルネットワークの前記デコーダ部分の隠れ層の中の少なくとも幾つかのニューロンは、正規化線形ユニット(ReLU)活性化関数により構成され、前記デコーダ部分の出力層の中の少なくとも幾つかのニューロンは、シグモイド活性化関数により構成される、請求項1~5のいずれか一項に記載の方法。
- 前記心理音響モデルは、1つ以上の心理音響マスク閾値に少なくとも部分的に基づく、請求項1~6のいずれか一項に記載の方法。
- 前記心理音響モデルは、以下:
外耳伝達関数のモデル化、
臨界帯域へのグループ化、
限定ではなくレベル依存拡散を含む周波数ドメインマスキング、
周波数依存聴力閾値のモデル化、
のうちの1つ以上を含む、請求項1~7のいずれか一項に記載の方法。 - 前記損失関数値を生成するステップは、
前記復号音声信号を周波数ドメインに変換して、周波数変換復号音声信号を生成するステップと、
前記グラウンドトルース音声信号を前記周波数ドメインに変換して、周波数変換グラウンドトルース音声信号を生成するステップと、
外耳伝達関数を前記周波数変換復号音声信号に適用して、第1中間信号を生成するステップと、
前記外耳伝達関数を前記周波数変換グラウンドトルース音声信号に適用して、第2中間信号を生成するステップと、
前記第1中間信号と前記第2中間信号との間の差を決定して、差信号を生成するステップと、
前記差信号に帯域操作を適用して、前記差信号の複数の周波数帯域を生成するステップと、
前記第2中間信号に前記帯域操作を適用して、前記第2中間信号の複数の周波数帯域を生成するステップと、
前記第2中間信号の前記複数の周波数帯域に周波数マスキング操作を提供して、複数のマスク済み帯域を生成するステップと、
前記差信号の前記複数の周波数帯域と前記マスク済み帯域とを用いて、ノイズ対マスク比を決定するステップと、
前記損失関数値として前記ノイズ対マスク比を使用するステップと、
を含む、請求項8に記載の方法。 - 前記損失関数値を生成するステップは、平均ノイズ対マスク比を計算するステップを含み、前記トレーニングするステップは、前記平均ノイズ対マスク比を最小化するステップを含む、請求項1~9のいずれか一項に記載の方法。
- 前記ノイズ対マスク比の前記計算は、帯域処理を含む、請求項1~10のいずれか一項に記載の方法。
- 前記帯域処理は、Zwicker帯域処理又はMoore帯域処理である、請求項11のいずれか一項に記載の方法。
- 音声エンコーダであって、請求項1~12のいずれか一項に記載の方法に従いトレーニングされたニューラルネットワークのエンコーダ部分を含み、前記音声エンコーダは、
現在入力音声信号を受信し、
前記現在入力音声信号を圧縮音声フォーマットに符号化し、
前記圧縮音声フォーマットの符号化信号を出力する、
よう更に構成される音声エンコーダ。 - 音声符号化機器であって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合された1つ以上の非一時的記憶媒体を含む制御システムであって、前記制御システムは、請求項13に記載の音声エンコーダを実装するよう構成される、制御システムと、
を含む音声符号化機器。 - 音声デコーダであって、請求項1~12のいずれか一項に記載の方法に従いトレーニングされたニューラルネットワークのデコーダ部分を含み、前記音声デコーダは、
圧縮音声フォーマットの現在入力符号化音声信号を受信し、
前記現在入力符号化音声信号を非圧縮音声フォーマットに復号し、
前記非圧縮音声フォーマットの復号音声信号を出力する、
よう更に構成される音声デコーダ。 - 音声復号機器であって、
インタフェースシステムと、
1つ以上のプロセッサ及び前記1つ以上のプロセッサに動作可能に結合される1つ以上の非一時的記憶媒体を含む制御システムであって、前記制御システムは音声デコーダを実装するよう構成され、前記音声デコーダは、請求項1~12のいずれか一項に記載の方法に従いトレーニングされたニューラルネットワークのデコーダ部分を含み、前記音声デコーダは、
圧縮音声フォーマットの現在入力符号化音声信号を受信し、
前記現在入力符号化音声信号を非圧縮音声フォーマットに復号し、
前記非圧縮音声フォーマットの復号音声信号を出力する、
よう更に構成される、機器。 - システムであって、請求項16に記載の音声復号機器を含み、前記システムは、前記復号音声信号を再生するよう構成される1つ以上のトランスデューサを更に含む、システム。
- コンピュータプログラムを記憶している1つ以上の非一時的媒体であって、前記コンピュータプログラムは、1つ以上の装置に請求項1~12のいずれか一項に記載の方法を実行させる、非一時的媒体。
- コンピューティング装置又はシステムにより実行されると、該コンピューティング装置又はシステムに請求項1~12のいずれか一項に記載の方法を実行させる命令を有するコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023194046A JP2024003166A (ja) | 2018-04-11 | 2023-11-15 | 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 |
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862656275P | 2018-04-11 | 2018-04-11 | |
US62/656,275 | 2018-04-11 | ||
EP18173673.7 | 2018-05-22 | ||
EP18173673 | 2018-05-22 | ||
US201962829552P | 2019-04-04 | 2019-04-04 | |
US62/829,552 | 2019-04-04 | ||
PCT/US2019/026824 WO2019199995A1 (en) | 2018-04-11 | 2019-04-10 | Perceptually-based loss functions for audio encoding and decoding based on machine learning |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023194046A Division JP2024003166A (ja) | 2018-04-11 | 2023-11-15 | 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021521476A JP2021521476A (ja) | 2021-08-26 |
JPWO2019199995A5 JPWO2019199995A5 (ja) | 2022-04-18 |
JP7387634B2 true JP7387634B2 (ja) | 2023-11-28 |
Family
ID=66182689
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020555354A Active JP7387634B2 (ja) | 2018-04-11 | 2019-04-10 | 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 |
JP2023194046A Pending JP2024003166A (ja) | 2018-04-11 | 2023-11-15 | 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023194046A Pending JP2024003166A (ja) | 2018-04-11 | 2023-11-15 | 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11817111B2 (ja) |
EP (1) | EP3775821A1 (ja) |
JP (2) | JP7387634B2 (ja) |
CN (2) | CN115410583A (ja) |
WO (1) | WO2019199995A1 (ja) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3775821A1 (en) * | 2018-04-11 | 2021-02-17 | Dolby Laboratories Licensing Corporation | Perceptually-based loss functions for audio encoding and decoding based on machine learning |
US11183201B2 (en) * | 2019-06-10 | 2021-11-23 | John Alexander Angland | System and method for transferring a voice from one body of recordings to other recordings |
JP7328799B2 (ja) * | 2019-06-12 | 2023-08-17 | 株式会社日立製作所 | ストレージシステムおよび記憶制御方法 |
JP7399646B2 (ja) * | 2019-08-14 | 2023-12-18 | キヤノンメディカルシステムズ株式会社 | データ圧縮装置およびデータ圧縮方法 |
US11501787B2 (en) * | 2019-08-22 | 2022-11-15 | Google Llc | Self-supervised audio representation learning for mobile devices |
PL3828878T3 (pl) * | 2019-11-29 | 2024-04-29 | Neural DSP Technologies Oy | Modeler neuronowy systemów audio |
KR102529272B1 (ko) * | 2019-12-20 | 2023-05-08 | 한국전자통신연구원 | 보안 통신 방법 및 이를 수행하는 장치 |
US11790926B2 (en) | 2020-01-28 | 2023-10-17 | Electronics And Telecommunications Research Institute | Method and apparatus for processing audio signal |
US20230395086A1 (en) * | 2020-10-15 | 2023-12-07 | Dolby Laboratories Licensing Corporation | Method and apparatus for processing of audio using a neural network |
JP7488422B2 (ja) * | 2020-10-16 | 2024-05-21 | ドルビー・インターナショナル・アーベー | フィルタバンク領域でオーディオサンプルを処理するための生成ニューラルネットワークモデル |
CN116888665A (zh) * | 2021-02-18 | 2023-10-13 | 三星电子株式会社 | 电子设备及其控制方法 |
US11900902B2 (en) * | 2021-04-12 | 2024-02-13 | Adobe Inc. | Deep encoder for performing audio processing |
CN114400014A (zh) * | 2021-12-09 | 2022-04-26 | 慧之安信息技术股份有限公司 | 一种基于深度学习的音频码流压缩方法和装置 |
CN114360555B (zh) * | 2021-12-24 | 2024-12-24 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
KR20230127716A (ko) * | 2022-02-25 | 2023-09-01 | 한국전자통신연구원 | 백색 잡음 모델링을 이용한 오디오 코덱 설계 및 테스트 방법 및 장치 |
CN116306889A (zh) * | 2022-09-08 | 2023-06-23 | 维沃移动通信有限公司 | 模型训练方法、装置、电子设备及介质 |
US20240170008A1 (en) * | 2022-11-11 | 2024-05-23 | Synaptics Incorporated | Neural network training for speech enhancement |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242299A (ja) | 1999-02-17 | 2000-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 重み符号帳とその作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体 |
JP2009223437A (ja) | 2008-03-13 | 2009-10-01 | Toyota Motor Corp | 新規信号生成装置、新規信号生成方法 |
JP2016505902A (ja) | 2013-01-29 | 2016-02-25 | フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 第1の符号化アルゴリズム及び第2の符号化アルゴリズムのうちの1つを選択するための装置及び方法 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
DE10217297A1 (de) | 2002-04-18 | 2003-11-06 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten |
US7398204B2 (en) * | 2002-08-27 | 2008-07-08 | Her Majesty In Right Of Canada As Represented By The Minister Of Industry | Bit rate reduction in audio encoders by exploiting inharmonicity effects and auditory temporal masking |
US7873511B2 (en) * | 2006-06-30 | 2011-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
ATE535904T1 (de) | 2007-08-27 | 2011-12-15 | Ericsson Telefon Ab L M | Verbesserte transformationskodierung von sprach- und audiosignalen |
EP2577656A4 (en) * | 2010-05-25 | 2014-09-10 | Nokia Corp | BANDBREITENERWEITERER |
RU2464649C1 (ru) | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
US8484022B1 (en) * | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
JP6173684B2 (ja) * | 2012-12-25 | 2017-08-02 | 株式会社日立ハイテクノロジーズ | 半導体装置の製造方法 |
US9728184B2 (en) | 2013-06-18 | 2017-08-08 | Microsoft Technology Licensing, Llc | Restructuring deep neural network acoustic models |
US9679258B2 (en) | 2013-10-08 | 2017-06-13 | Google Inc. | Methods and apparatus for reinforcement learning |
US9858919B2 (en) | 2013-11-27 | 2018-01-02 | International Business Machines Corporation | Speaker adaptation of neural network acoustic models using I-vectors |
US9390712B2 (en) | 2014-03-24 | 2016-07-12 | Microsoft Technology Licensing, Llc. | Mixed speech recognition |
US10515301B2 (en) | 2015-04-17 | 2019-12-24 | Microsoft Technology Licensing, Llc | Small-footprint deep neural network |
US20170040798A1 (en) * | 2015-08-07 | 2017-02-09 | Qualcomm Incorporated | Controlling a Load and an Energy Source Based on Future Energy Level Determinations |
CN105070293B (zh) | 2015-08-31 | 2018-08-21 | 武汉大学 | 基于深度神经网络的音频带宽扩展编码解码方法及装置 |
US10891540B2 (en) * | 2015-12-18 | 2021-01-12 | National Technology & Engineering Solutions Of Sandia, Llc | Adaptive neural network management system |
US11373672B2 (en) * | 2016-06-14 | 2022-06-28 | The Trustees Of Columbia University In The City Of New York | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments |
CN107516527A (zh) | 2016-06-17 | 2017-12-26 | 中兴通讯股份有限公司 | 一种语音编解码方法和终端 |
US9875747B1 (en) * | 2016-07-15 | 2018-01-23 | Google Llc | Device specific multi-channel data compression |
EP3288031A1 (en) * | 2016-08-23 | 2018-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding an audio signal using a compensation value |
US11080591B2 (en) * | 2016-09-06 | 2021-08-03 | Deepmind Technologies Limited | Processing sequences using convolutional neural networks |
CN106778867B (zh) * | 2016-12-15 | 2020-07-07 | 北京旷视科技有限公司 | 目标检测方法和装置、神经网络训练方法和装置 |
US11538455B2 (en) * | 2018-02-16 | 2022-12-27 | Dolby Laboratories Licensing Corporation | Speech style transfer |
EP3775821A1 (en) * | 2018-04-11 | 2021-02-17 | Dolby Laboratories Licensing Corporation | Perceptually-based loss functions for audio encoding and decoding based on machine learning |
US11687778B2 (en) * | 2020-01-06 | 2023-06-27 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
EP3876383A1 (en) * | 2020-03-02 | 2021-09-08 | Nokia Technologies Oy | Data communications |
EP4158624A1 (en) * | 2020-06-01 | 2023-04-05 | Dolby International AB | Method and apparatus for determining parameters of a generative neural network |
US20230395086A1 (en) * | 2020-10-15 | 2023-12-07 | Dolby Laboratories Licensing Corporation | Method and apparatus for processing of audio using a neural network |
-
2019
- 2019-04-10 EP EP19718053.2A patent/EP3775821A1/en active Pending
- 2019-04-10 US US17/046,284 patent/US11817111B2/en active Active
- 2019-04-10 CN CN202210834906.8A patent/CN115410583A/zh active Pending
- 2019-04-10 JP JP2020555354A patent/JP7387634B2/ja active Active
- 2019-04-10 CN CN201980030729.4A patent/CN112105902B/zh active Active
- 2019-04-10 WO PCT/US2019/026824 patent/WO2019199995A1/en unknown
-
2023
- 2023-11-13 US US18/507,824 patent/US20240079019A1/en active Pending
- 2023-11-15 JP JP2023194046A patent/JP2024003166A/ja active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000242299A (ja) | 1999-02-17 | 2000-09-08 | Nippon Telegr & Teleph Corp <Ntt> | 重み符号帳とその作成方法及び符号帳設計時における学習時のma予測係数の初期値の設定方法並びに音響信号の符号化方法及びその復号方法並びに符号化プログラムが記憶されたコンピュータに読み取り可能な記憶媒体及び復号プログラムが記憶されたコンピュータに読み取り可能な記憶媒体 |
JP2009223437A (ja) | 2008-03-13 | 2009-10-01 | Toyota Motor Corp | 新規信号生成装置、新規信号生成方法 |
JP2016505902A (ja) | 2013-01-29 | 2016-02-25 | フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | 第1の符号化アルゴリズム及び第2の符号化アルゴリズムのうちの1つを選択するための装置及び方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3775821A1 (en) | 2021-02-17 |
WO2019199995A1 (en) | 2019-10-17 |
US20240079019A1 (en) | 2024-03-07 |
US20210082444A1 (en) | 2021-03-18 |
JP2024003166A (ja) | 2024-01-11 |
CN112105902A (zh) | 2020-12-18 |
CN112105902B (zh) | 2022-07-22 |
US11817111B2 (en) | 2023-11-14 |
CN115410583A (zh) | 2022-11-29 |
JP2021521476A (ja) | 2021-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7387634B2 (ja) | 機械学習に基づく音声符号化及び復号のための知覚に基づく損失関数 | |
Liutkus et al. | Informed source separation through spectrogram coding and data embedding | |
CN101410892B (zh) | 改进的离散余弦变换域中的音频信号响度测量及修改 | |
Biswas et al. | Audio codec enhancement with generative adversarial networks | |
JP6860901B2 (ja) | 学習装置、音声合成システムおよび音声合成方法 | |
Braun et al. | Effect of noise suppression losses on speech distortion and ASR performance | |
KR102556098B1 (ko) | 심리음향 기반 가중된 오류 함수를 이용한 오디오 신호 부호화 방법 및 장치, 그리고 오디오 신호 복호화 방법 및 장치 | |
EP4425493A2 (en) | Compressing audio waveforms using neural networks and vector quantizers | |
WO2016050725A1 (en) | Method and apparatus for speech enhancement based on source separation | |
EP4503021A1 (en) | Speech encoding method and apparatus, speech decoding method and apparatus, computer device and storage medium | |
US20250037729A1 (en) | Control of speech preservation in speech enhancement | |
Lin et al. | Focus on the sound around you: Monaural target speaker extraction via distance and speaker information | |
Raj et al. | Multilayered convolutional neural network-based auto-CODEC for audio signal denoising using mel-frequency cepstral coefficients | |
Lim et al. | End-to-end neural audio coding in the MDCT domain | |
EP1782419A1 (en) | Scalable audio coding | |
US20210166701A1 (en) | Device and method for encoding / decoding audio signal using filter bank | |
US20240371383A1 (en) | Method and apparatus for encoding/decoding audio signal | |
Zeng et al. | A time-frequency fusion model for multi-channel speech enhancement | |
Chiang et al. | Restorative Speech Enhancement: A Progressive Approach Using SE and Codec Modules | |
Gunjal et al. | Traditional psychoacoustic model and Daubechies wavelets for enhanced speech coder performance | |
RU2803449C2 (ru) | Аудиодекодер, устройство для определения набора значений, задающих характеристики фильтра, способы для обеспечения декодированного аудиопредставления, способы для определения набора значений, задающих характеристики фильтра, и компьютерная программа | |
EP4481740A1 (en) | Method for speech enhancement | |
Lim et al. | Perceptual Neural Audio Coding with Modified Discrete Cosine Transform | |
Yan | Audio compression via nonlinear transform coding and stochastic binary activation | |
Parameswaran | Objective assessment of machine learning algorithms for speech enhancement in hearing aids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220408 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220408 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230703 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20231017 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7387634 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |