KR20210003514A - 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 - Google Patents
오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 Download PDFInfo
- Publication number
- KR20210003514A KR20210003514A KR1020190079377A KR20190079377A KR20210003514A KR 20210003514 A KR20210003514 A KR 20210003514A KR 1020190079377 A KR1020190079377 A KR 1020190079377A KR 20190079377 A KR20190079377 A KR 20190079377A KR 20210003514 A KR20210003514 A KR 20210003514A
- Authority
- KR
- South Korea
- Prior art keywords
- band
- neural network
- audio
- frame
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
도 2는 본 발명의 일실시예에 따른 부호화기와 복호화기의 세부 동작을 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 제1 입력의 예시를 도시한 도면이다.
도 4는 본 발명의 일실시예에 따른 제2 입력의 예시를 도시한 도면이다.
도 5는 본 발명의 일실시예에 따른 제1 입력과 제2 입력을 비교한 결과를 나타낸 도면이다.
도 6은 본 발명의 일실시예에 따른 오디오의 고대역을 출력하는 과정을 나타내는 도면이다.
도 7은 본 발명의 일실시예에 따른 오토 인코더의 구조를 도시한 도면이다.
도 8은 본 발명의 일실시예에 따른 오토 인코더에서 인코딩 네트워크의 구조 예시를 도시한 도면이다.
도 9는 본 발명의 일실시예에 따른 오토 인코더에서 디코딩 네트워크의 구조 예시를 도시한 도면이다.
도 10은 본 발명의 일실시예에 따른 오토 인코더에서 인코딩 네트워크와 디코딩 네트워크의 출력 레이어에서의 출력 레이어와 은닉 레이어의 예시를 도시한 도면이다.
Claims (18)
- 복호화기에서 수행되는 오디오의 고대역 복호화 방법에 있어서,
제1 신경망을 통해 추출된 파라미터를 식별하는 단계;
제2 신경망을 통해 추출된 부가 정보를 식별하는 단계;
상기 파라미터와 부가 정보를 제3 신경망에 적용하여 오디오의 고대역을 복원하는 단계
를 포함하는 오디오의 고대역 복호화 방법. - 제1항에 있어서,
상기 제1 신경망은,
오디오의 프레임별 스펙트럼에 기초한 제1 입력으로부터 고대역의 파라미터를 추출하는 오디오의 고대역 복호화 방법. - 제2항에 있어서,
상기 제1 입력은, 스펙트럼의 부분집합으로 결정되고,
상기 스펙트럼은, 이전 프레임의 고대역 계수 및 저대역 계수, 현재 프레임의 고대역 계수와 저대역 계수로 구성되는 오디오의 고대역 복호화 방법. - 제1항에 있어서,
상기 제2 신경망은,
오디오의 프레임별 스펙트럼에 기초한 제2 입력으로부터 고대역을 복원하기 위한 부가 정보를 추출하는 오디오의 고대역 복호화 방법. - 제4항에 있어서,
상기 제2 입력은, 스펙트럼의 부분집합으로 결정되고,
상기 스펙트럼은, 이전 프레임의 고대역 계수, 저대역 계수, 현재 프레임의 저대역 계수로 구성되는 오디오의 고대역 복호화 방법. - 제1항에 있어서,
상기 오디오의 복호화 프레임이 현재 프레임인 경우, 상기 제1 신경망에 적용되는 제1 입력은, 현재 프레임의 고대역 계수이고, 상기 제2 신경망에 적용되는 제2 입력은 현재 프레임의 저대역 계수인 오디오의 고대역 복호화 방법. - 제1항에 있어서,
상기 오디오의 복호화 프레임이 현재 프레임이고, 현재 프레임에 대한 적어도 하나의 이전 프레임이 존재하는 경우, 상기 제1 신경망에 적용되는 제1 입력은 현재 프레임의 고대역 계수이고, 제2 신경망에 적용되는 제2 입력은 이전 프레임의 고대역 계수와 저대역 계수 및 현재 프레임의 저대역 계수인 오디오의 고대역 복호화 방법. - 제1항에 있어서,
상기 오디오의 복호화 프레임이 이전 프레임이고, 현재 프레임에 대한 적어도 하나의 이전 프레임이 존재하는 경우, 상기 제1 신경망에 적용되는 제1 입력은 현재 프레임의 고대역 계수와 이전 프레임의 고대역 계수이고, 제2 신경망에 적용되는 제2 입력은 이전 프레임의 저대역 계수인 오디오의 고대역 복호화 방법. - 제1항에 있어서,
상기 제1 신경망을 통해 추출된 파라미터를 식별하는 단계는,
부호화기로부터 전달된 양자화된 파라미터를 역양자화함으로써 파라미터를 식별하는 오디오의 고대역 복호화 방법. - 제1항에 있어서,
상기 제1 신경망을 통해 추출된 파라미터를 식별하는 단계는,
상기 제1 신경망의 출력을 랜덤 샘플링함으로써 추출된 파라미터를 식별하는 오디오의 고대역 복호화 방법. - 제1항에 있어서,
상기 오디오의 고대역을 복원하는 단계는,
상기 현재 프레임의 고대역과 상기 현재 프레임의 적어도 하나의 이전 프레임들 각각의 고대역을 이용하는 오디오의 고대역 복호화 방법. - 부호화기에서 수행되는 오디오의 고대역 부호화 방법에 있어서,
제1 신경망을 통해 추출된 파라미터를 추출하는 단계;
상기 추출된 파라미터를 양자화하는 단계
를 포함하고,
상기 파라미터는,
복호화기에 전달되어 제2 신경망을 통해 추출된 부가 정보와 함께 제3 신경망에 입력되어 오디오의 고대역을 복원하기 위해 사용되는 오디오의 고대역 부호화 방법. - 복호화기에 있어서,
상기 복호화기는 프로세서를 포함하고,
상기 프로세서는,
제1 신경망을 통해 추출된 파라미터를 식별하고, 제2 신경망을 통해 추출된 부가 정보를 식별하며, 상기 파라미터와 부가 정보를 제3 신경망에 적용하여 오디오의 고대역을 복원하는 복호화기. - 제13항에 있어서,
상기 제1 신경망은,
오디오의 프레임별 스펙트럼에 기초한 제1 입력으로부터 고대역의 파라미터를 추출하는 복호화기. - 제14항에 있어서,
상기 제1 입력은, 스펙트럼의 부분집합으로 결정되고,
상기 스펙트럼은, 이전 프레임의 고대역 계수 및 저대역 계수, 현재 프레임의 고대역 계수와 저대역 계수로 구성되는 복호화기. - 제13항에 있어서,
상기 제2 신경망은,
오디오의 프레임별 스펙트럼에 기초한 제2 입력으로부터 고대역을 복원하기 위한 부가 정보를 추출하는 복호화기. - 제16항에 있어서,
상기 제2 입력은, 스펙트럼의 부분집합으로 결정되고,
상기 스펙트럼은, 이전 프레임의 고대역 계수, 저대역 계수, 현재 프레임의 저대역 계수로 구성되는 복호화기. - 부호화기에 있어서,
상기 부호화기는, 제1 신경망을 통해 추출된 파라미터를 추출하고, 상기 추출된 파라미터를 양자화하고,
상기 파라미터는,
복호화기에 전달되어 제2 신경망을 통해 추출된 부가 정보와 함께 제3 신경망에 입력되어 오디오의 고대역을 복원하기 위해 사용되는 부호화기.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190079377A KR102837794B1 (ko) | 2019-07-02 | 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 | |
US16/814,103 US11456001B2 (en) | 2019-07-02 | 2020-03-10 | Method of encoding high band of audio and method of decoding high band of audio, and encoder and decoder for performing the methods |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190079377A KR102837794B1 (ko) | 2019-07-02 | 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210003514A true KR20210003514A (ko) | 2021-01-12 |
KR102837794B1 KR102837794B1 (ko) | 2025-07-24 |
Family
ID=
Also Published As
Publication number | Publication date |
---|---|
US11456001B2 (en) | 2022-09-27 |
US20210005209A1 (en) | 2021-01-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7337118B2 (en) | Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components | |
US11456001B2 (en) | Method of encoding high band of audio and method of decoding high band of audio, and encoder and decoder for performing the methods | |
US8818539B2 (en) | Audio encoding device, audio encoding method, and video transmission device | |
US8612220B2 (en) | Quantization after linear transformation combining the audio signals of a sound scene, and related coder | |
US8503535B2 (en) | Rounding noise shaping for integer transform based encoding and decoding | |
US20210366497A1 (en) | Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same | |
CN102144392A (zh) | 用于多信道编码和解码的方法及设备 | |
US20110137661A1 (en) | Quantizing device, encoding device, quantizing method, and encoding method | |
US12205605B2 (en) | Audio signal encoding and decoding method using a neural network model to generate a quantized latent vector, and encoder and decoder for performing the same | |
EP4196981B1 (en) | Trained generative model speech coding | |
CN114663536A (zh) | 一种图像压缩方法及装置 | |
KR20210133551A (ko) | 적응형 주파수 복원 기법 기반 오디오 부호화 방법 | |
KR102837794B1 (ko) | 오디오의 고대역 부호화 방법 및 고대역 복호화 방법, 그리고 상기 방법을 수하는 부호화기 및 복호화기 | |
US7181079B2 (en) | Time signal analysis and derivation of scale factors | |
CN117198301A (zh) | 音频编码方法、音频解码方法、装置、可读存储介质 | |
CN115361555A (zh) | 图像编码方法、图像编码方法、装置以及计算机存储介质 | |
Guz | A novel image compression method based on classified energy and pattern building blocks | |
US11804230B2 (en) | Audio encoding/decoding apparatus and method using vector quantized residual error feature | |
Wernik et al. | Analysis of inter-channel dependencies in audio lossless block coding. | |
Kandadai et al. | Scalable audio compression at low bitrates | |
KR102837318B1 (ko) | 오디오 신호의 부호화 및 복호화 방법과 그 방법을 수행하는 부호화기 및 복호화기 | |
Herrero et al. | Integrating spectral preprocessing, spatial subband decomposition, and linear prediction to accomplish lossy ultraspectral image compression | |
Srinivasamurthy et al. | Joint compression-classification with quantizer/classifier dimension mismatch | |
Abduljabbar et al. | A Survey paper on Lossy Audio Compression Methods | |
Debnath et al. | Wavelet Decompositions, Hierarchical Encoding and Convolutional Neural Network Integrated Lossless Audio Codec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190702 |
|
PG1501 | Laying open of application | ||
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20220512 Comment text: Request for Examination of Application Patent event code: PA02011R01I Patent event date: 20190702 Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20240821 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20250418 |