KR102740499B1 - 텍스트 에코 제거 - Google Patents
텍스트 에코 제거 Download PDFInfo
- Publication number
- KR102740499B1 KR102740499B1 KR1020237000248A KR20237000248A KR102740499B1 KR 102740499 B1 KR102740499 B1 KR 102740499B1 KR 1020237000248 A KR1020237000248 A KR 1020237000248A KR 20237000248 A KR20237000248 A KR 20237000248A KR 102740499 B1 KR102740499 B1 KR 102740499B1
- Authority
- KR
- South Korea
- Prior art keywords
- audio
- text
- character
- synthesized
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
도 2a-2c는 도 1의 음성 환경의 예적인 텍스트 에코 제거 시스템의 개략도이다.
도 2d는 TTS(text-to-speech) 시스템과 텍스트 인코더를 공유하는 예적인 텍스트 에코 제거 시스템의 개략도이다.
도 2e는 어텐션 메커니즘이 없는 예적인 텍스트 에코 제거 시스템의 개략도이다.
도 3은 도 1의 텍스트 에코 제거 시스템을 트레이닝하기 위한 예적인 트레이닝 프로세스의 개략도이다.
도 4는 에코를 제거하기 위해 향상된 오디오 신호를 생성하는 방법에 대한 예적인 동작 배열의 흐름도이다.
도 5는 본 명세서에 기술된 시스템 및 방법을 구현하는 데 사용될 수 있는 예적인 컴퓨팅 장치의 개략도이다.
여러 도면에서 동일한 참조 부호는 동일한 요소를 나타낸다.
Claims (20)
- 데이터 프로세싱 하드웨어(510)에서 실행될 때 상기 데이터 프로세싱 하드웨어(510)로 하여금 동작들을 수행하게 하는 컴퓨터로 구현되는 방법(400)으로서, 상기 동작들은,
합성된 재생 오디오(154)의 세그먼트(156)를 오버랩하는 화자(10)에 의해 발언된 오디오를 포함하는 오버랩된 오디오 신호(202)를 수신하는 동작;
상기 합성된 재생 오디오(154)에 대응하는 문자 시퀀스를 텍스트 임베딩 표현(152)으로 인코딩하는 동작;
상기 문자 시퀀스의 각 문자에 대해, 상기 텍스트 임베딩 표현(152)을 사용하여, 해당 문자가 상기 오버랩된 오디오 신호(202)에서 상기 화자(10)에 의해 발언된 오디오에 의해 오버랩된 상기 합성된 재생 오디오(154)의 세그먼트(156)와 연관될 가능성을 나타내는 각각의 제거 확률(222)을 생성하는 동작; 그리고
상기 오버랩된 오디오 신호(202) 및 상기 문자 시퀀스의 각 문자에 대해 생성된 각각의 제거 확률(222)을 입력으로 수신하도록 구성된 제거 신경망(230)을 사용하여, 상기 오버랩된 오디오 신호(202)로부터 상기 합성된 재생 오디오(154)의 세그먼트(156)를 제거함으로써 향상된 오디오 신호(206)를 생성하는 동작을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 제1항에 있어서, 상기 동작들은,
상기 데이터 프로세싱 하드웨어(510)와 연관된 TTS(text-to-speech) 시스템(150)에 의해, 상기 문자 시퀀스를 상기 합성된 재생 오디오(154)를 포함하는 합성된 음성으로 변환하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 제1항에 있어서, 상기 텍스트 임베딩 표현(152)은 단일 고정된-차원 텍스트 임베딩 벡터를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
- 제1항에 있어서, 상기 문자 시퀀스를 인코딩하는 동작은,
상기 문자 시퀀스의 각 문자를 해당 문자 임베딩(214)으로 인코딩하여 문자 임베딩 시퀀스(214)를 생성하는 동작을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 제4항에 있어서,
상기 오버랩된 오디오 신호(202)는 프레임 시퀀스를 포함하고, 상기 프레임 시퀀스의 각 프레임은 합성된 재생 오디오(154)의 세그먼트(156)와 오버랩하는 화자(10)에 의해 발언된 오디오의 부분에 대응하고; 그리고
상기 문자 시퀀스의 각 문자에 대한 각각의 제거 확률(222)을 생성하는 동작은 해당 문자 임베딩(214)이 상기 오버랩된 오디오 신호(202)의 프레임 시퀀스의 프레임들 중 하나에 대응할 때 상기 해당 문자 임베딩(214)에 가중치(224)를 적용하도록 어텐션 메커니즘(220)을 사용하는 동작을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 제1항에 있어서, 상기 동작들은,
복수의 트레이닝 예(302)에 대해 제거 신경망(230)을 트레이닝시키는 동작을 더 포함하고, 각각의 트레이닝 예(302)는,
비-합성된 음성에 대응하는 GT(ground truth) 오디오 신호(310);
합성된 오디오 신호와 오버랩되는 상기 GT 오디오 신호(310)를 포함하는 트레이닝 오버랩된 오디오 신호(320); 그리고
상기 합성된 오디오 신호의 각각의 텍스트 표현(330)을 포함하며, 상기 텍스트 표현(330)은 문자 시퀀스를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 제1항에 있어서, 상기 합성된 재생 오디오(154)에 대응하는 문자 시퀀스를 텍스트 임베딩 표현(152)으로 인코딩하는 동작은,
상기 데이터 프로세싱 하드웨어(510)와 연관된 텍스트 인코딩 신경망의 텍스트 인코더(210)에 의해, 상기 합성된 재생 오디오(154)에 대응하는 상기 문자 시퀀스를 상기 텍스트 임베딩 표현(152)으로 인코딩하는 동작을 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 제7항에 있어서, 상기 텍스트 인코더(210)는 상기 데이터 프로세싱 하드웨어(510)와 연관된 TTS(text-to-speech) 시스템(150)에 의해 공유되며, 상기 TTS 시스템(150)은 상기 문자 시퀀스로부터 상기 합성된 재생 오디오(154)를 생성하도록 구성되는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
- 제1항에 있어서, 상기 제거 신경망(230)은 복수의 LSTM(Long Short Term Memory) 계층을 갖는 LSTM 네트워크를 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법.
- 제1항에 있어서, 상기 동작들은,
상기 합성된 재생 오디오(154)의 텍스트 표현이 이용 가능하다는 표시를 수신하는 동작을 더 포함하는 것을 특징으로 하는 컴퓨터로 구현되는 방법. - 시스템(500)으로서,
데이터 프로세싱 하드웨어(510); 그리고
상기 데이터 프로세싱 하드웨어(510)와 통신하는 메모리 하드웨어(520)를 포함하며, 상기 메모리 하드웨어(520)는 상기 데이터 프로세싱 하드웨어(510)에서 실행될 때 상기 데이터 프로세싱 하드웨어(510)로 하여금 동작들을 수행하게 하는 명령어를 저장하며, 상기 동작들은,
합성된 재생 오디오(154)의 세그먼트(156)를 오버랩하는 화자(10)에 의해 발언된 오디오를 포함하는 오버랩된 오디오 신호(202)를 수신하는 동작;
상기 합성된 재생 오디오(154)에 대응하는 문자 시퀀스를 텍스트 임베딩 표현(152)으로 인코딩하는 동작;
상기 문자 시퀀스의 각 문자에 대해, 상기 텍스트 임베딩 표현(152)을 사용하여, 해당 문자가 상기 오버랩된 오디오 신호(202)에서 상기 화자(10)에 의해 발언된 오디오에 의해 오버랩된 상기 합성된 재생 오디오(154)의 세그먼트(156)와 연관될 가능성을 나타내는 각각의 제거 확률(222)을 생성하는 동작; 그리고
상기 오버랩된 오디오 신호(202) 및 상기 문자 시퀀스의 각 문자에 대해 생성된 각각의 제거 확률(222)을 입력으로 수신하도록 구성된 제거 신경망(230)을 사용하여, 상기 오버랩된 오디오 신호(202)로부터 상기 합성된 재생 오디오(154)의 세그먼트(156)를 제거함으로써 향상된 오디오 신호(206)를 생성하는 동작을 포함하는 것을 특징으로 하는 시스템. - 제11항에 있어서, 상기 동작들은,
상기 데이터 프로세싱 하드웨어(510)와 연관된 TTS(text-to-speech) 시스템(150)에 의해, 상기 문자 시퀀스를 상기 합성된 재생 오디오(154)를 포함하는 합성된 음성으로 변환하는 동작을 더 포함하는 것을 특징으로 하는 시스템. - 제11항에 있어서, 상기 텍스트 임베딩 표현(152)은 단일 고정된-차원 텍스트 임베딩 벡터를 포함하는 것을 특징으로 하는 시스템.
- 제11항에 있어서, 상기 문자 시퀀스를 인코딩하는 동작은,
상기 문자 시퀀스의 각 문자를 해당 문자 임베딩(214)으로 인코딩하여 문자 임베딩 시퀀스(214)을 생성하는 동작을 포함하는 것을 특징으로 하는 시스템. - 제14항에 있어서,
상기 오버랩된 오디오 신호(202)는 프레임 시퀀스를 포함하고, 상기 프레임 시퀀스의 각 프레임은 합성된 재생 오디오(154)의 세그먼트(156)와 오버랩하는 화자(10)에 의해 발언된 오디오의 부분에 대응하고; 그리고
상기 문자 시퀀스의 각 문자에 대한 각각의 제거 확률(222)을 생성하는 동작은 해당 문자 임베딩(214)이 상기 오버랩된 오디오 신호(202)의 프레임 시퀀스의 프레임들 중 하나에 대응할 때 상기 해당 문자 임베딩(214)에 가중치(224)를 적용하도록 어텐션 메커니즘(220)을 사용하는 동작을 포함하는 것을 특징으로 하는 시스템. - 제11항에 있어서, 상기 동작들은,
복수의 트레이닝 예(302)에 대해 제거 신경망(230)을 트레이닝시키는 동작을 더 포함하고, 각각의 트레이닝 예(302)는,
비-합성된 음성에 대응하는 GT(ground truth) 오디오 신호(310);
합성된 오디오 신호와 오버랩되는 상기 GT 오디오 신호(310)를 포함하는 트레이닝 오버랩된 오디오 신호(320); 그리고
상기 합성된 오디오 신호의 각각의 텍스트 표현(330)을 포함하며, 상기 텍스트 표현(330)은 문자 시퀀스를 포함하는 것을 특징으로 하는 시스템. - 제11항에 있어서, 상기 합성된 재생 오디오(154)에 대응하는 문자 시퀀스를 텍스트 임베딩 표현(152)으로 인코딩하는 동작은,
상기 데이터 프로세싱 하드웨어(510)와 연관된 텍스트 인코딩 신경망의 텍스트 인코더(210)에 의해, 상기 합성된 재생 오디오(154)에 대응하는 상기 문자 시퀀스를 상기 텍스트 임베딩 표현(152)으로 인코딩하는 동작을 포함하는 것을 특징으로 하는 시스템. - 제17항에 있어서,
상기 텍스트 인코더(210)는 상기 데이터 프로세싱 하드웨어(510)와 연관된 TTS(text-to-speech) 시스템(150)에 의해 공유되며, 상기 TTS 시스템(150)은 상기 문자 시퀀스로부터 상기 합성된 재생 오디오(154)를 생성하도록 구성되는 것을 특징으로 하는 시스템. - 제11항에 있어서, 상기 제거 신경망(230)은 복수의 LSTM(Long Short Term Memory) 계층을 갖는 LSTM 네트워크를 포함하는 것을 특징으로 하는 시스템.
- 제11항에 있어서, 상기 동작들은,
상기 합성된 재생 오디오의 텍스트 표현이 이용 가능하다는 표시를 수신하는 동작을 더 포함하는 것을 특징으로 하는 시스템.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063037137P | 2020-06-10 | 2020-06-10 | |
US63/037,137 | 2020-06-10 | ||
PCT/US2021/022008 WO2021252039A1 (en) | 2020-06-10 | 2021-03-11 | Textual echo cancelation |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230020508A KR20230020508A (ko) | 2023-02-10 |
KR102740499B1 true KR102740499B1 (ko) | 2024-12-10 |
Family
ID=75302675
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020237000248A Active KR102740499B1 (ko) | 2020-06-10 | 2021-03-11 | 텍스트 에코 제거 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11482244B2 (ko) |
EP (1) | EP4139920B1 (ko) |
JP (2) | JP7335460B2 (ko) |
KR (1) | KR102740499B1 (ko) |
CN (1) | CN115699170A (ko) |
WO (1) | WO2021252039A1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111427932B (zh) * | 2020-04-02 | 2022-10-04 | 南方科技大学 | 出行预测方法、装置、设备和存储介质 |
US12010260B2 (en) * | 2021-11-03 | 2024-06-11 | Capital One Services, Llc | Detecting synthetic sounds in call audio |
CN115512691B (zh) * | 2022-10-11 | 2024-12-20 | 四川虹微技术有限公司 | 一种人机连续对话中基于语义层面判断回声的方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9324322B1 (en) | 2013-06-18 | 2016-04-26 | Amazon Technologies, Inc. | Automatic volume attenuation for speech enabled devices |
US9318112B2 (en) * | 2014-02-14 | 2016-04-19 | Google Inc. | Recognizing speech in the presence of additional audio |
US9972339B1 (en) | 2016-08-04 | 2018-05-15 | Amazon Technologies, Inc. | Neural network based beam selection |
EP3474280B1 (en) | 2017-10-19 | 2021-07-07 | Goodix Technology (HK) Company Limited | Signal processor for speech signal enhancement |
CN108550364B (zh) * | 2018-04-20 | 2019-04-30 | 百度在线网络技术(北京)有限公司 | 语音识别方法、装置、设备及存储介质 |
WO2020005202A1 (en) * | 2018-06-25 | 2020-01-02 | Google Llc | Hotword-aware speech synthesis |
CN113168840A (zh) * | 2018-11-30 | 2021-07-23 | 松下知识产权经营株式会社 | 翻译装置以及翻译方法 |
-
2021
- 2021-03-11 WO PCT/US2021/022008 patent/WO2021252039A1/en unknown
- 2021-03-11 KR KR1020237000248A patent/KR102740499B1/ko active Active
- 2021-03-11 CN CN202180040717.7A patent/CN115699170A/zh active Pending
- 2021-03-11 EP EP21715745.2A patent/EP4139920B1/en active Active
- 2021-03-11 JP JP2022576155A patent/JP7335460B2/ja active Active
- 2021-03-11 US US17/199,347 patent/US11482244B2/en active Active
-
2022
- 2022-10-09 US US18/045,168 patent/US11776563B2/en active Active
-
2023
- 2023-08-16 JP JP2023132585A patent/JP2023162265A/ja active Pending
Non-Patent Citations (3)
Title |
---|
Amin Fazel et al., 'CAD-AEC: Context-Aware Deep Acoustic Echo Cancellation', ICASSP 2020, 09 April 2020. |
Ke Hu et al., 'Deliberation Model Based Two-Pass End-To-End Speech Recognition', ICASSP 2020, 09 April 2020. |
Quan Wang et al., 'VoiceFilter: Targeted Voice Separation by Speaker-Conditioned Spectrogram Masking', arXiv:1810.04826v6 [eess.AS], 19 Jun 2019. |
Also Published As
Publication number | Publication date |
---|---|
JP2023162265A (ja) | 2023-11-08 |
CN115699170A (zh) | 2023-02-03 |
JP2023529699A (ja) | 2023-07-11 |
EP4139920B1 (en) | 2024-03-06 |
US11482244B2 (en) | 2022-10-25 |
EP4139920A1 (en) | 2023-03-01 |
US11776563B2 (en) | 2023-10-03 |
WO2021252039A1 (en) | 2021-12-16 |
KR20230020508A (ko) | 2023-02-10 |
US20230114386A1 (en) | 2023-04-13 |
JP7335460B2 (ja) | 2023-08-29 |
US20210390975A1 (en) | 2021-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102740499B1 (ko) | 텍스트 에코 제거 | |
US11355097B2 (en) | Sample-efficient adaptive text-to-speech | |
US20180286386A1 (en) | Deep language and acoustic modeling convergence and cross training | |
US12087279B2 (en) | Regularizing word segmentation | |
US20230298609A1 (en) | Generalized Automatic Speech Recognition for Joint Acoustic Echo Cancellation, Speech Enhancement, and Voice Separation | |
CN117043856A (zh) | 高效流式非递归设备上的端到端模型 | |
JP2022101663A (ja) | ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
WO2021150791A1 (en) | Attention-based joint acoustic and text on-device end-to-end model | |
JP2024538718A (ja) | コンフォーマの推論性能の最適化 | |
EP4218007A1 (en) | Fast emit low-latency streaming asr with sequence-level emission regularization | |
US11335321B2 (en) | Building a text-to-speech system from a small amount of speech data | |
JP2021157145A (ja) | 推論器および推論器の学習方法 | |
US20240233704A9 (en) | Residual adapters for few-shot text-to-speech speaker adaptation | |
US12119014B2 (en) | Joint acoustic echo cancelation, speech enhancement, and voice separation for automatic speech recognition | |
US20250061882A1 (en) | Generating speech data using artificial intelligence techniques | |
US20240029712A1 (en) | Speech recognition using cadence patterns | |
US20230298612A1 (en) | Microphone Array Configuration Invariant, Streaming, Multichannel Neural Enhancement Frontend for Automatic Speech Recognition | |
US20240071368A1 (en) | System and Method for Adapting Natural Language Understanding (NLU) Engines Optimized on Text to Audio Input | |
KR20240068723A (ko) | Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0105 | International application |
Patent event date: 20230103 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PA0201 | Request for examination |
Patent event code: PA02012R01D Patent event date: 20230103 Comment text: Request for Examination of Application |
|
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20240320 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20240920 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20241204 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20241205 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |