KR20200074199A - 음성 잡음 제거 방법 및 장치, 서버 및 저장 매체 - Google Patents
음성 잡음 제거 방법 및 장치, 서버 및 저장 매체 Download PDFInfo
- Publication number
- KR20200074199A KR20200074199A KR1020207015043A KR20207015043A KR20200074199A KR 20200074199 A KR20200074199 A KR 20200074199A KR 1020207015043 A KR1020207015043 A KR 1020207015043A KR 20207015043 A KR20207015043 A KR 20207015043A KR 20200074199 A KR20200074199 A KR 20200074199A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- acoustic microphone
- noise
- signal
- signal collected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 110
- 230000000694 effects Effects 0.000 claims abstract description 196
- 238000001514 detection method Methods 0.000 claims abstract description 108
- 238000009826 distribution Methods 0.000 claims description 62
- 238000012549 training Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 6
- 230000005236 sound signal Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 210000000988 bone and bone Anatomy 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000011946 reduction process Methods 0.000 description 5
- 238000001228 spectrum Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000003054 facial bone Anatomy 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1083—Reduction of ambient noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2420/00—Details of connection covered by H04R, not provided for in its groups
- H04R2420/07—Applications of wireless loudspeakers or wireless microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/13—Hearing devices using bone conduction transducers
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Otolaryngology (AREA)
- General Health & Medical Sciences (AREA)
- Circuit For Audible Band Transducer (AREA)
- Machine Translation (AREA)
Abstract
Description
도 1은 본 개시 내용의 일 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 2는 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보의 분포의 개략도,
도 3은 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 4는 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 5는 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 6은 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 7은 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 8은 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 9는 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 10은 본 개시의 다른 실시 예에 따른 스피치 잡음 감소 방법의 흐름도,
도 11은 본 개시의 일 실시 예에 따른 스피치 잡음 감소 장치의 논리적 구조의 개략도; 및
도 12는 서버의 하드웨어 구조의 블록도이다.
Claims (20)
- 스피치 잡음 감소 방법에 있어서,
음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호를 획득하되, 상기 스피치 신호들은 동시에 수집되는 단계;
상기 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 얻는 단계; 및
상기 스피치 활동 검출의 결과에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여 잡음이 제거된 스피치 신호를 획득하는 단계를 포함하는 스피치 잡음 감소 방법. - 제 1 항에 있어서, 상기 스피치 활동 검출 결과를 얻기 위해 상기 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 상기 스피치 활동을 검출하는 단계는,
상기 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보를 결정하는 단계; 및
상기 기본 주파수 정보에 기초하여 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 획득하는 단계를 포함하는 스피치 잡음 감소 방법. - 제 2 항에 있어서, 상기 스피치 활동 검출의 결과를 얻기 위해 기본 주파수 정보에 기초하여 스피치 활동을 검출하는 단계는,
상기 기본 주파수 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서의 스피치 활동을 검출하여, 프레임 레벨의 스피치 활동 검출의 결과를 획득하는 단계를 포함하고; 그리고
상기 잡음 제거된 스피치 신호를 획득하기 위해 스피치 활동 검출의 결과에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하는 단계는,
상기 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 제 1 잡음 감소를 통해 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여, 상기 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호를 획득하는 단계를 포함하는 스피치 잡음 감소 방법. - 제 3 항에 있어서, 상기 기본 주파수 정보에 기초하여 스피치 활동을 검출하여 상기 스피치 활동 검출 결과를 획득하는 단계는,
상기 기본 주파수 정보에 기초하여, 스피치의 고주파 포인트의 분포 정보를 결정하는 단계; 및
상기 주파수 레벨의 스피치 활동 검출 결과를 획득하기 위해, 상기 고주파 포인트의 분포 정보에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임의 주파수 레벨에서 스피치 활동을 검출하는 단계를 더 포함하며, 상기 프레임 레벨의 스피치 활동 검출의 결과는 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에 유성음(voice) 신호가 존재함을 나타내고;
상기 스피치 활동 검출 결과에 기초하여 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여 상기 잡음 제거된 스피치 신호를 획득하는 단계는,
상기 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 제 2 잡음 감소를 통해 상기 음향 마이크로폰에 의해 수집된 상기 제 1 잡음 제거된 스피치 신호의 잡음을 제거하여, 상기 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호를 획득하는 단계를 더 포함하는, 스피치 잡음 감소 방법. - 제 3 항에 있어서, 상기 프레임 레벨의 스피치 활동 검출의 결과를 획득하기 위해, 기본 주파수 정보에 기초하여 상기 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서의 스피치 활동을 검출하는 단계는,
기본 주파수 정보가 없는지를 검출하는 단계;
기본 주파수 정보가 있는 경우, 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 있다고 결정하는 단계로, 여기서 상기 스피치 프레임은 상기 음향 마이크로폰에 의해 수집된 스피치 신호에 있으며;
기본 주파수 정보가 없는 경우, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 신호 강도를 검출하는 단계; 및
상기 음향 마이크로폰에 의해 수집된 스피치 신호의 검출된 신호 강도가 작은 경우, 상기 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 없는 것으로 결정하는 단계를 포함하는, 여기서 상기 스피치 프레임은 상기 음향 마이크로폰에 의해 수집된 스피치 신호에 있는, 스피치 잡음 감소 방법. - 제 4 항에 있어서, 상기 기본 주파수 정보에 기초하여, 상기 스피치의 고주파 포인트의 분포 정보를 결정하는 단계는,
기본 주파수 정보를 곱하여, 곱해진 기본 주파수 정보를 획득하는 단계; 및
미리 설정된(preset) 주파수 확장값(expansion value)에 기초하여 상기 곱해진 기본 주파수 정보를 확장하여, 상기 스피치의 고주파 포인트의 분포 섹션을 획득하는 단계, 여기서 상기 분포 섹션은 상기 스피치의 고주파 포인트의 분포 정보로서 기능함, 를 포함하는 스피치 잡음 감소 방법. - 제 4 항에 있어서, 상기 주파수 레벨의 스피치 활동 검출 결과를 얻기 위해, 상기 고주파 포인트의 분포 정보에 기초하여 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임의 주파수 레벨에서 스피치 활동을 검출하는 단계는,
상기 고주파 포인트의 분포 정보에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에서, 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 유성음 신호가 있고, 고주파 포인트에 속하지 않는 주파수 포인트에 유성음 신호가 없는 것으로 판단하는 단계로, 상기 프레임 레벨의 스피치 활동 검출의 결과는 스피치 프레임에 유성음 신호가 있음을 나타내는, 스피치 잡음 감소 방법. - 제 4 항에 있어서,
상기 비-음향 마이크로폰에 의해 수집된 스피치 신호는 유성음 신호이며; 그리고
스피치 활동 검출의 결과에 기초하여 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여 잡음 제거된 스피치 신호를 획득하는 단계는:
처리될 스피치 프레임으로서, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호로부터, 비-음향 마이크로폰에 의해 수집된 유성음 신호에 포함된 각각의 스피치 프레임의 시간 포인트와 동일한 스피치 프레임을 획득하는 단계; 및
상기 처리될 스피치 프레임의 각각의 주파수 포인트에 대해 이득 처리를 수행하여 이득된(gained) 스피치 프레임을 획득하는 단계를 더 포함하고, 상기 음향 마이크로폰에 의해 수집된 제 3 잡음 제거된 유성음 신호는 모든 이득된 스피치 프레임에 의해 형성되며;
이득 처리의 프로세스는,
상기 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 제 1 이득을 적용하고, 상기 고주파 포인트에 속하지 않은 주파수 포인트의 경우에는 주파수 포인트에 제 2 이득을 적용하는 단계를 포함하는, 여기서 상기 제 1 이득 값이 상기 제 2 이득 값보다 큼, 스피치 잡음 감소 방법. - 제 1 항 내지 제 8 항 중 어느 한 항에 있어서, 상기 잡음 제거된 스피치 신호는 잡음 제거된 유성음 신호이며, 상기 방법은:
무성음(unvoiced) 사운드 예측 모델로부터 출력된 무성음 신호를 획득하기 위해, 무성음 사운드 예측 모델에 상기 잡음 제거된 유성음 신호를 입력하는 단계, 여기서 무성음 사운드 예측 모델은 훈련 스피치 신호에 기초하여 사전 훈련에 의해 획득되고, 훈련 스피치 신호는 각각의 무성음 신호 및 각각의 유성음 신호의 시작 시간 및 종료 시간으로 표시되며; 및
상기 무성음 신호 및 잡음 제거된 유성음 신호를 결합하여, 결합된 스피치 신호를 획득하는 단계를 더 포함하는 스피치 잡음 감소 방법. - 스피치 잡음 감소 장치에 있어서,
음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호를 획득하도록 구성되며, 상기 스피치 신호는 동시에 수집되는, 스피치 신호 획득 모듈;
상기 비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 획득하도록 구성된 스피치 활동 검출 모듈; 및
상기 스피치 활동 검출 결과에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하도록 구성되어, 잡음 제거된 스피치 신호를 획득하는 스피치 잡음 제거 모듈을 포함하는 스피치 잡음 감소 장치. - 제 10 항에 있어서, 상기 스피치 활동 검출 모듈은,
상기 비-음향 마이크로폰에 의해 수집된 스피치 신호의 기본 주파수 정보를 결정하도록 구성된 기본 주파수 정보 결정을 위한 모듈; 및
상기 기본 주파수 정보에 기초하여 스피치 활동을 검출하여 스피치 활동 검출의 결과를 획득하도록 구성된 스피치 활동 검출을 위한 서브 모듈을 포함하는 스피치 잡음 감소 장치. - 제 11 항에 있어서, 상기 스피치 활동 검출을 위한 서브 모듈은,
상기 기본 주파수 정보에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호에서 프레임 레벨에서의 스피치 활동을 검출하여, 프레임 레벨의 스피치 활동 검출의 결과를 획득하도록 구성된 프레임 레벨 스피치 활동 검출을 위한 모듈을 포함하고;
상기 스피치 잡음 제거 모듈은,
상기 프레임 레벨의 스피치 활동 검출 결과에 기초하여, 상기 제 1 잡음 감소를 통해 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여, 상기 음향 마이크로폰에 의해 수집된 제 1 잡음 제거 스피치 신호를 획득하도록 구성된 제 1 잡음 감소 모듈을 포함하는 스피치 잡음 감소 장치. - 제 12 항에 있어서,
상기 기본 주파수 정보에 기초하여, 스피치의 고주파 포인트의 분포 정보를 결정하도록 구성된 고주파 포인트 분포 정보 결정을 위한 모듈; 및
상기 주파수 레벨의 스피치 활동 검출 결과를 획득하기 위해, 상기 고주파 포인트의 분포 정보에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임의 주파수 레벨에서 스피치 활동을 검출하도록 구성된 주파수 레벨 스피치 활동 검출을 위한 모듈을 포함하며, 여기서 상기 프레임 레벨의 스피치 활동 검출 결과는 상기 음향 마이크로폰에 의해 수집된 상기 스피치 신호의 스피치 프레임 내에 유성음(voice) 신호가 존재함을 나타내며;
상기 스피치 잡음 제거 모듈은,
상기 주파수 레벨의 스피치 활동 검출 결과에 기초하여, 상기 제 2 잡음 감소를 통해 상기 음향 마이크로폰에 의해 수집된 상기 제 1 잡음 제거된 스피치 신호의 잡음을 제거하여, 상기 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호를 획득하도록 구성된 제 2 잡음 감소 모듈을 더 포함하는 스피치 잡음 감소 장치. - 제 12 항에 있어서, 상기 프레임 레벨 스피치 활동 검출을 위한 모듈은, 기본 주파수 정보가 없는지의 여부를 검출하도록 구성된, 기본 주파수 정보 검출을 위한 모듈을 포함하며,
기본 주파수 정보가 있는 경우, 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 있다고 결정되며, 여기서 스피치 프레임은 상기 음향 마이크로폰에 의해 수집된 유성음 신호에 있고;
기본 주파수 정보가 없는 경우, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 신호 강도가 검출되고; 그리고
상기 음향 마이크로폰에 의해 수집된 스피치 신호의 검출된 신호 강도가 작은 경우, 상기 기본 주파수 정보에 대응하는 스피치 프레임에 유성음 신호가 없는 것으로 결정되고, 여기서 상기 스피치 프레임은 상기 음향 마이크로폰에 의해 수집된 스피치 신호에 있는, 스피치 잡음 감소 장치. - 제 13 항에 있어서, 상기 고주파 포인트 분포 정보 결정 모듈은,
기본 주파수 정보를 곱하도록 구성되어, 곱해진 기본 주파수 정보를 얻기 위한 곱셈 모듈; 및
미리 설정된 주파수 확장값에 기초하여 상기 곱해진 기본 주파수 정보를 확장하여, 상기 스피치의 고주파 포인트의 분포 섹션을 획득하도록 구성되는, 여기서 상기 분포 섹션은 상기 스피치의 고주파 포인트의 분포 정보로서 기능하는, 기본 주파수 정보 확장 모듈을 포함하는 스피치 잡음 감소 장치. - 제 13 항에 있어서, 상기 주파수 레벨 스피치 활동 검출을 위한 모듈은,
상기 고주파 포인트의 분포 정보에 기초하여, 상기 음향 마이크로폰에 의해 수집된 스피치 신호의 스피치 프레임에서, 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 유성음 신호가 있고, 고주파 포인트에 속하지 않는 주파수 포인트에 유성음 신호가 없는 것으로 판단하도록 구성되며,
여기서 상기 프레임 레벨의 스피치 활동 검출의 결과는 스피치 프레임에 유성음 신호가 존재함을 나타내는, 스피치 잡음 감소 장치. - 제 13 항에 있어서, 상기 비-음향 마이크로폰에 의해 수집된 스피치 신호는 유성음 신호이며;
상기 스피치 잡음 제거 모듈은,
처리될 스피치 프레임으로서, 음향 마이크로폰에 의해 수집된 제 2 잡음 제거된 스피치 신호로부터, 비-음향 마이크로폰에 의해 수집된 유성음 신호에 포함 된 각각의 스피치 프레임의 시간 포인트와 동일한 스피치 프레임을 획득하도록 구성된 스피치 프레임 획득 모듈; 및
상기 처리될 스피치 프레임의 각각의 주파수 포인트에 대해 이득 처리를 수행하여 이득된 스피치 프레임을 획득하도록 구성된 이득 처리 모듈을 더 포함하고, 여기서 상기 음향 마이크로폰에 의해 수집된 제 3 잡음 제거된 유성음 신호는 모든 이득된 스피치 프레임에 의해 형성되며; 그리고
여기서 상기 이득 처리의 프로세스는,
상기 고주파 포인트에 속하는 주파수 포인트의 경우에는 주파수 포인트에 제 1 이득을 적용하고, 상기 고주파 포인트에 속하지 않은 주파수 포인트의 경우에는 주파수 포인트에 제 2 이득을 적용하며, 여기서 상기 제 1 이득 값이 상기 제 2 이득 값보다 큰, 스피치 잡음 감소 장치. - 제 10 항 내지 제 17 항 중 어느 한 항에 있어서, 상기 잡음 제거된 스피치 신호는 잡음 제거된 유성음 신호이며, 상기 장치는:
무성음(unvoiced) 사운드 예측 모델로부터 출력된 무성음 신호를 획득하기 위해, 무성음 사운드 예측 모델에 상기 잡음 제거된 유성음 신호를 입력하도록 구성된, 무성음 신호 예측 모듈, 여기서 무성음 사운드 예측 모델은 훈련 스피치 신호에 기초하여 사전 훈련에 의해 획득되고, 훈련 스피치 신호는 각각의 무성음 신호 및 각각의 유성음 신호의 시작 시간 및 종료 시간으로 표시되며; 및
상기 무성음 신호 및 잡음 제거된 유성음 신호를 결합하여, 결합된 스피치 신호를 획득하도록 구성된 스피치 신호 조합 모듈을 포함하는 스피치 잡음 감소 장치. - 서버에 있어서,
적어도 하나의 메모리 및 적어도 하나의 프로세서를 포함하며,
상기 적어도 하나의 메모리는 프로그램을 저장하고, 상기 적어도 하나의 프로세서는 상기 메모리에 저장된 프로그램을 호출하고,
상기 프로그램은,
음향 마이크로폰에 의해 수집된 스피치 신호 및 비-음향 마이크로폰에 의해 수집된 스피치 신호를 획득하고, 여기서 상기 스피치 신호는 동시에 수집되며;
비-음향 마이크로폰에 의해 수집된 스피치 신호에 기초하여 스피치 활동을 검출하여, 스피치 활동 검출의 결과를 얻고; 그리고
스피치 활동 검출의 결과에 기초하여, 음향 마이크로폰에 의해 수집된 스피치 신호의 잡음을 제거하여 잡음이 제거된 스피치 신호를 획득하도록 구성된, 서버. - 제 1 항 내지 제 9 항 중 어느 한 항에 따른 스피치 잡음 감소 방법을 수행하는 프로세서에 의해 실행되는, 컴퓨터 프로그램을 저장하는 저장 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711458315.0A CN107910011B (zh) | 2017-12-28 | 2017-12-28 | 一种语音降噪方法、装置、服务器及存储介质 |
CN201711458315.0 | 2017-12-28 | ||
PCT/CN2018/091459 WO2019128140A1 (zh) | 2017-12-28 | 2018-06-15 | 一种语音降噪方法、装置、服务器及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200074199A true KR20200074199A (ko) | 2020-06-24 |
KR102456125B1 KR102456125B1 (ko) | 2022-10-17 |
Family
ID=61871821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207015043A Active KR102456125B1 (ko) | 2017-12-28 | 2018-06-15 | 음성 잡음 제거 방법 및 장치, 서버 및 저장 매체 |
Country Status (7)
Country | Link |
---|---|
US (1) | US11064296B2 (ko) |
EP (1) | EP3734599B1 (ko) |
JP (1) | JP7109542B2 (ko) |
KR (1) | KR102456125B1 (ko) |
CN (1) | CN107910011B (ko) |
ES (1) | ES2960555T3 (ko) |
WO (1) | WO2019128140A1 (ko) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107910011B (zh) * | 2017-12-28 | 2021-05-04 | 科大讯飞股份有限公司 | 一种语音降噪方法、装置、服务器及存储介质 |
CN108766454A (zh) * | 2018-06-28 | 2018-11-06 | 浙江飞歌电子科技有限公司 | 一种语音噪声抑制方法及装置 |
CN109346073A (zh) * | 2018-09-30 | 2019-02-15 | 联想(北京)有限公司 | 一种信息处理方法及电子设备 |
CN109584894A (zh) * | 2018-12-20 | 2019-04-05 | 西京学院 | 一种基于雷达语音与麦克风语音相融合的语音增强方法 |
CN110074759B (zh) * | 2019-04-23 | 2023-06-06 | 平安科技(深圳)有限公司 | 语音数据辅助诊断方法、装置、计算机设备及存储介质 |
CN110782912A (zh) * | 2019-10-10 | 2020-02-11 | 安克创新科技股份有限公司 | 音源的控制方法以及扬声设备 |
CN110946554A (zh) * | 2019-11-27 | 2020-04-03 | 深圳和而泰家居在线网络科技有限公司 | 咳嗽类型识别方法、装置及系统 |
CN111341304A (zh) * | 2020-02-28 | 2020-06-26 | 广州国音智能科技有限公司 | 一种基于gan的说话人语音特征训练方法、装置和设备 |
CN111681659A (zh) * | 2020-06-08 | 2020-09-18 | 北京高因科技有限公司 | 一种应用于便携式设备的自动语音识别系统及其工作方法 |
CN111916101B (zh) * | 2020-08-06 | 2022-01-21 | 大象声科(深圳)科技有限公司 | 一种融合骨振动传感器和双麦克风信号的深度学习降噪方法及系统 |
CN114694673A (zh) * | 2020-12-28 | 2022-07-01 | 深圳市韶音科技有限公司 | 音频降噪的方法和系统 |
CN113115190B (zh) * | 2021-03-31 | 2023-01-24 | 歌尔股份有限公司 | 音频信号处理方法、装置、设备及存储介质 |
CN113241089B (zh) * | 2021-04-16 | 2024-02-23 | 维沃移动通信有限公司 | 语音信号增强方法、装置及电子设备 |
CN113470676B (zh) * | 2021-06-30 | 2024-06-25 | 北京小米移动软件有限公司 | 声音处理方法、装置、电子设备和存储介质 |
CN113724694B (zh) * | 2021-11-01 | 2022-03-08 | 深圳市北科瑞声科技股份有限公司 | 语音转换模型训练方法、装置、电子设备及存储介质 |
US20230260537A1 (en) * | 2022-02-16 | 2023-08-17 | Google Llc | Single Vector Digital Voice Accelerometer |
WO2023171124A1 (ja) * | 2022-03-07 | 2023-09-14 | ソニーグループ株式会社 | 情報処理装置、情報処理方法、情報処理プログラム及び情報処理システム |
CN116110422B (zh) * | 2023-04-13 | 2023-07-04 | 南京熊大巨幕智能科技有限公司 | 全向级联麦克风阵列降噪方法及系统 |
CN118865993B (zh) * | 2024-08-29 | 2025-02-14 | 湖南中科优信科技有限公司 | 语音信号降噪方法、系统及设备 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002537585A (ja) * | 1999-02-19 | 2002-11-05 | ザ リージェンツ オブ ザ ユニヴァーシティ オブ カリフォルニア | 音声およびアコースティック信号の有声音化励起を特徴付けて、音声からアコースティック・ノイズを除去し、音声を合成するシステムおよび方法 |
JP2017537344A (ja) * | 2014-11-06 | 2017-12-14 | ヴォーカルズーム システムズ リミテッド | 雑音低減および音声増強方法、デバイス、およびシステム |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03241400A (ja) * | 1990-02-20 | 1991-10-28 | Fujitsu Ltd | 音声検出器 |
JPH03274098A (ja) * | 1990-03-23 | 1991-12-05 | Ricoh Co Ltd | 雑音除去方式 |
JPH07101853B2 (ja) * | 1991-01-30 | 1995-11-01 | 長野日本無線株式会社 | 雑音低減方法 |
US6006175A (en) * | 1996-02-06 | 1999-12-21 | The Regents Of The University Of California | Methods and apparatus for non-acoustic speech characterization and recognition |
US8019091B2 (en) * | 2000-07-19 | 2011-09-13 | Aliphcom, Inc. | Voice activity detector (VAD) -based multiple-microphone acoustic noise suppression |
US7246058B2 (en) * | 2001-05-30 | 2007-07-17 | Aliph, Inc. | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
US20070233479A1 (en) * | 2002-05-30 | 2007-10-04 | Burnett Gregory C | Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors |
JP2005520211A (ja) * | 2002-03-05 | 2005-07-07 | アリフコム | ノイズ抑制システムと共に用いるための発声活動検出(vad)デバイスおよび方法 |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US7499686B2 (en) | 2004-02-24 | 2009-03-03 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement on a mobile device |
US7574008B2 (en) | 2004-09-17 | 2009-08-11 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
US8488803B2 (en) * | 2007-05-25 | 2013-07-16 | Aliphcom | Wind suppression/replacement component for use with electronic systems |
US8503686B2 (en) * | 2007-05-25 | 2013-08-06 | Aliphcom | Vibration sensor and acoustic voice activity detection system (VADS) for use with electronic systems |
EP2151821B1 (en) * | 2008-08-07 | 2011-12-14 | Nuance Communications, Inc. | Noise-reduction processing of speech signals |
US9418675B2 (en) * | 2010-10-04 | 2016-08-16 | LI Creative Technologies, Inc. | Wearable communication system with noise cancellation |
CN202534346U (zh) * | 2010-11-25 | 2012-11-14 | 歌尔声学股份有限公司 | 语音增强装置及头戴式降噪通信耳机 |
US10218327B2 (en) * | 2011-01-10 | 2019-02-26 | Zhinian Jing | Dynamic enhancement of audio (DAE) in headset systems |
US8949118B2 (en) * | 2012-03-19 | 2015-02-03 | Vocalzoom Systems Ltd. | System and method for robust estimation and tracking the fundamental frequency of pseudo periodic signals in the presence of noise |
FR2992459B1 (fr) * | 2012-06-26 | 2014-08-15 | Parrot | Procede de debruitage d'un signal acoustique pour un dispositif audio multi-microphone operant dans un milieu bruite. |
US9094749B2 (en) * | 2012-07-25 | 2015-07-28 | Nokia Technologies Oy | Head-mounted sound capture device |
US20140126743A1 (en) * | 2012-11-05 | 2014-05-08 | Aliphcom, Inc. | Acoustic voice activity detection (avad) for electronic systems |
CN103208291A (zh) * | 2013-03-08 | 2013-07-17 | 华南理工大学 | 一种可用于强噪声环境的语音增强方法及装置 |
CN203165457U (zh) * | 2013-03-08 | 2013-08-28 | 华南理工大学 | 一种可用于强噪声环境的语音采集装置 |
US9532131B2 (en) * | 2014-02-21 | 2016-12-27 | Apple Inc. | System and method of improving voice quality in a wireless headset with untethered earbuds of a mobile device |
CN104091592B (zh) * | 2014-07-02 | 2017-11-14 | 常州工学院 | 一种基于隐高斯随机场的语音转换系统 |
WO2017017569A1 (en) * | 2015-07-26 | 2017-02-02 | Vocalzoom Systems Ltd. | Enhanced automatic speech recognition |
EP3157266B1 (en) | 2015-10-16 | 2019-02-27 | Nxp B.V. | Controller for a haptic feedback element |
WO2017132958A1 (en) | 2016-02-04 | 2017-08-10 | Zeng Xinxiao | Methods, systems, and media for voice communication |
CN106101351A (zh) * | 2016-07-26 | 2016-11-09 | 哈尔滨理工大学 | 一种用于移动终端的多mic降噪方法 |
CN106686494A (zh) * | 2016-12-27 | 2017-05-17 | 广东小天才科技有限公司 | 一种可穿戴设备的语音输入控制方法及可穿戴设备 |
CN106952653B (zh) * | 2017-03-15 | 2021-05-04 | 科大讯飞股份有限公司 | 噪声去除方法、装置和终端设备 |
CN107093429B (zh) * | 2017-05-08 | 2020-07-10 | 科大讯飞股份有限公司 | 主动降噪方法、系统及汽车 |
CN107910011B (zh) * | 2017-12-28 | 2021-05-04 | 科大讯飞股份有限公司 | 一种语音降噪方法、装置、服务器及存储介质 |
-
2017
- 2017-12-28 CN CN201711458315.0A patent/CN107910011B/zh active Active
-
2018
- 2018-06-15 EP EP18894296.5A patent/EP3734599B1/en active Active
- 2018-06-15 WO PCT/CN2018/091459 patent/WO2019128140A1/zh unknown
- 2018-06-15 US US16/769,444 patent/US11064296B2/en active Active
- 2018-06-15 ES ES18894296T patent/ES2960555T3/es active Active
- 2018-06-15 KR KR1020207015043A patent/KR102456125B1/ko active Active
- 2018-06-15 JP JP2020528147A patent/JP7109542B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002537585A (ja) * | 1999-02-19 | 2002-11-05 | ザ リージェンツ オブ ザ ユニヴァーシティ オブ カリフォルニア | 音声およびアコースティック信号の有声音化励起を特徴付けて、音声からアコースティック・ノイズを除去し、音声を合成するシステムおよび方法 |
JP2017537344A (ja) * | 2014-11-06 | 2017-12-14 | ヴォーカルズーム システムズ リミテッド | 雑音低減および音声増強方法、デバイス、およびシステム |
Also Published As
Publication number | Publication date |
---|---|
CN107910011A (zh) | 2018-04-13 |
US20200389728A1 (en) | 2020-12-10 |
WO2019128140A1 (zh) | 2019-07-04 |
ES2960555T3 (es) | 2024-03-05 |
US11064296B2 (en) | 2021-07-13 |
KR102456125B1 (ko) | 2022-10-17 |
EP3734599C0 (en) | 2023-07-26 |
CN107910011B (zh) | 2021-05-04 |
EP3734599B1 (en) | 2023-07-26 |
JP7109542B2 (ja) | 2022-07-29 |
EP3734599A4 (en) | 2021-09-01 |
EP3734599A1 (en) | 2020-11-04 |
JP2021503633A (ja) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102456125B1 (ko) | 음성 잡음 제거 방법 및 장치, 서버 및 저장 매체 | |
KR101340520B1 (ko) | 잡음을 제거하는 장치 및 방법 | |
JP5649488B2 (ja) | 音声判別装置、音声判別方法および音声判別プログラム | |
US20090018826A1 (en) | Methods, Systems and Devices for Speech Transduction | |
JP5018773B2 (ja) | 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム | |
US9478232B2 (en) | Signal processing apparatus, signal processing method and computer program product for separating acoustic signals | |
JP2009522942A (ja) | 発話改善のためにマイク間レベル差を用いるシステム及び方法 | |
CN112019967B (zh) | 一种耳机降噪方法、装置、耳机设备及存储介质 | |
KR20190130533A (ko) | 음성 검출기를 구비한 보청기 및 그 방법 | |
WO2019207912A1 (ja) | 情報処理装置及び情報処理方法 | |
JP2022544065A (ja) | 信号認識または修正のために音声データから抽出した特徴を正規化するための方法および装置 | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
KR20090037845A (ko) | 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치 | |
US20050010406A1 (en) | Speech recognition apparatus, method and computer program product | |
JP2012163692A (ja) | 音声信号処理システム、音声信号処理方法および音声信号処理方法プログラム | |
CN110364175B (zh) | 语音增强方法及系统、通话设备 | |
US20200251120A1 (en) | Method and system for individualized signal processing of an audio signal of a hearing device | |
JP6794887B2 (ja) | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 | |
JP7404657B2 (ja) | 音声認識装置、音声認識プログラム、及び音声認識方法 | |
JP2019020678A (ja) | ノイズ低減装置および音声認識装置 | |
Kechichian et al. | Model-based speech enhancement using a bone-conducted signal | |
JP6638248B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声信号処理装置 | |
KR101096091B1 (ko) | 음성 분리 장치 및 이를 이용한 단일 채널 음성 분리 방법 | |
JP2018132623A (ja) | 音声対話装置 | |
JP7013789B2 (ja) | 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0105 | International application |
Patent event date: 20200526 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20211018 Patent event code: PE09021S01D |
|
AMND | Amendment | ||
E601 | Decision to refuse application | ||
PE0601 | Decision on rejection of patent |
Patent event date: 20220422 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20211018 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |
|
AMND | Amendment | ||
PX0901 | Re-examination |
Patent event code: PX09011S01I Patent event date: 20220422 Comment text: Decision to Refuse Application Patent event code: PX09012R01I Patent event date: 20211214 Comment text: Amendment to Specification, etc. |
|
PX0701 | Decision of registration after re-examination |
Patent event date: 20220812 Comment text: Decision to Grant Registration Patent event code: PX07013S01D Patent event date: 20220722 Comment text: Amendment to Specification, etc. Patent event code: PX07012R01I Patent event date: 20220422 Comment text: Decision to Refuse Application Patent event code: PX07011S01I Patent event date: 20211214 Comment text: Amendment to Specification, etc. Patent event code: PX07012R01I |
|
X701 | Decision to grant (after re-examination) | ||
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20221013 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20221013 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |