[go: up one dir, main page]

KR20190042928A - 소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치 - Google Patents

소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치 Download PDF

Info

Publication number
KR20190042928A
KR20190042928A KR1020170134598A KR20170134598A KR20190042928A KR 20190042928 A KR20190042928 A KR 20190042928A KR 1020170134598 A KR1020170134598 A KR 1020170134598A KR 20170134598 A KR20170134598 A KR 20170134598A KR 20190042928 A KR20190042928 A KR 20190042928A
Authority
KR
South Korea
Prior art keywords
signal
unit
output
signal processing
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
KR1020170134598A
Other languages
English (en)
Inventor
김수환
조준수
Original Assignee
서울대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 서울대학교산학협력단 filed Critical 서울대학교산학협력단
Priority to KR1020170134598A priority Critical patent/KR20190042928A/ko
Priority to PCT/KR2018/012142 priority patent/WO2019078567A1/ko
Publication of KR20190042928A publication Critical patent/KR20190042928A/ko
Ceased legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R19/00Electrostatic transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/003Mems transducers or their use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 기술에 의한 반도체 장치는 입력 신호를 디지털 신호로 변환하는 아날로그 디지털 변환기; 디지털 신호를 외부에서 입력된 동작 파라미터의 영향을 받아 처리하는 신호 처리부; 및 아날로그 디지털 변환기의 출력 또는 신호 처리부의 출력을 외부에 제공하는 인터페이스를 포함한다.

Description

소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치{SEMICONDUCTOR DEVICE PROCESSING SOUND SIGNAL AND MICROPHONE INCLUDING THE SAME}
본 발명은 소리 신호를 처리하는 반도체 장치와 이를 포함하는 마이크 장치에 관한 것이다.
도 1은 종래의 마이크 장치의 일예를 도시한다.
종래의 마이크 장치는 기판(30), 기판 위에 부착된 트랜스듀서(10)와 반도체 장치(20) 및 케이스(40)를 포함한다.
트랜스듀서(10)와 반도체 장치(20), 반도체 장치(20)와 기판(30)은 도선(21, 22)을 통해 전기적으로 연결된다.
트랜스듀서(10)는 막 또는 판(11)을 구비하며 내부 공간(12)이 형성된다.
종래의 마이크 장치는 케이스(40)에 통로(41)가 형성된다.
종래의 마이크 장치는 케이스(40)에 형성된 통로(41)에서 유입된 공기가 트랜스듀서(10)의 막 또는 판(11)에 진동을 일으키고 막 또는 판의 움직임을 전기 신호로 변환한다.
전기 신호는 반도체 장치(20)에서 처리되어 외부로 출력된다.
최근 소리 신호를 인식하는 기술과 같은 다양한 신호 처리 기술이 사용되고 있다.
예를 들어 종래의 마이크 장치는 반도체 장치(20)에서 처리된 아날로그 또는 디지털 신호만을 외부로 출력하므로 인식 기능을 수행하기 위해서는 외부의 시스템이 필요하다.
이에 따라 종래에는 신호 처리 기능을 수행하기 위한 전체 시스템의 크기, 소비 전력, 비용 등이 증가하는 문제가 있다.
본 발명은 소리 신호를 처리하는 반도체 장치와 이를 포함하는 마이크 장치를 제공한다.
본 발명의 일 실시예에 의한 반도체 장치는 입력 신호를 디지털 신호로 변환하는 아날로그 디지털 변환기; 디지털 신호를 외부에서 입력된 동작 파라미터의 영향을 받아 처리하는 신호 처리부; 및 아날로그 디지털 변환기의 출력 또는 신호 처리부의 출력을 외부에 제공하는 인터페이스를 포함한다.
본 발명의 일 실시예에 의한 마이크 장치는 공기의 흐름에 대응하는 소리 신호를 생성하는 트랜스듀서; 소리 신호를 디지털 신호로 변환하되 디지털 신호를 외부에서 입력된 동작 파라미터의 영향을 받아 처리하는 반도체 장치; 트랜스듀서와 반도체 장치가 장착되는 기판; 및 기판에 장착되어 트랜스듀서와 반도체 장치가 그 내부에 포함되도록 공간을 형성하는 케이스를 포함한다.
본 발명은 마이크 장치에서 자체적으로 인식 기능 등과 같이 외부에서 요구하는 신호 처리 기능을 수행하고 그 결과를 외부에 함께 제공함으로써 전체 시스템의 구성을 간소화하고 면적, 소비 전력, 비용 등의 부담을 줄일 수 있다.
본 발명은 신호 처리에 필요한 동작 파라미터를 외부에서 미리 학습하여 준비하고 필요에 따라 변경하여 사용할 수 있어 반도체 장치 및 마이크의 기능을 손쉽게 변경할 수 있다.
도 1은 종래의 마이크 장치의 단면도.
도 2는 본 발명의 일 실시예에 의한 반도체 장치를 나타내는 블록도.
도 3은 본 발명의 다른 실시예에 의한 반도체 장치를 나타내는 블록도.
도 4는 도 2의 신호 처리부의 상세 블록도.
도 5는 도 3의 특징 추출부의 상세 블록도.
도 6은 도 4의 인식부를 구현하는 신경망의 설명도.
도 7 내지 9는 도 2의 신호 처리부의 다른 실시예를 나타내는 상세 블록도.
이하에서는 첨부한 도면을 참조하여 본 발명의 실시예를 개시한다.
도 2는 본 발명의 일 실시예에 의한 반도체 장치를 나타내는 블록도이다.
본 발명의 일 실시예에 의한 반도체 장치(100)는 트랜스듀서(10)에서 출력된 신호에 따라 디지털 데이터를 출력한다.
본 실시예에서 트랜스듀서(10)는 멤스 기술로 제조된 것일 수 있으며 소리 신호를 아날로그 전기 신호로 변환하여 출력한다.
트랜스듀서(10)와 반도체 장치(100)는 도 1과 같은 형태의 마이크 장치에 포함될 수 있다.
다만 마이크 장치가 도 1과 같은 구조를 가지는 것으로 한정되는 것은 아니고, 트랜스듀서(10)와 트랜스듀서(10)의 신호를 처리하여 출력하는 반도체 장치(100)를 포함하는 것이라면 충분하다.
본 발명의 일 실시예에 의한 반도체 장치(100)는 아날로그 디지털 변환기(110)를 포함한다.
본 실시예에서 아날로그 디지털 변환기(110)는 시그마 델타 변조기(111)와 데시메이터(112)를 포함하나 이에 한정되는 것은 아니다.
반도체 장치(100)는 입력 신호를 증폭하여 시그마 델타 변조기(110)에 제공하는 증폭기(120)를 더 포함할 수 있다.
다른 실시예에서 증폭기(120)는 반도체 장치(100)의 외부에 별도의 구성으로 존재할 수도 있다.
본 발명의 일 실시예에 의한 반도체 장치(100)는 아날로그 디지털 변환기(110)의 출력을 디지털 신호 처리하는 신호 처리부(200)를 포함한다.
본 발명에서 신호 처리부(200)는 동작 파라미터를 이용하여 입력 신호에 대해서 신호 처리를 수행한다.
신호 처리의 종류는 실시예에 따라 달라질 수 있다.
예를 들어 소리 인식 기능, 음향의 종류를 구별하는 기능, 잡음 신호를 줄이고 음성 신호를 강화하는 기능 등과 같이 다양한 기능을 수행할 수 있다.
동작 파라미터는 신호 처리부(200)의 자체적인 학습으로 생성되는 것이 아니라 외부에서 입력 받는다.
예를 들어 신호 처리부(200)가 기계학습(Machine Learning)의 한 가지 구현 방법 중 하나인 신경망(Neural Network)을 포함하는 경우 신경망의 시냅스 가중치와 바이어스와 같이 학습을 통해 생성되어야 하는 정보들이 동작 파라미터에 포함될 수 있다.
본 발명에서 신호 처리부(200)는 자체적으로 학습을 진행하지 않고 외부에서 미리 학습을 진행하여 얻은 동작 파라미터를 제공받는다.
이러한 방식을 통해 신호 처리부(200)의 구성을 더욱 간단하게 할 수 있으며 이에 따라 회로의 면적과 소비 전력을 줄일 수 있다.
신호 처리부(200)의 동작이 달라지는 경우 이에 부합하도록 미리 학습된 동작 파라미터를 새로운 입력으로 제공받아 신호 처리부(200)의 동작을 간편하게 변경할 수 있는 장점이 있다.
다른 실시예에서는 신경망 이외에도 GMM(Gaussian Mixture Model), SVM(Support Vector Machine) 등의 기계 학습 기술을 이용하는 신호 처리부를 구현할 수 있다.
본 발명의 일 실시예에 의한 반도체 장치(100)는 아날로그 디지털 변환기(110)의 출력 또는 신호 처리부(200)의 출력을 외부에 출력하는 인터페이스(130)를 더 포함할 수 있다.
인터페이스(130)는 신호 처리부(200)의 출력과 아날로그 디지털 변환기(110)의 출력을 함께 외부에 출력할 수도 있다.
이때 인터페이스(130)는 아날로그 디지털 변환기(110)와 신호 처리부(200)에서 출력되는 신호를 다양한 방식으로 혼합하여 출력할 수 있다.
규정된 프로토콜에 따라 신호를 혼합하는 것은 통상의 기술자가 용이하게 설계 변경이 가능한 것이므로 이에 대한 구체적인 설명은 생략한다.
도 3은 본 발명의 다른 실시예에 의한 반도체 장치(100-1)를 나타내는 블록도이다.
도 3의 실시예는 도 2의 실시예와는 달리 동작 파라미터가 인터페이스(130-1)를 통해 신호 처리부(200-1)에 입력되는 점에서 차이가 있다.
반도체 장치(100) 외부에서 동작 파라미터를 제어하고자 하는 경우에는 도 3과 같이 인터페이스를 통해 정해진 프로토콜에 의해 동작 파라미터를 변경할 수 있는 구조를 채택하는 것이 바람직할 수 있다.
도 4는 도 2의 신호 처리부(200)의 일 예를 나타내는 블록도이다.
도 4에서 신호 처리부(200)는 소리 인식 기능을 수행한다.
신호 처리부(200)는 아날로그 디지털 변환기(110)에서 출력된 신호에서 특징 벡터를 추출하는 특징 추출부(210), 특징 벡터를 입력 벡터로 수신하고 인식 결과가 반영된 출력 벡터를 생성하는 인식부(220), 출력 벡터를 이용하여 최종 출력 신호를 생성하는 디코더(230)를 포함한다.
본 실시예에서 인식부(220)는 외부에서 미리 학습하여 준비한 동작 파라미터를 입력받는다.
인식부(220)는 신경망 등의 기계 학습 기술을 이용하여 구현될 수 있다.
도 5는 본 발명의 일 실시예에 의한 특징 추출부(210)를 나타내는 블록도이다.
도 5의 블록도는 하드웨어, 소프트웨어 또는 이들의 조합을 이용하여 구현될 수 있으며 어느 한 가지로 제한되는 것은 아니다.
인식부가 신경망을 이용하여 음성 인식을 수행하는 경우 디지털 신호로부터 특징 벡터를 추출한 후 이를 신경망에 입력하게 된다.
이때 특징 추출부(210)는 아날로그 디지털 변환기(110)에서 제공되는 디지털 신호로부터 특징 벡터를 추출한다.
도 5는 소리 인식 분야에서 널리 사용되는 MFCC(Mel Frequency Cepstral Coefficient) 알고리즘을 구현한 블록이다.
해밍 윈도우(211)는 입력되는 디지털 신호를 일정한 크기의 프레임으로 잘라낸다.
이때 각 프레임이 하나의 샘플을 구성하는데 이러한 샘플을 일정한 개수를 확보하여 다음 동작을 진행한다.
FFT 연산부(212)는 각 프레임에 대해서 FFT 연산을 수행하여 각 프레임에 대해서 전력 스펙트럼을 얻는다.
멜 필터 뱅크(213)는 전력 스펙트럼을 멜 필터 뱅크의 각 필터에 적용한 후 각 필터의 출력을 포함하는 필터 뱅크 에너지를 산출한다.
로그 연산부(214)는 멜 필터 뱅크(213)의 출력에 로그 연산을 수행한다.
DCT 연산부(215)는 로그 연산부(214)의 출력에 DCT 연산을 수행한다.
이후 DCT 연산부(215)의 출력을 이용하여 특징 벡터를 생성한다.
특징 벡터는 DCT 연산 결과 얻어지는 계수들 중 일부를 이용하여 생성할 수 있다.
도 5의 특징 추출부는 일 실시예에 불과하며 통상의 기술자는 다양한 기술을 적용하여 설계 변경할 수 있다.
도 6은 신경망을 이용하여 구현한 인식부(220)를 나타내는 설명도이다.
신경망은 입력 계층(221), 은닉 계층(222), 출력 계층(223)을 포함한다.
은닉 계층(222)은 입력 계층(221)과 출력 계층(223) 사이에 존재하며 그 내부에 다수의 계층을 포함할 수 있다.
본 실시예에서는 제 1 은닉 계층(222-1), 제 2 은닉 계층(222-2) 두 개의 계층이 존재하는 것으로 가정한다.
각 계층은 하나 또는 둘 이상의 뉴런을 포함하고, 인접한 계층의 뉴런들은 시냅스를 통해 연결되며, 각 시냅스는 가중치 값을 가진다.
입력 계층(221)의 뉴런 개수는 입력 벡터의 원소 개수와 매칭이 되며 각 뉴런에는 대응하는 값이 입력된다.
본 실시예에서 입력 벡터는 특징 추출부(210)에서 출력되는 특징 벡터와 동일하다.
제 1 은닉 계층(222-1)의 각 뉴런의 값들은 입력 계층(221)의 뉴런 값들과 이와 연결되는 시냅스의 가중치의 값(Wij, i,j는 인덱스)을 이용하여 곱셈 및 덧셈 연산을 수행함으로써 정해진다.
이때 각 뉴런들은 바이어스(Bij, i,j는 인덱스) 값을 가질 수 있다. 바이어스 값은 위의 곱셈 및 덧셈을 통해 정해진 값에 곱해져 뉴런의 최종 값을 결정할 수 있다.
이러한 연산이 순차적으로 진행되어 출력 계층(223)의 뉴런 값들이 정해지고 각 뉴런 값들을 원소로 하는 출력 벡터가 출력된다.
출력 벡터에서 특정 원소의 값은 크고 나머지는 작은 값을 가질 수 있다.
디코더(230)는 이러한 크기 차이를 식별하여 신경망의 인식 결과를 디지털 신호로 출력할 수 있다.
시냅스의 가중치 값들이나 뉴런의 바이어스 값들은 학습을 통해 결정되는 값으로서 이들이 동작 파라미터에 포함될 수 있다.
본 발명에서는 외부에서 미리 수행된 학습을 통해 얻은 동작 파라미터 즉 시냅스의 가중치와 뉴런의 바이어스 값들을 제공받으므로 학습을 위해 필요한 하드웨어/소프트웨어의 복잡한 구성을 제거할 수 있다.
또한 다양하게 학습된 동작 파라미터 셋을 미리 준비해두고 상황에 맞는 동작 파라미터를 외부에서 제공받음으로써 인식 기능을 간편하게 수정할 수 있다.
이와 같이 본 발명에서는 시스템의 구성을 간단하게 하여 면적과 소비 전력을 동시에 기능의 확장성을 도모할 수 있는 장점이 있다.
도 7은 도 2의 신호 처리부의 다른 실시예를 나타내는 상세 블록도이다.
도 7의 실시예는 도 4의 실시예에 종료점 탐지부(240)와 활성화 제어부(250)를 더 포함한다.
종료점 탐지부(240)는 특징 추출부(210)에서 제공되는 특징 벡터들을 관찰하여 종료점을 탐지한다.
활성화 제어부(250)는 종료점 탐지부(240)의 종료점 탐지 결과에 따라 인식부(220) 및 디코더(230)의 활성화 여부를 제어한다.
활성화 제어부(250)의 동작에 파라미터를 요구하는 실시예의 경우 해당 파라미터는 동작 파라미터의 일부로 포함되어 외부에서 제공될 수 있다.
일 예로 활성화 제어부(250)는 신경망을 통해 구현될 수도 있다. 이때 해당 신경망에 사용되는 가중치와 바이어스는 동작 파라미터의 일부로 포함되어 외부에서 제공될 수 있다.
예를 들어 종료점 탐지부(240)에서 종료점이 탐지되면 인식부(220)와 디코더(230)를 활성화하여 종료점 이전에 출력된 특징 벡터를 이용하여 인식 기능을 수행할 수 있다.
인식 기능을 수행한 결과 얻어진 신호를 인터페이스(130)에 출력한 후 인식부(220)와 디코더(230)를 비활성화하여 소비 전력을 줄일 수 있다.
도 8은 도 2의 신호 처리부의 다른 예를 나타내는 상세 블록도이다.
도 8의 신호 처리부(200-3)는 소리 신호를 일정한 기준으로 분류한다.
특징 추출부(210)는 전술한 바와 실질적으로 동일한 구성을 가질 수 있다.
분류부(220-3)는 외부에서 미리 학습되어 입력된 동작 파라미터의 영향을 받아 동작한다.
본 실시예에서 분류부(220-3)는 특징 추출부에서 출력된 특징 벡터로부터 음향 신호의 종류를 나타내는 분류 신호를 출력한다.
본 실시예에서 분류부(220-3)는 인식부로 지칭될 수 있으며 신경망을 이용하여 구현될 수 있다.
후처리부(230-3)는 분류부(220-3)에서 출력된 분류 신호를 후처리하여 분류 결과를 출력한다. 본 실시예에서 후처리부(220-3)는 디코더로 지칭될 수 있다.
도 8의 신호 처리부(200-3)는 마이크 장치 주변에서 발생하는 소리 이벤트를 동작 파라미터의 영향을 받아 분류부(220-3)에서 분류하고 그 결과를 외부에 출력할 수 있다.
도 9는 소리 신호 중 음성 신호를 강화하는 신호 처리부(200-4)의 일 예를 나타낸다.
본 실시예에서 음성 강화는 잡음 신호와 음성 신호가 함께 입력되는 경우 잡음 신호의 세기를 줄이고 음성 신호의 세기를 키우는 동작을 의미한다.
본 실시예에서 특징 추출부(210)의 구성 및 동작은 전술한 바와 같다.
마스킹부(220-4)는 특징 벡터로부터 음성 신호를 마스킹하여 추출한다.
마스킹부(220-4)는 NMF(Non-negative Matrix Factorization) 기술을 이용하여 구현될 수 있다.
NMF 알고리즘 자체는 잘 알려진 기술이므로 구체적인 설명을 생략한다.
NMF 알고리즘을 적용하는 경우 학습에 의해 얻어지는 파라미터를 필요로 하는데 본 발명에서는 외부에서 미리 학습된 동작 파라미터를 이용한다.
마스킹부(220-4)는 음성 신호와 잡음 신호로 구별되는 특징 벡터를 출력한다.
재구성부(230-4)는 음성 신호와 잡음 신호에 대한 특징 벡터를 조합하되 음성 신호의 세기가 더 커지도록 한다.
이에 따라 신호 처리부(200-4)에서 출력되는 신호는 음성 신호가 강화된 신호에 해당한다.
이상에서 본 발명의 실시예를 개시하였으나 이상의 개시에 의하여 본 발명의 권리범위가 한정되는 것은 아니다.
본 발명의 권리범위는 특허청구범위에 문언적으로 기재된 범위와 그 균등범위에 따라 해석되어야 한다.
10: 트랜스듀서
100: 반도체 장치
110: 아날로그 디지털 변환기
111: 시그마 델타 변조기
112: 데시메이터
120: 증폭기
130: 인터페이스
200: 신호 처리부
210: 특징 추출부
220: 인식부
230: 디코더
240: 종료점 탐지부
250: 활성화 제어부

Claims (19)

  1. 입력 신호를 디지털 신호로 변환하는 아날로그 디지털 변환기;
    상기 디지털 신호를 외부에서 입력된 동작 파라미터의 영향을 받아 처리하는 신호 처리부; 및
    상기 아날로그 디지털 변환기의 출력 또는 상기 신호 처리부의 출력을 외부에 제공하는 인터페이스
    를 포함하는 반도체 장치.
  2. 청구항 1에 있어서, 상기 입력 신호를 증폭하여 상기 아날로그 디지털 변환기에 제공하는 증폭기를 더 포함하는 반도체 장치.
  3. 청구항 1에 있어서, 상기 인터페이스는 상기 아날로그 디지털 변환기의 출력 및 상기 신호 처리부의 출력을 외부에 제공하는 반도체 장치.
  4. 청구항 1에 있어서, 상기 동작 파라미터는 상기 인터페이스를 경유하여 상기 신호 처리부에 입력되는 반도체 장치.
  5. 청구항 1에 있어서, 상기 신호 처리부는
    상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
    상기 동작 파라미터의 영향을 받아 상기 특징 벡터에 대해서 소리 인식 기능을 수행하여 출력 벡터를 생성하는 인식부; 및
    상기 출력 벡터를 디코딩하여 인식 결과를 출력하는 디코더
    를 포함하는 반도체 장치.
  6. 청구항 1에 있어서, 상기 신호 처리부는
    상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
    상기 동작 파라미터의 영향을 받아 상기 특징 벡터로부터 음향 신호의 종류를 나타내는 분류 신호를 출력하는 분류부; 및
    상기 분류 신호를 후처리하여 분류 결과를 출력하는 후처리부
    를 포함하는 반도체 장치.
  7. 청구항 5에 있어서, 상기 인식부는 각각 다수의 뉴런을 포함하는 다수의 계층을 포함하는 신경망을 포함하고, 상기 동작 파라미터는 상기 다수의 뉴런을 연결하는 다수의 시냅스의 가중치와 상기 다수의 뉴런에 할당되는 바이어스 중 적어도 하나를 포함하되, 상기 인식부는 상기 가중치와 상기 바이어스를 자체적으로 학습하지 않는 반도체 장치.
  8. 청구항 5에 있어서, 상기 특징 벡터로부터 소리 신호의 종료 지점을 탐지하는 종료점 탐지부와 상기 종료점 탐지부의 탐지 결과에 따라 상기 인식부의 활성화를 제어하는 활성화 제어부를 더 포함하는 반도체 장치.
  9. 청구항 1에 있어서, 상기 신호 처리부는
    상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
    상기 동작 파라미터의 영향을 받아 상기 특징 벡터에 대해서 노이즈 신호와 음성 신호를 구별하는 마스킹부; 및
    상기 마스킹부의 출력으로부터 음성 신호가 강화된 신호를 출력하는 재구성부
    를 포함하는 반도체 장치.
  10. 공기의 흐름에 대응하는 소리 신호를 생성하는 트랜스듀서; 및
    상기 소리 신호를 디지털 신호로 변환하되 상기 디지털 신호를 외부에서 입력된 동작 파라미터의 영향을 받아 처리하는 반도체 장치;
    상기 트랜스듀서와 상기 반도체 장치가 장착되는 기판; 및
    상기 기판에 장착되어 상기 트랜스듀서와 상기 반도체 장치가 그 내부에 포함되도록 공간을 형성하는 케이스
    를 포함하는 마이크 장치.
  11. 청구항 10에 있어서, 상기 반도체 장치는
    상기 소리 신호를 상기 디지털 신호로 변환하는 아날로그 디지털 변환기;
    상기 디지털 신호를 외부에서 입력된 상기 동작 파라미터의 영향을 받아 처리하는 신호 처리부; 및
    상기 아날로그 디지털 변환기의 출력 또는 상기 신호 처리부의 출력을 외부에 제공하는 인터페이스
    를 포함하는 마이크 장치.
  12. 청구항 11에 있어서, 상기 입력 신호를 증폭하여 상기 아날로그 디지털 변환기에 제공하는 증폭기를 더 포함하는 마이크 장치.
  13. 청구항 11에 있어서, 상기 인터페이스는 상기 아날로그 디지털 변환기의 출력 및 상기 신호 처리부의 출력을 외부에 제공하는 마이크 장치.
  14. 청구항 11에 있어서, 상기 동작 파라미터는 상기 인터페이스를 경유하여 상기 신호 처리부에 입력되는 마이크 장치.
  15. 청구항 11에 있어서, 상기 신호 처리부는 다수의 뉴런을 포함하는 다수의 계층을 포함하는 신경망을 포함하고, 상기 동작 파라미터는 상기 다수의 뉴런을 연결하는 다수의 시냅스의 가중치 및 상기 다수의 뉴런에 지정되는 바이어스 중 적어도 하나를 포함하되, 상기 신호 처리부는 상기 가중치 및 상기 바이어스를 자체적으로 학습하지 않는 마이크 장치.
  16. 청구항 11에 있어서, 상기 신호 처리부는
    상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
    상기 동작 파라미터의 영향을 받아 상기 특징 벡터에 대해서 소리 인식 기능을 수행하여 출력 벡터를 생성하는 인식부; 및
    상기 출력 벡터를 디코딩하여 인식 결과를 출력하는 디코더
    를 포함하는 마이크 장치.
  17. 청구항 11에 있어서, 상기 신호 처리부는
    상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
    상기 동작 파라미터의 영향을 받아 상기 특징 벡터로부터 음향 신호의 종류를 나타내는 분류 신호를 출력하는 분류부; 및
    상기 분류 신호를 후처리하여 분류 결과를 출력하는 후처리부
    를 포함하는 마이크 장치.
  18. 청구항 16에 있어서, 상기 신호 처리부는 상기 특징 벡터로부터 상기 소리 신호의 종료 지점을 탐지하는 종료점 탐지부와 상기 종료점 탐지부의 탐지 결과에 따라 상기 인식부의 활성화를 제어하는 활성화 제어부를 더 포함하는 마이크 장치.
  19. 청구항 11에 있어서, 상기 신호 처리부는
    상기 디지털 신호에서 특징 벡터를 생성하는 특징 추출부;
    상기 동작 파라미터의 영향을 받아 상기 특징 벡터에 대해서 노이즈 신호와 음성 신호를 구별하는 마스킹부; 및
    상기 마스킹부의 출력으로부터 음성 신호가 강화된 신호를 출력하는 재구성부
    를 포함하는 마이크 장치.
KR1020170134598A 2017-10-17 2017-10-17 소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치 Ceased KR20190042928A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170134598A KR20190042928A (ko) 2017-10-17 2017-10-17 소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치
PCT/KR2018/012142 WO2019078567A1 (ko) 2017-10-17 2018-10-16 소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170134598A KR20190042928A (ko) 2017-10-17 2017-10-17 소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치

Publications (1)

Publication Number Publication Date
KR20190042928A true KR20190042928A (ko) 2019-04-25

Family

ID=66174163

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170134598A Ceased KR20190042928A (ko) 2017-10-17 2017-10-17 소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치

Country Status (2)

Country Link
KR (1) KR20190042928A (ko)
WO (1) WO2019078567A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744748A (zh) * 2021-08-06 2021-12-03 浙江大华技术股份有限公司 一种网络模型的训练方法、回声消除方法及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2528297B2 (ja) 1985-12-17 1996-08-28 ハミルトン・ボナド−ツ・アクチエンゲゼルシヤフト ピペツトとピペツト装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR940007768B1 (ko) * 1992-01-21 1994-08-25 조병관 겉껍데기와 속꺼풀에 싸여진 견과물(堅果物)의 박피방법
JP3410756B2 (ja) * 1993-03-18 2003-05-26 シャープ株式会社 音声認識装置
KR101082837B1 (ko) * 2008-12-22 2011-11-11 한국전자통신연구원 잡음 제거 장치 및 방법
KR101452396B1 (ko) * 2013-04-08 2014-10-27 싸니코전자 주식회사 복수의 음향통과홀을 구비한 멤스 마이크로폰

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2528297B2 (ja) 1985-12-17 1996-08-28 ハミルトン・ボナド−ツ・アクチエンゲゼルシヤフト ピペツトとピペツト装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744748A (zh) * 2021-08-06 2021-12-03 浙江大华技术股份有限公司 一种网络模型的训练方法、回声消除方法及设备

Also Published As

Publication number Publication date
WO2019078567A1 (ko) 2019-04-25

Similar Documents

Publication Publication Date Title
EP3819903B1 (en) Audio data processing method and apparatus, device and storage medium
CN109326302B (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
US10504539B2 (en) Voice activity detection systems and methods
CN111370014B (zh) 多流目标-语音检测和信道融合的系统和方法
US9881616B2 (en) Method and systems having improved speech recognition
Kurzekar et al. A comparative study of feature extraction techniques for speech recognition system
US10460729B1 (en) Binary target acoustic trigger detecton
KR102270954B1 (ko) 심층 신경망 및 순환 신경망의 복층 구조에 기반한 음성 검출 장치 및 방법.
EP1429314A1 (en) Correction of energy as input feature for speech processing
CN105845139A (zh) 一种离线语音控制方法和装置
Chakravarty et al. Spoof detection using sequentially integrated image and audio features
WO2000077772A2 (en) Speech and voice signal preprocessing
KR20210000802A (ko) 인공지능 음성 인식 처리 방법 및 시스템
Kumar et al. Speech-to-text Transfiguration in Language Numerals for Perpetual Deaf Patients
JPH02298998A (ja) 音声認識装置とその方法
CN110728993A (zh) 一种变声识别方法及电子设备
KR20190042928A (ko) 소리 신호를 처리하는 반도체 장치 및 이를 포함하는 마이크 장치
Soni et al. Novel Subband Autoencoder Features for Detection of Spoofed Speech.
KR101361034B1 (ko) 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템
Marimuthu Speech recognition using Taylor-gradient Descent political optimization based Deep residual network
Sailor et al. Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection.
KR20180087038A (ko) 화자 특성을 고려하는 음성합성 기능의 보청기 및 그 보청 방법
KR100587260B1 (ko) 음향 기기의 음성인식장치
JP2002229592A (ja) 音声認識装置
JP4364493B2 (ja) 信号抽出システム、信号抽出方法および信号抽出プログラム

Legal Events

Date Code Title Description
A201 Request for examination
PA0109 Patent application

Patent event code: PA01091R01D

Comment text: Patent Application

Patent event date: 20171017

PA0201 Request for examination
PG1501 Laying open of application
E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20190726

Patent event code: PE09021S01D

E601 Decision to refuse application
PE0601 Decision on rejection of patent

Patent event date: 20200115

Comment text: Decision to Refuse Application

Patent event code: PE06012S01D

Patent event date: 20190726

Comment text: Notification of reason for refusal

Patent event code: PE06011S01I