KR20150104345A - 음성 합성 장치 및 음성 합성 방법 - Google Patents
음성 합성 장치 및 음성 합성 방법 Download PDFInfo
- Publication number
- KR20150104345A KR20150104345A KR1020140025968A KR20140025968A KR20150104345A KR 20150104345 A KR20150104345 A KR 20150104345A KR 1020140025968 A KR1020140025968 A KR 1020140025968A KR 20140025968 A KR20140025968 A KR 20140025968A KR 20150104345 A KR20150104345 A KR 20150104345A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- speech
- user
- period
- skin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
음성 합성 장치를 개시한다. 본 발명의 일 실시 예에 따른 음성 합성 장치는, 사용자의 무성 발화가 있는 경우, 상기 사용자의 피부로부터 근전도 신호를 검출하는 전극 어레이부와, 상기 사용자의 무성 발화 기간을 검출하는 발화 기간 검출부와, 상기 무성 발화 기간 동안의 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출하는 특징 추출부와, 상기 추출된 신호 디스크립터를 이용하여 음성을 합성하는 음성 합성부를 포함한다.
Description
본 발명은 음성 합성 기술에 관한 것으로, 좀더 상세하게는, 사용자의 피부로부터 근전도 신호를 검출하여 검출된 근전도 신호를 이용하여 음성을 합성하는 음성합성 장치 및 음성 합성 방법에 관한 것이다.
특수한 상황에서 비밀 정보의 공개를 막기 위해 조용히 말하거나 속삭여서 얘기할 필요가 있다. 또는 방해하는 환경을 회피할 필요가 있다. 질병 등으로 인해 말할 능력을 상실한 사람에게는 생체 신호에 기초한 커뮤니케이션이 유용할 수 있다.
근전도 검사에서 최근의 연구에 따르면, 발성 근육을 수축함으로써 생성되는 전기적인 활동을 분석하는 등으로, 이러한 문제를 효율적으로 다루는 것이 가능한 것으로 알려져 있다. 그러나, 지금까지 종래의 기술들은 몇몇 한계를 갖는다.
첫째, 종래 기술은 적은 수의 전극을 사용하는데, 이는 사용자의 피부에 직접 일일이 수작업으로 전극을 부착해야 하는 불편함이 있었다.
또한, 종래의 시스템에서 싱글 전극이나 개별 전극의 집합이 사용되었다. 이는 신호 획득에서 많은 문제점을 야기하였다. 무엇보다도 그것은 사용 기간들 사이에서 전극을 재배치하는데 어려움을 가져다 주었고, 전체 프로세스 시간을 늘리는 요인이 되었다.
둘째, 음성 합성에 앞서 수집된 근전도 신호는 스케일 업이 되어야 하고, 근전도 신호가 적절하게 분절되어 텍스트로 분류되어야 한다. 이는 상대적으로 어휘 크기가 커짐으로 인해 계산이 많이 소요된다. 이러한 문제를 해결하기 위해 자동적으로 관련된 신호 특징 선택을 통해 화자 최적화를 수행하고, 직접 들을 수 있는 음성으로 변경하는 시스템이 요구된다.
본 발명은 상술한 문제점을 해결하기 위한 것으로, 본 발명의 목적은, 근전 활동이 감지되는 피부에 넓은 커버 영역을 제공하는 고정된 기 설정된 내부 전극 거리를 갖는 컴팩트한 전극 매트리스를 제공하는 음성 합성 장치를 제공하기 위함이다.
본 발명의 다른 목적은, 발성된 대화 정보 없이 얼굴 근육의 근전성 활동 분석에 기초하여 자동적으로 대화 기간을 검출할 수 있는 음성 합성 장치를 제공하기 위함이다.
본 발명의 또 다른 목적은, 가장 구별되는 정보를 수집하는 멀티 채널 근전도 신호의 특징의 자동 선택 방법을 제공하는 음성 합성 장치를 제공하기 위함이다. 이는 시스템의 구별 파워를 향상시키기 위한 전극특성 신호들 사이에 상관관계를 포함하며, 화자의 얼굴에 있는 전극 배열의 실제 위치와는 무관하다.
입력된 근전도 신호로부터 추출된 선택된 특징들을 직접적으로 합성 가능한 들을 수 있는 언어로 된 파라미터 집합으로 변경하는 스펙트럼 매핑을 제공한다.
상기와 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 음성 합성 장치는, 사용자의 무성 발화가 있는 경우, 상기 사용자의 피부로부터 근전도 신호를 검출하는 전극 어레이부와, 상기 사용자의 무성 발화 기간을 검출하는 발화 기간 검출부와, 상기 무성 발화 기간 동안의 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출하는 특징 추출부와, 상기 추출된 신호 디스크립터를 이용하여 음성을 합성하는 음성 합성부를 포함한다.
또한, 상기 전극 어레이부는, 상호간에 기 설정된 간격을 갖는 복수의 전극으로 이루어진 전극 배열을 포함할 수 있다.
이때, 상기 발화 기간 검출부는, 상기 사용자의 피부로부터 검출되는 근전도 신호의 최대값 및 최소값에 기초하여 상기 사용자의 무성 발화 기간을 검출할 수 있다.
또한, 상기 특징 추출부는, 상기 무성 발화 기간 동안 기 설정된 프레임 단위로 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출할 수 있다.
또한, 음성 합성 장치는, 상기 상기 사용자의 피부로부터 검출된 근전도 신호를 보정하는 캘리브레이션부를 더 포함할 수 있다.
또한, 상기 캘리브레이션부는, 기 저장된 참조 근전도 신호에 기초하여 상기 검출된 근전도 신호를 보정하고, 상기 음성 합성부는, 기 저장된 참조 오디오 신호에 기초하여 상기 음성을 합성할 수 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 음성 합성 방법은, 사용자의 무성 발화가 있는 경우, 상기 사용자의 피부로부터 근전도 신호를 검출하는 단계와, 상기 사용자의 무성 발화 기간을 검출하는 단계와, 상기 무성 발화 기간 동안의 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출하는 단계와, 상기 추출된 신호 디스크립터를 이용하여 음성을 합성하는 단계를 포함한다.
이때, 상기 사용자의 피부로부터 근전도 신호를 검출하는 단계는, 상호간에 기 설정된 간격을 갖는 복수의 전극으로 이루어진 전극 배열을 포함하는 전극 어레이를 이용하여 상기 근전도 신호를 검출할 수 있다.
이때, 상기 사용자의 무성 발화 기간을 검출하는 단계는, 상기 사용자의 피부로부터 검출되는 상기 근전도 신호의 최대값 및 최소값에 기초하여 상기 사용자의 무성 발화 기간을 검출할 수 있다.
또한, 상기 신호 디스크립터를 추출하는 단계는, 상기 무성 발화 기간 동안 기 설정된 프레임 단위로 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출할 수 있다.
또한, 상기 음성 합성 방법은, 상기 사용자의 피부로부터 검출된 근전도 신호를 보정하는 단계를 더 포함할 수 있다.
또한, 상기 근전도 신호를 보정하는 단계는, 기 저장된 참조 근전도 신호에 기초하여 상기 검출된 근전도 신호를 보정하고, 상기 음성을 합성하는 단계는, 기 저장된 참조 오디오 신호에 기초하여 상기 음성을 합성할 수 있다.
이상과 같은 본 발명의 다양한 실시 예에 따르면, 본 발명은, 근전 활동이 감지되는 피부에 넓은 커버 영역을 제공하는 고정된 기 설정된 내부 전극 거리를 갖는 컴팩트한 전극 매트리스를 제공하는 음성 합성 장치를 제공한다.
또한, 본 발명은, 발성된 대화 정보 없이 얼굴 근육의 근전성 활동 분석에 기초하여 자동적으로 대화 기간을 검출할 수 있는 음성 합성 장치를 제공한다.
또한, 본 발명은, 가장 구별되는 정보를 수집하는 멀티 채널 근전도 신호의 특징의 자동 선택 방법을 제공하는 음성 합성 장치를 제공한다.
도 1은 근전도 측정을 위해 전극을 얼굴에 부착한 상태를 도시한 도면,
도 2는 본 발명의 일 실시 예에 따른 음성 합성 장치의 블록도,
도 3은 본 발명의 다른 실시 예에 따른 음성 합성 장치를 도시한 도면,
도 4는 프레임 단위로 신호 특징을 추출하는 실시 예를 도시한 도면,
도 5는 싱글 프레임 벡터를 들을 수 있는 파라미터로 매핑하는 과정을 나타내는 도면,
도 6은 캘리브레이션 프로세스를 도시한 블록도, 그리고,
도 7은 본 발명의 일 실시 예에 따른 음성 합성 방법의 흐름도이다.
도 2는 본 발명의 일 실시 예에 따른 음성 합성 장치의 블록도,
도 3은 본 발명의 다른 실시 예에 따른 음성 합성 장치를 도시한 도면,
도 4는 프레임 단위로 신호 특징을 추출하는 실시 예를 도시한 도면,
도 5는 싱글 프레임 벡터를 들을 수 있는 파라미터로 매핑하는 과정을 나타내는 도면,
도 6은 캘리브레이션 프로세스를 도시한 블록도, 그리고,
도 7은 본 발명의 일 실시 예에 따른 음성 합성 방법의 흐름도이다.
이하에서는 첨부된 도면을 참조하여, 본 발명의 다양한 실시 예를 설명한다.
도 1은 근전도 측정을 위해 전극을 얼굴에 부착한 상태를 도시한 도면이다.
일반적인 생체 신호 분석과 마찬가지로 근전도에 기초하여 발성 없이 음성을 처리하고 인식하는 기술들이 많이 있다.
본 발명은 무발성 방식의 음성 인식 기술에 대한 것으로, 발화를 하는 동안 얼굴 근육 수축의 움직임의 근전도 결과를 인식하여 텍스트를 생성함으로써 음성 인식을 수행한다. 선태적으로 음성의 텍스트 표현은 청각적으로 들을 수 있는 음성을 생성하기 위해 좀더 가공될 수 있다. 현존하는 장치들은 적어도 하나 이상의 전극들을 사용하는데, 모노폴라(monopolar) 방식이나 바이폴라(bipolar) 방식으로 구현가능하며, 이를 통해 EMG 신호를 수집한다.
전형적으로 사용되는 전극은 고정된 상태로 배치되지 않는다. 대신 도 1과 같이피부에 개별적으로 배치되어 사용된다. 그러므로, 그들 사이의 거리는 발화가 이루어지는 사이에 바뀔 수 있다. 노이즈를 최소화하기 위해 특수한 젤과 필링 크림을 사용한다. 일부 음성 인식 시스템에서는 오디오와 이미지/비디오와 같은 부가적인 양식이 음성 기간 검출과 시스템의 정확성을 향상시키는 시각적인 정보를 제공하는데 사용된다.
구별되는 생체 신호 분석을 위한 다양한 알고리즘이 백그라운드 작업으로 제안될 수 있다. 이들은 가우시안 믹스처(mixture) 모델링이나 뉴트럴 네트워크(neutral network)와 같은 방법들을 포함한다. 대부분은 종종 시간 도메인이나 스펙트럼 특징들이 입력 신호의 각 전극 특징 채널의 로컬 영역으로부터 독립적으로 추출된다. 디스크립터의 일부 폼(form)은 모델 트레이닝 모듈에 대한 입력으로 세워진다. 학습된 모델은 새로운 생체 신호의 특징 표현을 가장 유사한 텍스트 표현에 매핑할 수 있는 것이다.
하나 이상의 단어로 구성된 최종 발화를 위한 음성 기간(speech period) 검출은 에너지에 기초한 신호 표현이다. 음성에서 시간 의존성에 대한 가정은 - 단어 멈춤들 사이와 관련됨- 최초에 존슨과 라벨에 의해 제안되었다. 이러한 방법론은 들을 수 있는 음성 신호에 대한 디자인이다. 그러나, 자연에서 생체 신호가 유사한 점은 음성 프로세스의 생체 신호 표현에도 적용할 수 있다. 이러한 접근과 수정 버전은 음성 끝점 검출(speech endpoints detection)에 일반적으로 사용되고 있다.
존재하는 생체 신호에 기초한 음성 처리 방법의 중요한 제한은 그들이 생체 신호-to-텍스트 모듈(생체 신호를 텍스트로 변환)과 텍스트-to-음성 모듈(텍스트를 음성으로 변환)을 갖도록 구현된다는 점이다. 이러한 접근은 스케일을 크게 할 수 없다. 왜냐하면 지속적인 음성 처리를 하면서 어휘 크기와 함께 싱글 워드의 인식 시간이 필수적으로 증가하여 현실적인 연속적인 언어 처리 수용한도를 넘어서기 때문이다.
기간(session)/사용자 적응(adaptation)의 문제에 대해서 가장 확정적인 솔루션은 없지만, 종래에는 예비적인 접근 방법이 있다. 종래의 전극 셋업에서 전극들 간 거리는 다양하다. 따라서, 여러 사용자들 사이에 인식 셋업의 특징과 성능을 재현(reproduce)하는 것은 매우 어렵고 복잡한 기술이 필요하다. 또한, 종래의 시스템은 각 사용에 앞서 기간 적응이 필요하며, 이는 사용자에게 스트레스를 유발하고 불편함을 준다. 최종적으로 종래의 기술은 시간이 소요되는 전극을 얼굴에 붙이는 과정에 의존하고 이러한 과정은 사용성을 심각하게 떨어뜨리고 전체적으로 사용자의 경험을 나쁘게 만든다.
현존하는 접근방식의 일반적인 단점은 신체의 다른 지점에서 동시에 수집된 신호들 간의 상관관계를 얻을 수 없다는 것이다. 물론, 공간적으로 가까이에 위치한 경우, 기능적으로 관련이 있거나 근육 조직이 겹치는 등의 얻어진 신호들 사이에는 강한 상관관계가 있음은 부인하기 어렵지만, 그러한 상관관계는 근전도에 기초한 음성 인식에서 어느 정도까지 밖에 다루어질 수 없다. 이는 음성 인식/합성 정확도의 측면에서는 발전을 위한 간격을 두고 있다.
종래의 접근 방법은 음향 음성 신호가 EMG 신호와 함께 평행으로 레코딩된다. 예를 들어, 신호들은 동기화된다. 그러면, 오디오 신호가 전형적으로 검출에 사용되고 EMG신호의 세그먼트화가 이루어져 발화기간이 식별된다. 이 과정은 분류/회귀분석(regression)을 위한 모델이 추출된 관심 기간에 기초하여 성립될 때 트레이닝 과정에서 필요하다. 들을 수 있는 음성이 요구되므로, 이러한 접근은 후두절제술을 받은 사람과 같은 음성 장애가 있는 사람들에게는 적용될 수 없다.
도 2는 본 발명의 일 실시 예에 따른 음성 합성 장치의 블록도이다.
도 2를 참조하면, 본 발명의 일 실시 예에 따른 음성 합성 장치(100-1)는 전극 어레이부(110), 발화 기간 검출부(120), 특징 추출부(130), 음성 합성부(140)를 포함한다.
전극 어레이부(110)는 사용자의 무성 발화가 있는 경우, 상기 사용자의 피부로부터 근전도 신호를 검출하는 구성이다. 구체적으로 하나 이상의 전극으로 구성된 전극 배열(array)을 사용하여 사용자의 피부로부터 근전도 신호를 수집한다. 전극들은 규칙적으로 배열되어 배열을 형성하고 고정된다. 예를 들어, 그들 상호간의 거리는 일정하거나 거의 일정할 수 있다. 여기서 배열은 2차원 배열을 의미하지만, 1차원 배열이 될 수도 있다.
발화 기간 검출부(120)는 상기 사용자의 무성 발화 기간을 검출하는 구성이다. 발화 기간 검출부(120)는 사람이 조용하거나 들을 수 있는 음성을 발화하는 기간을 검출하기 위해 수집된 근전도 신호의 다채널 분석을 수행한다.
특징 추출부(130)는 상기 무성 발화 기간 동안의 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출하는 구성이다. 특징 추출부(130)는 발화 기간에 분류된 근전도 신호의 조각들로부터 가장 유용한 특징을 계산한다. 상기 특징은 하나 이상의 특징을 포함하고, 각 특징은 입력 신호의 독립된 채널을 나타내거나 채널들의 임의적인 조합을 나타낸다.
음성 합성부(140)는 상기 추출된 신호 디스크립터를 이용하여 음성을 합성한다.
도 3은 확장된 실시 예를 도시한다. 즉, 도 3은 본 발명의 다른 실시 예에 따른 음성 합성 장치를 도시한다.
도 3을 참조하면, 본 발명의 다른 실시 예에 따른 음성 합성 장치(100-2)는 전술한, 전극 어레이부(110), 발화 기간 검출부(120), 특징 추출부(130), 음성 합성부(140) 외에 변환부(150)와 캘리브레이션부(160)를 더 포함한다.
변환부(150)은 특징 집합으로 나타낼 수 있는 근전도 신호를 들을 수 있는 음성을 특징화하는 특별한 파라미터 세트로 매핑하는 것을 담당한다. 매핑은 미리 준비된 통계 모델에 기초하여 수행된다.
음성 합성부(140)는 얻어진 스팩트럼을 갖는 파라미터를 시스템의 밖으로 전송하거나 출력될 수 있는 들을 수 있는 출력으로 변환한다.
캘리브레이션부(160)는 다음의 두 가지를 자동으로 선택하는데 사용한다. 바로 전극 배열(array)로부터 전극들과, 사용자의 피부 상의 배열의 현재 위치에 주어진 근전도 신호의 가장 유용한 부분을 얻는 신호의 전극 특성 요소를 나타내는 수단이 그것이다. 캘리브레이션부(160)은 또한, 변환부(150)에 의해 시스템 런 타임에서 요구되는 통계 모델 파라미터의 자동 결정을 담당한다.
시스템 동작은 온라인과 오프라인 두 가지 모드로 이루어진다. 온라인 동작은 모든 처리 단계가 도 3의 블록도의 신호 흐름과 같이 수행된다. 이러한 모드는 표준(standard), 연속(continuous), 넌 오더블(non-audible) EMG 시그널의 오더블(audible) 음성으로의 실시간(real time) 변환을 위해 디자인되었다. 오프라인 동작 모드는 캘리브레이션부(160)를 사용하여 즉시 레코딩 된 들을 수 있는 발화 집합에 기초해서 통계적인 모델 트레이닝을 위해 의도된 것이다. 실시간으로 사일런트 투 오더블(silent to audible) 음성을 매핑하는 시스템을 위해 변환부(150)에서 사용되는 통계 모듈은 미리 캘리브레이션의 결과로서 이용할 수 있어야 한다.
또한, 상기 신호를 나타내는 모든 가능한 디스크립터 중에서 충분하게 작은 하위 집합은 현재 기간(session)을 위해 결정되는 것으로 가정된다. 기간(session)은 사용자의 피부의 고정된 위치에 전극 배열(array)이 부착된 상태로 유지되는 기간을 의미한다.
사용자가 발화하는 동안 발성 근육의 수축이 작은 이온 전류(ionic current)를 발생시키고, 전극 배열(array)에 위치한 표면 전극들에 의해 감지되어 전류(electrical current)로 변환된다. 그라운드 전극은 증폭기의 차동 입력(differential input)에 공통 참고 전류(common reference)를 제공한다. 후자는 두 개의 검출부로부터 신호를 빼서 두 입력 터미널 사이에 차이 전압을 증폭한다. 결과의 아날로그 신호는 디지털 표현으로 변환된다. 전극, 증폭기, 그리고, A/D 컨버터는 원칙적으로 종래의 솔루션들에서 사용되는 방법들과 유사한 신호 획득 모듈로 구성된다. 출력 멀티-채널 디지털 신호(output multi-channel digital signal)는 발화 기간 검출부(120)(Speech Activity Detection Module)로 전달된다.
발화 기간 검출부(120) 내에서 입력 신호는 사용자가 대화를 할만한 기간의 한계를 정하기 위해 분석된다. 분석은 다음의 세 가지 변수에 기초한다.
첫째, 신호의 에너지이다. 상기 에너지는 복수의 개별 채널들로부터의 최대, 평균, 또는, 독립적으로 계산되어 합산된 통계값과 같은 것이 될 수 있다. 또한, 상기 에너지는 다른 유사한 자연의 통계로 대체될 수 있다.
둘째, 상기 변수의 기울기(적어도 하나의 신호 프레임을 갖는 로컬 시간 간격에 대한)이다. 이는 각 개별 채널들에 대해 계산될 수 있다.
셋째, 상기 변수 값에 대한 시간은 문턱값 보다 높거나 낮은 값으로 유지될 수 있다.
관심 통계의 문턱값 이전에, 그것은 신호를 매끄럽게 만드는 로우 패스 필터링의 대상이 되고, 진동과 노이즈에 대한 발화 기간 검출부(120)의 민감성을 감소시킨다. 문턱값의 개념은 사용자가 발화를 시작했을 것으로 추정하기 위해 입력 신호의 에너지가 충분히 높게 되는 시점을 검출하는 것이다. 유사하게, 통상적인 발화를 위해 상기 에너지가 매우 낮은 시점(이전에 높았다가)을 검출한다. 최저점과 최고점으로부터 문턱값과 함께 상기 신호의 연속된 교차점에 의해 제한된 기간은 언어 활동의 한계를 정한다. 문턱 기간(duration thresholding)은 신호에서 우연한 짧은 피크 지점을 필터링하는 것으로 소개된다. 그 외의 경우는 음성 기간으로 검출될 수 있다. 상기 문턱값들은 특정한 애플리케이션 시나리오에 미세하게 조정되어야 한다.
도 4는 프레임 단위로 신호 특징을 추출하는 실시 예를 도시한 도면이다.
새로운 음성 기간(likely speech period)의 시작이 입력 신호에서 검출되면, 특징 추출부(130)는 신호 디스크립터를 계산한다. 이것은 도 4에 도시된 것처럼 프레임 베이스로 진행된다. 즉, 상기 신호는 상수 길이(constant-lengh)와 부분적으로 중복되는 시간 윈도우(프레임)으로 나뉘어 진다. 이 지점에서 다양한 디스크립터가 추출될 수 있는데, 이는 평균, 분산이나 제로 크로싱율, 스펙트럽형 특징, 멜 캡스트랄(Mel-cepstral) 계수, 선형 예측 코딩 계수 등과 같은 에너지 단순한 시간-도메인 통계를 포함한다. 최근의 연구들은 서로 다른 발성 근육들로부터 레코딩되는 sEMG 신호들이 상호 연관됨을 시사하고 있다. 이러한 연관관계들은 기능적으로 근육간 의존성을 특징지으며, 예측 목적을 위해 중요할 수 있다. 따라서, 입력 신호의 개별적인 채널들을 설명하는 특징들을 제외하고, 그러한 결합하는 여러 채널들이 계산될 수 있다. (예를 들어, 상이한 시간 지연에 대한 내부 채널 상관관계). 상기 서술된 특징들의 적어도 하나의 벡터가 도 4와 같이 프레임당 출력된다.
도 5는 싱글 프레임 벡터를 들을 수 있는 파라미터로 매핑하는 과정을 나타내는 도면이다.
전술한 변환부(150)는 싱글 프레임 특징 백터(single frame feature vector)를 들을 수 있는 음성을 특징화하는 특별한 파라미터 세트(spectral parameter vector)로 매핑할 수 있다. 파라미터 세트는 음성 합성에 이용된다.
한편, 추출된 특징의 벡터는 차원수 감소의 대상이 된다. 예를 들어, 요구되는 경우, 주요한 요소 분석을 통해 이루어진다. 만일 그러한 경우, 적절한 변환 메트릭스가 이 지점에서 이용 가능한 것으로 추정된다. 저차원 백터는 상이한 주파수 밴드에서 신호 레벨을 특징 짓는 들을 수 있는 언어의 하나 이상의 스펙트럼 파라미터 벡터에 그것을 매핑시키는 통계적으로 학습된 예측 함수에 대해 입력으로 사용된다. 상기 함수는 연속적인 입력과 출력 공간을 갖는다. 최종적으로 들을 수 있는 언어를 생성하기 위해 파라미터 보코더(vocoder)가 사용된다. 결과 웨이브 폼은 증폭되며, 요청이 있는 출력 장치로 향한다.
도 6은 캘리브레이션 프로세스를 도시한 블록도이다.
캘리브레이션부(160)은 시스템의 필수적인 구성으로, 사용자는 자신의 목소리나 다른 사람의 목소리와 자신의 신체로부터 나오는 생체 신호(biosignal)로부터 합성하는 것을 시스템에 가르칠 수 있다.
무성 언어 처리에 대한 과거의 접근법에서 인식 구성(recognition component)은 언제나 많은 양의 트레이닝 데이터로부터 시간이 소요되는 처리를 통해 통계적인 모델 학습의 분류에 기초하는 것이었다. 게다가, 사용자와 기간 의존성의 문제점은 통계적으로 해결하기 어려운 것이었다. 한가지 예외는 착용 가능한 근전도인데, 이는 자체 캘리브레이션 기능을 갖고 있다. 상기 전략은 원래의 개념의 확장이다. 제안된 시스템은 사용자에 의해 제공되는 트레이닝 데이터에 기초해서 들을 수 있는 언어의 스펙트럼 파라미터에 생체 신호 특징들을 매핑시키는 함수를 학습하는 시도를 한다(이른 바 언어 변환 모델이다.) 자동, 온라인 기하학 이동 보상(on-line geometrical displacement compensation)과 신호 특징 선택 알고리즘(signal feature selection algorithm)은 캘리브레이션 과정에 포함되어 전류 전극 배열(array) 위치 결정과 재조정 필요성을 없애기 위해 합성된 언어의 가장 높은 명료성이 달성된다(이른 바, 기하학 이동 보상 모델). 캘리브레이션 모델이 어떻게 동작하는지에 대한 개요는 도 6에 나와있다.
캘리브레이션 프로세스는 언어 변환 모델(Speech Transformation Model) 트레이닝을 위해 사용될 수 있는 참조 EMG 신호 특징의 데이터 베이스를 요청한다. 그러한 데이터베이스를 수집하기 위해, 사용자는 가장 편안한 시간에 백그라운드 잡음이 없는 최적의 환경 조건과, 전극 배열(array)이 피부에 정확히 위치하고, 사용자가 충분히 긴장을 푼 상태에서 일어나는 단 한번의 레코딩에 질문을 받는다. 그것은 모든 특징적인 발성 근육 활성화 패턴을 커버할 수 있는 기 설정된 언어들의 반복을 복수 회 언급하는 것을 포함한다. 참조 순서에서 언어의 순서는 고정되어야 하고, 상기 순서는 전체적으로 근학자(mycologist)나 기계 학습 백그라운드 엔지니어와 같은 언어 치료사의 전문적인 조언에 기초해서 설계되어야 한다.
EMG 레코딩과 함께 합성되는 오디오 신호 또한 시스템의 온라인 동작 모드에서 들을 수 있는 언어의 합성을 가능하도록 하는 모델을 설립하는데 필수적이다. 그것은 참조 근전도 신호와 함께 동시에 레코딩될 수 있거나, 만일 사용자들이 언어를 사용하지 못하는 경우, 다른 사람들로부터 얻는 것일 수 있다. 후자의 경우 그 사람의 목소리/운율(prosody)의 특정한 속성이 시스템의 출력에서 생성된 합성된 언어에서 반영될 것이다. EMG와 대응되는 오디오 샘플들은 간단한 경우 매치가 되는데, 참조 시퀀스에서 언어들의 순서가 고정되어 있기 때문이다. 그것은 n+1 채널 신호를 합성하는데, 여기서 n은 어레이에서 전극의 수를 나타낸다. 신호는 프레임화되어(enframe) 특징 추출부(130)(Feature Extraction Module)을 위해 상술한 것처럼 오버 컴플릿 특징 집합(an over-complete set of features)이 그것으로부터 추출된다. 여기서 오버 컴플릿(over-complete)라는 용어는 중요한 식별력 있는 차이점을 갖을 수 있는 특정한 특징들에 대한 기대를 제외하고 집합이 다양한 신호 특징을 포함하는 것을 의미한다.
실질적인 캘리브레이션은 사용자에게 짧은 시퀀스의 기 설정된 언어를 즉시 발음하게 함으로써 진행한다. 언어의 순서가 고정되어 있으므로, 상기 시퀀스는 데이터 베이스에 저장되어 있는 가장 유사한 참조 신호들에 매치될 수 있고, 이들에 맞추어 조정될 수 있다. 결국, 특징 추출에 대해서 레코딩된 신호와 침조 신호 특징 벡터들은 복수의 회귀분석 작업에 대한 입력(독립적인 변수들)과 타겟들(종속적인 변수들)로 처리될 수 있다. 회귀분석의 목적은 실질적인 무성 언어 특징들과 참조 무성 언어의 특징들 사이에 최적의 매핑을 찾기 위함이다. 이러한 매핑, 이른바, 이동 보충 모델(Displacement Compensation Model)은 각각이 들을 수 있는 언어 파라미터들로 변환되기 이전에, 온라인 시스템 사용 중에 얻어지는 근전도의 특징 벡터들에 적용된다. 상기 모델이 설정되면, 예측 에러가 평가되어야 한다. 실제 신호와 참조 신호가 동일한 사용자에 의해 발음되어야 하므로, 그들은 원칙적으로 고도로 유사해야 한다. 주요한 차이점은 기간 의존성의 잘 알려진 문제인 피부 표면 상에서 전극 배열(array)의 상대적인 이동과 회전으로부터 초래된다. 대부분 전술한 변화의 기하학적인 성질은 선형이나 2차원 함수와 같은 상대적으로 단순한 함수의 클래스로 모델링이 가능하다. 그러나, 특정한 회귀분석의 구현을 선택하는 것은 자율적으로 이루어진다.
생성된 즉시 입력 데이터의 제한된 총량과 함께 회귀분석(regression)이 매우 빠르므로, 자동 특징 선택이 부가적으로 캘리브레이션 과정에 통합된다. 이는 유지하는 특징 벡터 차수(dimension)를 무시하면서 특징들의 가능한 부분집합의 수를 조사하는 것으로 수행된다. 각 부분집합에 대해서 이동 보상 모델의 정확성이 재평가 된다.높은 정확성을 생산하는 특징 집합이 저장된다. 상기 개별 채널 레벨 대신에 개별 특징 레벨에서 동작한다. 결국, 상기 알고리즘은 복수의 채널이 분석의 대상이 되지만, 각각은 신호 특성들의 상이한 부분집합에 의해 표현되는 설정으로 수렴될 수 있다.
결국, 미리 레코딩된 사용자에 의존하는 트레이닝 신호 데이터 베이스와 즉시 학습된 이동 보상 모델을 가지면서 언어 대화 모델(Speech Conversion Model)이 설정된다. 그것은 자동 특징 선택 과정 동안 관련성이 발견되는 신호 특징들에 의해 걸쳐지는 특징 공간에 대해서 이루어진다. 무성에서 들을수 있는 언어 변환 함수를 학습하기 위한 특정한 통계적인 프레임 워크를 선택하는 것은 임의적일 수 있다. 예를 들어, 음성 변환 기술에 기초한 가우시안 믹스 모델(Gaussian Mixture Model)이 사용될 수 있다. 유사하게, 잘 알려진 알고리즘이 상기 언급된 특징 선택에 사용될 수 있다. 예를 들어, 그리디 시퀀셜 플로팅 검색(greedy sequential floating search)(전방 또는 후방(forward or backward))이나 아다부스트(AdaBoost) 기법 등이다.
전체 캘리브레이션 과정은 사용자가 상기 시스템을 사용할 의욕을 높일 수 있도록 k 초 이상 소요되지 않도록 의도된다.(들을 수 있는 파라미터 k). 캘리브레이션은 전극 배열(array)이 피부에 다시 부착되거나 의식적으로/우연히 대체될 때마다 반복되어야 한다. 대안적으로, 그것은 요청될 때마다 반복될 수 있다. 예를 들어, 합성된 들을 수 있는 언어의 품질이 심각하게 나빠지는 경우 피드백이 이루어질 수 있다. 제안된 솔루션은 자연스러운 방법으로 기간과 사용자 의존성의 문제점을 해결한다.
제안된 시스템의 일 실시 예는 휴대용 음악 플레이어와 같은 표준 오디오 입력 장치들에 대한 출력을 플러그인하는 구성을 포함할 수 있다. 가능한 애플리케이션은 EMG 구동의 제어 장치와 애플리케이션으로 한정되지 않으며, 공중에 민감한 정보를 드러내는 상황이나 환경을 방해하는 모든 상황에서 유용할 수 있는 셀폰(cell phone)을 포함할 수 있다. 실제 애플리케이션과 무관하게 시스템은 건강한 사람과 언어 장애(구음 장애(dysarthria)나 후두절제술(laryngectomy))가 있는 사람들 모두에 의해 사용될 수 있다.
도 7은 본 발명의 일 실시 예에 따른 음성 합성 방법의 흐름도이다.
도 7을 참조하면, 본 발명의 일 실시 예에 따른 음성 합성 방법은, 사용자의 무성 발화가 있는 경우(S710-Y), 상기 사용자의 피부로부터 근전도 신호를 검출하는 단계(S720)와, 상기 사용자의 무성 발화 기간을 검출하는 단계(S730)와, 상기 무성 발화 기간 동안의 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출하는 단계(S740)와, 상기 추출된 신호 디스크립터를 이용하여 음성을 합성하는 단계(S750)를 포함한다.
이때, 상기 사용자의 피부로부터 근전도 신호를 검출하는 단계는, 상호간에 기 설정된 간격을 갖는 복수의 전극으로 이루어진 전극 배열을 포함하는 전극 어레이를 이용하여 상기 근전도 신호를 검출할 수 있다.
이때, 상기 사용자의 무성 발화 기간을 검출하는 단계는, 상기 사용자의 피부로부터 검출되는 상기 근전도 신호의 최대값 및 최소값에 기초하여 상기 사용자의 무성 발화 기간을 검출할 수 있다.
또한, 상기 신호 디스크립터를 추출하는 단계는, 상기 무성 발화 기간 동안 기 설정된 프레임 단위로 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출할 수 있다.
또한, 상기 음성 합성 방법은, 상기 사용자의 피부로부터 검출된 근전도 신호를 보정하는 단계를 더 포함할 수 있다.
또한, 상기 근전도 신호를 보정하는 단계는, 기 저장된 참조 근전도 신호에 기초하여 상기 검출된 근전도 신호를 보정하고, 상기 음성을 합성하는 단계는, 기 저장된 참조 오디오 신호에 기초하여 상기 음성을 합성할 수 있다.
상기와 같은 본 발명의 다양한 실시 예에 따르면, 본 발명은 다음과 같은 특징을 갖는다.
피부에 대한 EMG 센서의 부착을 더 쉽고 빠르게 한다. 그 이유는 사용자가 착용할 수 있는 전극 배열(array)를 채택하였거나, 전체적으로 피부에 일시적으로 붙이는 형태이기 때문이다. 그와 반대로 대부분의 다른 시스템들은 마스크와 같이 사용자에게 불편한 별도의 악세서리에 의존하거나 피부에 개별 전극의 신중한 부착이 필요하다. 이는 종종 완전히 하는데 시간이 걸리고 스킬이 필요하다.
즉시 제공되는 무성 언어 시퀀스에 기초하여 실행되는 캘리브레이션 알고리즘에고더해서 고정된 전극 사이 거리를 갖는 전극 메트릭스의 이용은 사용자와 기간 의존성의 문제를 해결한다. 이는 전술한 알고리즘이 충분히 효율적으로 동작할 수 있는 것을 가능하게 한다.
어떠한 선지식도 피부 위에 전극 위치에서 가정되지 않고, 신호 특징들은 가장 구별되는 정보를 전달한다. 오버 컴플리트(over-complete) 특징 집합은 모든 EMG 채널들로부터 생성된다. 그러므로, 캘리브레이션 과정에서, 가장 유용한 특징들은(간접적으로 채널들) 자동적으로 찾아진다. 게다가, 상기 신호 표현은 채널들간의 의존성을 얻는 특징 또한 포함한다.
전체 처리 경로를 통해서 언어의 오디오 표현은 전혀 필요가 없거나(온라인 동작 모드와 오프라인 동작 모드 모두에서) 미리 레코딩 될 수 있다. 이는 여러 언어 장애를 갖고 있는 사람들에게 적합한 발명이 될 수 있다.
제안된 전극 배열(array)은 안면 모양이나 셀폰과 같은 다양한 휴대용 장치와 결합을 용이하게 하기 위해 제한된 표면 상에 쉽게 맞추기 위해 유연한 표면에 고정될 수 있다.
제안된 솔루션의 목적은 사용자의 발성 근육의 전기적 활동만으로 들을 수 있는 목소리 재구조화의 문제점을 다루는 것으로, 입력 언어는 임의로 무성이 될 수 있다. 종래의 작업과 달리, 디지털화된 입력 생체 신호로부터 들을 수 있는 언어의 연속적인 파라미터들을 직접 추정하기 때문에 전형적인 언어 인식 시스템과 다르다. 문장으로서 언어 분절(fragment)을 검출하고 분류하는 일반적인 단계는 따라서, 완전히 생략된다. 본 발명의 아이디어는 세가지 점에서 최신의 솔루션이다.
신호 획득을 위해 적어도 두 개의 전극을 갖는 전극 배열(array)이 사용된다. 상기 어레이는 발화 기간 동안 피부에 일시적으로 부착된다. 그것은 버스, 케이블, 또는 무선을 통해 사일런트 마이크 시스템에 연결된다. 전극들은 모노폴라(monopolar) 또는 바이폴라(bipolar)로 설정될 수 있다. 배열이 탄력성 있는 표면에 위치하는 경우 전극 사이 거리가 고정되거나 아주 작은 변화가 생길 수 있다. 어레이 자신은 평평하며 컴팩트한 사이즈(10x10cm 를 넘지 않는다.), 이는 많은 포터블 장치와 결합을 용이하게 한다. 예를 들어 스마트 폰 백 커버에 설치할 수 있다.
반면, 종래의 시스템에서 싱글 전극이나 개별 전극의 집합이 사용되었다. 이는 신호 획득에서 많은 문제점을 야기하였다. 무엇보다도 그것은 사용 기간들 사이에서 전극을 재배치하는데 어려움을 가져다 주었고, 전체 프로세스 시간을 늘리는 요인이 되었다. 분리된 전극들은 또한, 장치에 임베딩하는데도 부적절하다. 게다가, 전극의 전도성이 적절한 신호 등록을 보정할 수 있을 정도로 향상되어야 한다면, 하나의 전극 배열(array)로 하는 편이 훨씬 수월하다.
신호 표시에 대해서, 두 가지 새로운 공헌이 이루어졌다. 하나는 어떠한 특정한 표현이 조용한 언어부터 들을 수 있는 언어까지 정확한 매핑에 특별히 유용하다고 가정하지 않는다. 따라서, 많은 특징들 풀(pool)이 생성되고, 캘리브레이션 과정에서 가장 유용한 특징의 자동 선택이 이루어진다. EMG 신호의 복수의 채널들 사이의 상관관계를 기술하는 통계는 다른 특징들과 함께 전술한 특징들 풀에 포함될 수 있다.
이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변환실시가 가능한 것은 물론이고, 이러한 변환실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안될 것이다.
100 : 음성 합성 장치
110 : 전극 어레이부 120 : 발화 기간 검출부
130 : 특징 추출부 140 : 음성 합성부
150 : 변환부 160 : 캘리브레이션부
110 : 전극 어레이부 120 : 발화 기간 검출부
130 : 특징 추출부 140 : 음성 합성부
150 : 변환부 160 : 캘리브레이션부
Claims (12)
- 음성 합성 장치에 있어서,
사용자의 무성 발화가 있는 경우, 상기 사용자의 피부로부터 근전도 신호를 검출하는 전극 어레이부;
상기 사용자의 무성 발화 기간을 검출하는 발화 기간 검출부;
상기 무성 발화 기간 동안의 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출하는 특징 추출부;
상기 추출된 신호 디스크립터를 이용하여 음성을 합성하는 음성 합성부;를 포함하는 음성 합성 장치. - 제1항에 있어서,
상기 전극 어레이부는,
상호간에 기 설정된 간격을 갖는 복수의 전극으로 이루어진 전극 배열을 포함하는 것을 특징으로 하는 음성 합성 장치. - 제1항에 있어서,
상기 발화 기간 검출부는,
상기 사용자의 피부로부터 검출되는 근전도 신호의 최대값 및 최소값에 기초하여 상기 사용자의 무성 발화 기간을 검출하는 것을 특징으로 하는 음성 합성 장치. - 제1항에 있어서,
상기 특징 추출부는,
상기 무성 발화 기간 동안 기 설정된 프레임 단위로 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출하는 것을 특징으로 하는 음성 합성 장치. - 제1항에 있어서,
상기 사용자의 피부로부터 검출된 근전도 신호를 보정하는 캘리브레이션부;를 더 포함하는 것을 특징으로 하는 음성 합성 장치. - 제5항에 있어서,
상기 캘리브레이션부는,
기 저장된 참조 근전도 신호에 기초하여 상기 검출된 근전도 신호를 보정하고,
상기 음성 합성부는,
기 저장된 참조 오디오 신호에 기초하여 상기 음성을 합성하는 것을 특징으로 하는 음성 합성 장치. - 음성 합성 방법에 있어서,
사용자의 무성 발화가 있는 경우, 상기 사용자의 피부로부터 근전도 신호를 검출하는 단계;
상기 사용자의 무성 발화 기간을 검출하는 단계;
상기 무성 발화 기간 동안의 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출하는 단계; 및
상기 추출된 신호 디스크립터를 이용하여 음성을 합성하는 단계;를 포함하는 음성 합성 방법. - 제7항에 있어서,
상기 사용자의 피부로부터 근전도 신호를 검출하는 단계는,
상호간에 기 설정된 간격을 갖는 복수의 전극으로 이루어진 전극 배열을 포함하는 전극 어레이를 이용하여 상기 근전도 신호를 검출하는 것을 특징으로 하는 음성 합성 방법. - 제7항에 있어서,
상기 사용자의 무성 발화 기간을 검출하는 단계는,
상기 사용자의 피부로부터 검출되는 상기 근전도 신호의 최대값 및 최소값에 기초하여 상기 사용자의 무성 발화 기간을 검출하는 것을 특징으로 하는 음성 합성 방법. - 제7항에 있어서,
상기 신호 디스크립터를 추출하는 단계는,
상기 무성 발화 기간 동안 기 설정된 프레임 단위로 상기 근전도 신호의 특징을 나타내는 신호 디스크립터를 추출하는 것을 특징으로 하는 음성 합성 방법. - 제7항에 있어서,
상기 사용자의 피부로부터 검출된 근전도 신호를 보정하는 단계;를 더 포함하는 것을 특징으로 하는 음성 합성 방법. - 제11항에 있어서,
상기 근전도 신호를 보정하는 단계는,
기 저장된 참조 근전도 신호에 기초하여 상기 검출된 근전도 신호를 보정하고,
상기 음성을 합성하는 단계는,
기 저장된 참조 오디오 신호에 기초하여 상기 음성을 합성하는 것을 특징으로 하는 음성 합성 방법.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140025968A KR20150104345A (ko) | 2014-03-05 | 2014-03-05 | 음성 합성 장치 및 음성 합성 방법 |
CN201480078437.5A CN106233379A (zh) | 2014-03-05 | 2014-12-18 | 声音合成设备和用于合成声音的方法 |
US15/122,869 US20170084266A1 (en) | 2014-03-05 | 2014-12-18 | Voice synthesis apparatus and method for synthesizing voice |
PCT/KR2014/012506 WO2015133713A1 (en) | 2014-03-05 | 2014-12-18 | Voice synthesis apparaatus and method for synthesizing voice |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140025968A KR20150104345A (ko) | 2014-03-05 | 2014-03-05 | 음성 합성 장치 및 음성 합성 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20150104345A true KR20150104345A (ko) | 2015-09-15 |
Family
ID=54055480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020140025968A Withdrawn KR20150104345A (ko) | 2014-03-05 | 2014-03-05 | 음성 합성 장치 및 음성 합성 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20170084266A1 (ko) |
KR (1) | KR20150104345A (ko) |
CN (1) | CN106233379A (ko) |
WO (1) | WO2015133713A1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12105876B2 (en) | 2023-01-04 | 2024-10-01 | Wispr AI, Inc. | System and method for using gestures and expressions for controlling speech applications |
US12346500B1 (en) | 2023-04-17 | 2025-07-01 | Snap Inc. | EMG speech signal detection |
US12374317B2 (en) | 2023-07-25 | 2025-07-29 | Wispr AI, Inc. | System and method for using gestures and expressions for controlling speech applications |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3618061B1 (en) * | 2018-08-30 | 2022-04-27 | Tata Consultancy Services Limited | Method and system for improving recognition of disordered speech |
CN109460144A (zh) * | 2018-09-18 | 2019-03-12 | 逻腾(杭州)科技有限公司 | 一种基于发声神经电位的脑机接口控制系统及方法 |
CN109745045A (zh) * | 2019-01-31 | 2019-05-14 | 苏州大学 | 一种肌电电极贴片及无声语音识别设备 |
CN110059575A (zh) * | 2019-03-25 | 2019-07-26 | 中国科学院深圳先进技术研究院 | 一种基于表面肌电唇语识别的辅助沟通系统 |
WO2020243299A1 (en) * | 2019-05-29 | 2020-12-03 | Cornell University | Devices, systems, and methods for personal speech recognition and replacement |
KR20210008788A (ko) | 2019-07-15 | 2021-01-25 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
WO2021010562A1 (en) | 2019-07-15 | 2021-01-21 | Samsung Electronics Co., Ltd. | Electronic apparatus and controlling method thereof |
CN111091830A (zh) * | 2020-01-14 | 2020-05-01 | 浙江清华柔性电子技术研究院 | 语言识别系统 |
CN111329477A (zh) * | 2020-04-07 | 2020-06-26 | 苏州大学 | 一种辅助无声发音贴片和设备 |
US12216749B2 (en) | 2021-08-04 | 2025-02-04 | Q (Cue) Ltd. | Using facial skin micromovements to identify a user |
US11908478B2 (en) | 2021-08-04 | 2024-02-20 | Q (Cue) Ltd. | Determining speech from facial skin movements using a housing supported by ear or associated with an earphone |
CN114530165A (zh) * | 2021-12-28 | 2022-05-24 | 浙江大学 | 一种基于发声神经电位信号的无声语音重建方法 |
CN114822541B (zh) * | 2022-04-25 | 2024-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
AU2023311501A1 (en) | 2022-07-20 | 2025-02-06 | Q (Cue) Ltd. | Detecting and utilizing facial micromovements |
JP2025064347A (ja) * | 2023-10-06 | 2025-04-17 | キヤノン株式会社 | 情報処理システムおよび情報処理方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1083769B1 (en) * | 1999-02-16 | 2010-06-09 | Yugen Kaisha GM & M | Speech converting device and method |
JP3908965B2 (ja) * | 2002-02-28 | 2007-04-25 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識装置及び音声認識方法 |
JP2003255993A (ja) * | 2002-03-04 | 2003-09-10 | Ntt Docomo Inc | 音声認識システム、音声認識方法、音声認識プログラム、音声合成システム、音声合成方法、音声合成プログラム |
ITTO20020933A1 (it) * | 2002-10-25 | 2004-04-26 | Fiat Ricerche | Sistema di connessione vocale tra uomo e animali. |
JP4110247B2 (ja) * | 2003-05-12 | 2008-07-02 | 独立行政法人産業技術総合研究所 | 生体信号を利用した人工発声装置 |
JP4713111B2 (ja) * | 2003-09-19 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法 |
KR100725540B1 (ko) * | 2005-10-28 | 2007-06-08 | 한국전자통신연구원 | 이물기를 이용한 이동기기 제어 장치 및 방법 |
CA2741086C (en) * | 2008-10-21 | 2016-11-22 | Med-El Elektromedizinische Geraete Gmbh | System and method for facial nerve stimulation |
RU2011129606A (ru) * | 2008-12-16 | 2013-01-27 | Конинклейке Филипс Электроникс Н.В. | Обработка речевого сигнала |
CN102999154B (zh) * | 2011-09-09 | 2015-07-08 | 中国科学院声学研究所 | 一种基于肌电信号的辅助发声方法及装置 |
EP2887351A1 (en) * | 2013-12-18 | 2015-06-24 | Karlsruher Institut für Technologie | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech |
-
2014
- 2014-03-05 KR KR1020140025968A patent/KR20150104345A/ko not_active Withdrawn
- 2014-12-18 CN CN201480078437.5A patent/CN106233379A/zh active Pending
- 2014-12-18 WO PCT/KR2014/012506 patent/WO2015133713A1/en active Application Filing
- 2014-12-18 US US15/122,869 patent/US20170084266A1/en not_active Abandoned
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US12105876B2 (en) | 2023-01-04 | 2024-10-01 | Wispr AI, Inc. | System and method for using gestures and expressions for controlling speech applications |
US12346500B1 (en) | 2023-04-17 | 2025-07-01 | Snap Inc. | EMG speech signal detection |
US12374317B2 (en) | 2023-07-25 | 2025-07-29 | Wispr AI, Inc. | System and method for using gestures and expressions for controlling speech applications |
Also Published As
Publication number | Publication date |
---|---|
CN106233379A (zh) | 2016-12-14 |
US20170084266A1 (en) | 2017-03-23 |
WO2015133713A1 (en) | 2015-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20150104345A (ko) | 음성 합성 장치 및 음성 합성 방법 | |
Janke et al. | EMG-to-speech: Direct generation of speech from facial electromyographic signals | |
Gaddy et al. | Digital voicing of silent speech | |
EP2887351A1 (en) | Computer-implemented method, computer system and computer program product for automatic transformation of myoelectric signals into audible speech | |
JP4796309B2 (ja) | モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置 | |
US7680666B2 (en) | Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product | |
TWI403304B (zh) | 隨身語能偵知方法及其裝置 | |
US11915705B2 (en) | Facial movements wake up wearable | |
Daudet et al. | Portable mTBI assessment using temporal and frequency analysis of speech | |
CN117836823A (zh) | 对检测到的无声语音的破译 | |
Gaddy | Voicing silent speech | |
Meltzner et al. | Speech recognition for vocalized and subvocal modes of production using surface EMG signals from the neck and face. | |
JP4381404B2 (ja) | 音声合成システム、音声合成方法、音声合成プログラム | |
Herff et al. | Impact of Different Feedback Mechanisms in EMG-Based Speech Recognition. | |
Schultz | ICCHP keynote: Recognizing silent and weak speech based on electromyography | |
JP4632831B2 (ja) | 音声認識方法および音声認識装置 | |
Dobrucki et al. | Silent speech recognition by surface electromyography | |
Diener et al. | Codebook clustering for unit selection based EMG-to-speech conversion. | |
Jou et al. | Automatic speech recognition based on electromyographic biosignals | |
Nassimi et al. | Silent speech recognition with arabic and english words for vocally disabled persons | |
Feng et al. | EMG-SENet: Multi-Modal Speech Enhancement With Electromyography Signals | |
CN117854334A (zh) | 一种英语发音教学系统 | |
Henery et al. | From Auditory Model to Perceptogram to Vowel Map |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20140305 |
|
PG1501 | Laying open of application | ||
PC1203 | Withdrawal of no request for examination | ||
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |