KR100533601B1 - 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 - Google Patents
휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 Download PDFInfo
- Publication number
- KR100533601B1 KR100533601B1 KR10-2002-0076813A KR20020076813A KR100533601B1 KR 100533601 B1 KR100533601 B1 KR 100533601B1 KR 20020076813 A KR20020076813 A KR 20020076813A KR 100533601 B1 KR100533601 B1 KR 100533601B1
- Authority
- KR
- South Korea
- Prior art keywords
- pitch
- frame
- speech recognition
- speech
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 238000012850 discrimination method Methods 0.000 claims abstract description 5
- 230000006835 compression Effects 0.000 claims description 6
- 238000007906 compression Methods 0.000 claims description 6
- 230000001413 cellular effect Effects 0.000 claims description 4
- 239000011295 pitch Substances 0.000 description 94
- 238000005516 engineering process Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 101100311330 Schizosaccharomyces pombe (strain 972 / ATCC 24843) uap56 gene Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 101150018444 sub2 gene Proteins 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/40—Circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephone Function (AREA)
Abstract
Description
서브 프레임 번호 | 피치 래그가 차지하는 비트 번호 |
0123 | 221,222,223,224,225,226,227154,155,156,157,183,184,185113,114,115,116,117,118,11943,44,45,46,47,48,49 |
서브 프레임 번호 | 피치 이득이 차지하는 비트 번호 |
0123 | 218,219,220180,181,182110,111,11272,73,42 |
Claims (5)
- 패킷 파라미터 입력단계와, 음높이 파라미터 추출단계와, 음높이 평균값 추출단계와, 성별 구분단계와, 음성인식 수행단계를 포함하여 이루어지는 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법으로서,상기 패킷 파라미터 입력단계에서는, 화자의 발화음을 마이크 등의 입력수단을 통하여 휴대전화의 음성압축 코덱의 패킷 파라미터로 변환하고, 각각의 프레임을 4개의 서브 프레임으로 분할하여 입력하며,상기 음높이 파라미터 추출단계에서는, 상기 패킷 파라미터 입력단계로부터 얻어지는 최적 잡음 여기 신호를, 피치 래그(pitch lag)를 그 길이로 가지는 피치 필터(pitch filter)를 통과시킴으로써 원래 음성신호에 근접하는 피치 래그를 음높이 파라미터로서 추출하며,상기 음높이 평균값 추출단계에서는, 상기 발화음을 구성하는 모든 프레임에 대한 유성음 부분의 피치 래그의 총합을 프레임의 총합으로 나눔으로써 음높이 평균값을 추출하며,상기 성별 구분단계에서는 상기 음높이 평균값을 남녀 성별을 가르는 소정의 임계값과 비교하여, 상기 음높이 평균값이 상기 임계값보다 크면 상기 발화음을 여성 발화음으로 판단하고, 상기 음높이 평균값이 상기 임계값보다 작으면 상기 발화음을 남성 발화음으로 판단하며,상기 음성인식 수행단계에서는, 상기 음높이 평균값에 따라 상기 발화음이 여성 발화음인 경우에는 여성 음성인식 모델에 의한 음성인식을 수행하고, 상기 발화음이 남성 발화음인 경우에는 남성 음성인식 모델에 의한 음성인식을 수행하고,상기 휴대전화의 음성압축 코덱은 CDMA 방식 휴대전화를 위한 IS733 코덱이며,상기 피치 필터는 주파수 영역에서 피치 이득(pitch gain)과 z-변환시 매개변수의 피치 레그 제곱의 역수와의 곱을 1에서 뺌으로써 구하여지는 것을 특징으로 하는 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법.
- 삭제
- 삭제
- 제 1항에 있어서,상기 음높이 평균값 추출단계에서, 각각의 프레임을 구성하는 네 개의 서브 프레임 중 어느 것도 0인 피치 래그 값을 가지지 않는 프레임을 유성음인 프레임으로 판단하고, 각각의 프레임을 구성하는 네 개의 서브 프레임 중 하나 또는 그 이상의 서브 프레임이 0인 피치 래그 값을 가지는 프레임을 무성음인 프레임으로 판단함으로써 상기 프레임의 유성음/무성음 여부 판단을 하는 것을 특징으로 하는 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법.
- 제 1항에 있어서,상기 음높이 평균값 추출단계에서, 각각의 프레임을 구성하는 네 개의 서브 프레임의 피치 이득의 합을 서브 프레임의 개수인 4로 나눔으로써 얻어지는 각각의 프레임에서의 평균 피치 이득이 0.5보다 큰 경우에 상기 프레임을 유성음인 프레임으로 판단하고, 상기 평균 피치 이득이 0.5보다 작은 경우에 상기 프레임을 무성음인 프레임으로 판단함으로써 상기 프레임의 유성음/무성음 여부 판단을 하는 것을 특징으로 하는 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0076813A KR100533601B1 (ko) | 2002-12-05 | 2002-12-05 | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0076813A KR100533601B1 (ko) | 2002-12-05 | 2002-12-05 | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040049410A KR20040049410A (ko) | 2004-06-12 |
KR100533601B1 true KR100533601B1 (ko) | 2005-12-06 |
Family
ID=37343821
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2002-0076813A Expired - Fee Related KR100533601B1 (ko) | 2002-12-05 | 2002-12-05 | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR100533601B1 (ko) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0248593A1 (en) * | 1986-06-06 | 1987-12-09 | Speech Systems, Inc. | Preprocessing system for speech recognition |
JPH0962289A (ja) * | 1995-08-21 | 1997-03-07 | Seiko Epson Corp | 音声認識装置および音声認識処理方法 |
JPH10133693A (ja) * | 1996-10-28 | 1998-05-22 | Nec Corp | 音声認識装置 |
JP2000089780A (ja) * | 1998-09-08 | 2000-03-31 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
WO2002007145A2 (en) * | 2000-07-13 | 2002-01-24 | Qualcomm Incorporated | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system |
KR20030060593A (ko) * | 2002-01-10 | 2003-07-16 | 주식회사 현대오토넷 | 피치값을 이용한 음성 인식 방법 |
-
2002
- 2002-12-05 KR KR10-2002-0076813A patent/KR100533601B1/ko not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0248593A1 (en) * | 1986-06-06 | 1987-12-09 | Speech Systems, Inc. | Preprocessing system for speech recognition |
JPH0962289A (ja) * | 1995-08-21 | 1997-03-07 | Seiko Epson Corp | 音声認識装置および音声認識処理方法 |
JPH10133693A (ja) * | 1996-10-28 | 1998-05-22 | Nec Corp | 音声認識装置 |
JP2000089780A (ja) * | 1998-09-08 | 2000-03-31 | Seiko Epson Corp | 音声認識方法および音声認識装置 |
WO2002007145A2 (en) * | 2000-07-13 | 2002-01-24 | Qualcomm Incorporated | Method and apparatus for constructing voice templates for a speaker-independent voice recognition system |
KR20030060593A (ko) * | 2002-01-10 | 2003-07-16 | 주식회사 현대오토넷 | 피치값을 이용한 음성 인식 방법 |
Also Published As
Publication number | Publication date |
---|---|
KR20040049410A (ko) | 2004-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11056097B2 (en) | Method and system for generating advanced feature discrimination vectors for use in speech recognition | |
US7957959B2 (en) | Method and apparatus for processing speech data with classification models | |
EP1301922B1 (en) | System and method for voice recognition with a plurality of voice recognition engines | |
US8532991B2 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
Chang et al. | Large vocabulary Mandarin speech recognition with different approaches in modeling tones. | |
JP4322785B2 (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
CN1162365A (zh) | 语音识别 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
JP2003036097A (ja) | 情報検出装置及び方法、並びに情報検索装置及び方法 | |
CN112750445A (zh) | 语音转换方法、装置和系统及存储介质 | |
Wildermoth et al. | Use of voicing and pitch information for speaker recognition | |
Zolnay et al. | Using multiple acoustic feature sets for speech recognition | |
JP5296455B2 (ja) | 話者識別装置、及びコンピュータプログラム | |
KR100533601B1 (ko) | 휴대전화의 화자독립형 음성인식을 위한 성별 구분방법 | |
JP2002189487A (ja) | 音声認識装置および音声認識方法 | |
Malik et al. | Wavelet transform based automatic speaker recognition | |
Gadekar et al. | Analysis of speech recognition techniques | |
JP4749990B2 (ja) | 音声認識装置 | |
Zolnay | Acoustic feature combination for speech recognition | |
Sailaja et al. | Text independent speaker identification with finite multivariate generalized gaussian mixture model and hierarchical clustering algorithm | |
Ali | A Comparative Study of ASR Implementations in Resource-Constrained Wireless Sensor Networks for Real-Time Voice Communication | |
Wang et al. | Improved Mandarin speech recognition by lattice rescoring with enhanced tone models | |
Bora et al. | Speaker identification for biometric access control using hybrid features | |
KR100584906B1 (ko) | 억양의 유사도 측정방법 | |
Li et al. | A detection method of lip-smack in spontaneous speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20021205 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20041030 Patent event code: PE09021S01D |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20050507 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20050826 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20051129 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20051130 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
LAPS | Lapse due to unpaid annual fee | ||
PC1903 | Unpaid annual fee |