FI118195B - Puheaktiivisuuden ilmaisin - Google Patents
Puheaktiivisuuden ilmaisin Download PDFInfo
- Publication number
- FI118195B FI118195B FI961158A FI961158A FI118195B FI 118195 B FI118195 B FI 118195B FI 961158 A FI961158 A FI 961158A FI 961158 A FI961158 A FI 961158A FI 118195 B FI118195 B FI 118195B
- Authority
- FI
- Finland
- Prior art keywords
- gain
- input signal
- speech activity
- speech
- devices
- Prior art date
Links
- 230000000694 effects Effects 0.000 title claims description 15
- 238000001228 spectrum Methods 0.000 claims abstract description 9
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 6
- 230000011664 signaling Effects 0.000 abstract description 11
- 238000001914 filtration Methods 0.000 abstract description 5
- 230000003595 spectral effect Effects 0.000 abstract description 4
- 230000004044 response Effects 0.000 abstract description 3
- 230000000295 complement effect Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 20
- 230000007774 longterm Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000003111 delayed effect Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 235000014121 butter Nutrition 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000003607 modifier Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 125000000446 sulfanediyl group Chemical group *S* 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q1/00—Details of selecting apparatus or arrangements
- H04Q1/18—Electrical details
- H04Q1/30—Signalling arrangements; Manipulation of signalling currents
- H04Q1/44—Signalling arrangements; Manipulation of signalling currents using alternate current
- H04Q1/444—Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies
- H04Q1/46—Signalling arrangements; Manipulation of signalling currents using alternate current with voice-band signalling frequencies comprising means for distinguishing between a signalling current of predetermined frequency and a complex current containing that frequency, e.g. speech current
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M19/00—Current supply arrangements for telephone systems
- H04M19/08—Current supply arrangements for telephone systems with current supply sources at the substations
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Geophysics And Detection Of Objects (AREA)
- Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
- Electrophonic Musical Instruments (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Telephone Function (AREA)
- Investigating Or Analyzing Materials By The Use Of Electric Means (AREA)
- Control Of Amplification And Gain Control (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Digital Transmission Methods That Use Modulated Carrier Waves (AREA)
- Investigating Or Analysing Materials By The Use Of Chemical Reactions (AREA)
- Electromechanical Clocks (AREA)
- Cosmetics (AREA)
- Radio Relay Systems (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measuring Fluid Pressure (AREA)
- Burglar Alarm Systems (AREA)
Description
1 118195
Puheaktiivisuuden ilmaisin.- Röstdetektor
Puheaktiivisuuden ilmaisin on laite, johon syötetään signaali, ja tarkoituksena on % ilmaista puhejaksoja tai jaksoja, jotka sisältävät vain kohinaa. Vaikka esillä oleva | keksintö ei rajoitu siihen, eräänä erityisen kiinnostavana sovellutuksena ovat sellai- ! 5 set ilmaisimet matkaviestinjärjestelmissä, joissa tietoa puheen esiintymisestä tai f muusta muodosta voidaan käyttää hyväksi tehonkulutuksen ja häiriöiden pienen- 1 tämiseksi kytkemällä lähetin pois päältä hiljaisuusjaksojen ajaksi. Tällöin myös kohinataso (ajoneuvoon asennetusta yksiköstä) on todennäköisesti suuri. Toinen | mahdollinen käyttö radiojärjestelmissä on radiospektrin tehokas hyödyntäminen.
10 Kuva 1 esittää puheaktiivisuuden ilmaisimen, jota on selitetty kansainvälisessä patenttihakemuksessamme WO89/08910.
Kohinaa sisältävät puhesignaalit vastaanotetaan tulossa 1. Muisti 2 sisältää dataa, , | jolla määritellään kohinan taajuusspektrin estimaatti tai malli; vertailu tehdään (3) tämän ja käsillä olevan signaalin spektrin välillä, niin että saadaan yhteneväisyyden .
15 mitta, jota verrataan (4) kynnysarvoon. Kohinakomponentin muutosten jäljittämi- seksi kohinamallia päivitetään tulosta lähtien, vain kun puhetta ei esiinny. Kynnys- Ϊ arvoa voidaan myös muokata (muokkain 6).
Jotta varmistettaisiin, että muokkaus tapahtuu ainoastaan pelkkää kohinaa sisältävä vissä jaksoissa, ilman vaaraa siitä, että väärän päätöksen perusteella tehtäisiin kas- • · ·,· : 20 vavasti väärä muokkaus, muokkaus tehdään lisäilmaisimen 7 ohjaamana, jolloin i *:**: lisäilmaisin käsittää soinnittoman puheen ilmaisimen 8 ja soinnillisen puheen il- l *:··· maisimen 9: ilmaisin 7 tekee päätöksen puheen läsnäolosta, jos jompikumpi näistä , ilmaisimista tunnistaa puheen, ja se estää pääilmaisimen päivittämisen ja kynnysar- f • · * -j·;·. von muokkaamisen. Soinnittoman puheen ilmaisin 8 saa tyypillisesti LPC-kertoi- 25 mien joukon signaalia varten, ja se vertaa näiden kertoimien autokorrelaatiofunktio- ta peräkkäisten kehysjaksojen kesken, kun taas soinnillisen puheen ilmaisin 9 tutkii *“·/ LPC-j äännosarvojen autokorrelaation muutoksia. 7, • · · • · ♦ Tämä järjestely on erittäin onnistunut erotettaessa puhejaksot sellaisista jaksoista, ii • · *..! joissa vastaanotetaan vain kohinaa. Ongelma syntyy kuitenkin siitä, että lisäilmai- θ'
*:* 30 sin usein olettaa merkinantoäänten olevan yksinkertaista kohinaa (eli se ei tunnista J
* · · • niitä puheeksi), joten pääilmaisin muokkaa äänet aivan kuin ne olisivat kohinaa, ja *:*: äänten lähettäminen estetään, tai ainakin lopetetaan ennenaikaisesti.
Tämä ongelma voitaisiin voittaa järjestämällä ääni-ilmaisimet, joista jokainen on viritetty määrätyn merkinantoäänen taajuudelle (taajuuksille); eri merkinantoäänten 2 118195 1 moninaisuus on maailmalla kuitenkin huomattava, niin että tarvittaisiin suuri joukko yksilöllisiä ilmaisimia, jotta esimerkiksi kansainvälisen puhelun ottava matkaviestimen käyttäjä voisi kuulla “varattu”-äänen luotettavasti, riippumatta siitä mistä « maasta se tulee. | 5 Esillä olevan keksinnön mukaan aikaansaadaan puheaktiivisuuden ilmaisin ilmai- - semaan puheen esiintyminen tulosignaalissa, jolloin ilmaisin käsittää: a) välineet tulosignaalin kohinakomponentin estimaatin tallettamiseksi; ? b) välineet tulosignaalin spektrin ja talletetun estimaatin spektrin samanlaisuuden ^ päätössignaalin muodostamiseksi lähtöön; 10 c) välineet talletetun estimaatin päivittämiseksi; d) lisäilmaisimen, joka on järjestetty ohjaamaan päivitysvälineitä niin, että päivitys tapahtuu vain, kun lisäilmaisin osoittaa puheen puuttuvan tulosignaalista; jolloin ilmaisimelle on tunnusomaista välineet, jotka laskevat ennustevahvistus-parametrin tulosignaalia varten, ja muunnosvälineet, jotka on järjestetty estämään 15 päivityksen siinä tapauksessa, että ennustevahvistus ylittää kynnysarvon. j
Seuraavassa selitetään esimerkinomaisesti eräitä suoritusmuotoja oheisiin piiru s-tuksiin viitaten, joissa: kuva 2 on lohkokaavio puhekooderista, jossa on esillä olevan keksinnön erään nä- - kökohdan mukainen puheaktiivisuuden ilmaisin; 20 kuvat 3 ja 4 esittävät graafisesti ennustevahvistuksen arvoja eri tulosignaaleilla; * · ··· 118195 f 3 ....-.1 . ··;§ voista, ja vastaavan vahvistusarvon ennustetta varten. Analyysiyksikkö 106 muodostaa myös toisen jäännösarvon (eli toisaalta sen hetkisen LPC-jäännösarvon ja toisaalta viivästetyn ja saaduilla parametreillä skaalatun LPC-jäännösarvon välisen erotuksen). Suoritusyksikkö 108 laskee heräteparametrit dekooderille lähetettäviksi, ^ 5 yksinkertaisesti kvantisoimalla LPC-jäännösarvon, tai jollain muulla tavanomaiset- | la tavalla.
LPC-kertoimet, pitkän aikavälin ennusteviive d, ja vahvistus g, sekä heräteparametrit e lähetetään dekooderille.
* ·
Aikaisemman patenttihakemuksemme mukainen puheaktiivisuuden pääilmaisin 10 muodostaa autokorrelaatiokertoimien R. keskiarvon keskiarvoistajan 110 avulla, joka tuottaa sen hetkisten kertoimien ja edellisten kehysten puskuriin 111 talletettujen kertoimien painotetun keskiarvon R’. Toinen autokorrelaattori 112 muodostaa LPC-kertoimista a autokorrelaatiokertoimetBj, jotka johdetaan puskuriin 113. Pus- ;
kurin sisältö päivitetään vain sellaisten jaksojen aikana, jotka lisäilmaisin (jota sell- I
15 tetään alempana) katsoo sisältävän vain kohinaa, niin että puskurin 113 sisältö B.’ edustaa tulosignaalin kohinaspektrin estimaattia. Kertoja/summain-yksikkö 114 muodostaa tulosignaalin ja kohinamallin spektrien välisen yhteneväisyyden mitan M, joka määritellään: Μ=Β0+2\Ά * * i»l ^0 • · · ··· • «φ · *; ·: 20 jossa nolla tarkoittaa nollannen kertaluokan autokoirelaatiokerrointa, ja n on näyt- ·;··; teiden lukumäärä kehyksessä.
* ·. L·; | * *
Mittaa M verrataan komparaattorissa 115 kynnysarvoon, ja siitä saadaan lähtöön ** * 116 signaali, joka osoittaa ] puheen puuttumien esiintymisen. Kynnysarvoa voidaan säätää (117) adaptiivissti senhetkisen kohinatehon tason mukaan.
,· · *. 25 Puskurimuistissa 113 olevan kohinaestimaatin päivitystä ei ohjata edellä selitetyn 4§ * · · ·. ' ilmaisimen lähdöllä 116, koska epäonnistuminen puheen tunnistamisessa johtaisi :puskurin päivittämiseen puheinformaatiolla ja vastaavasti seuraavan tunnistamisen • · · epäonnistumiseen - “lukittu” tilanne. Tämän vuoksi päivitystä ohjataan lisäilmaisi-mella 200. Jotta voitaisiin erottaa kohina soinnittomasta puheesta, tämä ilmaisin 30 muodostaa (201) tulosignaalin (keskiarvoistamattomien) autokorrelaatiokertoimien R ja LPC-kertoimien (puskuroimattomien) autokorrelaatiokertoimien B. tulojen summan. Vähentäjä 202 vertaa tätä summaa edellisen kehyksen vastaavaan summaan, jota on viivästetty puskurissa 203. Tätä erotusta, joka edustaa tulosignaalin peräkkäisten kehysten spektrin yhteneväisyyttä, verrataan (204) kynnysarvoon, niin
4 118195 I
- että saadaan päätössignaali. -,ί| 'f;
Soinnillisen puheen tunnistamiseksi pitkän aikavälin ennustajan viive d mitataan äänenkorkeuden analyysiyksiköllä 205. Tämän lähtö yhdistetään kynnysarvopor- 1 ····$ taan 204 lähtöön TAI-portissa 206 - eli lisäilmaisin 200 osoittaa puhetta esiintyvän 5 (jos jompikumpi (tai molemmat) yksiköistä 204 tai 205 tuottaa lähdön, joka osoit- j taa puheen esiintymistä. Kuten johdannossa tarkasteltiin, niin jos järjestelmän tulee välittää merkinantoääniä, ne on tunnistettava puheeksi eikä kohinaksi, ja edellä ku- i vattu lisäilmaisin ei ole erityisen tehokas tähän tehtävään. Vaikka se tunnistaa jotkin äänet, niin joitakin muita (yleensä sellaisia, joissa on suhteellisen puhdas 10 spektrisisältö) ei tunnisteta. Kun lisäilmaisin 200 on epäonnistunut, pääilmaisin epäonnistuu myös, koska kohinan estimaattia puskurissa 113 tällöin “opetetaan” merkinantoäänen mukaan.
Vastaavasti on järjestetty toinen lisäilmaisin merkinantoäänten ilmaisemista varten.
Edullisesti siinä käytetään sitä havaintoa, että merkinantoäänet, jotka tuotetaan kei-15 notekoisesti, sisältävät pienen lukumäärän taajuuskomponentteja (jotka voivat olla moduloituja). LPC-ennustajan suorituskyky on erittäin hyvä sellaisilla signaaleilla, ΐ ja tätä käytetään hyväksi erotettaessa ääneen perustuvat signaalit (moniääniset signaalit mukaanlukien) taustan tai ympäristön kohinasignaaleista.
LPC-ennustevahvistus Gp määritellään puhekehyksessä tulosignaalin tehon ja läh- , t 20 tösignaalin tehon suhteena, eli • · · i * » : fx2(i) ·:··: Gp = j£- ·:··· X>2(0 i=0 f * · . ' .
• · · }*·': jossa x on suodattimen tulo ja y on käänteissuodattimen lähtö: m . y(t) = x(t)+y£y(t~i)ai
• * * TT
• ·· /=1 *♦·' • · · * (jossa m on suodatinkertoimien lukumäärä, tyypillisesti 8 tai 10). Signaalit x(i) ja • * * .V- :t 25 y(i) ovat käytettävissä LPC-kooderista 100 muuntunen 102 ja vastaavasti suodatti-*...: men 106 lähdöistä. Nämä arvot korotetaan toisen potenssiin (301, 302), ja ennuste- t vahvistus saadaan aritmetiikkayksiköltä 303, joka laskee vahvistuksen Gp edellä * » olevan yhtälön perusteella. Sen lähtöä verrataan komparaattorilla 304 kiinteään kynnysarvoon T; jos vahvistus on suurempi kuin kynnysarvo (tyypillisesti T = 63 30 eli 18 dB), katsotaan ääni tunnistetuksi. Äänen tunnistamiseen on useita mahdolli-siä vasteita: 5 118195 a) jätetään pääihnaisimen lähtö huomiotta TAI-portilla 303; b) jätetään lisäilmaisin huomiotta TAI-portin 206 kolmannen tulon avulla; c) käytetään kumpaakin (kuten on esitetty).
Osamäärän laskemisen sijasta voidaan luonnollisesti verrata termiä Σχ2 termiin Ey2, 5 joka on kerrottu kynnysarvolla. Kuva 3 esittää histogrammeina ennustevahvistukset 4 desibeleissä, jotka on saatu taustan/ympäristön kohinalle, puheelle, merkinantoää- | nien taustakohinalle, ja itse merkinantoäänille, kun taas kuvassa 4 esitetään käyrät 1 erilaisille Yhdistyneissä kuningaskunnissa käytetyille merkinantoäänille, eli “tilaaja varattu”-ääni, 10 valintaääni, soiton merkkiääni “estoääni”, “laitteisto varattu”-ääni. | Käytännössä “tilaaja varattu”-äänen, valintaäänen ja estoäänen tunnistaminen on-15 nistuu toisella ilmaisimella, kuten myös monitaajuisten äänten osalta (esimerkiksi » näppäinvalinta). Soiton merkkiääni ja “laitteisto varattu”-ääni tunnistetaan äänen-korkeuden analyysiyksiköllä 205.
Lisäilmaisinta 300 voidaan pitää määrätyn tyyppisten äänien ilmaisimena; vaihtoehtoisesti (kuva 2 suoritusmuodossa) tilannetta voidaan katsoa niin, että ilmaistaan . . 20 tilanne, jossa jäännös y on pieni, niin että pitkän aikavälin ennustajan 107 toiminta 1 • i · *·’·* (ja näin ollen äänenkorkeuden analyysin 205 toiminta) ei ole vakavalla pohjalla.
: . :¾ **· ·
Vaihtoehtona soinnillisen puheen ilmaisemiseksi on äänenkorkeuden ilmaisimen 205 korvaaminen lohkojen 301, 302,303 ja 304 suhteen samanvertaisilla lohkoilla, 1 ·. ja ennustevahvistuksen muodostaminen pitkän aikavälin ennustusanalyysin 107 25 pohjalta.
f * · » * *
Seuraavassa selitetään kuvaan 5 viitaten kahta kuvan 2 laitteen muunnelmaa. Επί sinnäkin kuvan 2 esittämässä suoritusmuodossa laskettu ennustevahvistus on puhe- ; * * *; kooderin 100 LPC-analyysin muodostama, jossa tyypillisesti voidaan käyttää ; 8:nnen tai lOinnen kertaluokan ennustajaa. Kun otetaan huomioon, että analyysin ♦ * « 30 tämän osan perusteena on se, että informaatioäänet johtavat suurempaan ennuste-···* vahvistukseen kuin ympäristön kohina, ja että mitä suurempi analyysin kertaluokka Γ·’: on, sitä suurempia on ennustajan kyky mallintaa kohinaista ympäristöä, niin havai- taan kuitenkin, että rajoittamalla vahvistuksen laskenta neljännen kertaluokan analyysiin, niin yhden tai kaksi ääntä sisältävät informaatiosignaalit tuottavat suuren 35 ennustevahvistuksen, kun taas ympäristön kohinan ennustevahvistusta voidaan pienentää.
• ... -- I
6 118195 ,
Periaatteessa tämä voitaisiin aikaansaada järjestämällä neljännen kertaluokan ana- 't lyysi ja suodatus kahdeksannen kertaluokan 105, 106 yksiköiden rinnalle syöttämään lisäilmaisinta. Yksinkertaisempaa on kuitenkin laskea ennustevahvistus hei-jastuskertoimista (joita joskus sanotaan Parcor-kertoimiksi). Kuvassa 5 ne lasketaan j
5 tunnetulla tavalla yksikössä 400 autokorrelaatiokertoimista R, (vaikka puhekoode- J
rin rakenteesta riippuen voisi olla mahdollista poimia ne välipisteestä LPC- t
analyysiyksikön 105 avulla), Ennustevahvlstuksen mitta voidaan saada laskemalla I
neljästä ensimmäisestä heijastuskertoimesta Rc. ennustevirhe Pe seuraavasti:
Pe = na-Äc?) I I ~ 10 joka tehdään kohdassa 401. Suuri ennustevirhe vastaa pientä ennustevahvistusta ja päinvastoin, niin että päätellään merkinantoäänen esiintyvän, jos Pe on pienempi kuin kynnysarvo Pth. Tämä vertailu 403 korvaa kuvan 2 vertailun 304.
Toiseksi matkaviestinympäristön kohina sisältää hyvin voimakkaita resonansseja matalilla taajuuksilla, ja lisätesti tehdään sen määrittämiseksi, onko “ääni” kynnys-15 arvotaajuuden alapuolella. Kynnysarvon valitseminen merkitsee jonkinasteista kompromissia, mutta koska useimmat merkinantoäänet ovat yli 400 Hz, ehdotetaan 385 Hz.
Tämä toinen testi toimii siten, että siinä määritetään LPC-suodattimen napojen :V: taajuudet. Pienemmän kertaluokan suodatinta pidetään edullisena, niin että vähen- ϊ .·, 20 netään analyysin mutkikkuutta. Taaskin voitaisiin tehdä toinen LPC-analyysi, mutta on helpompaan edetä kuten kuvassa 5, laskemalla LPC-kertoimet heijastus-kertoimien avulla. Olettaen, että käytetään vain ensimmäistä kahta heijastuskerroin-ta yksiköstä 400, niin LPC-kertoimet a4 lasketaan tavanomaiseen tapaan yksiköllä * 1 1 \',l 404, joka määritellään niin, että synteesisuodattimen vaste on: l ί 1 % 25 /ί(ζ) = 1/{θο+α,ζ-ι+α2ζ-1} » ^ 1 1 1 Tällöin napojen sijainti z-tasossä saadaan ratkaisemalla toisen asteen yhtälö: *.
*Vj 00^+0,2 + 02 =0 O0=l ,i • 1 . . -v *44 . ^
.Λ eli r^i±; S_ZfL
i · ! 2 V 4 * » Λ « • 1
Jos neliöjuuren alla oleva termi on negatiivinen, niin napa on reaaliakselilla, eikä 30 signaali ole ääni. Jos se on positiivinen, mutta navan sijainnin reaaliosa on negatiivinen (eli a, < 0), niin napa on z-tason vasemmassa puolikkaassa. Tämä merkitsee 7 118195 * väistämättä sitä, että taajuus on suurempi kuin 25 % näytteenottotaajuudesta, eli yli ^ 2000 Hz, kun näytteenottotaajuus fs on 8 kHz, jolloin taajuuslaskenta on tarpeeton ja signaali “> 385” voidaan muodostaa välittömästi.
Navan taajuus saadaan: * - , ~J4öj__ «1 fs 'il 5 / = arctan< ——-—-^x— s Οι 2π f
» J C
Ehto f < 385 Hz voidaan kirjoittaa muotoon (välttäen neliöjuuria): /a 2\i 2 2 [2πχ385ΐ (4^-^ )/«i < tan j—--> (4u2 -af)/ ai < 0,0973 kun ft = &kHz - Tämä lasketaan yksikössä 405.
10 Sen lähtö yhdistetään JA-portissa 406 komparaattorin 403 lähtöön, niin että päätös “ääni” tuotetaan vain, kun sekä ennustevahvistus on ylhäällä että navan taajuus on suurempi kuin 385 Hz.
- -k
Haluttaessa yli 2000 Hz (tai jonkin muun rajan yli) olevat navan taajuudet voidaan myös lukita, niin että odotettavissa olevan merkinantoäänten alueen yläpuolella * ψ · ··.* v/ 15 olevia taajuuksia ei tunnisteta ääniksi.
• « * t Iff
Jos toisen asteen yhtälön ratkaisemisen ylimääräinen laskenta voidaan toteuttaa, • t _ . niin on tärkeätä myös käyttää kolmatta ja neljättä heijastuskerrointa; tässä tapauk- , sessa voitaisiin mahdollisesti tunnistaa napojen kaksi kompleksista konjugaattiparia - ja niihin liittyvät taajuudet, jolloin on odotettavissa, että päätetään että ääntä ei ole * *' * 20 läsnä, jos molemmat taajuudet ovat kynnysarvon alapuolella.
. On jo mainittu, että kuvien 2 ja 5 suoritusmuodoissa käytetään Hamming-ikkunaa »·» -Λ, /;·. ennen autokorrelaatiolaskentaa 103 (kuten tavallisesti autokorrelaatioon perustu- ..¾ ^ t vassa LPC-analyysissä). Jos sellaista ikkunointia ei haluta käyttää puhekooderissa, > f M Λ t * ·* eräänä mahdollisena vaihtoehtona on kuvan 5 tapauksessa ikkunoinnin 103 pois
* k A
25 jättäminen ja heijastuskertoimien laskennan 400 korvaaminen autokorrelaatioarvo- i »Vj jen muunnoksella kovarianssiarvoiksi heijastuskertoimien sijaan. Vaihtoehtoisesti, ^ • f iewj kuten kuvassa 6 on esitetty (jossa esitetään vain ne osat, jotka ovat muuttuneet ku- .i! vaan 5 verrattuna) alkukäsittely voidaan tehdä kovarianssianalyysillä 109, jonka lähtö johdetaan heijastuskertoimien laskentaan 400’ ja muunnettuun autokorrelaa-30 tiokertoimien yksikköön 104’. LPC-analyysiyksikkö 105 voidaan kytketä, kuten f ϊ 8 118195 1 aiemminkin, autokorrelaatioyksikköön 104’, tai esitetyllä tavalla suoraan kovan- | anssianalyysiyksikköön 109. f
Edellä selitetyillä “äänen ilmaisun” suoritusmuodoilla saadaan hyviä tuloksia; ne . j, voivat kuitenkin epäonnistua mekaanisesti kehitettyjen äänten osalta joillakin alu- | 5 eilla, koska näissä pyrkii olemaan suuria harmonisten osuuksia, joka johtaa pieneen ,
ennustevahvistukseen. Näiden korkeamman asteen harmonisten yksinkertainen pois J
suodattaminen ei ole mikään ratkaisu, koska suodattimen lisääminen pyrkii lisäämään kaikkien signaalien autokorrelaatiota, ja tuottamaan suuremmat ennustevah-vistuksen myös muille signaaleille. On havaittu, että ennustaja pyrkii mallintamaan 10 suodatinnapoja eikä tulosignaalin ominaisuuksia. Olemme kuitenkin havainneet, - että hyviä tuloksia voidaan saada käyttämällä suodatusta, jos ennustevahvistuksen '
analyysi voidaan rajoittaa signaalin ennustettavuuden arvioimiseksi ainoastaan sei- J
laisella taajuusalueella, joka vastaa harmonisen suodattimen päästökaistaa. Tämä | voidaan aikaansaada alinäytteistämällä signaalia taajuudella, joka on kaksinkertai-15 nen suodattimen kaistanleveyden suhteen, ennen ennustevahvistuksen analyysiä. *
Siten kuvan 7 suoritusmuodossa, joka muilta osin on samanlainen kuin kuva 5, käytetään suodatinta 450, joka on alipäästötyyppinen, tasa-aaltoinen FIR-suodatin, jolla on nollat yksikköympyrällä ja päästökaista arvoon 600 (3 dB piste) sekä esto-kaistan vaimennus 20 dB 120 kHz:llä. On ajateltu, että edullisessa tapauksessa es-20 tokaistan vaimennus ei ole liian suuri. Suodattimen lähdöstä otetaan alinäytteet taajuudella 1200 Hz alinäytteitysyksikössä 451.
* · • * · ; Kun tätä suodatusta sovelletaan, mahdollisuudet äänen ilmaisun komponenttien ja- • * * · kamiseksi puhekooderin 100 kesken ovat luonnollisesti paljon rajoitetummat; näin | * · ollen suodattimeen 450 syötetään digitoitu tulosignaali suoraan analogia/digitaali- !; 25 muuntuneita 102, ja sen lähtö syötetään vuorostaan heijastuskertoimen analyysiyk- sikölle 400”, tai kovarianssi- tai autokorrelaatioanalyysiin, kuten aiemmin selitet- tiin. Autokorrelaatio vaihtoehdossa tarvitaan ikkunointia, kuten edellä selitettiin.
. *
Toisessa suoritusmuodossa voitetaan “harmonisten” ongelma rajoittamatta liikaa ;;; ennustevahvistuksen analyysin taajuusaluetta; tämä aikaansaadaan käyttämällä * · · *·" * 30 suodattimia signaalin jakamiseksi kahteen tai useampaan taajuuskaistaan, joista jo- ti kainen on niin kapea, ettei se voi samalla sisältää äänen perustaajuutta ja kolmatta :***; harmonista. Jokaisella kanavalla tehdään sitten alinäytteitys, ja sille tehdään erilli- * * · nen ennustevahvistuksen analyysi.
* · · ” * · *:**: Siten kuvassa 8 signaali jaetaan taajuuskaistoihin 400 -1200 Hz ja 1200 - 2000 Hz 35 suodattimien 450a, 450b avulla, ja alinäytteitys tehdään taajuudella 1,6 kHz (451a, 451b). Heijastuskertoimien laskenta 400”a, b, ennustevirheen analyysi 401a, b, ja
118195 I
9 1 kynnysarvovertailu 403a, b tehdään erikseen kummallekin kaistalle. Komparaatto-rien 403a, 403b lähdöt johdetaan TAI-portin 206 eri tuloihin, niin että jommankumman kanavan suuren ennustevahvistuksen katsotaan osoittavan äänen esiintymistä. Kuvan 7 muita yksityiskohtia 100-303 ei ole esitetty kuvassa 8, koska ne f 5 pysyvät ennallaan. f *· ' A' £
. I
• · • · · • · · • · e·*'··'·.
···-.- • · * · V ·*···.-
• · ·. f I
* * * · · · \ * ··· * · · • · · • ·· ··...· * * ♦ • Ί • * ♦ • · · ·. * • · * * · · * · * · • * · * • · · • · · • · • · n • · ..
• * , '5 ··· ' ·' i! • · · ‘7 • · · • · • * > -v ··«*· ' * ·
I I
ί
Claims (8)
1. Puheaktiivisuuden ilmaisun ilmaisemaan puheen esiintyminen tulosignaalissa, jolloin „ ilmaisin käsittää: 5 a) välineet (113,114,115) tulosignaalin kohinakomponentin estimaatin tallettamiseksi; ' b) välineet (114, 115) tulosignaalin spektrin ja talletetun estimaatin spektrin samanlaisuuden havaitsemiseksi päätössignaalin muodostamiseksi lähtöön; c) välineet (100,112) talletetun estimaatin päivittämiseksi; d) lisäilmaisimen (200), joka on järjestetty ohjaamaan päivitysvälineitä niin, että päivitys 10 tapahtuu vain, kun lisäilmaisin osoittaa puheen puuttuvan tul osignaalista; tunnettu välineistä, jotka laskevat ennustevahvistus-parametrin tulosignaalia varten, ja muunnosvälineet, jotka on järjestetty estämään päivityksen siinä tapauksessa, että ennustevahvistus ylittää kynnysarvon.
2. Patenttivaatimuksen 1 mukainen puheaktiivisuuden ilmaisin, tunnettu siitä, että 15 lisäilmaisin (200) sisältää soinnillisen puheen ilmaisimen (205), joka reagoi LPC jäännössig- naalista johdettuihin signaaleihin. .31
3. Patenttivaatimuksen 1 tai 2 mukainen puheaktiivisuuden ilmaisin, tunnettu siitä, että vahvistusparametri edustaa kuudetta tai pienempää kertaluokkaa olevan LPC ennustuksen ♦ » : 20 ennustevahvistusta. * 1 · « „ f * · · · · • · * j *"1:
4. Patenttivaatimuksen 3 mukainen puheaktiivisuuden ilmaisin, tunnettu siitä, että vahvistusparametri edustaa neljättä tai pienempää kertaluokkaa olevan LPC ennustuksen • · « \· 1 ennustevahvistusta. 25 • · -y
• · · · 5. Jonkin edellisen patenttivaatimuksen mukainen puheaktiivisuuden ilmaisin, • ♦ “** tunnettu siitä, että se lisäksi sisältää välineet (300) tulosignaalin yhden tai useamman primaari-• · : sen taajuuskomponentin ilmaisemiseksi, ja välineet (304), jotka vertaavat taajuuksia ennalta • · · • · *··1’ määrättyyn kynnysarvoon ja mahdollistavat päivittämisen estämisen ainoastaan silloin, kun ..1·1 30 mainittu primäärikomponentti ylittää kynnysarvon. • « · t 1 · · •VI 11 118195
6. Jonkin edellisen patenttivaatimuksen mukainen puheaktiivisuuden ilmaisin, tunnettu siitä, että vahvistuksen laskentavälineitä edeltää suodatin (450), jolla poistetaan tulosignaalin taajuuskaistasta yläosa, jolloin vahvistuksen laskenta tehdään vain sellaisille taajuuskomponen- teille, jotka ovat suodattimen päästökaistalla. | 5
7. Patenttivaatimuksen 6 mukainen puheaktiivisuuden ilmaisin, tunnettu siitä, että siinä on kaksi suodatinta (450a, 450b), joilla on kulloinenkin päästökaista ja kulloisetkin laskentavä-lineet (400"a, 400"b) vahvistusparametrien laskemiseksi kulloistakin päästökaistaa varten, jolloin muunnosvälineet on järjestetty estämään päivittämisen siinä tapauksessa, että jomman- 10 kumman päästökaistan ennustevahvistus on suurempi kuin kynnysarvo.
8. Patenttivaatimuksen 6 tai 7 mukainen puheaktiivisuuden ilmaisin, tunnettu siitä, että se sisältää välineet (451) suodatetun signaalin (signaalien) alinäytteytystä varten. 15
Applications Claiming Priority (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP93307211 | 1993-09-14 | ||
EP93307211 | 1993-09-14 | ||
GB9324967 | 1993-12-06 | ||
GB939324967A GB9324967D0 (en) | 1993-12-06 | 1993-12-06 | Voice activity detector |
GB9412451 | 1994-06-21 | ||
GB9412451A GB9412451D0 (en) | 1994-06-21 | 1994-06-21 | Voice activity detector |
PCT/GB1994/001999 WO1995008170A1 (en) | 1993-09-14 | 1994-09-14 | Voice activity detector |
GB9401999 | 1994-09-14 |
Publications (3)
Publication Number | Publication Date |
---|---|
FI961158A FI961158A (fi) | 1996-03-13 |
FI961158A0 FI961158A0 (fi) | 1996-03-13 |
FI118195B true FI118195B (fi) | 2007-08-15 |
Family
ID=27235491
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FI961158A FI118195B (fi) | 1993-09-14 | 1996-03-13 | Puheaktiivisuuden ilmaisin |
Country Status (23)
Country | Link |
---|---|
US (2) | US5749067A (fi) |
EP (1) | EP0719439B1 (fi) |
JP (1) | JP3224132B2 (fi) |
KR (1) | KR100363309B1 (fi) |
CN (1) | CN1064772C (fi) |
AT (1) | ATE182420T1 (fi) |
BR (1) | BR9407535A (fi) |
CA (1) | CA2169745C (fi) |
CZ (1) | CZ286743B6 (fi) |
DE (1) | DE69419615T2 (fi) |
DK (1) | DK0719439T3 (fi) |
ES (1) | ES2136204T3 (fi) |
FI (1) | FI118195B (fi) |
GR (1) | GR3031515T3 (fi) |
HK (1) | HK1014392A1 (fi) |
HU (1) | HU219994B (fi) |
IN (1) | IN184794B (fi) |
MY (1) | MY111134A (fi) |
NO (1) | NO307979B1 (fi) |
NZ (1) | NZ273045A (fi) |
SG (1) | SG48935A1 (fi) |
SK (1) | SK281796B6 (fi) |
WO (1) | WO1995008170A1 (fi) |
Families Citing this family (96)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IN184794B (fi) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
JP3522012B2 (ja) * | 1995-08-23 | 2004-04-26 | 沖電気工業株式会社 | コード励振線形予測符号化装置 |
FI100840B (fi) * | 1995-12-12 | 1998-02-27 | Nokia Mobile Phones Ltd | Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin |
KR20000022285A (ko) * | 1996-07-03 | 2000-04-25 | 내쉬 로저 윌리엄 | 음성 액티비티 검출기 및 검출 방법 |
US6708146B1 (en) * | 1997-01-03 | 2004-03-16 | Telecommunications Research Laboratories | Voiceband signal classifier |
JPH10247098A (ja) * | 1997-03-04 | 1998-09-14 | Mitsubishi Electric Corp | 可変レート音声符号化方法、可変レート音声復号化方法 |
US6531982B1 (en) | 1997-09-30 | 2003-03-11 | Sirf Technology, Inc. | Field unit for use in a GPS system |
US5970446A (en) * | 1997-11-25 | 1999-10-19 | At&T Corp | Selective noise/channel/coding models and recognizers for automatic speech recognition |
US6385548B2 (en) * | 1997-12-12 | 2002-05-07 | Motorola, Inc. | Apparatus and method for detecting and characterizing signals in a communication system |
US6327471B1 (en) | 1998-02-19 | 2001-12-04 | Conexant Systems, Inc. | Method and an apparatus for positioning system assisted cellular radiotelephone handoff and dropoff |
US5991718A (en) * | 1998-02-27 | 1999-11-23 | At&T Corp. | System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments |
US6182035B1 (en) | 1998-03-26 | 2001-01-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for detecting voice activity |
US6348744B1 (en) | 1998-04-14 | 2002-02-19 | Conexant Systems, Inc. | Integrated power management module |
US6453289B1 (en) | 1998-07-24 | 2002-09-17 | Hughes Electronics Corporation | Method of noise reduction for speech codecs |
US7711038B1 (en) | 1998-09-01 | 2010-05-04 | Sirf Technology, Inc. | System and method for despreading in a spread spectrum matched filter |
US7545854B1 (en) | 1998-09-01 | 2009-06-09 | Sirf Technology, Inc. | Doppler corrected spread spectrum matched filter |
US6693953B2 (en) | 1998-09-30 | 2004-02-17 | Skyworks Solutions, Inc. | Adaptive wireless communication receiver |
US6448925B1 (en) | 1999-02-04 | 2002-09-10 | Conexant Systems, Inc. | Jamming detection and blanking for GPS receivers |
US6606349B1 (en) | 1999-02-04 | 2003-08-12 | Sirf Technology, Inc. | Spread spectrum receiver performance improvement |
US6556967B1 (en) | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6304216B1 (en) | 1999-03-30 | 2001-10-16 | Conexant Systems, Inc. | Signal detector employing correlation analysis of non-uniform and disjoint sample segments |
US6577271B1 (en) | 1999-03-30 | 2003-06-10 | Sirf Technology, Inc | Signal detector employing coherent integration |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
US6381568B1 (en) | 1999-05-05 | 2002-04-30 | The United States Of America As Represented By The National Security Agency | Method of transmitting speech using discontinuous transmission and comfort noise |
US6351486B1 (en) | 1999-05-25 | 2002-02-26 | Conexant Systems, Inc. | Accelerated selection of a base station in a wireless communication system |
JP3929686B2 (ja) * | 2000-08-14 | 2007-06-13 | 松下電器産業株式会社 | 音声スイッチング装置およびその方法 |
US6788655B1 (en) | 2000-04-18 | 2004-09-07 | Sirf Technology, Inc. | Personal communications device with ratio counter |
US6931055B1 (en) | 2000-04-18 | 2005-08-16 | Sirf Technology, Inc. | Signal detector employing a doppler phase correction system |
US6714158B1 (en) * | 2000-04-18 | 2004-03-30 | Sirf Technology, Inc. | Method and system for data detection in a global positioning system satellite receiver |
US6952440B1 (en) | 2000-04-18 | 2005-10-04 | Sirf Technology, Inc. | Signal detector employing a Doppler phase correction system |
FR2808391B1 (fr) * | 2000-04-28 | 2002-06-07 | France Telecom | Systeme de reception pour antenne multicapteur |
US7885314B1 (en) | 2000-05-02 | 2011-02-08 | Kenneth Scott Walley | Cancellation system and method for a wireless positioning system |
US6778136B2 (en) | 2001-12-13 | 2004-08-17 | Sirf Technology, Inc. | Fast acquisition of GPS signal |
JP4201470B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
JP4201471B2 (ja) * | 2000-09-12 | 2008-12-24 | パイオニア株式会社 | 音声認識システム |
US7472059B2 (en) * | 2000-12-08 | 2008-12-30 | Qualcomm Incorporated | Method and apparatus for robust speech classification |
US7437286B2 (en) * | 2000-12-27 | 2008-10-14 | Intel Corporation | Voice barge-in in telephony speech recognition |
US6707869B1 (en) * | 2000-12-28 | 2004-03-16 | Nortel Networks Limited | Signal-processing apparatus with a filter of flexible window design |
DE10121532A1 (de) * | 2001-05-03 | 2002-11-07 | Siemens Ag | Verfahren und Vorrichtung zur automatischen Differenzierung und/oder Detektion akustischer Signale |
JP3859462B2 (ja) * | 2001-05-18 | 2006-12-20 | 株式会社東芝 | 予測パラメータ分析装置および予測パラメータ分析方法 |
KR100399057B1 (ko) * | 2001-08-07 | 2003-09-26 | 한국전자통신연구원 | 이동통신 시스템의 음성 활성도 측정 장치 및 그 방법 |
US20030110029A1 (en) * | 2001-12-07 | 2003-06-12 | Masoud Ahmadi | Noise detection and cancellation in communications systems |
EP1485691B1 (en) * | 2002-03-08 | 2006-09-13 | Koninklijke KPN N.V. | Method and system for measuring a system's transmission quality |
US7454331B2 (en) * | 2002-08-30 | 2008-11-18 | Dolby Laboratories Licensing Corporation | Controlling loudness of speech in signals that contain speech and other types of audio material |
US20040064314A1 (en) * | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
US7146316B2 (en) * | 2002-10-17 | 2006-12-05 | Clarity Technologies, Inc. | Noise reduction in subbanded speech signals |
US7230955B1 (en) * | 2002-12-27 | 2007-06-12 | At & T Corp. | System and method for improved use of voice activity detection |
US7272552B1 (en) * | 2002-12-27 | 2007-09-18 | At&T Corp. | Voice activity detection and silence suppression in a packet network |
JP2004341339A (ja) * | 2003-05-16 | 2004-12-02 | Mitsubishi Electric Corp | 雑音抑圧装置 |
EP1629463B1 (en) * | 2003-05-28 | 2007-08-22 | Dolby Laboratories Licensing Corporation | Method, apparatus and computer program for calculating and adjusting the perceived loudness of an audio signal |
EP1661916A4 (en) | 2003-07-16 | 2008-10-01 | Daikin Ind Ltd | PROCESS FOR PREPARING FLUOROUS POLYMER, AQUEOUS DISPERSION OF FLUOROUS POLYMER, 2-ACYLOXYCARBOXYLENE DERIVATIVE AND TENSID |
SG119199A1 (en) * | 2003-09-30 | 2006-02-28 | Stmicroelectronics Asia Pacfic | Voice activity detector |
JP4497911B2 (ja) * | 2003-12-16 | 2010-07-07 | キヤノン株式会社 | 信号検出装置および方法、ならびにプログラム |
US20050209762A1 (en) * | 2004-03-18 | 2005-09-22 | Ford Global Technologies, Llc | Method and apparatus for controlling a vehicle using an object detection system and brake-steer |
FI20045315A (fi) * | 2004-08-30 | 2006-03-01 | Nokia Corp | Ääniaktiivisuuden havaitseminen äänisignaalissa |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
WO2006047600A1 (en) | 2004-10-26 | 2006-05-04 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
JP4729927B2 (ja) * | 2005-01-11 | 2011-07-20 | ソニー株式会社 | 音声検出装置、自動撮像装置、および音声検出方法 |
US7927617B2 (en) * | 2005-04-18 | 2011-04-19 | Basf Aktiengesellschaft | Preparation comprising at least one conazole fungicide |
US7826945B2 (en) * | 2005-07-01 | 2010-11-02 | You Zhang | Automobile speech-recognition interface |
DE102006032967B4 (de) * | 2005-07-28 | 2012-04-19 | S. Siedle & Söhne Telefon- und Telegrafenwerke OHG | Hausanlage und Verfahren zum Betreiben einer Hausanlage |
GB2430129B (en) * | 2005-09-08 | 2007-10-31 | Motorola Inc | Voice activity detector and method of operation therein |
TWI330355B (en) * | 2005-12-05 | 2010-09-11 | Qualcomm Inc | Systems, methods, and apparatus for detection of tonal components |
US8417185B2 (en) * | 2005-12-16 | 2013-04-09 | Vocollect, Inc. | Wireless headset and method for robust voice data communication |
US7773767B2 (en) | 2006-02-06 | 2010-08-10 | Vocollect, Inc. | Headset terminal with rear stability strap |
US7885419B2 (en) | 2006-02-06 | 2011-02-08 | Vocollect, Inc. | Headset terminal with speech functionality |
CN101379548B (zh) | 2006-02-10 | 2012-07-04 | 艾利森电话股份有限公司 | 语音检测器和用于其中抑制子频带的方法 |
US8920343B2 (en) | 2006-03-23 | 2014-12-30 | Michael Edward Sabatino | Apparatus for acquiring and processing of physiological auditory signals |
JP5185254B2 (ja) * | 2006-04-04 | 2013-04-17 | ドルビー ラボラトリーズ ライセンシング コーポレイション | Mdct領域におけるオーディオ信号音量測定と改良 |
TWI517562B (zh) * | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
CN101432965B (zh) | 2006-04-27 | 2012-07-04 | 杜比实验室特许公司 | 使用基于特性响度的听觉事件检测的音频增益控制 |
CN101149921B (zh) * | 2006-09-21 | 2011-08-10 | 展讯通信(上海)有限公司 | 一种静音检测方法和装置 |
CA2665153C (en) | 2006-10-20 | 2015-05-19 | Dolby Laboratories Licensing Corporation | Audio dynamics processing using a reset |
US8521314B2 (en) * | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
US20080147389A1 (en) * | 2006-12-15 | 2008-06-19 | Motorola, Inc. | Method and Apparatus for Robust Speech Activity Detection |
WO2008143569A1 (en) * | 2007-05-22 | 2008-11-27 | Telefonaktiebolaget Lm Ericsson (Publ) | Improved voice activity detector |
ES2377719T3 (es) * | 2007-07-13 | 2012-03-30 | Dolby Laboratories Licensing Corporation | Procesamiento de audio utilizando un análisis de escenas auditivas y oblicuidad espectral. |
US20090043577A1 (en) * | 2007-08-10 | 2009-02-12 | Ditech Networks, Inc. | Signal presence detection using bi-directional communication data |
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
EP2107553B1 (en) * | 2008-03-31 | 2011-05-18 | Harman Becker Automotive Systems GmbH | Method for determining barge-in |
US8275136B2 (en) * | 2008-04-25 | 2012-09-25 | Nokia Corporation | Electronic device speech enhancement |
WO2009130388A1 (en) * | 2008-04-25 | 2009-10-29 | Nokia Corporation | Calibrating multiple microphones |
US8244528B2 (en) * | 2008-04-25 | 2012-08-14 | Nokia Corporation | Method and apparatus for voice activity determination |
CN101572090B (zh) * | 2008-04-30 | 2013-03-20 | 向为 | 一种自适应多速率窄带编码方法及编码器 |
USD605629S1 (en) | 2008-09-29 | 2009-12-08 | Vocollect, Inc. | Headset |
KR101547344B1 (ko) | 2008-10-31 | 2015-08-27 | 삼성전자 주식회사 | 음성복원장치 및 그 방법 |
TWI384423B (zh) * | 2008-11-26 | 2013-02-01 | Ind Tech Res Inst | 以聲音事件為基礎之緊急通報方法與系統以及行為軌跡建立方法 |
CN101609678B (zh) | 2008-12-30 | 2011-07-27 | 华为技术有限公司 | 信号压缩方法及其压缩装置 |
US8160287B2 (en) | 2009-05-22 | 2012-04-17 | Vocollect, Inc. | Headset with adjustable headband |
EP2491549A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
US8438659B2 (en) | 2009-11-05 | 2013-05-07 | Vocollect, Inc. | Portable computing device and headset interface |
FR2956539B1 (fr) * | 2010-02-16 | 2012-03-16 | Dominique Retali | Procede de detection du fonctionnement d'un dispositif de transmission sans fil de signaux de voix. |
US20120143604A1 (en) * | 2010-12-07 | 2012-06-07 | Rita Singh | Method for Restoring Spectral Components in Denoised Speech Signals |
CN102883244B (zh) * | 2011-07-25 | 2015-09-02 | 开曼群岛威睿电通股份有限公司 | 声震防护的装置及方法 |
US9363603B1 (en) | 2013-02-26 | 2016-06-07 | Xfrm Incorporated | Surround audio dialog balance assessment |
CN111261197B (zh) * | 2020-01-13 | 2022-11-25 | 中航华东光电(上海)有限公司 | 一种复杂噪声场景下的实时语音段落追踪方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4358738A (en) * | 1976-06-07 | 1982-11-09 | Kahn Leonard R | Signal presence determination method for use in a contaminated medium |
JPS53105303A (en) * | 1977-02-25 | 1978-09-13 | Hitachi Ltd | Preprocessing system for audio recognition |
JPS5850360B2 (ja) * | 1978-05-12 | 1983-11-10 | 株式会社日立製作所 | 音声認識装置における前処理方法 |
JPS59115625A (ja) * | 1982-12-22 | 1984-07-04 | Nec Corp | 音声検出器 |
US4731846A (en) * | 1983-04-13 | 1988-03-15 | Texas Instruments Incorporated | Voice messaging system with pitch tracking based on adaptively filtered LPC residual signal |
DE3370423D1 (en) * | 1983-06-07 | 1987-04-23 | Ibm | Process for activity detection in a voice transmission system |
US4700392A (en) * | 1983-08-26 | 1987-10-13 | Nec Corporation | Speech signal detector having adaptive threshold values |
US4696039A (en) * | 1983-10-13 | 1987-09-22 | Texas Instruments Incorporated | Speech analysis/synthesis system with silence suppression |
JPH0748695B2 (ja) * | 1986-05-23 | 1995-05-24 | 株式会社日立製作所 | 音声符号化方式 |
PT89978B (pt) * | 1988-03-11 | 1995-03-01 | British Telecomm | Aparelho detector da actividade vocal e aparelho telefonico movel que o contem |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
JP2573352B2 (ja) * | 1989-04-10 | 1997-01-22 | 富士通株式会社 | 音声検出装置 |
US5680508A (en) * | 1991-05-03 | 1997-10-21 | Itt Corporation | Enhancement of speech coding in background noise for low-rate speech coder |
IN184794B (fi) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
US5659622A (en) * | 1995-11-13 | 1997-08-19 | Motorola, Inc. | Method and apparatus for suppressing noise in a communication system |
-
1994
- 1994-09-13 IN IN890MA1994 patent/IN184794B/en unknown
- 1994-09-14 EP EP94926317A patent/EP0719439B1/en not_active Expired - Lifetime
- 1994-09-14 CN CN94193383A patent/CN1064772C/zh not_active Expired - Lifetime
- 1994-09-14 DK DK94926317T patent/DK0719439T3/da active
- 1994-09-14 NZ NZ273045A patent/NZ273045A/en not_active IP Right Cessation
- 1994-09-14 MY MYPI94002448A patent/MY111134A/en unknown
- 1994-09-14 SK SK318-96A patent/SK281796B6/sk not_active IP Right Cessation
- 1994-09-14 JP JP50905595A patent/JP3224132B2/ja not_active Expired - Lifetime
- 1994-09-14 CZ CZ1996678A patent/CZ286743B6/cs not_active IP Right Cessation
- 1994-09-14 DE DE69419615T patent/DE69419615T2/de not_active Expired - Lifetime
- 1994-09-14 HU HU9600641A patent/HU219994B/hu unknown
- 1994-09-14 AT AT94926317T patent/ATE182420T1/de active
- 1994-09-14 WO PCT/GB1994/001999 patent/WO1995008170A1/en active IP Right Grant
- 1994-09-14 SG SG1996003866A patent/SG48935A1/en unknown
- 1994-09-14 KR KR1019960701186A patent/KR100363309B1/ko not_active IP Right Cessation
- 1994-09-14 CA CA002169745A patent/CA2169745C/en not_active Expired - Lifetime
- 1994-09-14 BR BR9407535A patent/BR9407535A/pt not_active IP Right Cessation
- 1994-09-14 ES ES94926317T patent/ES2136204T3/es not_active Expired - Lifetime
-
1996
- 1996-03-08 US US08/596,357 patent/US5749067A/en not_active Expired - Lifetime
- 1996-03-13 FI FI961158A patent/FI118195B/fi not_active IP Right Cessation
- 1996-03-13 NO NO961032A patent/NO307979B1/no not_active IP Right Cessation
-
1998
- 1998-04-30 US US09/070,151 patent/US6061647A/en not_active Expired - Lifetime
- 1998-12-24 HK HK98115669A patent/HK1014392A1/xx not_active IP Right Cessation
-
1999
- 1999-10-13 GR GR990402610T patent/GR3031515T3/el unknown
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
FI118195B (fi) | Puheaktiivisuuden ilmaisin | |
EP0770988B1 (en) | Speech decoding method and portable terminal apparatus | |
US8990073B2 (en) | Method and device for sound activity detection and sound signal classification | |
US5596676A (en) | Mode-specific method and apparatus for encoding signals containing speech | |
KR100986957B1 (ko) | 토널 컴포넌트들을 감지하는 시스템들, 방법들, 및 장치들 | |
Campbell Jr et al. | The DoD 4.8 kbps standard (proposed federal standard 1016) | |
FI110726B (fi) | Äänen aktiivisuuden ilmaisu | |
EP1918910A1 (en) | Model-based enhancement of speech signals | |
KR100496670B1 (ko) | 음성 분석 방법 및 음성 부호화 방법 및 장치 | |
US8620645B2 (en) | Non-causal postfilter | |
US6243672B1 (en) | Speech encoding/decoding method and apparatus using a pitch reliability measure | |
US5148484A (en) | Signal processing apparatus for separating voice and non-voice audio signals contained in a same mixed audio signal | |
KR100216018B1 (ko) | 배경음을 엔코딩 및 디코딩하는 방법 및 장치 | |
US6012023A (en) | Pitch detection method and apparatus uses voiced/unvoiced decision in a frame other than the current frame of a speech signal | |
FR2852778A1 (fr) | Terminal de telecommunication | |
Vahatalo et al. | Voice activity detection for GSM adaptive multi-rate codec | |
KR100383668B1 (ko) | 시간 분리 부호화 알고리즘을 이용한 음성 부호화기 및부호화 방법 | |
Lee | An enhanced ADPCM coder for voice over packet networks | |
AU673776C (en) | Voice activity detector | |
Ekeroth | Improvements of the voice activity detector in AMR-WB |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Patent granted |
Ref document number: 118195 Country of ref document: FI |
|
MA | Patent expired |