NO309750B1 - Talegjenkjenning - Google Patents
Talegjenkjenning Download PDFInfo
- Publication number
- NO309750B1 NO309750B1 NO972026A NO972026A NO309750B1 NO 309750 B1 NO309750 B1 NO 309750B1 NO 972026 A NO972026 A NO 972026A NO 972026 A NO972026 A NO 972026A NO 309750 B1 NO309750 B1 NO 309750B1
- Authority
- NO
- Norway
- Prior art keywords
- representations
- word
- subword
- vocabulary
- representing
- Prior art date
Links
- 238000000034 method Methods 0.000 claims description 19
- 238000013179 statistical model Methods 0.000 claims description 5
- 230000007704 transition Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 description 19
- 238000013518 transcription Methods 0.000 description 9
- 230000035897 transcription Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Selective Calling Equipment (AREA)
- Navigation (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Document Processing Apparatus (AREA)
Description
Oppfinnelsen vedrører taleprosessering, og spesielt talegjenkjenning.
Utviklere av talegjenkjenningsapparater har som endelig mål å produsere maskiner med hvilke en person kan vekselvirke på en fullstendig naturlig måte uten begrensninger. Grensesnittet mellom menneske og maskin vil ideelt være fullstendig sømløst.
Dette er en visjon som nærmer seg oppfyllelse, men full flyt mellom menneske og maskin er likevel ennå ikke oppnådd. For å oppnå flyt vil en automati-sert gjenkjenner kreve et uendelig vokabular av ord og vil måtte kunne forstå talen til enhver bruker, uansett aksent, uttale, osv. Nåværende teknologi og vår begrensede forståelse av hvordan menneskelige vesener forstår tale, gjør dette ugjen-nomførlig.
Nåværende talegjenkjenningsapparater omfatter data som vedrører det begrensede vokabular som apparatet er i stand til å gjenkjenne. Dataene vedrø-rer generelt statistiske modeller eller sjabloner som representerer ordene i det begrensede vokabularet. Under gjenkjennelse blir et inngangssignal sammenlignet med de lagrede data for å bestemme likheten mellom inngangssignalet og de lagrede data. Hvis en nær nok tilpasning blir funnet, blir inngangssignalet vanligvis bedømt å være gjenkjent som vedkommende modell eller sjablon (eller sekvens av modeller eller sjabloner) som gir den nærmeste tilpasning.
Sjablonene eller modellene blir vanligvis dannet ved å måle spesielle egenskaper ved inngående tale. Egenskapsmålingene er vanligvis utgangssignalet fra en eller annen form av spektralanalyse-teknikk, slik som en filterbank-analysator, en lineær prediktiv kodingsanalyse eller en diskret transformasjonsanalyse. Egenskapsmålingene til en eller flere trenings-inngangssignaler som svarer til den samme talelyd (dvs. et spesielt ord, frase, osv.) blir vanligvis brukt til å lagre ett eller flere referansemønstre som er representative for vedkommende lyds egenskaper. Referansemønsteret kan være en sjablon utledet fra en eller annen type midlings-teknikk, eller det kan være en modell som karakteriserer statistikkene for egenskapene til trenings-inngangssignalene for en spesiell lyd.
En ukjent innmating blir så sammenlignet med referansemønsteret for hver lyd i gjenkjennelsesvokabularet, og et mål på likhet mellom det ukjente inngangssignal og hvert referansemønster blir beregnet. Dette mønsterklassifiseringstrin-net kan innbefatte en global tidsinnrettings-prosedyre (kjent som dynamisk tids-vridning, dyanamic time warping, DTW) som kompenserer for forskjellige talehas-tigheter. Likhetsmålingene blir så brukt til å beslutte hvilket referansemønster som best passer til den ukjente inngang, og dermed hva som blir bedømt som gjenkjent.
Den tilsiktede bruk av talegjenkjenneren kan også bestemme systemets
egenskaper. For eksempel et system som er konstruert for å være taleravhengig, krever bare trenings-inngangssignaler fra en enkelt taler. Modellene eller sjablonene representerer således inngangstalen til en spesiell taler istedenfor middeltalen eller gjennomsnittstalen til et antall brukere. Selv om et slikt system har god gjen-kjennelseshyppighet for den taler som trenings-inngangssignalene blir mottatt fra, er et slikt system opplagt ikke egnet for anvendelse av andre brukere.
Taleruavhengig gjenkjennelse beror på ordmodeller som formes fra ytring-ene til et antall talere. Statistiske modeller eller sjabloner som representerer tren-ingsytringene til hver spesiell taleinngang, blir dannet for etterfølgende gjenkjen-nelsesformål. Selv om taleruavhengige systemer virker forholdsvis godt for et stort antall brukere, vil ytelsen til et taleruavhengig system sannsynligvis være lav for en bruker som har en aksent, intonasjon, uttale osv., som adskiller seg betydelig fra treningsprøvene.
For å utvide det akseptable vokabular må det oppnås tilstrekkelige trenings-prøver av det ytterligere vokabular. Dette er en tidkrevende operasjon som ikke kan rettferdiggjøres hvis vokabularet endres gjentatte ganger.
Det er kjent å tilveiebringe talegjenkjenningssystemer hvor det vokabular som et system er i stand til å gjenkjenne, kan utvides av en tjenesteleverandør som mater inn det ytterligere vokabular i tekstform. Ett eksempel på et slikt system er Flexword fra AT&T. I et slikt system blir ord omformet fra tekstform til sine fonetiske transkripsjoner i henhold til lingvistiske regler. Det er disse transkripsjonene som blir brukt i en talegjenkjenner som har akustiske modeller for hvert av fonemene.
Antallet fonemer i et språk er ofte en skjønnssak og kan avhenge av den spesielle lingvist som er involvert. I det engelske språk finnes det omkring 40 fonemer som er vist i tabell 1.
En referanse hertil fonemer eller delord vedrører enhver hensiktsmessig byggeblokk av ord, for eksempel fonemer, fonem-strenger, allofoner, osv. Enhver referanse her til fonem eller delord er ombyttelig og refererer til denne bredere tolkning.
For gjenkjenningsformål kan et nettverk av den fonemisk transkriberte tekst dannes fra lagrede modeller som representerer de enkelte fonemer. Under gjenkjenning blir inngangstale sammenlignet med strengene av referansemodeller som representerer hvert tillatt ord eller frase. Modellene som representerer de enkelte fonemer, kan være generert på en taleruavhengig måte fra utsagn fra et antall forskjellige talere. Alle egnede modeller kan brukes, slik som skjulte Markov-modeller.
Et slikt system tillater ingen avvik fra de vanlige fonemiske transskripsjoner av ord, for eksempel hvis en person har en sterk aksent. Selv om en bruker har talt ett ord som er i systemets vokabular, vil således inngangstalen muligens ikke bli gjenkjent som sådan.
Det er ønskelig å kunne tilpasse et taleruavhengig system slik at det er egnet for anvendelse av en bruker med en uttale som adskiller seg fra den model-lerte taler. Europeisk patentsøknad nr 453649 beskriver et slikt apparat hvor de tillatte ord i apparatets vokabular blir modellert av en modellkjede som representerer delenheter av ord, for eksempel fonemer. «Ord»-modellene, dvs. de lagrede kjeder, blir så innstilt på en spesiell brukers tale ved å anslå nye parametere for ordmodellen fra brukerens tale. Kjente, forhåndsdefinerte ordmodeller (dannet av en kjede med fonem-modeller) blir således tilpasset en spesiell bruker.
Likeledes beskriver europeisk patentsøknad nr 508225 et talegjenkjenningsapparat der ord som skal gjenkjennes, er lagret sammen med en fonemsek-vens som representerer ordet. Under innstilling taler en bruker ordene i vokabularet, og parameterne i fonemmodellen blir tilpasset brukerens inngang.
I begge disse kjente systemer er et forhåndsbestemt vokabular nødvendig i form av sammenkjedede sekvenser av fonemer. I mange tilfeller ville det imidlertid være ønskelig for en bruker å tilføye ord til vokabularet, idet slike ord er spesi-fikke for disse brukerne. Et kjent middel for å forsyne en aktuell bruker med denne fleksibiliteten, består i å bruke taleravhengig teknologi for å danne nye ordmodeller som så blir lagret i en separat ordbok. Brukeren må tale hvert ord en eller flere ganger for å innstille systemet. Disse taleravhengige modellene blir vanligvis dannet ved å bruke DTW eller lignende teknikker som krever forholdsvis store lagermengder for å lagre hver brukers sjabloner. Hvert ord for hver bruker vil typisk oppta minst 125 byte (og muligens over 2 kilobyte. Dette betyr at med et vokabular på 20 ord, må mellom 2,5 og 40 kilobyte lastes ned i gjenkjenneren før gjenkjenning kan begynne. Videre ville en telefonnett-basert tjeneste med bare tusen brukere behøve mellom 2,5 og 20 megabyte platelager bare for brukernes sjabloner. Ett eksempel på en slik tjeneste er en automatisk nummersender hvor en bruker definerer de mennesker han ønsker å ringe til, slik at et telefonanrop senere kan utføres ved å uttale navnet på den tilsiktede mottakeren.
Europeisk patentsøknad nr 590173 beskriver et system hvor en bruker som taler et ord som er ukjent for et gjenkjenningssystem, kan korrigere ordet og tilføye dette ordet til systemets vokabular. Den eneste beskrevne fremgangsmåte til å gjøre nye ord kjent for gjenkjenningssystemet, er ved innmating via et tastatur.
En fremgangsmåte for generering av et vokabular for et talegjenkjenningsapparat omfatter, å motta et inngangstalesignal som representerer et utsagn; å generere fra hvert utsagn en kodet representasjon som fra et antall av referansedelord-representasjoner identifiserer en sekvens av referansedelord-representasjoner som nærmest ligner utsagnet; og å lagre den genererte kodede representasjon av utsagnene for etterfølgende gjenkjenningsformål.
En slik fremgangsmåte tillater en bruker å velge nye ord uten at det er nød-vendig å danne nye akustiske modeller av hvert av ordene, idet hvert ord eller hver frase blir modellert som en sekvens av referansedelord-representasjoner som er unike for vedkommende bruker. Dette krever ingen tidligere kunnskap vedrørende de ord som skal tilføyes vokabularet, og gjør det dermed mulig for en bruker å tilføye ethvert ønsket ord eller enhver ønsket frase.
De kodede representasjoner av de ord som er valgt av en bruker, vil sannsynligvis ha en sterkere likhet med brukerens tale enn modeller dannet fra tekst. De kodede representasjoner krever i tillegg en lagringskapasitet som er minst en størrelsesorden mindre enn lagring av ord representasjonene som DTW-modeller (selv om dette kan gå litt på bekostning av nøyaktigheten).
Genereringen av den kodede representasjon er fortrinnsvis ikke begrenset av grammatiske regler, d.v.s. at enhver delord-representasjon kan følges av enhver annen. Alternativt kan det anvendes en bigram-grammatikk som påfører overgangssannsynligheter mellom hvert par med delord, for eksempel fonemer. Et par fonemer som vanligvis ikke opptrer i ett gitt språk (for eksempel PH i engelsk språk) har således en lav overgangssannsynlighet.
Kodede representasjoner av mer enn ett talesignal som representerer det samme utsagn, kan genereres. Eventuelle uregelmessigheter i den kodede representasjon vil da bli tatt hensyn til. Hvis for eksempel et utsagn blir gjort over en støyfylt telefonlinje, så kan den kodede representasjon av utsagn ha liten likhet med den kodede representasjon av det samme utsagnet over en tydelig telefonlinje. Det kan være riktig å motta tre treningsinnganger eller innstillingsinnganger av et utsagn og forkaste en kodet representasjon som adskiller seg betydelig fra de andre. Alternativt kan alle de kodede representasjoner beholdes. Om alle de kodede representasjoner blir lagret eller ikke, bestemmes av den som utvikler apparatet.
Det beskrives også et apparat for generering av et vokabular som omfatter en utledningsanordning for å utlede egenskapsprøver fra et inngangstalesignal; en delord-gjenkjenner for generering fra hver prøve av inngangstalesignalet, en kodet representasjon som fra et antall referansedelord-representasjoner identifiserer en sekvens av referansedelord-representasjoner som nærmest ligner inngangstalesignaler, og et lager for lagring av den kodede representasjon av inngangstalesignalet for etterfølgende gjenkjenningsformål.
Apparatet er ment tilknyttet en talegjenkjenner som er utformet for å gjenkjenne de utsagn som representeres av de kodede representasjoner. Under gjenkjenning sammenligner talegjenkjenneren ukjente inngangstalesignaler med sekvensene av delord-representasjoner som er representert ved de kodede representasjoner som er lagret i lageret, og mater ut et signal som indikerer gjenkjennelse eller ikke.
Grammatikken til delordgjenkjenneren er fortrinnsvis løselig bundet. For eksempel kan delordgjenkjenneren være bundet til å gjenkjenne enhver sekvens av delord-enheter, befengt med linjestøy. Alternativt kan det brukes en bigram-grammatikk som påfører overgangsannsynligheter mellom hvert fonempar.
Talegjenkjenningsapparatet kan være utformet for også å gjenkjenne visse forhåndsdefinerte ord. De forhåndsdefinerte ordene er fortrinnsvis også lagret som kodede representasjoner av delord-transkripsjoner av de forhåndsdefinerte ord. De forhåndsdefinerte ord og de ord som er valgt av en bruker, er således modellert ved å bruke de samme referansedelord. Talegjenkjenneren kan være utformet for å gjenkjenne forhåndsdefinerte ord talt i forbindelse med brukervalgte ord.
Referansedelord-representasjonene representerer fortrinnsvis fonemer. Hver delord-representasjon kan være en statistisk modell av et antall taleres inngangstale som inneholder det spesielle delord. Modellene er fortrinnsvis skjulte Markov-modeller, selv om andre modeller kan brukes.
En fremgangsmåte ifølge oppfinnelsen for generering av et vokabular for et talegjenkjenningsapparat er angitt i det selvstendige krav 1. Oppfinnelsen omfatter også et vokabulargenereringsapparat for generering av et vokabular fra et inn-gangs talesignal som er angitt i det selvstendige krav 8. Foretrukkede utførelses-former av fremgangsmåten og apparatet er angitt henholdsvis i de uselvstendige kravene 2-7 og 9-16.
Oppfinnelsen skal nå beskrives ytterligere ved hjelp av et eksempel, under henvisning til de vedføyde tegninger, hvor: Fig. 1 skjematisk viser innsettingen av et talegjenkjenningsapparat i hen
hold til oppfinnelsen i et telekommunikasjonsmiljø; Fig. 2 er et blokkskjema som viser de funksjonelle elementer i en vokabu
lar-generator i henhold til oppfinnelsen; Fig. 3 viser et eksempel på et løst bundet nettverk, brukt i vokabulargene
ratoren på figur 2; Fig. 4 viser en talegjenkjenner for bruk med vokabulargeneratoren som er
vist på figur 2; Fig. 5 viser et eksempel på et gjenkjenningsnettverk brukt med talegjen
kjenneren på figur 4; Fig. 6 viser et alternativt gjenkjenningsnettverk til det som er vist på figur 5;
og
Fig. 7 viser en annen utførelsesform av et talegjenkjenningsapparat i henhold til oppfinnelsen.
Det vises til figur 1 hvor et telekommunikasjonssystem som innbefatter talegjenkjenning, generelt omfatter en mikrofon 1 (som typisk utgjør en del av et tele-fonhåndsett), et telekommunikasjonsnett 2 (vanligvis et offentlig telenett PSTN), en talegjenkjenner 3 koplet for å motta et talesignal fra nettet, og et brukerapparat 4 koplet til talegjenkjenneren 3 og innrettet for å motta fra denne et talegjenkjen-ningssignal som indikerer gjenkjennelse eller ikke av et spesielt ord eller en spesiell frase og for å foreta en handling som reaksjon på dette. For eksempel kan brukerapparatet 4 være et fjernstyrt automatisk nummersendingssystem hvor en bruker ikke slår det ønskede nummer, men bare sier navnet på den person som skal oppringes.
I mange tilfeller vil brukerapparatet 4 generere en hørbar reaksjon til brukeren, sendt via nettet 2 til en høyttaler 5 som vanligvis utgjør en del av brukerens håndsett.
Under anvendelse taler en bruker inn i mikrofonen 1, og et signal blir sendt fra mikrofonen 1 inn i nettet 2 til talegjenkjenneren 3. Talegjenkjenneren analyse-rer talesignalet, og et signal som indikerer gjenkjennelse eller ikke av et spesielt ord eller en spesiell frase, blir generert og sendt til brukerapparatet 4, som så utfø-rer en passende handling hvis talen blir gjenkjent.
Når en bruker først anvender den tjenesten som leveres av brukerapparatet 4, må talegjenkjenneren 3 innhente data vedrørende det vokabular som etterfølg-ende ukjente talesignaler skal verifiseres mot. Denne datainnsamling blir utført av en vokabulargenerator 9 i treningsmodus-drift hvor brukeren tilveiebringer trenings-inngangstalesignaler hvorfra de kodede representasjoner av delord-innholdet i trenings-inngangstaler blir generert for etterfølgende gjenkjenningsformål.
På figur 2 er de funksjonelle elementer i en vokabulargenerator 9 i henhold til oppfinnelsen vist. Vokabulargeneratoren 9 omfatter en egenskapsutleder 6 for å utlede egenskapsdata fra et inngangstalesignal som er blitt oppdelt i en rekke rammer med tilstøtende prøver. Rammen representerer konvensjonelt en 16 ms prøve av inngangstalen, hvor hver prøve blir vindusstyrt (for eksempel ved å bruke et Hamming-vindu). Eksempler på en egnet egenskapsutleder er velkjente på området, og kan omfatte en eller annen form for spektralanalyse-teknikk, slik som en filterbank-analysator, en lineær prediktiv kodingsanalyse eller en diskret transformasjonsanalyse.
Egenskapene kan for eksempel omfatte cepstral-koeffisienter (for eksempel LPC-cepstral-koeffisienter eller MEL-frekvente cepstral-koeffisienter som beskrevet i «On the Evalution of Speech Recognisers and Databases using a Reference System», Chollet & Gagnoulet, 1982 proe. IEEE p2026), eller differensialverdier av slike koeffisienter som for hver koeffisient omfatter dfferansene mellom koeffisi-enten og den tilsvarende koeffisientverdi i den foregående vektor, som beskrevet i «On the use of Instantaneous and Transitional Spectral Information in Speaker Recognition», Soong & Rosenberg, 1988 IEEE Trans. On Acoustics, Speech and Signal Processing, volum 36, nr 6, p871. Likeledes kan det brukes en blanding av flere typer egenskapskoeffisienter. Egenskapsutlederen er forsynt med en passende programmert digital signalprosessor-anordning (DSP-anordning). Utgangs-data-settet fra egenskapsutlederen 6 utgjør inngangen til delord-gjenkjenneren 7.
Delord-gjenkjenneren 7 er tilknyttet et delord-modellager 8 med HMM-modeller som representerer de 40 fonemer som er antydet i tabell 1. Modell-lageret 8 omfatter et felt 81, 82,.... for hvert av antallet med delord. For eksempel er delord-gjenkjenneren konstruert for å gjenkjenne fonemer, og følgelig er det tilveiebrakt et felt i modell-lageret for hvert fonem.
Delord-gjenkjenneren 7 er anordnet for å lese hvert felt i lageret 8 etter tur, og for hvert å beregne ved bruk av det aktuelle sett med inngående egenskapskoeffisienter, sannsynligheten for at inngangsegenskaps-settet svarer til det tilsvarende felt. Et signal som indikerer det mest sannsynlige delord-modell blir matet ut og lagret i et ordlager 10. For et enkelt utsagn lagrer således ordlageret 10 en kodet representasjon som indikerer sekvensen av referansedelord-modeller som av delord-gjenkjenneren er bedømt å representere inngangstalen best.
Beregningen anvender den velkjente HMM, som diskutert i «Hidden Markov Models for Automatic Speech Recognition: Theory and Application» av S. J. Cox, British Telecom Technology Journal, volum 6, nr 2, april 1988. Den HMM-proses-sering som utføres av delord-gjenkjenneren 7, benytter hensiktsmessig den velkjente Viterbi-algoritmen. Delord-gjenkjenneren 7 kan for eksempel være en mik-roprosessor, slik som Intel^MSe^-mikroprosessoren eller Motorola™ 68000-mikroprosessoren, eller kan alternativt være en DSP-innretning (for eksempel den samme DSP-innretning som egenskapsutlederen 6).
Som beskrevet foran blir delord-modellene som er tilknyttet delord-gjenkjenneren, oppnådd på en taleruavhengig måte. De kodede representasjoner som genereres av delord-gjenkjenneren 7, er derfor taleravhengig bare i den grad at de representerer den fonemiske transkripsjon av hvordan en gitt bruker uttaler et ord.
Delord-gjenkjenneren 7 har et gjenkjenningsnett som påfører små eller ingen bånd på den mulige sekvens med delord-enheter som kan genereres. Et eksempel på et løst bundet nettverk er vist på figur 3. Dette nettverket tillater gjenkjennelse av en enkel forbundet sekvens av fonemer omgitt av støy. Fonem-sekvensen er fullstendig ubundet, og fonemsekvenser som ikke inntreffer i det be-nyttede språket, (i det beskrevne eksempel er dette engelsk) kan derfor genereres.
Et gjenkjenningsnettverk som vist på figur 3 tilveiebringer for tiden bedre transkripsjonsresultater for telefontale enn et fullstendig ubundet nettverk, dvs. ett uten støymodeller før og etter fonemmodellene. Det tillater ikke fonemer fulgt av støy fulgt av fonemer. Betydningen av dette for et praktisk system er at det vil fremheve systemets nøyaktighet for isolerte ord eller forbundne fraser, men vil ha problemer hvis brukeren innfører en frase med åpninger mellom ordene. For eksempel i en automatisk nummersender, hvis brukeren sier «John Smith» uten noe mellomrom mellom fornavn og etternavn, vil denne form for grammatikk ikke forår-sake noen problemer. Hvis derimot de lager en åpning mellom disse, vil ytelsen lide, Gjenkjenningsnettverket til delord-gjenkjenneren vil imidlertid være konstruert for å møte systemets krav, dvs. isolerte ord, forbundne ord, osv.
Ved første gangs bruk av tjenesten oppfordrer brukerapparatet brukeren om å frembringe de ord brukeren ønsker å tilføye gjenkjennerens vokabular. Som reaksjon på en hørbar oppfordring fra brukerapparatet, taler brukeren et valgt ord inn i mikrofonen. I et automatisk nummersendingssystem kan dette ordet være navnet på en person brukeren vil ønske å ringe til, for eksempel «Jane».
Vokabulargeneratoren utleder egenskaper fra inngangen, som blir gitt til delord-gjenkjenneren 7. Når inngangstalen er mottatt, blir den tilpasset mot modellene i lageret 8. Delord-gjenkjenneren 7 som har et gjenkjenningsnettverk som vist på figur 3, genererer en kodet representasjon av den talte inngang, hvor den kodede representasjon identifiserer sekvensen av modeller som er mest lik inngangstalen. En fonemisk transkripsjon av inngangstalen blir således generert. De genererte kodede representasjoner av treningsutsagnet blir så lagret i et lager 10. Brukeren blir så oppfordret til å gjenta inngangen, slik at en mer robust representasjon av inngangstalen blir dannet.
Fra eksperimenter blir det funnet at den oppnådde nøyaktighet når bare et treningsutsagn ble gitt, var 87,8 %, mens nøyaktigheten når tre treningsutsagn ble tilveiebrakt, steg betydelig til 93,7. Det er klart at en telefonlinje med dårlig kvalitet vil ha en betydelig virkning på utfallet av genereringen. Den oppnådde nøyaktig-het når tre treningsutsagn ble tilveiebrakt, var også høyere enn når mottatte uttale-transkripsjoner fra tekstinnmatinger ble brukt istedenfor delord-representasjonen. Mottatt uttale er aksenten til standard sørlig britisk engelsk.
En ytterligere oppfordring blir så gitt til brukeren ved å spørre om noen ytterligere ord skal tilføyes. Hvis brukeren reagerer bekreftende (for eksempel ved å bruke en forut bestemt DTMF-tast), blir gjenkjenningsprosessen gjentatt for det neste ordet. Hvis brukeren reagerer negativt, koples systemet til gjenkjenningsmodus, dvs. at talegjenkjenneren 3 blir operativ. I lageret 10 er det lagret kodede representasjoner for hver ytterligere vokabulardel som identifiserer en sekvens med referansedelord-representasjoner.
Straks representasjoner er blitt generert for hvert av de ønskede ord i vokabularet, kan vokabularet brukes av talegjenkjenneren 3. Figur 4 viser komponent-ene i talegjenkjenneren 3. Talegjenkjenneren 3 omfatter en egenskapsutleder 6', et delord-modellager 8' og et lager 10 for kodede representasjoner generert av vokabulargeneratoren 9. En nettverkgenerator 12 er tilknyttet lageret 10 og dan-ner et gjenkjenningsnett utformet ved hjelp av sekvensene med referansedelord-representasjoner som er representert av de kodede representasjoner. Et slikt nettverk kan for eksempel genereres ved å kombinere de enkelte kodede representasjoner fra lageret 10 i parallelle alternativer av nettverket, som vist på figur 5, eller ved å kombinere de kodede representasjoner i en trestruktur, som vist på figur 6, som begge viser et eksempel på en sekvens med fonemer identifisert i et utsagn av ordet «six» og «seven».
Under gjenkjenning blir et inngangstalesignal ført til egenskapsutledende
anordning 6', og egenskapene blir videreført til en gjenkjenner 16 som er tilknyttet det nettverk som konfigureres av nettverkgeneratoren 12. Den ukjente inngangstale blir sammenlignet med nettverket som er konfigurert, og et signal blir avgitt fra gjenkjenneren 16 hvis en sterk likhet er funnet mellom den ukjente inngangstale og en av grenene i nettverket, og dermed ett av ordene eller en av frasene som er representert av de kodede representasjoner. Straks gjenkjenning har inntruffet, tar brukerapparatet 4 det neste viktige trinn i henhold til tjenesten, for eksempel hvis tjenesten er en automatisk nummersendingstjeneste og gjenkjenneren 16 finner at orden «Jane» et blitt gjenkjent, vil brukerapparatet sende det nummeret som er tilordnet «Jane».
Figur 7 viser en annen utførelsesform av oppfinnelsen. Mens figurene 2 og 3 viser vokabulargeneratoren 9 og talegjenkjenneren 3 som separate komponenter, viser figur 7 dem kombinert i talegjenkjenningsapparatet 20. Vokabulargeneratoren 9 og gjenkjenneren 16 deler de felles komponenter, dvs. egenskapsutlederen 6, delord-modellageret 8 og det brukervalgte ordlager 10. Talegjenkjenningsapparatet 20 innbefatter i tillegg et lager 14 for forut bestemte ord som lagrer forhåndsdefinerte kodede representasjoner av fonem-transkripsjonene av forut bestemte ord som er egnet for det tilsiktede brukerapparatet. For et automatisk nummersendingssystem kan for eksempel disse forut bestemte ord være sifrene 0 til 9, «slå», «nei», «ja», «tilføy» osv.
Talegjenkjenningsapparatet 20 er normalt i gjenkjenningsmodus. Dvs. at inngangstalesignalet blir ført til gjenkjenneren 16. Når brukeren ønsker å tilføye et ord til systemvokabularet, sier brukeren ordet «tilføy». Dette signalet blir ført til egenskapsutlederen 6, og egenskapene blir ført til gjenkjenneren 16. Nettverkgeneratoren 12 genererer et nettverk bestående av alle de ord som er representert i lagrene 14 og 10 (ved begynnelsen vil det ikke være noen ord lagret i lageret 10). Gjenkjenneren 16 tilpasser inngangen til nettverket og gjenkjenner inngangen som ordet «tilføy» og innfører som reaksjon treningsmodusen ved å kople om inngangen til vokabulargeneratoren 9.
Brukeren fortsetter som i den tidligere utførelsesform ved å uttale de navn som skal tilføyes systemets vokabular. Delord-gjenkjenneren 7 i vokabulargeneratoren 9 genererer de kodede representasjoner for lagring i det brukervalgte lageret 10. Brukeren kan imidlertid reagere på oppfordringer fra brukerapparatet på en talt måte med å si «ja» og «nei», idet inngangstalesignalet blir koplet til gjenkjenneren 16 når en spesifikk respons er forventet.
Straks brukeren har valgt de ønskede ord, kombinerer det etterfølgende nettverket som genereres av nettverkgeneratoren 12, forhåndsbestemte ord fra lageret 14 og brukervalgte ord fra lageret 10. Den resulterende gjenkjenner har en grammatikk hvor noen av ordene er definert ved hjelp av fonemsekvenser utledet fra brukerens tale, og noen ord er forhåndsdefinert ved hjelp av sekvenser utleder fra en annen kilde. Ordene fra de to lågere kan kombineres slik at for eksempel hvis ordet "ring" er forhåndsdefinert, kan gjenkjenningsnettverket utformes for å kombinere "ring" med hvert av de valgte ord slik systemets grammatikk tillater den kombinerte tale "ring" Jane», idet "ring" er forhåndsdefinert, og "Jane" er brukervalg.
Et talegjenkjenningsapparat som har 50 % av vokabularet forhåndsdefinert, har en nøyaktighet lik et fullstendig brukervalgt vokabular når bare ett treningsutsagn er tilveiebrakt. Nøyaktigheten av et slikt apparat er imidlertid betydelig dårlig-ere enn et fullstendig brukervalgt vokabular når tre treningsutsagn ble tilveiebrakt.
I en ytterligere utførelsesform av oppfinnelsen har således talegjenkjenneren 20 et antall forhåndsbestemte ord i det forhåndsbestemte lageret 14, og et antall brukervalgte ord i lageret 10 som er definert under en treningsmodus. Delord-representasjoner av de forhåndsdefinerte ord blir generert fra en brukers inngangstale under bruk av apparatet ved å føre egenskapene fra den egenskapsutledende anordning 6 til delord-gjenkjenneren 7 samt til gjenkjenneren 16. De kodede representasjoner som genereres av delord-gjenkjenneren for utsagnet, blir til-føyd lagret tid. Påfølgende utsagn bør passe bedre til de representasjoner som er lagret i lageret 10, enn de som er lagret i lageret 14, noen som resulterer i forbed-ret nøyaktighet i gjenkjenningen av forhåndsdefinerte ord.
Claims (16)
1. Fremgangsmåte for generering av et vokabular for et talegjenkjenningsapparat, idet fremgangsmåten omfatter: å motta et inngangstalesignal som representerer et ord; å utlede egenskapssampler fra det mottatte talesignal; å sammenligne egenskapssamplene med tillatte sekvenser av referansedelord-representasjoner, idet minst en av de nevnte delord-representasjoner er i stand til å representere en sekvens av mere enn en egenskapssampel; å identifisere den tillatte sekvensen av referansedelord-representasjoner som ligner mest på det mottatte talesignalet og å generere en kodet representasjon fra den nevnte tillatte sekvens; og å lagre den genererte kodede representasjonen av ordet for etterfølgende gjenkjenning av et annet talesignal.
2. Fremgangsmåte ifølge krav 1, der alle mulige sekvenser av referansedelord-representasjonene er tillatte.
3. Fremgangsmåte ifølge krav 1, hvor de tillatte sekvensene av delord-representasjoner er begrenset til sekvenser som omfatter delord-representasjoner som representerer støy fulgt av delord-representasjoner som representerer tale fulgt av delord-representasjoner som representerer støy.
4. Fremgangsmåte ifølge krav 1, der trinnet med å identifisere den tillatte sekvensen av referansedelord-representasjoner som ligner mest på det mottatte talesignalet inkluderer betraktning av lagrede parametere som hver representerer en overgangssannsynlighet for en delord-representasjon fulgt av en tydeligere delord-representasjon.
5. Fremgangsmåte ifølge et hvilket som helst av de foregående krav, videre omfattende trinnet å generere et gjenkjenningsnettverk fra en eller flere lagrede delord-representasjoner, idet nettverket representerer tillatte sekvenser av delord-representasjoner i det genererte vokabularet.
6. Fremgangsmåte ifølge et hvilket som helst av de foregående krav, der delord-representasjonene er statistiske modeller.
7. Fremgangsmåte ifølge krav 6, der delord-representasjonene er skjulte Markov-modeller.
8. Vokabulargenereringsapparat (9) for generering av et vokabular fra et inngangstalesignal omfattende: et lager (8) som inneholder flere referansedelord-representasjoner; en egenskapsutleder (6) for å motta inngangstalesignalet og innrettet for å generere egenskapssampler; en delord-gjenkjenner (7) koplet for å motta de genererte egenskapssamplene, idet delord-gjenkjenneren har et vokabular av tillatte sekvenser av delord-representasjoner, idet minst en av de nevnte delord-representasjonene er i stand til å representere en sekvens av mere enn en egenskapssampel; der delord-gjenkjenneren er i drift innrettet for å
sammenligne de mottatte egenskapssamplene med de tillatte sekvensene av referansedelord-representasjonene; og
å generere en kodet representasjon ved å identifisere en tillatt sekvens av réferansedelord-representasjonene som ligner mest på inngangstalesignalet; og et ordlager (10) for lagring av den kodede representasjonen av inngangstalesignalet for etterfølgende gjenkjenning av et annet talesignal.
9. Apparat ifølge krav 8, videre inkluderende en gjenkjenner (16) innrettet til å sammenligne inngangstalesignalene med kodede representasjoner i ordlageret (10) og å mate ut et signal som indikerer gjenkjenning.
10. Apparat ifølge krav 9, videre omfattende et andre lager (14) av kodede representasjoner av ord, hvilke kodede representasjoner har blitt generert på en for-skjellig måte i forhold til de kodede representasjonene som er lagret i ordlageret.
11. Apparat ifølge krav 10, der de kodede representasjoner av ordene identifiserer en sekvens av referansedelord-representasjonene.
12. Apparat ifølge et hvilket som helst av kravene 8 til 11, der vokabularet definerer sekvenser av delord-representasjoner som omfatter delord-representasjoner som representerer støy fulgt av delord-representasjoner som representerer tale fulgt av delord-representasjoner som representerer støy.
13. Apparat ifølge et hvilket som helst av kravene 8 til 11, der vokabularet definerer alle mulig sekvenser av delord-representasjoner.
14. Apparat ifølge et hvilket som helst av kravene 8 til 13, der genereringen av den tillatte sekvensen av referansedelord-representasjoner som ligner mest på det mottatte talesignalet inkluderer betraktning av lagrede parametere som hver representerer en overgangssannsynlighet av en delord-representasjon etterfølgende en tidligere delord-representasjon.
15. Apparat ifølge et hvilket som helst av kravene 8 til 14, der delord-representasjonene er statistiske modeller.
16. Apparat ifølge krav 15, der delord-representasjonene er skjulte Markov-modeller.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP94308023 | 1994-11-01 | ||
PCT/GB1995/002563 WO1996013827A1 (en) | 1994-11-01 | 1995-11-01 | Speech recognition |
Publications (3)
Publication Number | Publication Date |
---|---|
NO972026D0 NO972026D0 (no) | 1997-04-30 |
NO972026L NO972026L (no) | 1997-04-30 |
NO309750B1 true NO309750B1 (no) | 2001-03-19 |
Family
ID=8217896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
NO972026A NO309750B1 (no) | 1994-11-01 | 1997-04-30 | Talegjenkjenning |
Country Status (17)
Country | Link |
---|---|
US (1) | US6389395B1 (no) |
EP (1) | EP0789901B1 (no) |
JP (1) | JPH10507536A (no) |
KR (1) | KR100383353B1 (no) |
CN (1) | CN1121680C (no) |
AU (1) | AU707355B2 (no) |
CA (1) | CA2202656C (no) |
DE (1) | DE69514382T2 (no) |
DK (1) | DK0789901T3 (no) |
ES (1) | ES2143079T3 (no) |
FI (1) | FI971822A0 (no) |
HK (1) | HK1002787A1 (no) |
MX (1) | MX9703138A (no) |
NO (1) | NO309750B1 (no) |
NZ (1) | NZ294659A (no) |
PT (1) | PT789901E (no) |
WO (1) | WO1996013827A1 (no) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU1424400A (en) * | 1998-10-13 | 2000-05-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Speech recognition and control system and telephone |
JP2000187435A (ja) * | 1998-12-24 | 2000-07-04 | Sony Corp | 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法 |
EP1159688A2 (en) | 1999-03-05 | 2001-12-05 | Canon Kabushiki Kaisha | Database annotation and retrieval |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
DE60036486T2 (de) * | 1999-10-28 | 2008-06-12 | Canon K.K. | Methode und apparat zum prüfen von musterübereinstimmungen |
US6882970B1 (en) | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
GB0027178D0 (en) * | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
GB0028277D0 (en) | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
US20030009331A1 (en) * | 2001-07-05 | 2003-01-09 | Johan Schalkwyk | Grammars for speech recognition |
US20030115169A1 (en) * | 2001-12-17 | 2003-06-19 | Hongzhuan Ye | System and method for management of transcribed documents |
US6990445B2 (en) * | 2001-12-17 | 2006-01-24 | Xl8 Systems, Inc. | System and method for speech recognition and transcription |
US7181398B2 (en) * | 2002-03-27 | 2007-02-20 | Hewlett-Packard Development Company, L.P. | Vocabulary independent speech recognition system and method using subword units |
US20030200094A1 (en) * | 2002-04-23 | 2003-10-23 | Gupta Narendra K. | System and method of using existing knowledge to rapidly train automatic speech recognizers |
US7206738B2 (en) * | 2002-08-14 | 2007-04-17 | International Business Machines Corporation | Hybrid baseform generation |
DE10244169A1 (de) * | 2002-09-23 | 2004-04-01 | Infineon Technologies Ag | Spracherkennungseinrichtung, Steuereinrichtung und Verfahren zum rechnergestützten Ergänzen eines elektronischen Wörterbuches für eine Spracherkennungseinrichtung |
WO2004036939A1 (fr) * | 2002-10-18 | 2004-04-29 | Institute Of Acoustics Chinese Academy Of Sciences | Appareil de communication mobile numerique portable, procede de commande vocale et systeme |
US7149688B2 (en) * | 2002-11-04 | 2006-12-12 | Speechworks International, Inc. | Multi-lingual speech recognition with cross-language context modeling |
JP4072718B2 (ja) * | 2002-11-21 | 2008-04-09 | ソニー株式会社 | 音声処理装置および方法、記録媒体並びにプログラム |
US20040230431A1 (en) * | 2003-05-14 | 2004-11-18 | Gupta Sunil K. | Automatic assessment of phonological processes for speech therapy and language instruction |
US7302389B2 (en) * | 2003-05-14 | 2007-11-27 | Lucent Technologies Inc. | Automatic assessment of phonological processes |
US7373294B2 (en) * | 2003-05-15 | 2008-05-13 | Lucent Technologies Inc. | Intonation transformation for speech therapy and the like |
US20040243412A1 (en) * | 2003-05-29 | 2004-12-02 | Gupta Sunil K. | Adaptation of speech models in speech recognition |
WO2006033044A2 (en) * | 2004-09-23 | 2006-03-30 | Koninklijke Philips Electronics N.V. | Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system |
JP2009525492A (ja) * | 2005-08-01 | 2009-07-09 | 一秋 上川 | 英語音、および他のヨーロッパ言語音の表現方法と発音テクニックのシステム |
US7697827B2 (en) | 2005-10-17 | 2010-04-13 | Konicek Jeffrey C | User-friendlier interfaces for a camera |
US7774202B2 (en) * | 2006-06-12 | 2010-08-10 | Lockheed Martin Corporation | Speech activated control system and related methods |
US8386248B2 (en) * | 2006-09-22 | 2013-02-26 | Nuance Communications, Inc. | Tuning reusable software components in a speech application |
US7881932B2 (en) * | 2006-10-02 | 2011-02-01 | Nuance Communications, Inc. | VoiceXML language extension for natively supporting voice enrolled grammars |
US8751230B2 (en) * | 2008-06-27 | 2014-06-10 | Koninklijke Philips N.V. | Method and device for generating vocabulary entry from acoustic data |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
US20110224982A1 (en) * | 2010-03-12 | 2011-09-15 | c/o Microsoft Corporation | Automatic speech recognition based upon information retrieval methods |
US20120116764A1 (en) * | 2010-11-09 | 2012-05-10 | Tze Fen Li | Speech recognition method on sentences in all languages |
GB2513821A (en) * | 2011-06-28 | 2014-11-12 | Andrew Levine | Speech-to-text conversion |
US8781825B2 (en) * | 2011-08-24 | 2014-07-15 | Sensory, Incorporated | Reducing false positives in speech recognition systems |
US9135912B1 (en) * | 2012-08-15 | 2015-09-15 | Google Inc. | Updating phonetic dictionaries |
TWI536366B (zh) | 2014-03-18 | 2016-06-01 | 財團法人工業技術研究院 | 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體 |
US9607618B2 (en) * | 2014-12-16 | 2017-03-28 | Nice-Systems Ltd | Out of vocabulary pattern learning |
US10719115B2 (en) * | 2014-12-30 | 2020-07-21 | Avago Technologies International Sales Pte. Limited | Isolated word training and detection using generated phoneme concatenation models of audio inputs |
KR102509821B1 (ko) * | 2017-09-18 | 2023-03-14 | 삼성전자주식회사 | Oos 문장을 생성하는 방법 및 이를 수행하는 장치 |
CN109074804B (zh) * | 2018-07-18 | 2021-04-06 | 深圳魔耳智能声学科技有限公司 | 基于口音的语音识别处理方法、电子设备和存储介质 |
CN109074808B (zh) * | 2018-07-18 | 2023-05-09 | 深圳魔耳智能声学科技有限公司 | 语音控制方法、中控设备和存储介质 |
CN112951270B (zh) * | 2019-11-26 | 2024-04-19 | 新东方教育科技集团有限公司 | 语音流利度检测的方法、装置和电子设备 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4489434A (en) | 1981-10-05 | 1984-12-18 | Exxon Corporation | Speech recognition method and apparatus |
US5129000A (en) * | 1986-04-05 | 1992-07-07 | Sharp Kabushiki Kaisha | Voice recognition method by analyzing syllables |
US4903305A (en) * | 1986-05-12 | 1990-02-20 | Dragon Systems, Inc. | Method for representing word models for use in speech recognition |
US4866778A (en) * | 1986-08-11 | 1989-09-12 | Dragon Systems, Inc. | Interactive speech recognition apparatus |
US4837831A (en) * | 1986-10-15 | 1989-06-06 | Dragon Systems, Inc. | Method for creating and using multiple-word sound models in speech recognition |
US5129001A (en) * | 1990-04-25 | 1992-07-07 | International Business Machines Corporation | Method and apparatus for modeling words with multi-arc markov models |
US5181237A (en) | 1990-10-12 | 1993-01-19 | At&T Bell Laboratories | Automation of telephone operator assistance calls |
US5465318A (en) * | 1991-03-28 | 1995-11-07 | Kurzweil Applied Intelligence, Inc. | Method for generating a speech recognition model for a non-vocabulary utterance |
DE4111781A1 (de) * | 1991-04-11 | 1992-10-22 | Ibm | Computersystem zur spracherkennung |
US5502790A (en) * | 1991-12-24 | 1996-03-26 | Oki Electric Industry Co., Ltd. | Speech recognition method and system using triphones, diphones, and phonemes |
CA2088080C (en) * | 1992-04-02 | 1997-10-07 | Enrico Luigi Bocchieri | Automatic speech recognizer |
US5297183A (en) * | 1992-04-13 | 1994-03-22 | Vcs Industries, Inc. | Speech recognition system for electronic switches in a cellular telephone or personal communication network |
EP0590173A1 (de) * | 1992-09-28 | 1994-04-06 | International Business Machines Corporation | Computersystem zur Spracherkennung |
AU5803394A (en) * | 1992-12-17 | 1994-07-04 | Bell Atlantic Network Services, Inc. | Mechanized directory assistance |
US5384892A (en) * | 1992-12-31 | 1995-01-24 | Apple Computer, Inc. | Dynamic language model for speech recognition |
US5390279A (en) * | 1992-12-31 | 1995-02-14 | Apple Computer, Inc. | Partitioning speech rules by context for speech recognition |
US5488652A (en) * | 1994-04-14 | 1996-01-30 | Northern Telecom Limited | Method and apparatus for training speech recognition algorithms for directory assistance applications |
US5710864A (en) * | 1994-12-29 | 1998-01-20 | Lucent Technologies Inc. | Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords |
US5717826A (en) * | 1995-08-11 | 1998-02-10 | Lucent Technologies Inc. | Utterance verification using word based minimum verification error training for recognizing a keyboard string |
-
1995
- 1995-11-01 DK DK95935526T patent/DK0789901T3/da active
- 1995-11-01 DE DE69514382T patent/DE69514382T2/de not_active Expired - Lifetime
- 1995-11-01 CN CN95195955A patent/CN1121680C/zh not_active Expired - Lifetime
- 1995-11-01 JP JP8513513A patent/JPH10507536A/ja active Pending
- 1995-11-01 ES ES95935526T patent/ES2143079T3/es not_active Expired - Lifetime
- 1995-11-01 WO PCT/GB1995/002563 patent/WO1996013827A1/en active IP Right Grant
- 1995-11-01 KR KR1019970702853A patent/KR100383353B1/ko not_active Expired - Lifetime
- 1995-11-01 MX MX9703138A patent/MX9703138A/es unknown
- 1995-11-01 AU AU37516/95A patent/AU707355B2/en not_active Expired
- 1995-11-01 US US08/817,072 patent/US6389395B1/en not_active Expired - Lifetime
- 1995-11-01 NZ NZ294659A patent/NZ294659A/xx not_active IP Right Cessation
- 1995-11-01 PT PT95935526T patent/PT789901E/pt unknown
- 1995-11-01 CA CA002202656A patent/CA2202656C/en not_active Expired - Lifetime
- 1995-11-01 EP EP95935526A patent/EP0789901B1/en not_active Expired - Lifetime
-
1997
- 1997-04-29 FI FI971822A patent/FI971822A0/fi unknown
- 1997-04-30 NO NO972026A patent/NO309750B1/no not_active IP Right Cessation
-
1998
- 1998-02-20 HK HK98101344A patent/HK1002787A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
NZ294659A (en) | 1999-01-28 |
AU3751695A (en) | 1996-05-23 |
HK1002787A1 (en) | 1998-09-18 |
PT789901E (pt) | 2000-04-28 |
EP0789901A1 (en) | 1997-08-20 |
WO1996013827A1 (en) | 1996-05-09 |
NO972026D0 (no) | 1997-04-30 |
DE69514382D1 (de) | 2000-02-10 |
KR100383353B1 (ko) | 2003-10-17 |
CA2202656A1 (en) | 1996-05-09 |
KR970707529A (ko) | 1997-12-01 |
CN1121680C (zh) | 2003-09-17 |
US6389395B1 (en) | 2002-05-14 |
DE69514382T2 (de) | 2001-08-23 |
NO972026L (no) | 1997-04-30 |
EP0789901B1 (en) | 2000-01-05 |
CA2202656C (en) | 2002-01-01 |
MX9703138A (es) | 1997-06-28 |
ES2143079T3 (es) | 2000-05-01 |
AU707355B2 (en) | 1999-07-08 |
FI971822L (fi) | 1997-04-29 |
CN1162365A (zh) | 1997-10-15 |
JPH10507536A (ja) | 1998-07-21 |
FI971822A0 (fi) | 1997-04-29 |
DK0789901T3 (da) | 2000-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
NO309750B1 (no) | Talegjenkjenning | |
US5791904A (en) | Speech training aid | |
US6085160A (en) | Language independent speech recognition | |
US7013276B2 (en) | Method of assessing degree of acoustic confusability, and system therefor | |
EP0984430B1 (en) | Speech recognizer with lexicon updateable by spelled word input | |
US7415411B2 (en) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers | |
US20070239455A1 (en) | Method and system for managing pronunciation dictionaries in a speech application | |
EP2048655A1 (en) | Context sensitive multi-stage speech recognition | |
US20070239444A1 (en) | Voice signal perturbation for speech recognition | |
JPH0422276B2 (no) | ||
Razak et al. | Quranic verse recitation recognition module for support in j-QAF learning: A review | |
US7072750B2 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
US20180012602A1 (en) | System and methods for pronunciation analysis-based speaker verification | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
US20020095282A1 (en) | Method for online adaptation of pronunciation dictionaries | |
WO2007067837A2 (en) | Voice quality control for high quality speech reconstruction | |
JP3959540B2 (ja) | 自動翻訳装置 | |
Hirose et al. | Continuous speech recognition of Japanese using prosodic word boundaries detected by mora transition modeling of fundamental frequency contours | |
Kessens et al. | Improving recognition performance by modelling pronunciation variation. | |
Manjunath et al. | Improvement of phone recognition accuracy using source and system features | |
Kessens et al. | Automatic detection and verification of Dutch phonological rules | |
KR100445907B1 (ko) | 음성언어 식별 장치 및 방법 | |
Colla | Some considerations on the definition of sub-word units for a template-matching speech recognition system | |
JPH0667686A (ja) | 音声認識装置 | |
Kao | Mandarin recognition over the telephone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM1K | Lapsed by not paying the annual fees |