[go: up one dir, main page]

NO309750B1 - Talegjenkjenning - Google Patents

Talegjenkjenning Download PDF

Info

Publication number
NO309750B1
NO309750B1 NO972026A NO972026A NO309750B1 NO 309750 B1 NO309750 B1 NO 309750B1 NO 972026 A NO972026 A NO 972026A NO 972026 A NO972026 A NO 972026A NO 309750 B1 NO309750 B1 NO 309750B1
Authority
NO
Norway
Prior art keywords
representations
word
subword
vocabulary
representing
Prior art date
Application number
NO972026A
Other languages
English (en)
Other versions
NO972026D0 (no
NO972026L (no
Inventor
Simon Patrick Alexand Ringland
Original Assignee
British Telecomm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by British Telecomm filed Critical British Telecomm
Publication of NO972026D0 publication Critical patent/NO972026D0/no
Publication of NO972026L publication Critical patent/NO972026L/no
Publication of NO309750B1 publication Critical patent/NO309750B1/no

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Selective Calling Equipment (AREA)
  • Navigation (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Document Processing Apparatus (AREA)

Description

Oppfinnelsen vedrører taleprosessering, og spesielt talegjenkjenning.
Utviklere av talegjenkjenningsapparater har som endelig mål å produsere maskiner med hvilke en person kan vekselvirke på en fullstendig naturlig måte uten begrensninger. Grensesnittet mellom menneske og maskin vil ideelt være fullstendig sømløst.
Dette er en visjon som nærmer seg oppfyllelse, men full flyt mellom menneske og maskin er likevel ennå ikke oppnådd. For å oppnå flyt vil en automati-sert gjenkjenner kreve et uendelig vokabular av ord og vil måtte kunne forstå talen til enhver bruker, uansett aksent, uttale, osv. Nåværende teknologi og vår begrensede forståelse av hvordan menneskelige vesener forstår tale, gjør dette ugjen-nomførlig.
Nåværende talegjenkjenningsapparater omfatter data som vedrører det begrensede vokabular som apparatet er i stand til å gjenkjenne. Dataene vedrø-rer generelt statistiske modeller eller sjabloner som representerer ordene i det begrensede vokabularet. Under gjenkjennelse blir et inngangssignal sammenlignet med de lagrede data for å bestemme likheten mellom inngangssignalet og de lagrede data. Hvis en nær nok tilpasning blir funnet, blir inngangssignalet vanligvis bedømt å være gjenkjent som vedkommende modell eller sjablon (eller sekvens av modeller eller sjabloner) som gir den nærmeste tilpasning.
Sjablonene eller modellene blir vanligvis dannet ved å måle spesielle egenskaper ved inngående tale. Egenskapsmålingene er vanligvis utgangssignalet fra en eller annen form av spektralanalyse-teknikk, slik som en filterbank-analysator, en lineær prediktiv kodingsanalyse eller en diskret transformasjonsanalyse. Egenskapsmålingene til en eller flere trenings-inngangssignaler som svarer til den samme talelyd (dvs. et spesielt ord, frase, osv.) blir vanligvis brukt til å lagre ett eller flere referansemønstre som er representative for vedkommende lyds egenskaper. Referansemønsteret kan være en sjablon utledet fra en eller annen type midlings-teknikk, eller det kan være en modell som karakteriserer statistikkene for egenskapene til trenings-inngangssignalene for en spesiell lyd.
En ukjent innmating blir så sammenlignet med referansemønsteret for hver lyd i gjenkjennelsesvokabularet, og et mål på likhet mellom det ukjente inngangssignal og hvert referansemønster blir beregnet. Dette mønsterklassifiseringstrin-net kan innbefatte en global tidsinnrettings-prosedyre (kjent som dynamisk tids-vridning, dyanamic time warping, DTW) som kompenserer for forskjellige talehas-tigheter. Likhetsmålingene blir så brukt til å beslutte hvilket referansemønster som best passer til den ukjente inngang, og dermed hva som blir bedømt som gjenkjent.
Den tilsiktede bruk av talegjenkjenneren kan også bestemme systemets
egenskaper. For eksempel et system som er konstruert for å være taleravhengig, krever bare trenings-inngangssignaler fra en enkelt taler. Modellene eller sjablonene representerer således inngangstalen til en spesiell taler istedenfor middeltalen eller gjennomsnittstalen til et antall brukere. Selv om et slikt system har god gjen-kjennelseshyppighet for den taler som trenings-inngangssignalene blir mottatt fra, er et slikt system opplagt ikke egnet for anvendelse av andre brukere.
Taleruavhengig gjenkjennelse beror på ordmodeller som formes fra ytring-ene til et antall talere. Statistiske modeller eller sjabloner som representerer tren-ingsytringene til hver spesiell taleinngang, blir dannet for etterfølgende gjenkjen-nelsesformål. Selv om taleruavhengige systemer virker forholdsvis godt for et stort antall brukere, vil ytelsen til et taleruavhengig system sannsynligvis være lav for en bruker som har en aksent, intonasjon, uttale osv., som adskiller seg betydelig fra treningsprøvene.
For å utvide det akseptable vokabular må det oppnås tilstrekkelige trenings-prøver av det ytterligere vokabular. Dette er en tidkrevende operasjon som ikke kan rettferdiggjøres hvis vokabularet endres gjentatte ganger.
Det er kjent å tilveiebringe talegjenkjenningssystemer hvor det vokabular som et system er i stand til å gjenkjenne, kan utvides av en tjenesteleverandør som mater inn det ytterligere vokabular i tekstform. Ett eksempel på et slikt system er Flexword fra AT&T. I et slikt system blir ord omformet fra tekstform til sine fonetiske transkripsjoner i henhold til lingvistiske regler. Det er disse transkripsjonene som blir brukt i en talegjenkjenner som har akustiske modeller for hvert av fonemene.
Antallet fonemer i et språk er ofte en skjønnssak og kan avhenge av den spesielle lingvist som er involvert. I det engelske språk finnes det omkring 40 fonemer som er vist i tabell 1.
En referanse hertil fonemer eller delord vedrører enhver hensiktsmessig byggeblokk av ord, for eksempel fonemer, fonem-strenger, allofoner, osv. Enhver referanse her til fonem eller delord er ombyttelig og refererer til denne bredere tolkning.
For gjenkjenningsformål kan et nettverk av den fonemisk transkriberte tekst dannes fra lagrede modeller som representerer de enkelte fonemer. Under gjenkjenning blir inngangstale sammenlignet med strengene av referansemodeller som representerer hvert tillatt ord eller frase. Modellene som representerer de enkelte fonemer, kan være generert på en taleruavhengig måte fra utsagn fra et antall forskjellige talere. Alle egnede modeller kan brukes, slik som skjulte Markov-modeller.
Et slikt system tillater ingen avvik fra de vanlige fonemiske transskripsjoner av ord, for eksempel hvis en person har en sterk aksent. Selv om en bruker har talt ett ord som er i systemets vokabular, vil således inngangstalen muligens ikke bli gjenkjent som sådan.
Det er ønskelig å kunne tilpasse et taleruavhengig system slik at det er egnet for anvendelse av en bruker med en uttale som adskiller seg fra den model-lerte taler. Europeisk patentsøknad nr 453649 beskriver et slikt apparat hvor de tillatte ord i apparatets vokabular blir modellert av en modellkjede som representerer delenheter av ord, for eksempel fonemer. «Ord»-modellene, dvs. de lagrede kjeder, blir så innstilt på en spesiell brukers tale ved å anslå nye parametere for ordmodellen fra brukerens tale. Kjente, forhåndsdefinerte ordmodeller (dannet av en kjede med fonem-modeller) blir således tilpasset en spesiell bruker.
Likeledes beskriver europeisk patentsøknad nr 508225 et talegjenkjenningsapparat der ord som skal gjenkjennes, er lagret sammen med en fonemsek-vens som representerer ordet. Under innstilling taler en bruker ordene i vokabularet, og parameterne i fonemmodellen blir tilpasset brukerens inngang.
I begge disse kjente systemer er et forhåndsbestemt vokabular nødvendig i form av sammenkjedede sekvenser av fonemer. I mange tilfeller ville det imidlertid være ønskelig for en bruker å tilføye ord til vokabularet, idet slike ord er spesi-fikke for disse brukerne. Et kjent middel for å forsyne en aktuell bruker med denne fleksibiliteten, består i å bruke taleravhengig teknologi for å danne nye ordmodeller som så blir lagret i en separat ordbok. Brukeren må tale hvert ord en eller flere ganger for å innstille systemet. Disse taleravhengige modellene blir vanligvis dannet ved å bruke DTW eller lignende teknikker som krever forholdsvis store lagermengder for å lagre hver brukers sjabloner. Hvert ord for hver bruker vil typisk oppta minst 125 byte (og muligens over 2 kilobyte. Dette betyr at med et vokabular på 20 ord, må mellom 2,5 og 40 kilobyte lastes ned i gjenkjenneren før gjenkjenning kan begynne. Videre ville en telefonnett-basert tjeneste med bare tusen brukere behøve mellom 2,5 og 20 megabyte platelager bare for brukernes sjabloner. Ett eksempel på en slik tjeneste er en automatisk nummersender hvor en bruker definerer de mennesker han ønsker å ringe til, slik at et telefonanrop senere kan utføres ved å uttale navnet på den tilsiktede mottakeren.
Europeisk patentsøknad nr 590173 beskriver et system hvor en bruker som taler et ord som er ukjent for et gjenkjenningssystem, kan korrigere ordet og tilføye dette ordet til systemets vokabular. Den eneste beskrevne fremgangsmåte til å gjøre nye ord kjent for gjenkjenningssystemet, er ved innmating via et tastatur.
En fremgangsmåte for generering av et vokabular for et talegjenkjenningsapparat omfatter, å motta et inngangstalesignal som representerer et utsagn; å generere fra hvert utsagn en kodet representasjon som fra et antall av referansedelord-representasjoner identifiserer en sekvens av referansedelord-representasjoner som nærmest ligner utsagnet; og å lagre den genererte kodede representasjon av utsagnene for etterfølgende gjenkjenningsformål.
En slik fremgangsmåte tillater en bruker å velge nye ord uten at det er nød-vendig å danne nye akustiske modeller av hvert av ordene, idet hvert ord eller hver frase blir modellert som en sekvens av referansedelord-representasjoner som er unike for vedkommende bruker. Dette krever ingen tidligere kunnskap vedrørende de ord som skal tilføyes vokabularet, og gjør det dermed mulig for en bruker å tilføye ethvert ønsket ord eller enhver ønsket frase.
De kodede representasjoner av de ord som er valgt av en bruker, vil sannsynligvis ha en sterkere likhet med brukerens tale enn modeller dannet fra tekst. De kodede representasjoner krever i tillegg en lagringskapasitet som er minst en størrelsesorden mindre enn lagring av ord representasjonene som DTW-modeller (selv om dette kan gå litt på bekostning av nøyaktigheten).
Genereringen av den kodede representasjon er fortrinnsvis ikke begrenset av grammatiske regler, d.v.s. at enhver delord-representasjon kan følges av enhver annen. Alternativt kan det anvendes en bigram-grammatikk som påfører overgangssannsynligheter mellom hvert par med delord, for eksempel fonemer. Et par fonemer som vanligvis ikke opptrer i ett gitt språk (for eksempel PH i engelsk språk) har således en lav overgangssannsynlighet.
Kodede representasjoner av mer enn ett talesignal som representerer det samme utsagn, kan genereres. Eventuelle uregelmessigheter i den kodede representasjon vil da bli tatt hensyn til. Hvis for eksempel et utsagn blir gjort over en støyfylt telefonlinje, så kan den kodede representasjon av utsagn ha liten likhet med den kodede representasjon av det samme utsagnet over en tydelig telefonlinje. Det kan være riktig å motta tre treningsinnganger eller innstillingsinnganger av et utsagn og forkaste en kodet representasjon som adskiller seg betydelig fra de andre. Alternativt kan alle de kodede representasjoner beholdes. Om alle de kodede representasjoner blir lagret eller ikke, bestemmes av den som utvikler apparatet.
Det beskrives også et apparat for generering av et vokabular som omfatter en utledningsanordning for å utlede egenskapsprøver fra et inngangstalesignal; en delord-gjenkjenner for generering fra hver prøve av inngangstalesignalet, en kodet representasjon som fra et antall referansedelord-representasjoner identifiserer en sekvens av referansedelord-representasjoner som nærmest ligner inngangstalesignaler, og et lager for lagring av den kodede representasjon av inngangstalesignalet for etterfølgende gjenkjenningsformål.
Apparatet er ment tilknyttet en talegjenkjenner som er utformet for å gjenkjenne de utsagn som representeres av de kodede representasjoner. Under gjenkjenning sammenligner talegjenkjenneren ukjente inngangstalesignaler med sekvensene av delord-representasjoner som er representert ved de kodede representasjoner som er lagret i lageret, og mater ut et signal som indikerer gjenkjennelse eller ikke.
Grammatikken til delordgjenkjenneren er fortrinnsvis løselig bundet. For eksempel kan delordgjenkjenneren være bundet til å gjenkjenne enhver sekvens av delord-enheter, befengt med linjestøy. Alternativt kan det brukes en bigram-grammatikk som påfører overgangsannsynligheter mellom hvert fonempar.
Talegjenkjenningsapparatet kan være utformet for også å gjenkjenne visse forhåndsdefinerte ord. De forhåndsdefinerte ordene er fortrinnsvis også lagret som kodede representasjoner av delord-transkripsjoner av de forhåndsdefinerte ord. De forhåndsdefinerte ord og de ord som er valgt av en bruker, er således modellert ved å bruke de samme referansedelord. Talegjenkjenneren kan være utformet for å gjenkjenne forhåndsdefinerte ord talt i forbindelse med brukervalgte ord.
Referansedelord-representasjonene representerer fortrinnsvis fonemer. Hver delord-representasjon kan være en statistisk modell av et antall taleres inngangstale som inneholder det spesielle delord. Modellene er fortrinnsvis skjulte Markov-modeller, selv om andre modeller kan brukes.
En fremgangsmåte ifølge oppfinnelsen for generering av et vokabular for et talegjenkjenningsapparat er angitt i det selvstendige krav 1. Oppfinnelsen omfatter også et vokabulargenereringsapparat for generering av et vokabular fra et inn-gangs talesignal som er angitt i det selvstendige krav 8. Foretrukkede utførelses-former av fremgangsmåten og apparatet er angitt henholdsvis i de uselvstendige kravene 2-7 og 9-16.
Oppfinnelsen skal nå beskrives ytterligere ved hjelp av et eksempel, under henvisning til de vedføyde tegninger, hvor: Fig. 1 skjematisk viser innsettingen av et talegjenkjenningsapparat i hen hold til oppfinnelsen i et telekommunikasjonsmiljø; Fig. 2 er et blokkskjema som viser de funksjonelle elementer i en vokabu lar-generator i henhold til oppfinnelsen; Fig. 3 viser et eksempel på et løst bundet nettverk, brukt i vokabulargene ratoren på figur 2; Fig. 4 viser en talegjenkjenner for bruk med vokabulargeneratoren som er vist på figur 2; Fig. 5 viser et eksempel på et gjenkjenningsnettverk brukt med talegjen kjenneren på figur 4; Fig. 6 viser et alternativt gjenkjenningsnettverk til det som er vist på figur 5;
og
Fig. 7 viser en annen utførelsesform av et talegjenkjenningsapparat i henhold til oppfinnelsen.
Det vises til figur 1 hvor et telekommunikasjonssystem som innbefatter talegjenkjenning, generelt omfatter en mikrofon 1 (som typisk utgjør en del av et tele-fonhåndsett), et telekommunikasjonsnett 2 (vanligvis et offentlig telenett PSTN), en talegjenkjenner 3 koplet for å motta et talesignal fra nettet, og et brukerapparat 4 koplet til talegjenkjenneren 3 og innrettet for å motta fra denne et talegjenkjen-ningssignal som indikerer gjenkjennelse eller ikke av et spesielt ord eller en spesiell frase og for å foreta en handling som reaksjon på dette. For eksempel kan brukerapparatet 4 være et fjernstyrt automatisk nummersendingssystem hvor en bruker ikke slår det ønskede nummer, men bare sier navnet på den person som skal oppringes.
I mange tilfeller vil brukerapparatet 4 generere en hørbar reaksjon til brukeren, sendt via nettet 2 til en høyttaler 5 som vanligvis utgjør en del av brukerens håndsett.
Under anvendelse taler en bruker inn i mikrofonen 1, og et signal blir sendt fra mikrofonen 1 inn i nettet 2 til talegjenkjenneren 3. Talegjenkjenneren analyse-rer talesignalet, og et signal som indikerer gjenkjennelse eller ikke av et spesielt ord eller en spesiell frase, blir generert og sendt til brukerapparatet 4, som så utfø-rer en passende handling hvis talen blir gjenkjent.
Når en bruker først anvender den tjenesten som leveres av brukerapparatet 4, må talegjenkjenneren 3 innhente data vedrørende det vokabular som etterfølg-ende ukjente talesignaler skal verifiseres mot. Denne datainnsamling blir utført av en vokabulargenerator 9 i treningsmodus-drift hvor brukeren tilveiebringer trenings-inngangstalesignaler hvorfra de kodede representasjoner av delord-innholdet i trenings-inngangstaler blir generert for etterfølgende gjenkjenningsformål.
På figur 2 er de funksjonelle elementer i en vokabulargenerator 9 i henhold til oppfinnelsen vist. Vokabulargeneratoren 9 omfatter en egenskapsutleder 6 for å utlede egenskapsdata fra et inngangstalesignal som er blitt oppdelt i en rekke rammer med tilstøtende prøver. Rammen representerer konvensjonelt en 16 ms prøve av inngangstalen, hvor hver prøve blir vindusstyrt (for eksempel ved å bruke et Hamming-vindu). Eksempler på en egnet egenskapsutleder er velkjente på området, og kan omfatte en eller annen form for spektralanalyse-teknikk, slik som en filterbank-analysator, en lineær prediktiv kodingsanalyse eller en diskret transformasjonsanalyse.
Egenskapene kan for eksempel omfatte cepstral-koeffisienter (for eksempel LPC-cepstral-koeffisienter eller MEL-frekvente cepstral-koeffisienter som beskrevet i «On the Evalution of Speech Recognisers and Databases using a Reference System», Chollet & Gagnoulet, 1982 proe. IEEE p2026), eller differensialverdier av slike koeffisienter som for hver koeffisient omfatter dfferansene mellom koeffisi-enten og den tilsvarende koeffisientverdi i den foregående vektor, som beskrevet i «On the use of Instantaneous and Transitional Spectral Information in Speaker Recognition», Soong & Rosenberg, 1988 IEEE Trans. On Acoustics, Speech and Signal Processing, volum 36, nr 6, p871. Likeledes kan det brukes en blanding av flere typer egenskapskoeffisienter. Egenskapsutlederen er forsynt med en passende programmert digital signalprosessor-anordning (DSP-anordning). Utgangs-data-settet fra egenskapsutlederen 6 utgjør inngangen til delord-gjenkjenneren 7.
Delord-gjenkjenneren 7 er tilknyttet et delord-modellager 8 med HMM-modeller som representerer de 40 fonemer som er antydet i tabell 1. Modell-lageret 8 omfatter et felt 81, 82,.... for hvert av antallet med delord. For eksempel er delord-gjenkjenneren konstruert for å gjenkjenne fonemer, og følgelig er det tilveiebrakt et felt i modell-lageret for hvert fonem.
Delord-gjenkjenneren 7 er anordnet for å lese hvert felt i lageret 8 etter tur, og for hvert å beregne ved bruk av det aktuelle sett med inngående egenskapskoeffisienter, sannsynligheten for at inngangsegenskaps-settet svarer til det tilsvarende felt. Et signal som indikerer det mest sannsynlige delord-modell blir matet ut og lagret i et ordlager 10. For et enkelt utsagn lagrer således ordlageret 10 en kodet representasjon som indikerer sekvensen av referansedelord-modeller som av delord-gjenkjenneren er bedømt å representere inngangstalen best.
Beregningen anvender den velkjente HMM, som diskutert i «Hidden Markov Models for Automatic Speech Recognition: Theory and Application» av S. J. Cox, British Telecom Technology Journal, volum 6, nr 2, april 1988. Den HMM-proses-sering som utføres av delord-gjenkjenneren 7, benytter hensiktsmessig den velkjente Viterbi-algoritmen. Delord-gjenkjenneren 7 kan for eksempel være en mik-roprosessor, slik som Intel^MSe^-mikroprosessoren eller Motorola™ 68000-mikroprosessoren, eller kan alternativt være en DSP-innretning (for eksempel den samme DSP-innretning som egenskapsutlederen 6).
Som beskrevet foran blir delord-modellene som er tilknyttet delord-gjenkjenneren, oppnådd på en taleruavhengig måte. De kodede representasjoner som genereres av delord-gjenkjenneren 7, er derfor taleravhengig bare i den grad at de representerer den fonemiske transkripsjon av hvordan en gitt bruker uttaler et ord.
Delord-gjenkjenneren 7 har et gjenkjenningsnett som påfører små eller ingen bånd på den mulige sekvens med delord-enheter som kan genereres. Et eksempel på et løst bundet nettverk er vist på figur 3. Dette nettverket tillater gjenkjennelse av en enkel forbundet sekvens av fonemer omgitt av støy. Fonem-sekvensen er fullstendig ubundet, og fonemsekvenser som ikke inntreffer i det be-nyttede språket, (i det beskrevne eksempel er dette engelsk) kan derfor genereres.
Et gjenkjenningsnettverk som vist på figur 3 tilveiebringer for tiden bedre transkripsjonsresultater for telefontale enn et fullstendig ubundet nettverk, dvs. ett uten støymodeller før og etter fonemmodellene. Det tillater ikke fonemer fulgt av støy fulgt av fonemer. Betydningen av dette for et praktisk system er at det vil fremheve systemets nøyaktighet for isolerte ord eller forbundne fraser, men vil ha problemer hvis brukeren innfører en frase med åpninger mellom ordene. For eksempel i en automatisk nummersender, hvis brukeren sier «John Smith» uten noe mellomrom mellom fornavn og etternavn, vil denne form for grammatikk ikke forår-sake noen problemer. Hvis derimot de lager en åpning mellom disse, vil ytelsen lide, Gjenkjenningsnettverket til delord-gjenkjenneren vil imidlertid være konstruert for å møte systemets krav, dvs. isolerte ord, forbundne ord, osv.
Ved første gangs bruk av tjenesten oppfordrer brukerapparatet brukeren om å frembringe de ord brukeren ønsker å tilføye gjenkjennerens vokabular. Som reaksjon på en hørbar oppfordring fra brukerapparatet, taler brukeren et valgt ord inn i mikrofonen. I et automatisk nummersendingssystem kan dette ordet være navnet på en person brukeren vil ønske å ringe til, for eksempel «Jane».
Vokabulargeneratoren utleder egenskaper fra inngangen, som blir gitt til delord-gjenkjenneren 7. Når inngangstalen er mottatt, blir den tilpasset mot modellene i lageret 8. Delord-gjenkjenneren 7 som har et gjenkjenningsnettverk som vist på figur 3, genererer en kodet representasjon av den talte inngang, hvor den kodede representasjon identifiserer sekvensen av modeller som er mest lik inngangstalen. En fonemisk transkripsjon av inngangstalen blir således generert. De genererte kodede representasjoner av treningsutsagnet blir så lagret i et lager 10. Brukeren blir så oppfordret til å gjenta inngangen, slik at en mer robust representasjon av inngangstalen blir dannet.
Fra eksperimenter blir det funnet at den oppnådde nøyaktighet når bare et treningsutsagn ble gitt, var 87,8 %, mens nøyaktigheten når tre treningsutsagn ble tilveiebrakt, steg betydelig til 93,7. Det er klart at en telefonlinje med dårlig kvalitet vil ha en betydelig virkning på utfallet av genereringen. Den oppnådde nøyaktig-het når tre treningsutsagn ble tilveiebrakt, var også høyere enn når mottatte uttale-transkripsjoner fra tekstinnmatinger ble brukt istedenfor delord-representasjonen. Mottatt uttale er aksenten til standard sørlig britisk engelsk.
En ytterligere oppfordring blir så gitt til brukeren ved å spørre om noen ytterligere ord skal tilføyes. Hvis brukeren reagerer bekreftende (for eksempel ved å bruke en forut bestemt DTMF-tast), blir gjenkjenningsprosessen gjentatt for det neste ordet. Hvis brukeren reagerer negativt, koples systemet til gjenkjenningsmodus, dvs. at talegjenkjenneren 3 blir operativ. I lageret 10 er det lagret kodede representasjoner for hver ytterligere vokabulardel som identifiserer en sekvens med referansedelord-representasjoner.
Straks representasjoner er blitt generert for hvert av de ønskede ord i vokabularet, kan vokabularet brukes av talegjenkjenneren 3. Figur 4 viser komponent-ene i talegjenkjenneren 3. Talegjenkjenneren 3 omfatter en egenskapsutleder 6', et delord-modellager 8' og et lager 10 for kodede representasjoner generert av vokabulargeneratoren 9. En nettverkgenerator 12 er tilknyttet lageret 10 og dan-ner et gjenkjenningsnett utformet ved hjelp av sekvensene med referansedelord-representasjoner som er representert av de kodede representasjoner. Et slikt nettverk kan for eksempel genereres ved å kombinere de enkelte kodede representasjoner fra lageret 10 i parallelle alternativer av nettverket, som vist på figur 5, eller ved å kombinere de kodede representasjoner i en trestruktur, som vist på figur 6, som begge viser et eksempel på en sekvens med fonemer identifisert i et utsagn av ordet «six» og «seven».
Under gjenkjenning blir et inngangstalesignal ført til egenskapsutledende
anordning 6', og egenskapene blir videreført til en gjenkjenner 16 som er tilknyttet det nettverk som konfigureres av nettverkgeneratoren 12. Den ukjente inngangstale blir sammenlignet med nettverket som er konfigurert, og et signal blir avgitt fra gjenkjenneren 16 hvis en sterk likhet er funnet mellom den ukjente inngangstale og en av grenene i nettverket, og dermed ett av ordene eller en av frasene som er representert av de kodede representasjoner. Straks gjenkjenning har inntruffet, tar brukerapparatet 4 det neste viktige trinn i henhold til tjenesten, for eksempel hvis tjenesten er en automatisk nummersendingstjeneste og gjenkjenneren 16 finner at orden «Jane» et blitt gjenkjent, vil brukerapparatet sende det nummeret som er tilordnet «Jane».
Figur 7 viser en annen utførelsesform av oppfinnelsen. Mens figurene 2 og 3 viser vokabulargeneratoren 9 og talegjenkjenneren 3 som separate komponenter, viser figur 7 dem kombinert i talegjenkjenningsapparatet 20. Vokabulargeneratoren 9 og gjenkjenneren 16 deler de felles komponenter, dvs. egenskapsutlederen 6, delord-modellageret 8 og det brukervalgte ordlager 10. Talegjenkjenningsapparatet 20 innbefatter i tillegg et lager 14 for forut bestemte ord som lagrer forhåndsdefinerte kodede representasjoner av fonem-transkripsjonene av forut bestemte ord som er egnet for det tilsiktede brukerapparatet. For et automatisk nummersendingssystem kan for eksempel disse forut bestemte ord være sifrene 0 til 9, «slå», «nei», «ja», «tilføy» osv.
Talegjenkjenningsapparatet 20 er normalt i gjenkjenningsmodus. Dvs. at inngangstalesignalet blir ført til gjenkjenneren 16. Når brukeren ønsker å tilføye et ord til systemvokabularet, sier brukeren ordet «tilføy». Dette signalet blir ført til egenskapsutlederen 6, og egenskapene blir ført til gjenkjenneren 16. Nettverkgeneratoren 12 genererer et nettverk bestående av alle de ord som er representert i lagrene 14 og 10 (ved begynnelsen vil det ikke være noen ord lagret i lageret 10). Gjenkjenneren 16 tilpasser inngangen til nettverket og gjenkjenner inngangen som ordet «tilføy» og innfører som reaksjon treningsmodusen ved å kople om inngangen til vokabulargeneratoren 9.
Brukeren fortsetter som i den tidligere utførelsesform ved å uttale de navn som skal tilføyes systemets vokabular. Delord-gjenkjenneren 7 i vokabulargeneratoren 9 genererer de kodede representasjoner for lagring i det brukervalgte lageret 10. Brukeren kan imidlertid reagere på oppfordringer fra brukerapparatet på en talt måte med å si «ja» og «nei», idet inngangstalesignalet blir koplet til gjenkjenneren 16 når en spesifikk respons er forventet.
Straks brukeren har valgt de ønskede ord, kombinerer det etterfølgende nettverket som genereres av nettverkgeneratoren 12, forhåndsbestemte ord fra lageret 14 og brukervalgte ord fra lageret 10. Den resulterende gjenkjenner har en grammatikk hvor noen av ordene er definert ved hjelp av fonemsekvenser utledet fra brukerens tale, og noen ord er forhåndsdefinert ved hjelp av sekvenser utleder fra en annen kilde. Ordene fra de to lågere kan kombineres slik at for eksempel hvis ordet "ring" er forhåndsdefinert, kan gjenkjenningsnettverket utformes for å kombinere "ring" med hvert av de valgte ord slik systemets grammatikk tillater den kombinerte tale "ring" Jane», idet "ring" er forhåndsdefinert, og "Jane" er brukervalg.
Et talegjenkjenningsapparat som har 50 % av vokabularet forhåndsdefinert, har en nøyaktighet lik et fullstendig brukervalgt vokabular når bare ett treningsutsagn er tilveiebrakt. Nøyaktigheten av et slikt apparat er imidlertid betydelig dårlig-ere enn et fullstendig brukervalgt vokabular når tre treningsutsagn ble tilveiebrakt.
I en ytterligere utførelsesform av oppfinnelsen har således talegjenkjenneren 20 et antall forhåndsbestemte ord i det forhåndsbestemte lageret 14, og et antall brukervalgte ord i lageret 10 som er definert under en treningsmodus. Delord-representasjoner av de forhåndsdefinerte ord blir generert fra en brukers inngangstale under bruk av apparatet ved å føre egenskapene fra den egenskapsutledende anordning 6 til delord-gjenkjenneren 7 samt til gjenkjenneren 16. De kodede representasjoner som genereres av delord-gjenkjenneren for utsagnet, blir til-føyd lagret tid. Påfølgende utsagn bør passe bedre til de representasjoner som er lagret i lageret 10, enn de som er lagret i lageret 14, noen som resulterer i forbed-ret nøyaktighet i gjenkjenningen av forhåndsdefinerte ord.

Claims (16)

1. Fremgangsmåte for generering av et vokabular for et talegjenkjenningsapparat, idet fremgangsmåten omfatter: å motta et inngangstalesignal som representerer et ord; å utlede egenskapssampler fra det mottatte talesignal; å sammenligne egenskapssamplene med tillatte sekvenser av referansedelord-representasjoner, idet minst en av de nevnte delord-representasjoner er i stand til å representere en sekvens av mere enn en egenskapssampel; å identifisere den tillatte sekvensen av referansedelord-representasjoner som ligner mest på det mottatte talesignalet og å generere en kodet representasjon fra den nevnte tillatte sekvens; og å lagre den genererte kodede representasjonen av ordet for etterfølgende gjenkjenning av et annet talesignal.
2. Fremgangsmåte ifølge krav 1, der alle mulige sekvenser av referansedelord-representasjonene er tillatte.
3. Fremgangsmåte ifølge krav 1, hvor de tillatte sekvensene av delord-representasjoner er begrenset til sekvenser som omfatter delord-representasjoner som representerer støy fulgt av delord-representasjoner som representerer tale fulgt av delord-representasjoner som representerer støy.
4. Fremgangsmåte ifølge krav 1, der trinnet med å identifisere den tillatte sekvensen av referansedelord-representasjoner som ligner mest på det mottatte talesignalet inkluderer betraktning av lagrede parametere som hver representerer en overgangssannsynlighet for en delord-representasjon fulgt av en tydeligere delord-representasjon.
5. Fremgangsmåte ifølge et hvilket som helst av de foregående krav, videre omfattende trinnet å generere et gjenkjenningsnettverk fra en eller flere lagrede delord-representasjoner, idet nettverket representerer tillatte sekvenser av delord-representasjoner i det genererte vokabularet.
6. Fremgangsmåte ifølge et hvilket som helst av de foregående krav, der delord-representasjonene er statistiske modeller.
7. Fremgangsmåte ifølge krav 6, der delord-representasjonene er skjulte Markov-modeller.
8. Vokabulargenereringsapparat (9) for generering av et vokabular fra et inngangstalesignal omfattende: et lager (8) som inneholder flere referansedelord-representasjoner; en egenskapsutleder (6) for å motta inngangstalesignalet og innrettet for å generere egenskapssampler; en delord-gjenkjenner (7) koplet for å motta de genererte egenskapssamplene, idet delord-gjenkjenneren har et vokabular av tillatte sekvenser av delord-representasjoner, idet minst en av de nevnte delord-representasjonene er i stand til å representere en sekvens av mere enn en egenskapssampel; der delord-gjenkjenneren er i drift innrettet for å sammenligne de mottatte egenskapssamplene med de tillatte sekvensene av referansedelord-representasjonene; og å generere en kodet representasjon ved å identifisere en tillatt sekvens av réferansedelord-representasjonene som ligner mest på inngangstalesignalet; og et ordlager (10) for lagring av den kodede representasjonen av inngangstalesignalet for etterfølgende gjenkjenning av et annet talesignal.
9. Apparat ifølge krav 8, videre inkluderende en gjenkjenner (16) innrettet til å sammenligne inngangstalesignalene med kodede representasjoner i ordlageret (10) og å mate ut et signal som indikerer gjenkjenning.
10. Apparat ifølge krav 9, videre omfattende et andre lager (14) av kodede representasjoner av ord, hvilke kodede representasjoner har blitt generert på en for-skjellig måte i forhold til de kodede representasjonene som er lagret i ordlageret.
11. Apparat ifølge krav 10, der de kodede representasjoner av ordene identifiserer en sekvens av referansedelord-representasjonene.
12. Apparat ifølge et hvilket som helst av kravene 8 til 11, der vokabularet definerer sekvenser av delord-representasjoner som omfatter delord-representasjoner som representerer støy fulgt av delord-representasjoner som representerer tale fulgt av delord-representasjoner som representerer støy.
13. Apparat ifølge et hvilket som helst av kravene 8 til 11, der vokabularet definerer alle mulig sekvenser av delord-representasjoner.
14. Apparat ifølge et hvilket som helst av kravene 8 til 13, der genereringen av den tillatte sekvensen av referansedelord-representasjoner som ligner mest på det mottatte talesignalet inkluderer betraktning av lagrede parametere som hver representerer en overgangssannsynlighet av en delord-representasjon etterfølgende en tidligere delord-representasjon.
15. Apparat ifølge et hvilket som helst av kravene 8 til 14, der delord-representasjonene er statistiske modeller.
16. Apparat ifølge krav 15, der delord-representasjonene er skjulte Markov-modeller.
NO972026A 1994-11-01 1997-04-30 Talegjenkjenning NO309750B1 (no)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP94308023 1994-11-01
PCT/GB1995/002563 WO1996013827A1 (en) 1994-11-01 1995-11-01 Speech recognition

Publications (3)

Publication Number Publication Date
NO972026D0 NO972026D0 (no) 1997-04-30
NO972026L NO972026L (no) 1997-04-30
NO309750B1 true NO309750B1 (no) 2001-03-19

Family

ID=8217896

Family Applications (1)

Application Number Title Priority Date Filing Date
NO972026A NO309750B1 (no) 1994-11-01 1997-04-30 Talegjenkjenning

Country Status (17)

Country Link
US (1) US6389395B1 (no)
EP (1) EP0789901B1 (no)
JP (1) JPH10507536A (no)
KR (1) KR100383353B1 (no)
CN (1) CN1121680C (no)
AU (1) AU707355B2 (no)
CA (1) CA2202656C (no)
DE (1) DE69514382T2 (no)
DK (1) DK0789901T3 (no)
ES (1) ES2143079T3 (no)
FI (1) FI971822A0 (no)
HK (1) HK1002787A1 (no)
MX (1) MX9703138A (no)
NO (1) NO309750B1 (no)
NZ (1) NZ294659A (no)
PT (1) PT789901E (no)
WO (1) WO1996013827A1 (no)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU1424400A (en) * 1998-10-13 2000-05-01 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition and control system and telephone
JP2000187435A (ja) * 1998-12-24 2000-07-04 Sony Corp 情報処理装置、携帯機器、電子ペット装置、情報処理手順を記録した記録媒体及び情報処理方法
EP1159688A2 (en) 1999-03-05 2001-12-05 Canon Kabushiki Kaisha Database annotation and retrieval
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
DE60036486T2 (de) * 1999-10-28 2008-06-12 Canon K.K. Methode und apparat zum prüfen von musterübereinstimmungen
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) * 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) 2000-11-20 2001-01-03 Canon Kk Speech processing system
US20030009331A1 (en) * 2001-07-05 2003-01-09 Johan Schalkwyk Grammars for speech recognition
US20030115169A1 (en) * 2001-12-17 2003-06-19 Hongzhuan Ye System and method for management of transcribed documents
US6990445B2 (en) * 2001-12-17 2006-01-24 Xl8 Systems, Inc. System and method for speech recognition and transcription
US7181398B2 (en) * 2002-03-27 2007-02-20 Hewlett-Packard Development Company, L.P. Vocabulary independent speech recognition system and method using subword units
US20030200094A1 (en) * 2002-04-23 2003-10-23 Gupta Narendra K. System and method of using existing knowledge to rapidly train automatic speech recognizers
US7206738B2 (en) * 2002-08-14 2007-04-17 International Business Machines Corporation Hybrid baseform generation
DE10244169A1 (de) * 2002-09-23 2004-04-01 Infineon Technologies Ag Spracherkennungseinrichtung, Steuereinrichtung und Verfahren zum rechnergestützten Ergänzen eines elektronischen Wörterbuches für eine Spracherkennungseinrichtung
WO2004036939A1 (fr) * 2002-10-18 2004-04-29 Institute Of Acoustics Chinese Academy Of Sciences Appareil de communication mobile numerique portable, procede de commande vocale et systeme
US7149688B2 (en) * 2002-11-04 2006-12-12 Speechworks International, Inc. Multi-lingual speech recognition with cross-language context modeling
JP4072718B2 (ja) * 2002-11-21 2008-04-09 ソニー株式会社 音声処理装置および方法、記録媒体並びにプログラム
US20040230431A1 (en) * 2003-05-14 2004-11-18 Gupta Sunil K. Automatic assessment of phonological processes for speech therapy and language instruction
US7302389B2 (en) * 2003-05-14 2007-11-27 Lucent Technologies Inc. Automatic assessment of phonological processes
US7373294B2 (en) * 2003-05-15 2008-05-13 Lucent Technologies Inc. Intonation transformation for speech therapy and the like
US20040243412A1 (en) * 2003-05-29 2004-12-02 Gupta Sunil K. Adaptation of speech models in speech recognition
WO2006033044A2 (en) * 2004-09-23 2006-03-30 Koninklijke Philips Electronics N.V. Method of training a robust speaker-dependent speech recognition system with speaker-dependent expressions and robust speaker-dependent speech recognition system
JP2009525492A (ja) * 2005-08-01 2009-07-09 一秋 上川 英語音、および他のヨーロッパ言語音の表現方法と発音テクニックのシステム
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
US7774202B2 (en) * 2006-06-12 2010-08-10 Lockheed Martin Corporation Speech activated control system and related methods
US8386248B2 (en) * 2006-09-22 2013-02-26 Nuance Communications, Inc. Tuning reusable software components in a speech application
US7881932B2 (en) * 2006-10-02 2011-02-01 Nuance Communications, Inc. VoiceXML language extension for natively supporting voice enrolled grammars
US8751230B2 (en) * 2008-06-27 2014-06-10 Koninklijke Philips N.V. Method and device for generating vocabulary entry from acoustic data
US20110184736A1 (en) * 2010-01-26 2011-07-28 Benjamin Slotznick Automated method of recognizing inputted information items and selecting information items
US20110224982A1 (en) * 2010-03-12 2011-09-15 c/o Microsoft Corporation Automatic speech recognition based upon information retrieval methods
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
GB2513821A (en) * 2011-06-28 2014-11-12 Andrew Levine Speech-to-text conversion
US8781825B2 (en) * 2011-08-24 2014-07-15 Sensory, Incorporated Reducing false positives in speech recognition systems
US9135912B1 (en) * 2012-08-15 2015-09-15 Google Inc. Updating phonetic dictionaries
TWI536366B (zh) 2014-03-18 2016-06-01 財團法人工業技術研究院 新增口說語彙的語音辨識系統與方法及電腦可讀取媒體
US9607618B2 (en) * 2014-12-16 2017-03-28 Nice-Systems Ltd Out of vocabulary pattern learning
US10719115B2 (en) * 2014-12-30 2020-07-21 Avago Technologies International Sales Pte. Limited Isolated word training and detection using generated phoneme concatenation models of audio inputs
KR102509821B1 (ko) * 2017-09-18 2023-03-14 삼성전자주식회사 Oos 문장을 생성하는 방법 및 이를 수행하는 장치
CN109074804B (zh) * 2018-07-18 2021-04-06 深圳魔耳智能声学科技有限公司 基于口音的语音识别处理方法、电子设备和存储介质
CN109074808B (zh) * 2018-07-18 2023-05-09 深圳魔耳智能声学科技有限公司 语音控制方法、中控设备和存储介质
CN112951270B (zh) * 2019-11-26 2024-04-19 新东方教育科技集团有限公司 语音流利度检测的方法、装置和电子设备

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4489434A (en) 1981-10-05 1984-12-18 Exxon Corporation Speech recognition method and apparatus
US5129000A (en) * 1986-04-05 1992-07-07 Sharp Kabushiki Kaisha Voice recognition method by analyzing syllables
US4903305A (en) * 1986-05-12 1990-02-20 Dragon Systems, Inc. Method for representing word models for use in speech recognition
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US4837831A (en) * 1986-10-15 1989-06-06 Dragon Systems, Inc. Method for creating and using multiple-word sound models in speech recognition
US5129001A (en) * 1990-04-25 1992-07-07 International Business Machines Corporation Method and apparatus for modeling words with multi-arc markov models
US5181237A (en) 1990-10-12 1993-01-19 At&T Bell Laboratories Automation of telephone operator assistance calls
US5465318A (en) * 1991-03-28 1995-11-07 Kurzweil Applied Intelligence, Inc. Method for generating a speech recognition model for a non-vocabulary utterance
DE4111781A1 (de) * 1991-04-11 1992-10-22 Ibm Computersystem zur spracherkennung
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
CA2088080C (en) * 1992-04-02 1997-10-07 Enrico Luigi Bocchieri Automatic speech recognizer
US5297183A (en) * 1992-04-13 1994-03-22 Vcs Industries, Inc. Speech recognition system for electronic switches in a cellular telephone or personal communication network
EP0590173A1 (de) * 1992-09-28 1994-04-06 International Business Machines Corporation Computersystem zur Spracherkennung
AU5803394A (en) * 1992-12-17 1994-07-04 Bell Atlantic Network Services, Inc. Mechanized directory assistance
US5384892A (en) * 1992-12-31 1995-01-24 Apple Computer, Inc. Dynamic language model for speech recognition
US5390279A (en) * 1992-12-31 1995-02-14 Apple Computer, Inc. Partitioning speech rules by context for speech recognition
US5488652A (en) * 1994-04-14 1996-01-30 Northern Telecom Limited Method and apparatus for training speech recognition algorithms for directory assistance applications
US5710864A (en) * 1994-12-29 1998-01-20 Lucent Technologies Inc. Systems, methods and articles of manufacture for improving recognition confidence in hypothesized keywords
US5717826A (en) * 1995-08-11 1998-02-10 Lucent Technologies Inc. Utterance verification using word based minimum verification error training for recognizing a keyboard string

Also Published As

Publication number Publication date
NZ294659A (en) 1999-01-28
AU3751695A (en) 1996-05-23
HK1002787A1 (en) 1998-09-18
PT789901E (pt) 2000-04-28
EP0789901A1 (en) 1997-08-20
WO1996013827A1 (en) 1996-05-09
NO972026D0 (no) 1997-04-30
DE69514382D1 (de) 2000-02-10
KR100383353B1 (ko) 2003-10-17
CA2202656A1 (en) 1996-05-09
KR970707529A (ko) 1997-12-01
CN1121680C (zh) 2003-09-17
US6389395B1 (en) 2002-05-14
DE69514382T2 (de) 2001-08-23
NO972026L (no) 1997-04-30
EP0789901B1 (en) 2000-01-05
CA2202656C (en) 2002-01-01
MX9703138A (es) 1997-06-28
ES2143079T3 (es) 2000-05-01
AU707355B2 (en) 1999-07-08
FI971822L (fi) 1997-04-29
CN1162365A (zh) 1997-10-15
JPH10507536A (ja) 1998-07-21
FI971822A0 (fi) 1997-04-29
DK0789901T3 (da) 2000-06-19

Similar Documents

Publication Publication Date Title
NO309750B1 (no) Talegjenkjenning
US5791904A (en) Speech training aid
US6085160A (en) Language independent speech recognition
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
EP0984430B1 (en) Speech recognizer with lexicon updateable by spelled word input
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US20070239455A1 (en) Method and system for managing pronunciation dictionaries in a speech application
EP2048655A1 (en) Context sensitive multi-stage speech recognition
US20070239444A1 (en) Voice signal perturbation for speech recognition
JPH0422276B2 (no)
Razak et al. Quranic verse recitation recognition module for support in j-QAF learning: A review
US7072750B2 (en) Method and apparatus for rejection of speech recognition results in accordance with confidence level
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
US20040006469A1 (en) Apparatus and method for updating lexicon
US20020095282A1 (en) Method for online adaptation of pronunciation dictionaries
WO2007067837A2 (en) Voice quality control for high quality speech reconstruction
JP3959540B2 (ja) 自動翻訳装置
Hirose et al. Continuous speech recognition of Japanese using prosodic word boundaries detected by mora transition modeling of fundamental frequency contours
Kessens et al. Improving recognition performance by modelling pronunciation variation.
Manjunath et al. Improvement of phone recognition accuracy using source and system features
Kessens et al. Automatic detection and verification of Dutch phonological rules
KR100445907B1 (ko) 음성언어 식별 장치 및 방법
Colla Some considerations on the definition of sub-word units for a template-matching speech recognition system
JPH0667686A (ja) 音声認識装置
Kao Mandarin recognition over the telephone

Legal Events

Date Code Title Description
MM1K Lapsed by not paying the annual fees