NO309750B1

NO309750B1 - Talegjenkjenning

Info

Publication number: NO309750B1
Application number: NO972026A
Authority: NO
Inventors: Simon Patrick Alexand Ringland
Original assignee: British Telecomm
Priority date: 1994-11-01
Filing date: 1997-04-30
Publication date: 2001-03-19
Also published as: NZ294659A; AU3751695A; HK1002787A1; PT789901E; EP0789901A1; WO1996013827A1; NO972026D0; DE69514382D1; KR100383353B1; CA2202656A1; KR970707529A; CN1121680C; US6389395B1; DE69514382T2; NO972026L; EP0789901B1; CA2202656C; MX9703138A; ES2143079T3; AU707355B2

Description

Oppfinnelsen vedrører taleprosessering, og spesielt talegjenkjenning.

Utviklere av talegjenkjenningsapparater har som endelig mål å produsere maskiner med hvilke en person kan vekselvirke på en fullstendig naturlig måte uten begrensninger. Grensesnittet mellom menneske og maskin vil ideelt være fullstendig sømløst.

Dette er en visjon som nærmer seg oppfyllelse, men full flyt mellom menneske og maskin er likevel ennå ikke oppnådd. For å oppnå flyt vil en automati-sert gjenkjenner kreve et uendelig vokabular av ord og vil måtte kunne forstå talen til enhver bruker, uansett aksent, uttale, osv. Nåværende teknologi og vår begrensede forståelse av hvordan menneskelige vesener forstår tale, gjør dette ugjen-nomførlig.

Nåværende talegjenkjenningsapparater omfatter data som vedrører det begrensede vokabular som apparatet er i stand til å gjenkjenne. Dataene vedrø-rer generelt statistiske modeller eller sjabloner som representerer ordene i det begrensede vokabularet. Under gjenkjennelse blir et inngangssignal sammenlignet med de lagrede data for å bestemme likheten mellom inngangssignalet og de lagrede data. Hvis en nær nok tilpasning blir funnet, blir inngangssignalet vanligvis bedømt å være gjenkjent som vedkommende modell eller sjablon (eller sekvens av modeller eller sjabloner) som gir den nærmeste tilpasning.

Sjablonene eller modellene blir vanligvis dannet ved å måle spesielle egenskaper ved inngående tale. Egenskapsmålingene er vanligvis utgangssignalet fra en eller annen form av spektralanalyse-teknikk, slik som en filterbank-analysator, en lineær prediktiv kodingsanalyse eller en diskret transformasjonsanalyse. Egenskapsmålingene til en eller flere trenings-inngangssignaler som svarer til den samme talelyd (dvs. et spesielt ord, frase, osv.) blir vanligvis brukt til å lagre ett eller flere referansemønstre som er representative for vedkommende lyds egenskaper. Referansemønsteret kan være en sjablon utledet fra en eller annen type midlings-teknikk, eller det kan være en modell som karakteriserer statistikkene for egenskapene til trenings-inngangssignalene for en spesiell lyd.

En ukjent innmating blir så sammenlignet med referansemønsteret for hver lyd i gjenkjennelsesvokabularet, og et mål på likhet mellom det ukjente inngangssignal og hvert referansemønster blir beregnet. Dette mønsterklassifiseringstrin-net kan innbefatte en global tidsinnrettings-prosedyre (kjent som dynamisk tids-vridning, dyanamic time warping, DTW) som kompenserer for forskjellige talehas-tigheter. Likhetsmålingene blir så brukt til å beslutte hvilket referansemønster som best passer til den ukjente inngang, og dermed hva som blir bedømt som gjenkjent.

Den tilsiktede bruk av talegjenkjenneren kan også bestemme systemets

egenskaper. For eksempel et system som er konstruert for å være taleravhengig, krever bare trenings-inngangssignaler fra en enkelt taler. Modellene eller sjablonene representerer således inngangstalen til en spesiell taler istedenfor middeltalen eller gjennomsnittstalen til et antall brukere. Selv om et slikt system har god gjen-kjennelseshyppighet for den taler som trenings-inngangssignalene blir mottatt fra, er et slikt system opplagt ikke egnet for anvendelse av andre brukere.

Taleruavhengig gjenkjennelse beror på ordmodeller som formes fra ytring-ene til et antall talere. Statistiske modeller eller sjabloner som representerer tren-ingsytringene til hver spesiell taleinngang, blir dannet for etterfølgende gjenkjen-nelsesformål. Selv om taleruavhengige systemer virker forholdsvis godt for et stort antall brukere, vil ytelsen til et taleruavhengig system sannsynligvis være lav for en bruker som har en aksent, intonasjon, uttale osv., som adskiller seg betydelig fra treningsprøvene.

For å utvide det akseptable vokabular må det oppnås tilstrekkelige trenings-prøver av det ytterligere vokabular. Dette er en tidkrevende operasjon som ikke kan rettferdiggjøres hvis vokabularet endres gjentatte ganger.

Det er kjent å tilveiebringe talegjenkjenningssystemer hvor det vokabular som et system er i stand til å gjenkjenne, kan utvides av en tjenesteleverandør som mater inn det ytterligere vokabular i tekstform. Ett eksempel på et slikt system er Flexword fra AT&T. I et slikt system blir ord omformet fra tekstform til sine fonetiske transkripsjoner i henhold til lingvistiske regler. Det er disse transkripsjonene som blir brukt i en talegjenkjenner som har akustiske modeller for hvert av fonemene.

Antallet fonemer i et språk er ofte en skjønnssak og kan avhenge av den spesielle lingvist som er involvert. I det engelske språk finnes det omkring 40 fonemer som er vist i tabell 1.

En referanse hertil fonemer eller delord vedrører enhver hensiktsmessig byggeblokk av ord, for eksempel fonemer, fonem-strenger, allofoner, osv. Enhver referanse her til fonem eller delord er ombyttelig og refererer til denne bredere tolkning.

For gjenkjenningsformål kan et nettverk av den fonemisk transkriberte tekst dannes fra lagrede modeller som representerer de enkelte fonemer. Under gjenkjenning blir inngangstale sammenlignet med strengene av referansemodeller som representerer hvert tillatt ord eller frase. Modellene som representerer de enkelte fonemer, kan være generert på en taleruavhengig måte fra utsagn fra et antall forskjellige talere. Alle egnede modeller kan brukes, slik som skjulte Markov-modeller.

Et slikt system tillater ingen avvik fra de vanlige fonemiske transskripsjoner av ord, for eksempel hvis en person har en sterk aksent. Selv om en bruker har talt ett ord som er i systemets vokabular, vil således inngangstalen muligens ikke bli gjenkjent som sådan.

Det er ønskelig å kunne tilpasse et taleruavhengig system slik at det er egnet for anvendelse av en bruker med en uttale som adskiller seg fra den model-lerte taler. Europeisk patentsøknad nr 453649 beskriver et slikt apparat hvor de tillatte ord i apparatets vokabular blir modellert av en modellkjede som representerer delenheter av ord, for eksempel fonemer. «Ord»-modellene, dvs. de lagrede kjeder, blir så innstilt på en spesiell brukers tale ved å anslå nye parametere for ordmodellen fra brukerens tale. Kjente, forhåndsdefinerte ordmodeller (dannet av en kjede med fonem-modeller) blir således tilpasset en spesiell bruker.

Likeledes beskriver europeisk patentsøknad nr 508225 et talegjenkjenningsapparat der ord som skal gjenkjennes, er lagret sammen med en fonemsek-vens som representerer ordet. Under innstilling taler en bruker ordene i vokabularet, og parameterne i fonemmodellen blir tilpasset brukerens inngang.

I begge disse kjente systemer er et forhåndsbestemt vokabular nødvendig i form av sammenkjedede sekvenser av fonemer. I mange tilfeller ville det imidlertid være ønskelig for en bruker å tilføye ord til vokabularet, idet slike ord er spesi-fikke for disse brukerne. Et kjent middel for å forsyne en aktuell bruker med denne fleksibiliteten, består i å bruke taleravhengig teknologi for å danne nye ordmodeller som så blir lagret i en separat ordbok. Brukeren må tale hvert ord en eller flere ganger for å innstille systemet. Disse taleravhengige modellene blir vanligvis dannet ved å bruke DTW eller lignende teknikker som krever forholdsvis store lagermengder for å lagre hver brukers sjabloner. Hvert ord for hver bruker vil typisk oppta minst 125 byte (og muligens over 2 kilobyte. Dette betyr at med et vokabular på 20 ord, må mellom 2,5 og 40 kilobyte lastes ned i gjenkjenneren før gjenkjenning kan begynne. Videre ville en telefonnett-basert tjeneste med bare tusen brukere behøve mellom 2,5 og 20 megabyte platelager bare for brukernes sjabloner. Ett eksempel på en slik tjeneste er en automatisk nummersender hvor en bruker definerer de mennesker han ønsker å ringe til, slik at et telefonanrop senere kan utføres ved å uttale navnet på den tilsiktede mottakeren.

Europeisk patentsøknad nr 590173 beskriver et system hvor en bruker som taler et ord som er ukjent for et gjenkjenningssystem, kan korrigere ordet og tilføye dette ordet til systemets vokabular. Den eneste beskrevne fremgangsmåte til å gjøre nye ord kjent for gjenkjenningssystemet, er ved innmating via et tastatur.

En fremgangsmåte for generering av et vokabular for et talegjenkjenningsapparat omfatter, å motta et inngangstalesignal som representerer et utsagn; å generere fra hvert utsagn en kodet representasjon som fra et antall av referansedelord-representasjoner identifiserer en sekvens av referansedelord-representasjoner som nærmest ligner utsagnet; og å lagre den genererte kodede representasjon av utsagnene for etterfølgende gjenkjenningsformål.

En slik fremgangsmåte tillater en bruker å velge nye ord uten at det er nød-vendig å danne nye akustiske modeller av hvert av ordene, idet hvert ord eller hver frase blir modellert som en sekvens av referansedelord-representasjoner som er unike for vedkommende bruker. Dette krever ingen tidligere kunnskap vedrørende de ord som skal tilføyes vokabularet, og gjør det dermed mulig for en bruker å tilføye ethvert ønsket ord eller enhver ønsket frase.

De kodede representasjoner av de ord som er valgt av en bruker, vil sannsynligvis ha en sterkere likhet med brukerens tale enn modeller dannet fra tekst. De kodede representasjoner krever i tillegg en lagringskapasitet som er minst en størrelsesorden mindre enn lagring av ord representasjonene som DTW-modeller (selv om dette kan gå litt på bekostning av nøyaktigheten).

Genereringen av den kodede representasjon er fortrinnsvis ikke begrenset av grammatiske regler, d.v.s. at enhver delord-representasjon kan følges av enhver annen. Alternativt kan det anvendes en bigram-grammatikk som påfører overgangssannsynligheter mellom hvert par med delord, for eksempel fonemer. Et par fonemer som vanligvis ikke opptrer i ett gitt språk (for eksempel PH i engelsk språk) har således en lav overgangssannsynlighet.

Kodede representasjoner av mer enn ett talesignal som representerer det samme utsagn, kan genereres. Eventuelle uregelmessigheter i den kodede representasjon vil da bli tatt hensyn til. Hvis for eksempel et utsagn blir gjort over en støyfylt telefonlinje, så kan den kodede representasjon av utsagn ha liten likhet med den kodede representasjon av det samme utsagnet over en tydelig telefonlinje. Det kan være riktig å motta tre treningsinnganger eller innstillingsinnganger av et utsagn og forkaste en kodet representasjon som adskiller seg betydelig fra de andre. Alternativt kan alle de kodede representasjoner beholdes. Om alle de kodede representasjoner blir lagret eller ikke, bestemmes av den som utvikler apparatet.

Det beskrives også et apparat for generering av et vokabular som omfatter en utledningsanordning for å utlede egenskapsprøver fra et inngangstalesignal; en delord-gjenkjenner for generering fra hver prøve av inngangstalesignalet, en kodet representasjon som fra et antall referansedelord-representasjoner identifiserer en sekvens av referansedelord-representasjoner som nærmest ligner inngangstalesignaler, og et lager for lagring av den kodede representasjon av inngangstalesignalet for etterfølgende gjenkjenningsformål.

Apparatet er ment tilknyttet en talegjenkjenner som er utformet for å gjenkjenne de utsagn som representeres av de kodede representasjoner. Under gjenkjenning sammenligner talegjenkjenneren ukjente inngangstalesignaler med sekvensene av delord-representasjoner som er representert ved de kodede representasjoner som er lagret i lageret, og mater ut et signal som indikerer gjenkjennelse eller ikke.

Grammatikken til delordgjenkjenneren er fortrinnsvis løselig bundet. For eksempel kan delordgjenkjenneren være bundet til å gjenkjenne enhver sekvens av delord-enheter, befengt med linjestøy. Alternativt kan det brukes en bigram-grammatikk som påfører overgangsannsynligheter mellom hvert fonempar.

Talegjenkjenningsapparatet kan være utformet for også å gjenkjenne visse forhåndsdefinerte ord. De forhåndsdefinerte ordene er fortrinnsvis også lagret som kodede representasjoner av delord-transkripsjoner av de forhåndsdefinerte ord. De forhåndsdefinerte ord og de ord som er valgt av en bruker, er således modellert ved å bruke de samme referansedelord. Talegjenkjenneren kan være utformet for å gjenkjenne forhåndsdefinerte ord talt i forbindelse med brukervalgte ord.

Referansedelord-representasjonene representerer fortrinnsvis fonemer. Hver delord-representasjon kan være en statistisk modell av et antall taleres inngangstale som inneholder det spesielle delord. Modellene er fortrinnsvis skjulte Markov-modeller, selv om andre modeller kan brukes.

En fremgangsmåte ifølge oppfinnelsen for generering av et vokabular for et talegjenkjenningsapparat er angitt i det selvstendige krav 1. Oppfinnelsen omfatter også et vokabulargenereringsapparat for generering av et vokabular fra et inn-gangs talesignal som er angitt i det selvstendige krav 8. Foretrukkede utførelses-former av fremgangsmåten og apparatet er angitt henholdsvis i de uselvstendige kravene 2-7 og 9-16.

Oppfinnelsen skal nå beskrives ytterligere ved hjelp av et eksempel, under henvisning til de vedføyde tegninger, hvor: Fig. 1 skjematisk viser innsettingen av et talegjenkjenningsapparat i hen hold til oppfinnelsen i et telekommunikasjonsmiljø; Fig. 2 er et blokkskjema som viser de funksjonelle elementer i en vokabu lar-generator i henhold til oppfinnelsen; Fig. 3 viser et eksempel på et løst bundet nettverk, brukt i vokabulargene ratoren på figur 2; Fig. 4 viser en talegjenkjenner for bruk med vokabulargeneratoren som er vist på figur 2; Fig. 5 viser et eksempel på et gjenkjenningsnettverk brukt med talegjen kjenneren på figur 4; Fig. 6 viser et alternativt gjenkjenningsnettverk til det som er vist på figur 5;

og

Fig. 7 viser en annen utførelsesform av et talegjenkjenningsapparat i henhold til oppfinnelsen.

Det vises til figur 1 hvor et telekommunikasjonssystem som innbefatter talegjenkjenning, generelt omfatter en mikrofon 1 (som typisk utgjør en del av et tele-fonhåndsett), et telekommunikasjonsnett 2 (vanligvis et offentlig telenett PSTN), en talegjenkjenner 3 koplet for å motta et talesignal fra nettet, og et brukerapparat 4 koplet til talegjenkjenneren 3 og innrettet for å motta fra denne et talegjenkjen-ningssignal som indikerer gjenkjennelse eller ikke av et spesielt ord eller en spesiell frase og for å foreta en handling som reaksjon på dette. For eksempel kan brukerapparatet 4 være et fjernstyrt automatisk nummersendingssystem hvor en bruker ikke slår det ønskede nummer, men bare sier navnet på den person som skal oppringes.

I mange tilfeller vil brukerapparatet 4 generere en hørbar reaksjon til brukeren, sendt via nettet 2 til en høyttaler 5 som vanligvis utgjør en del av brukerens håndsett.

Under anvendelse taler en bruker inn i mikrofonen 1, og et signal blir sendt fra mikrofonen 1 inn i nettet 2 til talegjenkjenneren 3. Talegjenkjenneren analyse-rer talesignalet, og et signal som indikerer gjenkjennelse eller ikke av et spesielt ord eller en spesiell frase, blir generert og sendt til brukerapparatet 4, som så utfø-rer en passende handling hvis talen blir gjenkjent.

Når en bruker først anvender den tjenesten som leveres av brukerapparatet 4, må talegjenkjenneren 3 innhente data vedrørende det vokabular som etterfølg-ende ukjente talesignaler skal verifiseres mot. Denne datainnsamling blir utført av en vokabulargenerator 9 i treningsmodus-drift hvor brukeren tilveiebringer trenings-inngangstalesignaler hvorfra de kodede representasjoner av delord-innholdet i trenings-inngangstaler blir generert for etterfølgende gjenkjenningsformål.

På figur 2 er de funksjonelle elementer i en vokabulargenerator 9 i henhold til oppfinnelsen vist. Vokabulargeneratoren 9 omfatter en egenskapsutleder 6 for å utlede egenskapsdata fra et inngangstalesignal som er blitt oppdelt i en rekke rammer med tilstøtende prøver. Rammen representerer konvensjonelt en 16 ms prøve av inngangstalen, hvor hver prøve blir vindusstyrt (for eksempel ved å bruke et Hamming-vindu). Eksempler på en egnet egenskapsutleder er velkjente på området, og kan omfatte en eller annen form for spektralanalyse-teknikk, slik som en filterbank-analysator, en lineær prediktiv kodingsanalyse eller en diskret transformasjonsanalyse.

Egenskapene kan for eksempel omfatte cepstral-koeffisienter (for eksempel LPC-cepstral-koeffisienter eller MEL-frekvente cepstral-koeffisienter som beskrevet i «On the Evalution of Speech Recognisers and Databases using a Reference System», Chollet & Gagnoulet, 1982 proe. IEEE p2026), eller differensialverdier av slike koeffisienter som for hver koeffisient omfatter dfferansene mellom koeffisi-enten og den tilsvarende koeffisientverdi i den foregående vektor, som beskrevet i «On the use of Instantaneous and Transitional Spectral Information in Speaker Recognition», Soong & Rosenberg, 1988 IEEE Trans. On Acoustics, Speech and Signal Processing, volum 36, nr 6, p871. Likeledes kan det brukes en blanding av flere typer egenskapskoeffisienter. Egenskapsutlederen er forsynt med en passende programmert digital signalprosessor-anordning (DSP-anordning). Utgangs-data-settet fra egenskapsutlederen 6 utgjør inngangen til delord-gjenkjenneren 7.

Delord-gjenkjenneren 7 er tilknyttet et delord-modellager 8 med HMM-modeller som representerer de 40 fonemer som er antydet i tabell 1. Modell-lageret 8 omfatter et felt 81, 82,.... for hvert av antallet med delord. For eksempel er delord-gjenkjenneren konstruert for å gjenkjenne fonemer, og følgelig er det tilveiebrakt et felt i modell-lageret for hvert fonem.

Delord-gjenkjenneren 7 er anordnet for å lese hvert felt i lageret 8 etter tur, og for hvert å beregne ved bruk av det aktuelle sett med inngående egenskapskoeffisienter, sannsynligheten for at inngangsegenskaps-settet svarer til det tilsvarende felt. Et signal som indikerer det mest sannsynlige delord-modell blir matet ut og lagret i et ordlager 10. For et enkelt utsagn lagrer således ordlageret 10 en kodet representasjon som indikerer sekvensen av referansedelord-modeller som av delord-gjenkjenneren er bedømt å representere inngangstalen best.

Beregningen anvender den velkjente HMM, som diskutert i «Hidden Markov Models for Automatic Speech Recognition: Theory and Application» av S. J. Cox, British Telecom Technology Journal, volum 6, nr 2, april 1988. Den HMM-proses-sering som utføres av delord-gjenkjenneren 7, benytter hensiktsmessig den velkjente Viterbi-algoritmen. Delord-gjenkjenneren 7 kan for eksempel være en mik-roprosessor, slik som Intel^MSe^-mikroprosessoren eller Motorola™ 68000-mikroprosessoren, eller kan alternativt være en DSP-innretning (for eksempel den samme DSP-innretning som egenskapsutlederen 6).

Som beskrevet foran blir delord-modellene som er tilknyttet delord-gjenkjenneren, oppnådd på en taleruavhengig måte. De kodede representasjoner som genereres av delord-gjenkjenneren 7, er derfor taleravhengig bare i den grad at de representerer den fonemiske transkripsjon av hvordan en gitt bruker uttaler et ord.

Delord-gjenkjenneren 7 har et gjenkjenningsnett som påfører små eller ingen bånd på den mulige sekvens med delord-enheter som kan genereres. Et eksempel på et løst bundet nettverk er vist på figur 3. Dette nettverket tillater gjenkjennelse av en enkel forbundet sekvens av fonemer omgitt av støy. Fonem-sekvensen er fullstendig ubundet, og fonemsekvenser som ikke inntreffer i det be-nyttede språket, (i det beskrevne eksempel er dette engelsk) kan derfor genereres.

Et gjenkjenningsnettverk som vist på figur 3 tilveiebringer for tiden bedre transkripsjonsresultater for telefontale enn et fullstendig ubundet nettverk, dvs. ett uten støymodeller før og etter fonemmodellene. Det tillater ikke fonemer fulgt av støy fulgt av fonemer. Betydningen av dette for et praktisk system er at det vil fremheve systemets nøyaktighet for isolerte ord eller forbundne fraser, men vil ha problemer hvis brukeren innfører en frase med åpninger mellom ordene. For eksempel i en automatisk nummersender, hvis brukeren sier «John Smith» uten noe mellomrom mellom fornavn og etternavn, vil denne form for grammatikk ikke forår-sake noen problemer. Hvis derimot de lager en åpning mellom disse, vil ytelsen lide, Gjenkjenningsnettverket til delord-gjenkjenneren vil imidlertid være konstruert for å møte systemets krav, dvs. isolerte ord, forbundne ord, osv.

Ved første gangs bruk av tjenesten oppfordrer brukerapparatet brukeren om å frembringe de ord brukeren ønsker å tilføye gjenkjennerens vokabular. Som reaksjon på en hørbar oppfordring fra brukerapparatet, taler brukeren et valgt ord inn i mikrofonen. I et automatisk nummersendingssystem kan dette ordet være navnet på en person brukeren vil ønske å ringe til, for eksempel «Jane».

Vokabulargeneratoren utleder egenskaper fra inngangen, som blir gitt til delord-gjenkjenneren 7. Når inngangstalen er mottatt, blir den tilpasset mot modellene i lageret 8. Delord-gjenkjenneren 7 som har et gjenkjenningsnettverk som vist på figur 3, genererer en kodet representasjon av den talte inngang, hvor den kodede representasjon identifiserer sekvensen av modeller som er mest lik inngangstalen. En fonemisk transkripsjon av inngangstalen blir således generert. De genererte kodede representasjoner av treningsutsagnet blir så lagret i et lager 10. Brukeren blir så oppfordret til å gjenta inngangen, slik at en mer robust representasjon av inngangstalen blir dannet.

Fra eksperimenter blir det funnet at den oppnådde nøyaktighet når bare et treningsutsagn ble gitt, var 87,8 %, mens nøyaktigheten når tre treningsutsagn ble tilveiebrakt, steg betydelig til 93,7. Det er klart at en telefonlinje med dårlig kvalitet vil ha en betydelig virkning på utfallet av genereringen. Den oppnådde nøyaktig-het når tre treningsutsagn ble tilveiebrakt, var også høyere enn når mottatte uttale-transkripsjoner fra tekstinnmatinger ble brukt istedenfor delord-representasjonen. Mottatt uttale er aksenten til standard sørlig britisk engelsk.

En ytterligere oppfordring blir så gitt til brukeren ved å spørre om noen ytterligere ord skal tilføyes. Hvis brukeren reagerer bekreftende (for eksempel ved å bruke en forut bestemt DTMF-tast), blir gjenkjenningsprosessen gjentatt for det neste ordet. Hvis brukeren reagerer negativt, koples systemet til gjenkjenningsmodus, dvs. at talegjenkjenneren 3 blir operativ. I lageret 10 er det lagret kodede representasjoner for hver ytterligere vokabulardel som identifiserer en sekvens med referansedelord-representasjoner.

Straks representasjoner er blitt generert for hvert av de ønskede ord i vokabularet, kan vokabularet brukes av talegjenkjenneren 3. Figur 4 viser komponent-ene i talegjenkjenneren 3. Talegjenkjenneren 3 omfatter en egenskapsutleder 6', et delord-modellager 8' og et lager 10 for kodede representasjoner generert av vokabulargeneratoren 9. En nettverkgenerator 12 er tilknyttet lageret 10 og dan-ner et gjenkjenningsnett utformet ved hjelp av sekvensene med referansedelord-representasjoner som er representert av de kodede representasjoner. Et slikt nettverk kan for eksempel genereres ved å kombinere de enkelte kodede representasjoner fra lageret 10 i parallelle alternativer av nettverket, som vist på figur 5, eller ved å kombinere de kodede representasjoner i en trestruktur, som vist på figur 6, som begge viser et eksempel på en sekvens med fonemer identifisert i et utsagn av ordet «six» og «seven».

Under gjenkjenning blir et inngangstalesignal ført til egenskapsutledende

anordning 6', og egenskapene blir videreført til en gjenkjenner 16 som er tilknyttet det nettverk som konfigureres av nettverkgeneratoren 12. Den ukjente inngangstale blir sammenlignet med nettverket som er konfigurert, og et signal blir avgitt fra gjenkjenneren 16 hvis en sterk likhet er funnet mellom den ukjente inngangstale og en av grenene i nettverket, og dermed ett av ordene eller en av frasene som er representert av de kodede representasjoner. Straks gjenkjenning har inntruffet, tar brukerapparatet 4 det neste viktige trinn i henhold til tjenesten, for eksempel hvis tjenesten er en automatisk nummersendingstjeneste og gjenkjenneren 16 finner at orden «Jane» et blitt gjenkjent, vil brukerapparatet sende det nummeret som er tilordnet «Jane».

Figur 7 viser en annen utførelsesform av oppfinnelsen. Mens figurene 2 og 3 viser vokabulargeneratoren 9 og talegjenkjenneren 3 som separate komponenter, viser figur 7 dem kombinert i talegjenkjenningsapparatet 20. Vokabulargeneratoren 9 og gjenkjenneren 16 deler de felles komponenter, dvs. egenskapsutlederen 6, delord-modellageret 8 og det brukervalgte ordlager 10. Talegjenkjenningsapparatet 20 innbefatter i tillegg et lager 14 for forut bestemte ord som lagrer forhåndsdefinerte kodede representasjoner av fonem-transkripsjonene av forut bestemte ord som er egnet for det tilsiktede brukerapparatet. For et automatisk nummersendingssystem kan for eksempel disse forut bestemte ord være sifrene 0 til 9, «slå», «nei», «ja», «tilføy» osv.

Talegjenkjenningsapparatet 20 er normalt i gjenkjenningsmodus. Dvs. at inngangstalesignalet blir ført til gjenkjenneren 16. Når brukeren ønsker å tilføye et ord til systemvokabularet, sier brukeren ordet «tilføy». Dette signalet blir ført til egenskapsutlederen 6, og egenskapene blir ført til gjenkjenneren 16. Nettverkgeneratoren 12 genererer et nettverk bestående av alle de ord som er representert i lagrene 14 og 10 (ved begynnelsen vil det ikke være noen ord lagret i lageret 10). Gjenkjenneren 16 tilpasser inngangen til nettverket og gjenkjenner inngangen som ordet «tilføy» og innfører som reaksjon treningsmodusen ved å kople om inngangen til vokabulargeneratoren 9.

Brukeren fortsetter som i den tidligere utførelsesform ved å uttale de navn som skal tilføyes systemets vokabular. Delord-gjenkjenneren 7 i vokabulargeneratoren 9 genererer de kodede representasjoner for lagring i det brukervalgte lageret 10. Brukeren kan imidlertid reagere på oppfordringer fra brukerapparatet på en talt måte med å si «ja» og «nei», idet inngangstalesignalet blir koplet til gjenkjenneren 16 når en spesifikk respons er forventet.

Straks brukeren har valgt de ønskede ord, kombinerer det etterfølgende nettverket som genereres av nettverkgeneratoren 12, forhåndsbestemte ord fra lageret 14 og brukervalgte ord fra lageret 10. Den resulterende gjenkjenner har en grammatikk hvor noen av ordene er definert ved hjelp av fonemsekvenser utledet fra brukerens tale, og noen ord er forhåndsdefinert ved hjelp av sekvenser utleder fra en annen kilde. Ordene fra de to lågere kan kombineres slik at for eksempel hvis ordet "ring" er forhåndsdefinert, kan gjenkjenningsnettverket utformes for å kombinere "ring" med hvert av de valgte ord slik systemets grammatikk tillater den kombinerte tale "ring" Jane», idet "ring" er forhåndsdefinert, og "Jane" er brukervalg.

Et talegjenkjenningsapparat som har 50 % av vokabularet forhåndsdefinert, har en nøyaktighet lik et fullstendig brukervalgt vokabular når bare ett treningsutsagn er tilveiebrakt. Nøyaktigheten av et slikt apparat er imidlertid betydelig dårlig-ere enn et fullstendig brukervalgt vokabular når tre treningsutsagn ble tilveiebrakt.

I en ytterligere utførelsesform av oppfinnelsen har således talegjenkjenneren 20 et antall forhåndsbestemte ord i det forhåndsbestemte lageret 14, og et antall brukervalgte ord i lageret 10 som er definert under en treningsmodus. Delord-representasjoner av de forhåndsdefinerte ord blir generert fra en brukers inngangstale under bruk av apparatet ved å føre egenskapene fra den egenskapsutledende anordning 6 til delord-gjenkjenneren 7 samt til gjenkjenneren 16. De kodede representasjoner som genereres av delord-gjenkjenneren for utsagnet, blir til-føyd lagret tid. Påfølgende utsagn bør passe bedre til de representasjoner som er lagret i lageret 10, enn de som er lagret i lageret 14, noen som resulterer i forbed-ret nøyaktighet i gjenkjenningen av forhåndsdefinerte ord.

Claims

1. Fremgangsmåte for generering av et vokabular for et talegjenkjenningsapparat, idet fremgangsmåten omfatter: å motta et inngangstalesignal som representerer et ord; å utlede egenskapssampler fra det mottatte talesignal; å sammenligne egenskapssamplene med tillatte sekvenser av referansedelord-representasjoner, idet minst en av de nevnte delord-representasjoner er i stand til å representere en sekvens av mere enn en egenskapssampel; å identifisere den tillatte sekvensen av referansedelord-representasjoner som ligner mest på det mottatte talesignalet og å generere en kodet representasjon fra den nevnte tillatte sekvens; og å lagre den genererte kodede representasjonen av ordet for etterfølgende gjenkjenning av et annet talesignal.

2. Fremgangsmåte ifølge krav 1, der alle mulige sekvenser av referansedelord-representasjonene er tillatte.

3. Fremgangsmåte ifølge krav 1, hvor de tillatte sekvensene av delord-representasjoner er begrenset til sekvenser som omfatter delord-representasjoner som representerer støy fulgt av delord-representasjoner som representerer tale fulgt av delord-representasjoner som representerer støy.

4. Fremgangsmåte ifølge krav 1, der trinnet med å identifisere den tillatte sekvensen av referansedelord-representasjoner som ligner mest på det mottatte talesignalet inkluderer betraktning av lagrede parametere som hver representerer en overgangssannsynlighet for en delord-representasjon fulgt av en tydeligere delord-representasjon.

5. Fremgangsmåte ifølge et hvilket som helst av de foregående krav, videre omfattende trinnet å generere et gjenkjenningsnettverk fra en eller flere lagrede delord-representasjoner, idet nettverket representerer tillatte sekvenser av delord-representasjoner i det genererte vokabularet.

6. Fremgangsmåte ifølge et hvilket som helst av de foregående krav, der delord-representasjonene er statistiske modeller.

7. Fremgangsmåte ifølge krav 6, der delord-representasjonene er skjulte Markov-modeller.

8. Vokabulargenereringsapparat (9) for generering av et vokabular fra et inngangstalesignal omfattende: et lager (8) som inneholder flere referansedelord-representasjoner; en egenskapsutleder (6) for å motta inngangstalesignalet og innrettet for å generere egenskapssampler; en delord-gjenkjenner (7) koplet for å motta de genererte egenskapssamplene, idet delord-gjenkjenneren har et vokabular av tillatte sekvenser av delord-representasjoner, idet minst en av de nevnte delord-representasjonene er i stand til å representere en sekvens av mere enn en egenskapssampel; der delord-gjenkjenneren er i drift innrettet for å sammenligne de mottatte egenskapssamplene med de tillatte sekvensene av referansedelord-representasjonene; og å generere en kodet representasjon ved å identifisere en tillatt sekvens av réferansedelord-representasjonene som ligner mest på inngangstalesignalet; og et ordlager (10) for lagring av den kodede representasjonen av inngangstalesignalet for etterfølgende gjenkjenning av et annet talesignal.

9. Apparat ifølge krav 8, videre inkluderende en gjenkjenner (16) innrettet til å sammenligne inngangstalesignalene med kodede representasjoner i ordlageret (10) og å mate ut et signal som indikerer gjenkjenning.

10. Apparat ifølge krav 9, videre omfattende et andre lager (14) av kodede representasjoner av ord, hvilke kodede representasjoner har blitt generert på en for-skjellig måte i forhold til de kodede representasjonene som er lagret i ordlageret.

11. Apparat ifølge krav 10, der de kodede representasjoner av ordene identifiserer en sekvens av referansedelord-representasjonene.

12. Apparat ifølge et hvilket som helst av kravene 8 til 11, der vokabularet definerer sekvenser av delord-representasjoner som omfatter delord-representasjoner som representerer støy fulgt av delord-representasjoner som representerer tale fulgt av delord-representasjoner som representerer støy.

13. Apparat ifølge et hvilket som helst av kravene 8 til 11, der vokabularet definerer alle mulig sekvenser av delord-representasjoner.

14. Apparat ifølge et hvilket som helst av kravene 8 til 13, der genereringen av den tillatte sekvensen av referansedelord-representasjoner som ligner mest på det mottatte talesignalet inkluderer betraktning av lagrede parametere som hver representerer en overgangssannsynlighet av en delord-representasjon etterfølgende en tidligere delord-representasjon.

15. Apparat ifølge et hvilket som helst av kravene 8 til 14, der delord-representasjonene er statistiske modeller.

16. Apparat ifølge krav 15, der delord-representasjonene er skjulte Markov-modeller.