[go: up one dir, main page]

JPWO2012093451A1 - Speech recognition system, speech recognition method, and speech recognition program - Google Patents

Speech recognition system, speech recognition method, and speech recognition program Download PDF

Info

Publication number
JPWO2012093451A1
JPWO2012093451A1 JP2012551755A JP2012551755A JPWO2012093451A1 JP WO2012093451 A1 JPWO2012093451 A1 JP WO2012093451A1 JP 2012551755 A JP2012551755 A JP 2012551755A JP 2012551755 A JP2012551755 A JP 2012551755A JP WO2012093451 A1 JPWO2012093451 A1 JP WO2012093451A1
Authority
JP
Japan
Prior art keywords
word
hypothesis
section
repair
transparent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012551755A
Other languages
Japanese (ja)
Inventor
長田 誠也
誠也 長田
健 花沢
健 花沢
岡部 浩司
浩司 岡部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2012093451A1 publication Critical patent/JPWO2012093451A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

音声認識システムは、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成して最適な解を探索する仮説探索手段と、仮説探索手段が探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定手段と、言い直しであると判定された場合に、当該単語もしくは単語列を含む言い直し区間のうちの非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った仮説である透過単語仮説を生成する透過単語仮説生成手段とを備える。The speech recognition system generates a hypothesis that is a chain of words to be searched as a recognition result candidate for input speech data, and a hypothesis search unit that searches for an optimal solution, and a hypothesis search unit that is searching When it is determined that the word or word string included in the hypothesis of the word or word string is re-phrased and the re-phrase determining means for determining whether or not the word or word string is re-phrased, Transparent word hypothesis generation means for generating a transparent word hypothesis that is a hypothesis in which a word or a word string included in a non-fluent section or a repair section of the rephrasing section including the word or word string is treated as a transparent word.

Description

本発明は、音声認識システム、音声認識方法および音声認識プログラムに関する。   The present invention relates to a voice recognition system, a voice recognition method, and a voice recognition program.

近年、音声認識技術の応用が進み、人から機械への読み上げ発声だけでなく、人から人への自然な発声に対しても音声認識技術が用いられるようになっている。   In recent years, the application of speech recognition technology has progressed, and speech recognition technology has been used not only for reading speech from a person to a machine but also for natural speech from a person to a person.

音声認識誤りを引き起こす原因として、言い直しの現象が存在する。言い直しは、ある単語列をそのまま、または別の単語列に置き換えて発声しなおす現象である。   A rephrasing phenomenon exists as a cause of speech recognition errors. Rephrasing is a phenomenon in which a certain word string is replaced as it is or replaced with another word string and re-uttered.

以下では、非特許文献1に記載のモデル(Repair Interval Model)に基づき、言い直しに関する区間について、修復対象区間(reparandum intaerval)、非流暢区間(disfluency interval)、修復区間(Repair Interval)の3つの区間に分け、それらが連続すると仮定する。修復対象区間は、後続の発声で言い直される区間をいう。また、修復区間は、先行する発声区間を言い直した発声区間をいう。また、非流暢区間は、言い淀みや間投詞など、先行する発声区間を言い直してはいないが後続の修復区間に繋げるために修復対象区間と修復区間の後に何らかの音が発声された区間をいう。例えば、「りんご、あ、バナナがいいです」という入力があったときに、「りんご」の部分を修復対象区間、「あ」の部分を非流暢区間、「バナナ」の部分を修復区間とする。なお、修復対象区間は言い直し前区間と呼ばれる場合がある。またこれに対して、修復区間は言い直し後区間と呼ばれる場合がある。なお、非流暢区間は、言い直し前区間に含むとされる場合も、言い直し後区間に含むとされる場合もある。また、どちらにも含まれずに別個の区間とされる場合や省略される場合もある。以下、修復対象区間から修復区間までの区間を単に言い直し区間と呼ぶ場合がある。   In the following, based on the model (Repair Interval Model) described in Non-Patent Document 1, for the section related to rephrasing, three sections, a repair target section, a non-fluidity section, and a repair section (Repair Interval). Divide into sections and assume they are continuous. The restoration target section is a section that is restated by the subsequent utterance. The restoration section is a utterance section in which the preceding utterance section is restated. In addition, the non-fluent section refers to a section in which some sound is uttered after the repair target section and the repair section in order to connect to the subsequent repair section, although the previous utterance section is not rephrased, such as saying and interjection. For example, when there is an input “I like apples, ah, and bananas”, the “apples” part is the restoration target section, the “a” part is the non-fluent section, and the “banana” part is the restoration section. . Note that the restoration target section may be referred to as the previous section. On the other hand, the restoration section may be called a section after rephrasing. Note that the non-fluent section may be included in the section before rephrasing or may be included in the section after rephrasing. Moreover, it may be included in neither and it may be a separate area, or may be omitted. Hereinafter, the section from the repair target section to the repair section may be simply referred to as a restatement section.

また、このような言い直しなどの不適格性を持つ文を統一的に解析する言語解析システムが、非特許文献2に記載されている。非特許文献2に記載されているシステムは、入力をテキストとした言語解析のためのシステムであって、係り受けの拡張として実現されている。   Further, Non-Patent Document 2 describes a language analysis system that analyzes unaffected sentences such as rephrasing in a unified manner. The system described in Non-Patent Document 2 is a system for language analysis using input as text, and is realized as an extension of dependency.

Nakatani, C. and Hirschberg, J, "A speech-first model for repair detection and correction", Proceedings of the 31st annual meeting on Association for Computational Linguistics, 1993, p.46-53Nakatani, C. and Hirschberg, J, "A speech-first model for repair detection and correction", Proceedings of the 31st annual meeting on Association for Computational Linguistics, 1993, p.46-53 伝 康晴,”統一モデルに基づく話し言葉の解析”,自然言語処理 Vol.4,Num.1,1997年, p.23−40Yasuharu Den, “Analysis of Spoken Language Based on Unified Model”, Natural Language Processing Vol. 4, Num. 1, 1997, p. 23-40

しかし、非特許文献2に記載されているように、言語解析システムでは係り受け解析のように長距離の情報を見ながら解析することが一般的であるが、音声認識システムでは言語モデルとしてN−gram言語モデルを使用するのが一般的である。そのため、N−gram言語モデルを使用する音声認識システムは、長距離の情報を見ることができず、言い直しなどの不適格性を持つ音声を統一的に解析することはできない。   However, as described in Non-Patent Document 2, in a language analysis system, it is common to analyze while looking at long-distance information as in dependency analysis, but in a speech recognition system, N- It is common to use the gram language model. Therefore, a speech recognition system that uses the N-gram language model cannot see long-distance information, and cannot uniformly analyze speech with ineligibility such as rephrasing.

そこで、本発明は、音声認識システムの言語モデルとしてN−gram言語モデルを使用する場合においても、言い直しに頑健な音声認識システム、音声認識方法および音声認識プログラムを提供することを目的とする。   Therefore, an object of the present invention is to provide a speech recognition system, a speech recognition method, and a speech recognition program that are robust even when the N-gram language model is used as the language model of the speech recognition system.

本発明による音声認識システムは、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成して最適な解を探索する仮説探索手段と、仮説探索手段が探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定手段と、言い直し判定手段によって言い直しであると判定された場合に、当該単語もしくは単語列を含む言い直し区間のうちの非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った仮説である透過単語仮説を生成する透過単語仮説生成手段とを備え、仮説探索手段は、探索対象とする仮説に透過単語仮説生成手段によって生成された透過単語仮説を含めて最適な解を探索することを特徴とする。   The speech recognition system according to the present invention includes a hypothesis search unit that generates a hypothesis that is a chain of words to be searched as a recognition result candidate for input speech data and searches for an optimal solution, and a hypothesis search unit Calculates the rephrasability of the word or word string included in the hypothesis being searched and rephrased by the rephrase determining means for determining whether or not the word or word string is rephrased, A transparent word hypothesis that is a hypothesis that treats a word or word string included in a non-fluent section or repair section of the rephrasing section including the word or word string as a transparent word when it is determined that there is a word. Word hypothesis generation means, and the hypothesis search means searches for an optimal solution by including the transparent word hypothesis generated by the transparent word hypothesis generation means in the hypothesis to be searched. The features.

また、本発明による音声認識方法は、仮仮説探索手段が、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成しつつ最適な解を探索する過程で、探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定し、言い直しであると判定された場合に、当該単語もしくは単語列を含む言い直し区間のうちの非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った仮説である透過単語仮説を生成することによって、仮説探索手段が、探索対象とする仮説に、生成された透過単語仮説を含めて最適な解を探索することを特徴とする。   In the speech recognition method according to the present invention, the temporary hypothesis searching means searches the input speech data for an optimal solution while generating a hypothesis that is a chain of words to be searched as a recognition result candidate. In the process, calculate the rephrasability of the word or word string included in the hypothesis being searched, determine whether the word or word string is reworded, and if it is determined to be rephrased, The hypothesis search means searches by generating a transparent word hypothesis that is a hypothesis in which a word or a word string included in a non-fluent section or a repair section of the reword section including the word or word string is treated as a transparent word. An optimal solution is searched by including the generated transparent word hypothesis in the target hypothesis.

また、本発明による音声認識プログラムは、コンピュータに、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成しつつ最適な解を探索する仮説探索処理の過程で、探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定処理、言い直しであると判定された場合に、当該単語もしくは単語列を含む言い直し区間のうちの非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った仮説である透過単語仮説を生成する透過単語仮説生成処理を実行させ、仮説探索処理で、探索対象とする仮説に、生成された透過単語仮説を含めて最適な解を探索させることを特徴とする。   Further, the speech recognition program according to the present invention is a hypothesis search process for searching for an optimal solution while generating a hypothesis that is a chain of words to be searched as a recognition result candidate for input speech data to a computer. In the process of calculating the re-phrase of a word or word string included in the hypothesis being searched and determining whether or not the word or word string is re-phrased, it is determined to be re-phrasing A transparent word hypothesis that generates a transparent word hypothesis that is a hypothesis that treats a word or word string included in a non-fluent section or repair section of the rephrasing section including the word or word string as a transparent word The process is executed, and the hypothesis search process searches for an optimal solution including the generated transparent word hypothesis in the hypothesis to be searched.

本発明によれば、音声認識システムの言語モデルとしてN−gram言語モデルを使用する場合においても、言い直しに頑健な音声認識システム、音声認識方法および音声認識プログラムを提供することができる。   ADVANTAGE OF THE INVENTION According to this invention, even when using an N-gram language model as a language model of a speech recognition system, a speech recognition system, a speech recognition method, and a speech recognition program that are robust in other words can be provided.

第1の実施形態の音声認識システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the speech recognition system of 1st Embodiment. 第1の実施形態の音声認識システムの動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of the speech recognition system of 1st Embodiment. 第2の実施形態の音声認識システムの構成例を示すブロック図である。It is a block diagram which shows the structural example of the speech recognition system of 2nd Embodiment. 第2の実施形態の音声認識システムの動作の一例を示すフローチャートである。It is a flowchart which shows an example of operation | movement of the speech recognition system of 2nd Embodiment. 仮説生成をする前の仮説の一例を示す説明図である。It is explanatory drawing which shows an example of the hypothesis before hypothesis generation. 仮説生成をする前の仮説の他の例を示す説明図である。It is explanatory drawing which shows the other example of the hypothesis before hypothesis generation. 非流暢区間と修復区間の単語列を透過単語とみなして生成される仮説の例を示す説明図である。FIG. 10 is an explanatory diagram illustrating an example of a hypothesis generated by regarding a word string of a non-fluent section and a repair section as a transparent word. 修復対象仮説と非流暢区間の単語列を透過単語とみなして生成される仮説の例を示す説明図である。FIG. 10 is an explanatory diagram illustrating an example of a hypothesis generated by regarding a repair target hypothesis and a word string in a non-fluent section as a transparent word. 本発明の概要を示すブロック図である。It is a block diagram which shows the outline | summary of this invention. 本発明による音声認識システムの他の構成例を示すブロック図である。It is a block diagram which shows the other structural example of the speech recognition system by this invention.

以下、本発明の実施形態について図面を参照して説明する。   Embodiments of the present invention will be described below with reference to the drawings.

実施形態1.
図1は、本発明の第1の実施形態の音声認識システムの構成例を示すブロック図である。図1に示す音声認識システムは、音声入力部1と、音声認識部2と、結果出力部3とを備える。また、音声認識部2は、仮説探索部21と、判定部22と、仮説生成部23とを含む。
Embodiment 1. FIG.
FIG. 1 is a block diagram illustrating a configuration example of a speech recognition system according to a first embodiment of this invention. The voice recognition system shown in FIG. 1 includes a voice input unit 1, a voice recognition unit 2, and a result output unit 3. The speech recognition unit 2 includes a hypothesis search unit 21, a determination unit 22, and a hypothesis generation unit 23.

音声入力部1は、話者の発声を音声データとして取り込む。音声データは、例えば、音声の特徴量系列として取り込まれる。音声認識部2は、音声入力部1によって取り込まれた音声データを入力として音声認識を行って音声認識結果を出力する。結果出力部3は、音声認識結果を出力する。   The voice input unit 1 takes in the voice of the speaker as voice data. The audio data is captured as, for example, an audio feature amount series. The voice recognition unit 2 performs voice recognition using the voice data captured by the voice input unit 1 as an input, and outputs a voice recognition result. The result output unit 3 outputs a speech recognition result.

仮説探索部21は、仮説の尤度を計算し、各仮説につながる音素および単語と接続する仮説の展開を行い、解の探索をする。   The hypothesis search unit 21 calculates the likelihood of the hypothesis, develops hypotheses connected to phonemes and words connected to each hypothesis, and searches for solutions.

判定部2は、各仮説の単語連鎖において、修復対象区間と非流暢区間と修復区間をそれぞれ仮定して、その仮定の下で言い直しらしさを求め、閾値以上の言い直しらしさを判定する。   The determination unit 2 assumes a repair target section, a non-fluent section, and a repair section in the word chain of each hypothesis, obtains rephrasability under the assumptions, and determines rephrasability above a threshold.

仮説生成部23は、非流暢区間と修復区間の単語列の単語を透過単語として扱った仮説を生成する。   The hypothesis generation unit 23 generates a hypothesis in which the words in the word string in the non-fluent section and the repair section are treated as transparent words.

言い直しらしさについては、無音区間の有無やパワー、ピッチ、話速の急激な変化の有無といった音響的な情報や、非流暢区間の単語の種類、修復対象区間と修復区間の単語の近さなどの指標を用いて計算することができる。これらの指標を単一で用いてもよいし、線形または非線形に結合して用いてもよい。   Regarding rephrasing, acoustic information such as the presence or absence of silent intervals, power, pitch, and presence or absence of sudden changes in speech speed, the type of words in non-fluent sections, the proximity of words in the repair target section and the repair section, etc. It is possible to calculate using the index. These indices may be used singly or may be combined linearly or nonlinearly.

本実施形態において、音声入力部1は、例えば、マイクロフォンなどの音声入力装置によって実現される。また、音声認識部2(仮説探索部21と、判定部22と、仮説生成部23とを含む。)は、例えば、CPU等のプログラムに従って動作する情報処理装置によって実現される。また、結果出力部3は、例えば、CPU等のプログラムに従って動作する情報処理装置と、モニタ等の出力装置とによって実現される。   In the present embodiment, the voice input unit 1 is realized by a voice input device such as a microphone, for example. The voice recognition unit 2 (including the hypothesis search unit 21, the determination unit 22, and the hypothesis generation unit 23) is realized by an information processing apparatus that operates according to a program such as a CPU, for example. The result output unit 3 is realized by, for example, an information processing device that operates according to a program such as a CPU and an output device such as a monitor.

次に、本実施形態の動作について説明する。図2は、本実施形態の音声認識システムの動作の一例を示すフローチャートである。図2に示す例では、まず、音声認識部1が、話者の発声を音声データとして取り込む(ステップA101)。   Next, the operation of this embodiment will be described. FIG. 2 is a flowchart showing an example of the operation of the speech recognition system of the present embodiment. In the example shown in FIG. 2, first, the speech recognition unit 1 captures a speaker's utterance as speech data (step A101).

次に、音声認識部2が、取り込まれた音声データを入力として当該音声データに対して音声認識を行う。ここでは、まず、仮説探索部21が、入力された音声データ内で、単語が確定していない単語内仮説の尤度計算を行う(ステップA102)。また、仮説探索部21は、単語終端にたどり着いた仮説について、確定した単語に基づいて言語尤度を与える(ステップA103)。なお、単語内仮説とは、音声データに対して時間軸に沿って前から探索を行う過程で、どの単語であるかが確定していない部分において、語頭が同じ音素の単語を一つの仮説として扱うその単位(ひとまとまり)をいう。従って、ステップA102での段階では、仮説探索部21は、単語が確定していない単語内仮説に対して、”音響尤度+近似された言語尤度”という形で尤度計算を行う。なお、正確に単語連鎖の言語尤度を計算して、”音響尤度+言語尤度”と合算するのは該仮説が単語終端までたどり着き、単語が確定した時であり、この時にA103に移行する。   Next, the voice recognition unit 2 performs voice recognition on the voice data using the fetched voice data as an input. Here, first, the hypothesis search unit 21 calculates the likelihood of an intra-word hypothesis in which the word is not fixed in the input speech data (step A102). Moreover, the hypothesis search part 21 gives a language likelihood based on the confirmed word about the hypothesis which reached | attained the word end (step A103). The intra-word hypothesis is the process of searching for speech data along the time axis from the front, and in the part where the word is uncertain, the word with the same phoneme as one hypothesis It refers to the unit (unit) that is handled. Therefore, in the stage at step A102, the hypothesis search unit 21 performs likelihood calculation in the form of “acoustic likelihood + approximate language likelihood” for the intra-word hypothesis where the word is not fixed. Note that the word likelihood of the word chain is accurately calculated and summed with “acoustic likelihood + language likelihood” when the hypothesis reaches the end of the word and the word is finalized. To do.

仮説探索部21が仮説を探索する過程において、判定部22は、確定した単語列の中から順に、修復対象区間と非流暢区間と修復区間の組を仮定して、それらを列挙し、1つ目の組を取り出す(ステップA104)。ここでは、判定部22は、仮説探索部21によって生成された仮説(すなわち、探索中の仮説)において一種類の単語として確定したものを対象に、予め定めておいた言い直し区間の設定情報に基づき、修復対象区間と非流暢区間と修復区間を仮定する。修復区間には、確定した単語を含むものとする。なお、修復対象区間と非流暢区間と修復区間とは、例えば連続する1単語ずつの区間であるとしてもよいし、修復対象区間の単語数はL個、非流暢区間の単語数はM個、修復区間の単語数はN個まで許す区間であるとして、各区間の単語数がとりうる複数の組み合わせを全て列挙してもよい(L、M、N≧0)。以下、ステップA104において列挙された修復対象区間と非流暢区間と修復区間の組を、仮定の言い直し区間組と呼び、またそれらを繋げてなる区間を仮定の言い直し区間と呼ぶ場合がある。   In the process in which the hypothesis search unit 21 searches for hypotheses, the determination unit 22 enumerates a set of repair target sections, non-fluid sections, and repair sections in order from the determined word string. A pair of eyes is taken out (step A104). Here, the determination unit 22 uses the hypothesis generated by the hypothesis search unit 21 (that is, the hypothesis being searched) as one type of word, and sets the predetermined rephrase section setting information. Based on the above, a repair target section, a non-fluent section, and a repair section are assumed. It is assumed that the fixed section includes a confirmed word. The repair target section, the non-fluent section, and the repair section may be, for example, sections of consecutive words, the number of words in the repair target section is L, the number of words in the non-fluent section is M, Assuming that the number of words in the restoration section is a section that allows up to N words, all the combinations that the number of words in each section can take may be listed (L, M, N ≧ 0). Hereinafter, the combination of the repair target section, the non-fluid section and the repair section listed in step A104 may be referred to as a hypothetical reword section group, and a section connecting them may be referred to as a hypothetical reword section.

次いで、判定部22は、ステップA104で取り出された仮定の言い直し区間組に対して言い直しらしさを計算する(ステップA105)。言い直しらしさは、無音区間の有無、またはパワー、ピッチ、話速の急激な変化の有無といった音響的な情報や、非流暢区間の単語の種類、修復対象区間と修復区間の単語の近さなどの指標を用いて計算することができる。   Next, the determination unit 22 calculates the rephrasing likelihood for the hypothetical rephrasing section set extracted in step A104 (step A105). The rephrasing is acoustic information such as whether there is a silent section or whether there is a sudden change in power, pitch, speech speed, the type of words in the non-fluent section, the closeness of the words in the repair target section and the repair section, etc. It is possible to calculate using the index.

次いで、判定部22は、計算された言い直しらしさが閾値以上かどうかの判定をする(ステップA106)。言い直しらしさが閾値以上の場合には(ステップA106のYes)、仮説生成部23が、その仮定の言い直し区間組における非流暢区間と修復区間とを透過単語とした仮説を生成する(ステップA107)。ここで、透過単語とは、音声認識過程において言語的にはないものとして取り扱われる単語をいう。従って、透過単語とされた場合には、仮説の言語尤度計算を行う際に、当該単語を取り除いて尤度の計算が行われる。より具体的には、仮説探索部21において、透過単語とされた単語については当該単語がなかったものとしてN−gram言語モデルを使用して当該仮説の言語尤度が計算される。   Next, the determination unit 22 determines whether or not the calculated rephrase likelihood is greater than or equal to a threshold value (step A106). When the rephrasing probability is equal to or greater than the threshold (Yes in Step A106), the hypothesis generation unit 23 generates a hypothesis using the non-fluidic section and the repaired section in the rephrasing section set of the hypothesis as a transparent word (Step A107). ). Here, the transparent word refers to a word that is treated as non-linguistic in the speech recognition process. Therefore, in the case of a transparent word, when calculating the hypothesis language likelihood, the word is removed and the likelihood is calculated. More specifically, the hypothesis search unit 21 calculates the language likelihood of the hypothesis using the N-gram language model on the assumption that there is no such word as a transparent word.

一方、言い直しらしさが閾値未満の場合は(ステップA106のNo)、ステップA108に進む。ステップA108では、判定部22は、列挙された仮定の言い直し区間組に、まだ処理していない組が残っているかを確認する。残っている場合は、判定部22は、ステップA105に戻り、残りの組の中から1つの組を取り出す(ステップA108のYes)。一方、列挙された仮定の言い直し区間組の全てに対してステップA105〜A107までの処理が完了した場合には(ステップA108のNo)、ステップA109に進む。   On the other hand, if the rephrasing likelihood is less than the threshold value (No in step A106), the process proceeds to step A108. In step A108, the determination unit 22 confirms whether there is a set that has not yet been processed in the listed restatement section assumptions. If it remains, the determination unit 22 returns to step A105 and takes out one set from the remaining sets (Yes in step A108). On the other hand, if the processing from step A105 to step A107 is completed for all of the listed assumption rephrasing section sets (No in step A108), the process proceeds to step A109.

ステップA109では、仮説探索部21が、音声の終端まで仮説探索が終わったかどうかを判定する。ここで、音声の終端まで仮説探索が終わっていない場合は(ステップA109のNo)、仮説探索部21は、ステップA102に戻り、ステップA107で生成された仮説を加えて、または言い直しと判定された仮説に置き換えた上で、次の音声フレームの仮説探索を行う(次の音声フレームに対してステップA102〜A108までの処理を行う)。   In step A109, the hypothesis search unit 21 determines whether or not the hypothesis search has been completed up to the end of the speech. Here, if the hypothesis search has not ended up to the end of the speech (No in Step A109), the hypothesis search unit 21 returns to Step A102 and is determined to add or restate the hypothesis generated in Step A107. Then, the hypothesis search for the next speech frame is performed (the processing from steps A102 to A108 is performed on the next speech frame).

一方、音声の終端まで仮説探索が終わっていた場合は(ステップA109のYes)、結果出力部3は、N−gram言語モデルを使用して最終的に最尤となった仮説を音声認識結果として出力する(ステップA110)。   On the other hand, when the hypothesis search has been completed up to the end of the speech (Yes in step A109), the result output unit 3 uses the N-gram language model as a speech recognition result with the hypothesis finally having the maximum likelihood. Output (step A110).

以上のように、本実施形態では、探索中の仮説に対して逐次的に言い直し区間を仮定し、言い直しらしさを計算し、結果言い直しであると判定された区間の非流暢区間と修復区間を動的に透過単語として扱った透過単語仮説を生成することで、N−gram言語モデルを使用して、言い直しを含む発声の修復対象区間に対して精度良く音声認識することができる。   As described above, in the present embodiment, a rephrasing interval is sequentially assumed for the hypothesis under search, the rephrasing likelihood is calculated, and the non-fluidity interval and the restoration of the interval determined to be rephrased as a result By generating a transparent word hypothesis that dynamically treats a section as a transparent word, it is possible to perform speech recognition with high accuracy with respect to an utterance restoration target section including rephrasing using an N-gram language model.

実施形態2.
次に、本発明の第2の実施形態について説明する。図3は、本発明の第2の実施形態の音声認識システムの構成例を示すブロック図である。図3に示す音声認識システムは、図1に示す第1の実施形態と比べて、音声認識部2が結果生成部24を含む点が異なる。
Embodiment 2. FIG.
Next, a second embodiment of the present invention will be described. FIG. 3 is a block diagram illustrating a configuration example of the speech recognition system according to the second embodiment of this invention. The speech recognition system shown in FIG. 3 is different from the first embodiment shown in FIG. 1 in that the speech recognition unit 2 includes a result generation unit 24.

また、本実施形態において、仮説生成部23は、非流暢区間と修復区間の単語列の単語を透過単語として扱った仮説を生成するだけでなく、修復対象区間と非流暢区間の単語列の単語を透過単語として扱った仮説を生成する。   In the present embodiment, the hypothesis generation unit 23 generates not only a hypothesis that treats words in the word strings of the non-fluent section and the repair section as transparent words, but also the words in the word string of the repair target section and the non-fluent section. Generate a hypothesis that treats as a transparent word.

結果生成部24は、修復対象区間側の単語列を透過単語として扱った仮説を生成したときの最尤仮説と、修復区間側の単語列を透過単語として扱った仮説を生成したときの最尤仮説とを組み合わせた音声認識結果を生成する。   The result generation unit 24 generates a maximum likelihood hypothesis when a hypothesis in which a word string on the repair target section side is treated as a transparent word and a maximum likelihood hypothesis in which a hypothesis is treated with the word string on the repair section side as a transparent word. A speech recognition result combined with a hypothesis is generated.

次に、本実施形態の動作について説明する。図4は、本実施形態の音声認識システムの動作の一例を示すフローチャートである。本実施形態の動作は、第1の実施の形態の動作と比べて、修復対象区間側の修復対象区間と非流暢区間の単語列の単語を透過単語として扱った仮説を生成するか、修復区間側の非流暢区間と修復区間の単語列の単語を透過単語として扱った仮説を生成するかを判断する透過フラグをシステム内部で保持しておき、修復対象区間側の単語列を透過単語として扱った仮説を生成したときの最尤仮説と、修復区間側の単語列を透過単語として扱った仮説を生成したときの最尤仮説との2つの最尤仮説を生成する点が異なる。   Next, the operation of this embodiment will be described. FIG. 4 is a flowchart showing an example of the operation of the voice recognition system of this embodiment. Compared with the operation of the first embodiment, the operation of the present embodiment generates a hypothesis in which the words in the word string in the repair target section and the non-fluent section on the repair target section side are treated as transparent words, or the repair section The system maintains a transparency flag that determines whether to generate a hypothesis that treats words in the non-fluent section and repair section word strings as transparent words, and treats the repair target section as a transparent word The difference is that two maximum likelihood hypotheses are generated: the maximum likelihood hypothesis when the generated hypothesis is generated and the maximum likelihood hypothesis when the hypothesis in which the word string on the repair section side is treated as a transparent word is generated.

図4に示す例では、まず、音声入力部1で話者の発声を音声データとして取り込む(ステップA201)。本実施形態では、音声認識システムは、音声データを取り込んだタイミングで、システム内部で保持している透過フラグを修復区間側に設定する(ステップA202)。透過フラグは、透過単語を修復対象区間側に作るか、または修復区間側に作るかを示す情報である。   In the example shown in FIG. 4, first, the voice input unit 1 captures the utterance of the speaker as voice data (step A201). In this embodiment, the voice recognition system sets the transparency flag held in the system to the restoration section side at the timing when the voice data is captured (step A202). The transparent flag is information indicating whether a transparent word is created on the repair target section side or on the repair section side.

次に、仮説探索部21は、入力された音声データ内で、単語が確定していない単語内の仮説の尤度計算を行う(ステップA203)。また、仮説探索部21は、単語終端にたどり着いた仮説について、確定した単語に基づいて言語尤度を与える(ステップA204)。   Next, the hypothesis search unit 21 calculates the likelihood of a hypothesis in a word whose word is not fixed in the input voice data (step A203). Moreover, the hypothesis search part 21 gives a language likelihood based on the confirmed word about the hypothesis which arrived at the word end (step A204).

一方、判定部22は、確定した単語列の中から順に、修復対象区間と非流暢区間と修復区間の組を仮定して、それらを列挙し、1つ目の組を取り出す(ステップA205)。これらの区間は確定した単語を含み、修復対象区間と非流暢区間と修復区間は例えば連続する1単語ずつでもよいし、修復対象区間の単語数はL個、非流暢区間の単語数はM個、修復区間の単語数はN個の区間として、複数の組み合わせを全て列挙してもよい(L、M、N≧0)。   On the other hand, the determination unit 22 enumerates a set of repair target sections, non-fluent sections, and repair sections in order from the determined word string, and extracts the first set (step A205). These sections include fixed words, and the repair target section, the non-fluent section, and the repair section may be, for example, one continuous word, the number of words in the repair target section is L, and the number of words in the non-fluent section is M. The number of words in the repair section may be enumerated as N sections, and all combinations may be listed (L, M, N ≧ 0).

次いで、判定部22は、列挙された修復対象区間と非流暢区間と修復区間に対して言い直しらしさを計算する(ステップA206)。言い直しらしさは、無音区間の有無、またはパワー、ピッチ、話速の急激な変化の有無といった音響的な情報や、非流暢区間の単語の種類、修復対象区間と修復区間の単語の近さなどの指標を用いて計算することができる。   Next, the determination unit 22 calculates rephrasing for the listed repair target sections, non-fluent sections, and repair sections (step A206). The rephrasing is acoustic information such as whether there is a silent section or whether there is a sudden change in power, pitch, speech speed, the type of words in the non-fluent section, the closeness of the words in the repair target section and the repair section, etc. It is possible to calculate using the index.

判定部22は、計算された言い直しらしさが閾値以上かどうかの判定をする(ステップA207)。言い直しらしさが閾値以上の場合は(ステップA207のYes)、仮説生成部23が、システム内部で保持している透過フラグが修復対象区間側であれば、修復対象区間と非流暢区間を透過単語とした仮説を生成し、透過フラグが修復区間側であれば、非流暢区間と修復区間を透過単語とした仮説を生成する。(ステップA208)。なお、仮説生成部23によって生成された仮説は、仮説探索部2によって、透過単語とされた単語がなかったものとしてN−gram言語モデルを使用して言語尤度が計算される。   The determination unit 22 determines whether or not the calculated restatement is equal to or greater than a threshold value (step A207). If the rephrasing is equal to or greater than the threshold (Yes in step A207), the hypothesis generation unit 23 sets the repair target section and the non-fluent section as transparent words if the transparency flag held in the system is on the repair target section side. If the transparency flag is on the repair section side, a hypothesis with a non-fluent section and a repair section as transparent words is generated. (Step A208). The hypothesis generated by the hypothesis generation unit 23 is calculated by the hypothesis search unit 2 using the N-gram language model, assuming that there is no transparent word.

一方、言い直しらしさが閾値未満の場合はステップA209に進む(ステップA207のNo)。   On the other hand, if the rephrasing probability is less than the threshold value, the process proceeds to step A209 (No in step A207).

ステップA209では、判定部22は、列挙された修復対象区間と非流暢区間と修復区間の組み合わせが残っているかを確認する。区間の組みが残っている場合は(ステップA209のYes)、その区間の組みについてステップA205からステップA208までの処理をする。   In step A209, the determination unit 22 confirms whether the listed combination of the repair target section, the non-fluent section, and the repair section remains. If a set of sections remains (Yes in step A209), the process from step A205 to step A208 is performed for the set of sections.

一方、区間の組が残っていなければ(ステップA209のNo)、ステップA210に進む。ステップA210では、仮説探索部21が、音声の終端まで仮説探索が終わったかどうかを判定し、音声の終端まで仮説探索が終わっていない場合は(ステップA210のNo)、次の音声フレームに対してステップA203からステップA209までの処理を行う。   On the other hand, if no section set remains (No in step A209), the process proceeds to step A210. In step A210, the hypothesis search unit 21 determines whether or not the hypothesis search has been completed up to the end of the speech. If the hypothesis search has not been completed to the end of the speech (No in step A210), the hypothesis search is completed for the next speech frame. Processing from step A203 to step A209 is performed.

音声の終端まで仮説探索が終わっている場合には(ステップA210のYes)、現在の透過フラグが修復区間側かどうかを判定し(ステップA211)、修復区間側であれば透過フラグを修復対象区間側に変更して(ステップA212)、入力された音声についてステップA203からステップA210までの処理を同様に行う。   If the hypothesis search has been completed up to the end of the speech (Yes in Step A210), it is determined whether or not the current transmission flag is on the repair section side (Step A211). (Step A212), and the processing from step A203 to step A210 is similarly performed on the input voice.

また、現在の透過フラグが修復区間側でなく修復対象区間側であれば(ステップA211のNo)、結果生成部24が、先に処理をした修復区間側の仮説の最尤仮説と、後に処理をした修復対象区間側の最尤仮説の仮説を比較する。そして、結果生成部24は、修復区間側の最尤仮説で修復区間部分が透過単語として選ばれているか、修復対象区間側の最尤仮説で修復対象区間部分が透過単語として選ばれているかを確認し、この言い直し区間に対して、この2つの最尤仮説を組み合わせた結果を生成する(ステップA213)。なお、結果生成部24は、修復区間側の最尤仮説で修復区間部分が透過単語として選ばれていない場合や修復対象区間側の最尤仮説で修復対象区間部分が透過単語として選ばれていない場合には、これらの区間は言い直し区間ではないものとして、この組み合わせ処理を行わずに、通常の尤度判定による最尤仮説を当該区間の最尤仮説として結果を生成する。すなわち、結果生成部24は、2つの最尤仮説でいずれも言い直しのために所定の区間を透過単語とした仮説が最尤仮説として選ばれていることを確認した場合にのみ、当該仮定の言い直し区間について2つの最尤仮説を組み合わせる。   If the current transparency flag is not on the repair section side but on the repair target section side (No in step A211), the result generation unit 24 processes the maximum likelihood hypothesis of the hypothesis on the repair section side that has been processed earlier and the subsequent processing. Compare the hypothesis of the maximum likelihood hypothesis on the repair target section side. Then, the result generation unit 24 determines whether the repair section is selected as a transparent word in the maximum likelihood hypothesis on the repair section, or whether the repair target section is selected as a transparent word in the maximum likelihood hypothesis on the repair target section. Then, a result of combining these two maximum likelihood hypotheses is generated for this rephrasing section (step A213). The result generation unit 24 does not select the repair target section as a transparent word when the repair section is not selected as a transparent word in the maximum likelihood hypothesis on the repair section or when the repair target section is not selected as a transparent word in the maximum likelihood hypothesis on the repair target section. In such a case, it is assumed that these sections are not rephrasing sections, and a result is generated using the maximum likelihood hypothesis based on normal likelihood determination as the maximum likelihood hypothesis of the section without performing this combination process. That is, the result generation unit 24 confirms that a hypothesis having a predetermined interval as a transparent word is selected as the maximum likelihood hypothesis for rephrasing both of the two maximum likelihood hypotheses. Combine the two maximum likelihood hypotheses for the restatement interval.

結果出力部3は、結果生成部24によって生成された結果を出力する(ステップA214)。   The result output unit 3 outputs the result generated by the result generation unit 24 (step A214).

以上のように、本実施形態では、修復対象区間と非流暢区間を透過単語として扱った透過単語仮説と、非流暢区間と修復区間を透過単語として扱った透過単語仮説を生成したときのそれぞれの最尤仮説を組み合わせて音声認識結果として出力することで、N−gram言語モデルを使用しても、言い直しを含む発声の修復対象区間に対して精度良く音声認識することができる。   As described above, in the present embodiment, the transparent word hypothesis in which the repair target section and the non-fluent section are treated as transparent words, and the transparent word hypothesis in which the non-fluent section and the repair section are treated as transparent words are generated. By combining the maximum likelihood hypothesis and outputting the result as a speech recognition result, speech recognition can be performed with high accuracy for the utterance restoration target section including rephrasing even if the N-gram language model is used.

すなわち、修復対象区間と非流暢区間を透過単語と扱った透過単語仮設を生成することで、修復対象区間の前の単語と修復区間と修復区間の後ろの単語のN−gram言語モデルを使用することができる。また、非流暢区間と修復区間を透過単語として扱った透過単語仮説を生成することで、修復対象区間の前の単語と修復対象区間と修復区間の後ろの単語のN−gram言語モデルを使用することができる。これらの2種類の透過単語を含む仮説の言語尤度を踏まえた上でこれらの仮説を組み合わせることにより、修復対象区間の前の単語列、修復対象区間、非流暢区間、修復区間、修復区間の後の単語列のN−gram言語モデルが適切に適応されつつも、発声音声に忠実な音声認識結果を出力することができる。   That is, by generating a transparent word hypothesis in which the repair target section and the non-fluent section are treated as transparent words, the N-gram language model of the word before the repair target section, the repair section, and the word after the repair section is used. be able to. Further, by generating a transparent word hypothesis that treats the non-fluent section and the repair section as transparent words, the N-gram language model of the word before the repair target section, the repair target section, and the word after the repair section is used. be able to. By combining these hypotheses based on the language likelihood of the hypothesis including these two types of transparent words, the word string before the repair target section, the repair target section, the non-fluent section, the repair section, and the repair section While the N-gram language model of the subsequent word string is appropriately adapted, it is possible to output a speech recognition result faithful to the uttered speech.

また、これら2つの仮説を組み合わせた仮説を音声認識結果として出力する際に、言い直しの区間の情報を付与して出力することによって、出力した当該音声認識結果を言語解析システムで解析するときにこの付与された情報を使用することで、より正確に言語解析をすることが可能となる。   In addition, when outputting a hypothesis combining these two hypotheses as a speech recognition result, by adding the information of the reworded section and outputting it, when the output speech recognition result is analyzed by the language analysis system By using the given information, it becomes possible to perform language analysis more accurately.

また、上記説明では、修復対象区間側の処理において、修復区間側と同様な処理をする例を示したが、非流暢区間と修復区間の単語列を透過単語として扱った透過単語仮説を再利用して、言い直しらしい部分に対してのみ、修復対象区間と非流暢区間の単語列を透過単語として扱った透過単語仮説を生成するだけでもよい。   In the above description, the example of performing the same process as the repair section side in the process on the repair target section side is shown, but the transparent word hypothesis that treats the word strings of the non-fluent section and the repair section as transparent words is reused. Then, it is also possible to generate only a transparent word hypothesis that treats a word string of a repair target section and a non-fluent section as a transparent word only for a reproducible part.

また、上記説明では、透過単語を修復区間側から先に生成したが、修復対象区間側から生成してもよい。また、分けて最尤判定を行うことを前提にして、1回の言い直し判定で2種類の透過単語仮説(非流暢区間と修復区間の単語列を透過単語として扱った透過単語仮説と、修復対象区間と非流暢区間の単語列を透過単語として扱った透過単語仮説と)を生成することも可能である。   In the above description, the transparent word is generated first from the repair section side, but may be generated from the repair target section side. In addition, assuming that the maximum likelihood determination is performed separately, two types of transparent word hypotheses (transparent word hypothesis in which a word string in a non-fluent section and a repair section is treated as a transparent word, and repair are performed in one reword determination. It is also possible to generate a transparent word hypothesis in which the word strings of the target section and the non-fluent section are treated as transparent words.

次に、本発明の第1の実施例を図面を参照して説明する。かかる実施例は、上記第1の実施形態に対応するものである。本実施例では、「ペン、んー、青いので書いて」(日本語発声:図6に示す英語では例は、"a pena bed, you know, please write by a blue onea brown one is made of woods" )という発声を音声認識する場合を例に挙げて動作の説明をする。   Next, a first embodiment of the present invention will be described with reference to the drawings. This example corresponds to the first embodiment. In this example, “Pen, do n’t write in blue” (Japanese utterance: In English shown in FIG. 6, the example is “a pena bed, you know, please write by a blue onea brown one is made of woods” The operation will be described by taking as an example the case of recognizing the utterance ")".

まず、ステップA101では、音声入力部1が、話者の「ペン、んー、青いので書いて」(日本語発声:英語例はでは、"a beda pen, you know, a brown one is made of woodsplease write by a blue one" )という発声を音声データとして取り込む。   First, in step A101, the voice input unit 1 reads the speaker's "pen, don, blue so write" (Japanese utterance: English example is "a beda pen, you know, a brown one is made of" Say “woodsplease write by a blue one”).

次に、ステップA102で、仮説探索部21は、取り込まれた音声データを入力として、どの単語であるかが確定しない単語内仮説の尤度計算をする。この処理は、例えば、この発話例の「書いて」(日本語:英語例はでは、"made of woodsplease write")という単語の/i/の音素の発声に対して、/i/や/u/の音素のモデルとの音響尤度計算を行い、「青いので」(日本語:英語例はでは、"a brown one isby a blue one" )といった当該仮説の先方の単語連鎖の言語尤度との合算することに該当する。   Next, in step A102, the hypothesis search unit 21 calculates the likelihood of an intra-word hypothesis that is not determined as to which word is received by using the acquired speech data as an input. This processing is performed, for example, on the utterance of the phoneme of / i / with the word “write” (Japanese: “made of woodsplease write” in the English example) of this utterance example. The acoustic likelihood is calculated with the phoneme model of / and the language likelihood of the previous word chain of the hypothesis such as “blue so” (Japanese: “a brown one is by a blue one” in the English example) It corresponds to adding up.

次に、ステップA103で、仮説探索部21は、単語終端にたどり着いた仮説について、確定した単語に基づいて言語尤度を与える。   Next, in step A103, the hypothesis search unit 21 gives a language likelihood based on the confirmed word for the hypothesis that has reached the end of the word.

図5は、本例において探索される仮説の例を示す説明図である。図5において、各楕円は、認識結果の候補として探索が行われる単語(単語仮説)を示している。また、各単語仮説に付された数値は、各単語仮説が先行する単語仮説と連鎖している状態とされる単語連鎖の対数尤度を表す。この例では、「んー」(日本語:英語例はでは、"you know")という単語が確定した場合に、先行する「ペン」(日本語:英語例は、"a bed")という発声が「ペン」(日本語:英語例は、"a bed")という単語仮説になっている場合、「ペンんー」(日本語:英語例はでは、"a beda pen, you know" )という単語連鎖の言語尤度が与えられている。図5に示す例では、「−60」という対数尤度が与えられている。なお、同時に「パンんー」(日本語:英語例はでは、"breada pet, you know")といった単語連鎖の仮説も計算されることがあり、本例では「−50」という対数尤度が与えられている。   FIG. 5 is an explanatory diagram showing examples of hypotheses searched in this example. In FIG. 5, each ellipse indicates a word (word hypothesis) to be searched as a recognition result candidate. The numerical value attached to each word hypothesis represents the log likelihood of the word chain in which each word hypothesis is linked to the preceding word hypothesis. In this example, when the word “n-” (Japanese: English example is “you know”) is confirmed, the preceding “pen” (Japanese: English example is “a bed”) Is "pen" (Japanese: English example is "a bed"), and "penn" (Japanese: English example is "a beda pen, you know") The language likelihood of word chain is given. In the example illustrated in FIG. 5, a log likelihood of “−60” is given. At the same time, a word chain hypothesis such as “Pan-n” (Japanese: “breada pet, you know” in the English example) may be calculated. In this example, the log likelihood of “−50” is calculated. Is given.

次に、ステップA104では、判定部22が、確定した単語列の中で可能性のある修復対象区間と非流暢区間と修復区間の組を列挙して、1つ目の組を取り出す。例えば、修復区間にはステップA103で確定した単語を含むようにして、修復対象区間と非流暢区間と修復区間を例えば連続する1単語ずつでもいいし、修復対象区間をL単語、非流暢区間をM単語、修復区間をN単語まで許す連続した区間として、それぞれの組み合わせを全て列挙してもよい。例えば修復対象区間を1単語、非流暢区間を1単語、修復単語を1単語とすると、本発声例では、ステップA103で「青い」(日本語:英語例はでは、"a brownblue")という単語が確定した際には、修復対象区間として「ペン」(日本語:英語例では、"a bed")、非流暢区間として「んー」(日本語:英語例はでは、"you know")、修復区間として「青い」(日本語:英語例はでは、"a brownblue")という区間組が列挙される。   Next, in step A104, the determination unit 22 enumerates possible combinations of the repair target section, the non-fluent section, and the repair section in the confirmed word string, and takes out the first set. For example, the repair section includes the word determined in step A103, and the repair target section, the non-fluent section, and the repair section may be one continuous word, the repair target section is L words, and the non-fluent section is M words. All the combinations may be listed as continuous intervals allowing up to N words for the repair interval. For example, assuming that the restoration target section is one word, the non-fluent section is one word, and the restoration word is one word, in this utterance example, the word “blue” (Japanese: “a brownblue” in the English example) in step A103. Is fixed, "pen" (Japanese: "a bed" in the English example) and "n-" as the non-fluent section (Japanese: "you know" in the English example) As a repair section, a section set of “blue” (in Japanese: “a brownblue” in the English example) is listed.

次に、ステップA105で、判定部22は、ステップA104で仮定されて取り出された1の仮定の言い直し区間組に対して言い直しらしさを計算する。本実施例では、言い直しらしさの指標として無音区間の長さ、パワー、ピッチ、話速の急激な変化の有無といった音響情報を用いる。音響的な情報については、あらかじめ修復対象区間と非流暢区間と修復区間がタグ付けされ、さらに音響情報も付与されている学習データを用いて、無音区間の長さ、パワー、ピッチ、話速の時間微分を特徴量とした混合ガウス分布などによってモデル化しておき、当該モデルとの尤度を計算する。   Next, in step A105, the determination unit 22 calculates a rephrase likelihood for the one restatement section set of one hypothesis assumed and extracted in step A104. In the present embodiment, acoustic information such as the length of a silent section, power, pitch, and presence / absence of a sudden change in speech speed is used as an index of restatement. For acoustic information, the length, power, pitch, and speech speed of the silent section are used using learning data that is pre-tagged with the restoration target section, non-fluidity section, and restoration section, and also with acoustic information. Modeling is performed using a mixed Gaussian distribution with time differentiation as a feature amount, and the likelihood with the model is calculated.

次に、ステップA106で、判定部22は、取り出した1の仮定の言い直し区間の言い直しらしさが閾値以上かどうかの判定を行う。言い直しらしさが閾値以上の場合はステップA107に進み、閾値未満の場合はステップA108に進む。   Next, in step A106, the determination unit 22 determines whether or not the restatement probability of the extracted one assumed restatement section is equal to or greater than a threshold value. If the rephrase is greater than or equal to the threshold, the process proceeds to step A107, and if less than the threshold, the process proceeds to step A108.

ステップA107では、仮説生成部23が、閾値以上の言い直しらしさを持つ仮説に対して、非流暢区間と修復区間の単語列を透過単語とみなした仮説を生成し、言語的には透過単語とみなされた単語を取り除いて尤度を計算しなおす。なお、生成した仮説の言語尤度の再計算は、仮説探索部21によって実行されてもよい。   In step A107, the hypothesis generation unit 23 generates a hypothesis that regards a word string in a non-fluent section and a repair section as a transparent word for a hypothesis having a rewordability equal to or greater than a threshold value. Remove the deemed word and recalculate the likelihood. Note that the recalculation of the language likelihood of the generated hypothesis may be executed by the hypothesis search unit 21.

本発声例において、非流暢区間が「んー」(日本語:英語例はでは、"you know")、修復区間が「青い」(日本語:英語例はでは、"a brownblue")と「の」(日本語:英語例はでは、"one" )と仮定された場合に生成する仮説の例を図7に示す。図7に示す例では、図5に示した仮説を基に、非流暢区間の「んー」(日本語:英語例はでは、"you know")と修復区間の「青い」(日本語:英語例はでは、"a brownblue")と「の」(日本語:英語例はでは、"one" )とを透過単語とする仮説が新しく生成されたことがわかる。この仮説に対しては、透過単語とみなされた非流暢区間の単語「んー」(日本語:英語例はでは、"you know")と修復区間の単語「青い」(日本語:英語例はでは、"a brownblue")と「の」(日本語:英語例はでは、"one" )とを除き、「ペンで書いて」(日本語:英語例はでは、"please write by a pena bed is made of woods" )という単語連鎖だとみなして言語尤度が与えられる。本例では、「んー青いので」(日本語:英語例はでは、"you know, a brown one isby a blue one" )という単語連鎖に与えられる対数尤度は「0」となり、「ペンで」(日本語:英語例はでは、"a bed isby a pen")という単語連鎖に対して「−10」という高い対数尤度が与えられる。また本例では、音響尤度に関しては変更しないことにする。   In this utterance example, the non-fluent section is “n-” (Japanese: “you know” in the English example), the repair section is “blue” (Japanese: “a brownblue” in the English example) and “ FIG. 7 shows an example of a hypothesis generated when it is assumed that “No” (Japanese: English example is “one”). In the example shown in FIG. 7, based on the hypothesis shown in FIG. 5, the non-fluent section “n-” (Japanese: “you know” in the English example) and the repair section “blue” (Japanese: In the English example, it is understood that a new hypothesis having “a brownblue”) and “no” (Japanese: “one” in the English example) is newly generated is generated. For this hypothesis, the word “n-” (in Japanese: English example, “you know”) and the repaired segment “blue” (Japanese: English example) Is "a brownblue") and "no" (in Japanese: English example, "one"), except for "write with pen" (Japanese: English example, "please write by a pena language likelihood is given as if it were a chain of words "bed is made of woods"). In this example, the log-likelihood given to the word chain "N-blue so" (Japanese: English example is "you know, a brown one is by a blue one") is "0" (Japanese: English example: “a bed isby a pen”) is given a high log likelihood of “−10”. In this example, the acoustic likelihood is not changed.

次に、ステップA108では、判定部22は、ステップA104で列挙された修復対象区間と非流暢区間と修復区間のほかの組み合わせが残っているかを確認する。残っている場合はステップA104に戻り、残りの組み合わせの中から1つの組み合わせを取り出して、ステップA104からステップA107までの処理を同様に繰り返す。   Next, in step A108, the determination unit 22 confirms whether other combinations of the repair target section, the non-fluent section, and the repair section listed in step A104 remain. When it remains, it returns to step A104, takes out one combination from the remaining combinations, and repeats the processing from step A104 to step A107 in the same manner.

次に、ステップA109で、仮説探索部21が、音声の終端まで仮説探索を終えたかどうかを判定する。音声の終端まで達していない場合は、ステップA102に戻り、仮説探索部21が、ステップA107で生成された仮説を加えて、次の音声フレームの仮説探索をする。音声の終端まで達した場合はステップA110に進む。   Next, in step A109, the hypothesis search unit 21 determines whether or not the hypothesis search has been completed up to the end of the speech. If the end of the voice has not been reached, the process returns to step A102, and the hypothesis search unit 21 adds the hypothesis generated in step A107 and searches for the hypothesis of the next voice frame. If the end of the voice is reached, the process proceeds to step A110.

ステップA110において、結果出力部3が、最終的に最尤となる仮説である「ペンで書いて」(日本語:英語例はでは、"a bed is made of woodsplease write by a pen" )という音声認識結果を出力する。   In step A110, the result output unit 3 will finally sound the most likely hypothesis, “write with a pen” (in Japanese: “a bed is made of woodsplease write by a pen”). Output the recognition result.

本実施例を用いることによって、計算した言い直しらしさから非流暢区間と修復区間とみなされた「んー青いの」(日本語:英語例はでは、"you know, a brown oneby a blue one" )を動的に透過単語として扱うことで、修復対象区間の前の単語と修復対象区間である「ペン」(日本語:英語例は、"a bed")と修復区間の後ろの単語の「で」(日本語:英語例はでは、"byis")との距離が短くなる。そのため、従来の音声認識で使用しているN−gram言語モデルでも「パンで書いて」(日本語:英語例はでは、"please write by a breada pet is made of woods" )よりも「ペンで書いて」(日本語:英語例はでは、"a bed is made of woodsplease write by a pen" )の方が尤もらしい言語尤度を見ることができるようになる。その結果、N−gram言語モデルを使用しても、言い直しを含む発声の修復対象区間に対して精度よく音声認識できる。   By using this example, it was regarded as a non-fluent section and a repair section from the calculated rephrasingness. (Japanese: English example is "you know, a brown oneby a blue one" ) Dynamically as transparent words, the word before the restoration target section and the "pen" (Japanese: English example is "a bed") and the word after the restoration section The distance to "de" (in Japanese: "byis" in the English example) is shortened. Therefore, even with the N-gram language model that is used in conventional speech recognition, it is better to use “pen” than “please write by a bread a pet is made of woods” in Japanese. "Let's write" (Japanese: English example is "a bed is made of woodsplease write by a pen"). As a result, even if the N-gram language model is used, speech recognition can be performed with high accuracy for the utterance restoration target section including rephrasing.

次に、本発明の第2の実施例を図面を参照して説明する。かかる実施例は上記第2の実施形態に対応するものである。本実施例では、第1の実施例と同様に、「ペン、んー、青いので書いて」(日本語発声:英語例はでは、"a beda pen, you know, a brown one is made of woodsplease write by a blue one" )という発声を音声認識する場合を例に挙げて動作の説明をする。   Next, a second embodiment of the present invention will be described with reference to the drawings. This example corresponds to the second embodiment. In this example, as in the first example, “pen, don, blue so write” (Japanese utterance: in English example, “a beda pen, you know, a brown one is made of woodsplease The operation will be described by taking as an example the case of recognizing the utterance "write by a blue one").

まず、ステップA201では、音声入力部1が、話者の「ペン、んー、青いので書いて」(日本語発声:英語例はでは、"a beda pen, you know, a brown one is made of woodsplease write by a blue one" )という発声を音声データとして取り込む。   First, in step A201, the voice input unit 1 reads the speaker's "pen, don, blue so write" (Japanese utterance: English example is "a beda pen, you know, a brown one is made of Say “woodsplease write by a blue one”).

次に、ステップA202で、音声認識システムは、修復対象区間側となる修復対象区間と非流暢区間の単語列の単語を透過単語として扱った仮説を生成するか、修復区間側となる非流暢区間と修復区間の単語列の単語を透過単語として扱った仮説を生成するかを判断する透過フラグを、修復区間側に設定する。   Next, in step A202, the speech recognition system generates a hypothesis that treats words in the word string of the repair target section and the non-fluent section on the repair target section side as transparent words, or the non-fluent section on the repair section side. And a transparency flag for determining whether to generate a hypothesis in which the words in the word string in the repair section are treated as transparent words are set on the repair section side.

このフラグを修復区間側に設定されているときは、ステップA203からステップA210までの動作は、第1の実施例のステップA102からステップA109までの動作と同様である。   When this flag is set on the restoration section side, the operation from step A203 to step A210 is the same as the operation from step A102 to step A109 in the first embodiment.

次に、ステップA211で、最初は透過フラグが修復区間側に設定されているのでステップA212に進み、ステップA212で透過フラグを修復対象区間側に設定する。次のステップA203からステップA207では、第1の実施例と同様に動作する。   Next, in step A211, the transparency flag is initially set on the restoration section side, so the process proceeds to step A212, and in step A212, the transparency flag is set on the restoration target section side. In the next steps A203 to A207, the operation is the same as in the first embodiment.

次いで、ステップA208では、透過フラグが修復対象区間なので、仮説生成部23が、閾値以上の言い直しらしさを持つ仮説に対して、修復対象区間と非流暢区間の単語列を透過単語とみなした仮説を生成する。そして、仮説生成部23は、言語的には透過単語とみなされた単語を取り除いて尤度を計算しなおす。   Next, in step A208, since the transparency flag is a restoration target section, the hypothesis generation unit 23 assumes a word string in the restoration target section and the non-fluent section as a transparent word with respect to a hypothesis having a restatement greater than or equal to a threshold value. Is generated. Then, the hypothesis generation unit 23 recalculates the likelihood by removing words regarded as transparent words in terms of language.

図8は、本発声例において修復対象区間が「パン」(日本語:英語例はでは、"breada pet" )または「ペン」(日本語:英語例は、"a bed")、非流暢区間が「んー」(日本語:英語例はでは、"you know")と仮定された場合に生成する仮説の例を示す説明図である。図8に示すように、本例では、修復対象区間の「パン」(日本語:英語例はでは、"a pet"bread" )または「ペン」(日本語:英語例は、"a bed")と非流暢区間の「んー」(日本語:英語例はでは、"you know")を除き、「青いので書いて」(日本語:英語例はでは、"a brown one is made of woodsplease write by a blue one" )という単語連鎖だとみなして言語尤度が与えられる。このため、文頭から「パンんー」(日本語:英語例はでは、"breada pet, you know")という単語連鎖と、文頭から「ペンんー」(日本語:英語例はでは、"pena bed, you know")という単語連鎖に与えられる対数尤度は「0」となり、文頭と「青い」(日本語:英語例はでは、"a brownblue")という単語連鎖に対して「−20」という高い対数尤度が与えられる。   Figure 8 shows that in this utterance example, the restoration target section is “Pan” (Japanese: “breada pet” in the English example) or “Pen” (Japanese: “a bed” in the English example), and the non-fluent section Is an explanatory diagram showing an example of a hypothesis generated when it is assumed that “n-” (Japanese: English example is “you know”). As shown in FIG. 8, in this example, “pan” (Japanese: “a pet” bread ”in English: English) or“ pen ”(Japanese:“ a bed ”in English: English) ) And "n-" (Japanese: English example, "you know"), and "A brown one is made of woodsplease" Write by a blue one ")) is considered as a word chain, and language likelihood is given. Therefore, from the beginning of the sentence, the word chain “Pan-n” (Japanese: English example is “breada pet, you know”) and from the beginning of the sentence “Pen-n” (Japanese: English example is “pena” log likelihood given to the word chain "bed, you know") is "0", and "-20" for the word chain and the word chain "blue" (Japanese: "a brownblue" in the English example) High log likelihood is given.

ステップA209では、第1の実施例と同様に、他の組み合わせがないかが判定される。他の組み合わせがなければ、ステップA210で、音声の終端まで仮説探索を終えたかどうかが判定される。ここで、音声の終端まで仮説探索を終えた場合には、ステップA211に進む。次のステップA211では、透過フラグが修復区間側となっているので、ステップA213に進む。   In step A209, as in the first embodiment, it is determined whether there is any other combination. If there are no other combinations, it is determined in step A210 whether the hypothesis search has been completed up to the end of the speech. If the hypothesis search is completed up to the end of the speech, the process proceeds to step A211. In the next step A211, since the transparency flag is on the repair section side, the process proceeds to step A213.

ステップA213では、結果生成部23が、透過フラグが修復対象区間側のときの最尤仮説である「ペンで書いて」(日本語:英語例はでは、"a bed is made of woodsplease write by a pen" )と、透過フラグが修復区間側のときの最尤仮説である「青いので書いて」(日本語:英語例はでは、"a brown one is made of woodsplease write by a blue one")の2つの最尤仮説を使って音声認識結果を生成する。   In step A213, the result generation unit 23 “writes with a pen”, which is the maximum likelihood hypothesis when the transparency flag is on the repair target section side (in Japanese: English example, “a bed is made of woodsplease write by a pen ") and the maximum likelihood hypothesis when the transparency flag is on the restoration section side (in Japanese: English example is" a brown one is made of woodsplease write by a blue one ") A speech recognition result is generated using two maximum likelihood hypotheses.

ここでは、結果生成部23は、まず、透過フラグが修復区間側の最尤仮説の中の透過単語としていない修復対象区間の単語列である「ペン」(日本語:英語例は、"a bed")と非流暢区間の透過単語の単語列である「んー」(日本語:英語例はでは、"you know")を抽出する。次いで、結果生成部23は、透過フラグが修復対象区間の最尤仮説の非流暢区間の透過単語の単語列である「んー」(日本語:英語例はでは、"you know")と透過単語としていない修復区間の単語列である「青いの」(日本語:英語例はでは、"a brown onea blue one")を抽出する。   Here, the result generation unit 23 firstly selects “pen” (Japanese: English example is “a bed”, which is a word string of a repair target section whose transparency flag is not a transparent word in the maximum likelihood hypothesis on the repair section side. ")" And "n-" (Japanese: English example, "you know"), which is the word string of transparent words in the non-fluent section. Next, the result generation unit 23 transmits the transparent flag “n-” (Japanese: “you know” in the English example)) that is the word string of the transparent word in the non-fluent section of the maximum likelihood hypothesis of the repair target section. The word string “blue” (Japanese: “a brown onea blue one” in the English example) is extracted as a word string of the repair section that is not a word.

そして、結果生成部23は、共通する非流暢区間を中心に、修復対象区間、非流暢区間、修復区間の順で単語列を並べ、修復区間より後ろの共通する単語列を並べることで、「ペンんー青いので書いて」(日本語:英語例はでは、"a pena bed, you know, a brown one is made of woodsplease write by a blue one" )という音声認識結果を生成する。ここでは、修復対象区間側を透過単語として扱った透過単語仮説を生成しつつ仮説探索を行う一連の探索処理において判定された最尤仮説が示す当該言い直し区間における単語連鎖と、修復区間側を透過単語として扱った透過単語仮説を生成しつつ仮説探索を行う一連の探索処理において判定された最尤仮説が示す当該言い直し区間における単語連鎖とを組み合わせることによって、当該言い直し区間における単語を透過単語とせずに全て含んだ状態でそれらの連鎖を示す音声認識結果を生成すればよい。   Then, the result generation unit 23 arranges the word strings in the order of the repair target section, the non-fluid section, and the repair section around the common non-fluid section, and arranges the common word strings after the repair section. It produces a speech recognition result that says "Pen-Nen so I write" (Japanese: English example is "a pena bed, you know, a brown one is made of woodsplease write by a blue one"). Here, the word chain in the reworded section indicated by the maximum likelihood hypothesis determined in a series of search processes in which a hypothesis search is performed while generating a transparent word hypothesis that treats the repair target section side as a transparent word, and the repair section side Transparency of a word in the reworded section by combining the word chain in the reworded section indicated by the maximum likelihood hypothesis determined in a series of search processes in which a hypothesis search is performed while generating a transparent word hypothesis treated as a transparent word What is necessary is just to produce | generate the speech-recognition result which shows those chain | linkages in the state which included all instead of a word.

最後に、ステップA214で、ステップA213で生成された結果が出力される。ここでは、音声認識結果として「ペンんー青いので書いて」(日本語:英語例はでは、"a beda pen, you know, a brown one is made of woodsplease write by a blue one" )が出力される。   Finally, in step A214, the result generated in step A213 is output. Here, “Pen-blue is written” (Japanese: English example: “a beda pen, you know, a brown one is made of woodsplease write by a blue one”) is output as the speech recognition result. The

本実施例によれば、修復対象区間側を透過単語として扱った透過単語仮説と、修復区間側を透過単語として扱った透過単語仮説の最尤仮説を組み合わせて音声認識結果を作成することで、修復対象区間の前の単語列、修復対象区間、非流暢区間、修復区間、修復区間の後の単語列のN−gram言語モデルが適切に適応される。そのため、言い直しを含む発声における誤認識を減少させることが可能である。   According to this embodiment, by creating a speech recognition result by combining the transparent word hypothesis that treats the repair target section side as a transparent word and the maximum likelihood hypothesis of the transparent word hypothesis that treats the repair section side as a transparent word, The N-gram language model of the word string before the repair target section, the repair target section, the non-fluent section, the repair section, and the word string after the repair section is appropriately applied. Therefore, it is possible to reduce misrecognition in utterance including rephrasing.

また、音声認識結果としてこのテキスト情報のみを出力するのではなく、「ペン」(日本語:英語例は、"a bed")に修復対象区間、「んー」(日本語:英語例はでは、"you know")に非流暢区間、「青いの」(日本語:英語例はでは、"a brown onea blue one")に修復区間の情報を付与して出力することも可能になる。修復対象区間、非流暢区間、修復区間の情報が付与された音声認識結果を出力すれば、例えば、この音声認識結果を言語解析システムで解析するときに、この付与された情報を使用することでより正確に言語解析することも可能になる。   Also, instead of outputting only this text information as a speech recognition result, the “pen” (Japanese: English example is “a bed”) is the restoration target section, “n-” (Japanese: English example is , "You know") can be output with the information of the non-fluent section and "blue" (Japanese: English example "a brown onea blue one"). If the speech recognition result with the information on the restoration target section, the non-fluent section, and the restoration section is output, for example, when the speech recognition result is analyzed by the language analysis system, the given information is used. It becomes possible to analyze the language more accurately.

次に、本発明の概要について説明する。図9は、本発明の概要を示すブロック図である。図9に示すように、本発明による音声認識装置は、仮説探索手段101と、判定手段102と、透過単語仮説生成手段103とを備えている。   Next, the outline of the present invention will be described. FIG. 9 is a block diagram showing an outline of the present invention. As shown in FIG. 9, the speech recognition apparatus according to the present invention includes a hypothesis search unit 101, a determination unit 102, and a transparent word hypothesis generation unit 103.

仮説探索手段101(例えば、仮説探索部21)は、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成して最適な解を探索する。また、仮説探索手段101は、探索対象とする仮説に、後述する透過単語仮説生成手段103によって生成された透過単語仮説を含めて探索する。   The hypothesis search means 101 (for example, the hypothesis search unit 21) searches the input speech data to generate a hypothesis that is a chain of words to be searched as a recognition result candidate and searches for an optimal solution. Further, the hypothesis searching unit 101 searches for a hypothesis to be searched including a transparent word hypothesis generated by a transparent word hypothesis generating unit 103 described later.

言い直し判定手段102(例えば、判定手部22)は、仮説探索手段101が探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する。   The rephrase determination unit 102 (for example, the determination unit 22) calculates the rephrase likelihood of the word or word string included in the hypothesis being searched by the hypothesis search unit 101, and whether the word or word string is reworded. Determine whether or not.

透過単語仮説生成手段103(例えば、仮説生成部23)は、言い直し判定手段102によって言い直しであると判定された場合に、当該単語もしくは単語列を含む言い直し区間のうちの非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った仮説である透過単語仮説を生成する。   The transparent word hypothesis generation unit 103 (for example, the hypothesis generation unit 23), when the rephrase determination unit 102 determines that the word is rephrased, the non-fluent section or the non-fluent section of the reword section including the word or word string A transparent word hypothesis that is a hypothesis in which a word or a word string included in the repair section is treated as a transparent word is generated.

また、言い直し判定手段102は、仮説探索手段101が探索中の仮説に含まれる単語または単語列に対して、当該単語または単語列を修復区間に含む修復対象区間と非流暢区間と修復区間の組み合わせを仮定し、仮定した修復対象区間と非流暢区間と修復区間の組み合わせ毎に言い直しらしさを計算し、計算した言い直しらしさが所定の閾値以上であるか否かを判定することによって、該組み合わせに対して言い直しであるか否かを判定し、透過単語仮説生成手段103は、言い直し判定手段102によって言い直しであると判定された組み合わせの非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った仮説を生成してもよい。   In addition, the rephrasing determination unit 102 performs, for a word or word string included in the hypothesis being searched by the hypothesis searching unit 101, a repair target section including the word or word string in the repair section, a non-fluent section, and a repair section. By assuming a combination, calculating the rephrasing for each combination of the assumed repair target section, the non-fluent section, and the repairing section, and determining whether the calculated restatement is equal to or greater than a predetermined threshold, It is determined whether or not the combination is rephrased, and the transparent word hypothesis generation unit 103 determines whether the word included in the non-fluent section or the repair section of the combination determined to be rephrased by the rephrase determination unit 102 A hypothesis that treats the word string as a transparent word may be generated.

また、透過単語仮説生成手段103は、透過単語仮説として、修復対象区間または非流暢区間に含まれる単語もしくは単語列を透過単語として扱った修復対象区間側透過単語仮説と、非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った修復区間側透過単語仮説とを生成し、仮説探索手段101は、探索対象とする仮説に、透過単語仮説生成手段によって生成された修復対象区間側透過単語仮説と修復区間側透過単語仮説とを含めて最適な解を探索してもよい。   Further, the transparent word hypothesis generation means 103 uses the repair target section side transparent word hypothesis that treats words or word strings included in the repair target section or non-fluent section as transparent words, and the non-fluent section or repair section as the transparent word hypothesis. The hypothesis search means 101 generates a repair word side transparent word hypothesis in which a word or a word string included in the word is treated as a transparent word, and the hypothesis search means 101 sets the search target hypothesis to the repair target section side generated by the transparent word hypothesis generation means. You may search for an optimal solution including the transparent word hypothesis and the repair section side transparent word hypothesis.

また、図10は、本発明による音声認識システムの他の構成例を示すブロック図である。図10に示すように、本発明による音声認識システムは、音声認識結果を生成する結果生成手段104(例えば、結果生成部24)を備えていてもよい。そのような場合に、仮説探索手段101は、生成された修復対象区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第1の探索処理と、生成された修復区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第2の探索処理とを行い、結果生成手段104は、第1の探索処理による音声認識結果と、第2の探索処理による音声認識結果とを組み合わせた音声認識結果を出力してもよい。   FIG. 10 is a block diagram showing another configuration example of the speech recognition system according to the present invention. As shown in FIG. 10, the speech recognition system according to the present invention may include a result generation unit 104 (for example, a result generation unit 24) that generates a speech recognition result. In such a case, the hypothesis searching unit 101 includes a first search process for searching for an optimal solution by including the generated repair target section side transparent word hypothesis in the hypothesis to be searched, and the generated repair section side A second search process for searching for an optimal solution by including the transparent word hypothesis in the hypothesis to be searched is performed, and the result generation unit 104 performs the speech recognition result by the first search process and the second search process. A voice recognition result combined with the voice recognition result may be output.

また、結果生成手段104は、言い直しであると判定された区間に関し、第1の探索処理による音声認識結果として示される最尤仮説が修復対象区間側透過単語仮説であって、第2の探索処理による音声認識結果として示される最尤仮説が修復区間側透過単語仮説である場合に、該修復対象区間側透過単語仮説が示す当該言い直し区間における単語連鎖と、該修復区間側透過単語仮説が示す当該言い直し区間における単語連鎖とを組み合わせて、当該言い直し区間における単語を透過単語とせずに全て含んだ状態の単語連鎖を示す音声認識結果を出力してもよい。   In addition, the result generation unit 104 relates to the section determined to be rephrased, and the maximum likelihood hypothesis indicated as the speech recognition result by the first search processing is the repair target section side transparent word hypothesis, and the second search When the maximum likelihood hypothesis shown as the speech recognition result by the process is the repair section side transparent word hypothesis, the word chain in the reword section indicated by the repair target section side transparent word hypothesis and the repair section side transparent word hypothesis are The speech recognition result indicating the word chain including all the words in the reworded section without including the transparent words may be output by combining the word chain in the rewritten section shown.

また、図示省略しているが、本発明による音声認識システムは、音声認識結果を出力する結果出力手段(例えば、結果出力部3)を備え、結果出力手段は、最尤仮説の単語連鎖によって示されるテキスト情報だけでなく、修復対象区間、非流暢区間または修復区間の情報を付与した音声認識結果を出力してもよい。   Although not shown, the speech recognition system according to the present invention includes a result output unit (for example, the result output unit 3) that outputs a speech recognition result, and the result output unit is indicated by a word chain of the maximum likelihood hypothesis. In addition to text information to be read, a speech recognition result to which information on a repair target section, a non-fluent section, or a repair section is added may be output.

また、本発明による音声認識方法は、仮説探索手段が、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成しつつ最適な解を探索する過程で、透過単語仮説生成手段が、言い直しであると判定された場合に、修復対象区間または非流暢区間に含まれる単語もしくは単語列を透過単語として扱った修復対象区間側透過単語仮説と、非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った修復区間側透過単語仮説とを生成し、仮説探索手段が、生成された修復対象区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第1の探索処理と、生成された修復区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第2の探索処理とを行い、結果出力手段が、第1の探索処理による音声認識結果と、第2の探索処理による音声認識結果とを組み合わせた音声認識結果を出力してもよい。   In the speech recognition method according to the present invention, the hypothesis searching means searches the optimum solution while generating a hypothesis that is a chain of words to be searched as a recognition result candidate for the input speech data. When the transparent word hypothesis generation means determines that the word is rephrased, the repair target section side transparent word hypothesis that treats a word or word string included in the repair target section or non-fluent section as a transparent word, A hypothesis that generates a repair word side transparent word hypothesis in which a word or a word string included in the fluency section or the repair section is treated as a transparent word, and the hypothesis search means searches for the generated repair target section side transparent word hypothesis A first search process for searching for an optimal solution included in the first search process and a second search process for searching for an optimal solution by including the generated repair section side transparent word hypothesis in the hypothesis to be searched. Output means, a speech recognition result by the first search processing may output a speech recognition result of a combination of a speech recognition result by the second search processing.

また、本発明による音声認識プログラムは、コンピュータに、探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定処理、言い直しであると判定された場合に、修復対象区間または非流暢区間に含まれる単語もしくは単語列を透過単語として扱った修復対象区間側透過単語仮説を生成する第1の透過単語仮説生成処理、言い直しであると判定された場合に、非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った修復区間側透過単語仮説を生成する第2の透過単語仮説生成処理、生成された修復対象区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第1の探索処理、生成された修復区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第2の探索処理、および第1の探索処理による音声認識結果と、第2の探索処理による音声認識結果とを組み合わせた音声認識結果を出力する結果出力処理を実行させてもよい。   In addition, the speech recognition program according to the present invention calculates to the computer the rephrasability of the word or word string included in the hypothesis being searched, and restates to determine whether the word or word string is rephrased. First transparent word hypothesis that generates a repair target section side transparent word hypothesis in which a word or a word string included in a repair target section or a non-fluent section is treated as a transparent word when it is determined that the determination process is rewording Generation process, second transparent word hypothesis generation process for generating a repair section side transparent word hypothesis that treats a word or a word string included in a non-fluent section or repair section as a transparent word when it is determined to be rephrasing A first search process for searching for an optimal solution by including the generated repair target section side transparent word hypothesis in a hypothesis to be searched; and the generated repair section side transparent word hypothesis The second search process for searching for an optimal solution included in the hypothesis to be searched, and the voice recognition result obtained by combining the voice recognition result by the first search process and the voice recognition result by the second search process are output. The result output process may be executed.

以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。   Although the present invention has been described with reference to the embodiments and examples, the present invention is not limited to the above embodiments and examples. Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.

この出願は、2011年1月7日に出願された日本特許出願2011−002307を基礎とする優先権を主張し、その開示の全てをここに取り込む。   This application claims the priority on the basis of the JP Patent application 2011-002307 for which it applied on January 7, 2011, and takes in those the indications of all here.

本発明は、一般の音声認識システムに広く用いることができる。特に、講演音声や対話音声のように人が人に向かって話す音声を認識する音声認識システムに好適に適用可能である。   The present invention can be widely used in general speech recognition systems. In particular, the present invention can be suitably applied to a speech recognition system that recognizes speech spoken by people such as lecture speech and dialogue speech.

1 音声入力部
2 音声認識部
21 仮説探索部
22 判定部
23 仮説生成部
24 結果生成部
3 結果出力部
101 仮説探索手段
102 判定手段
103 透過単語仮説生成手段
104 結果生成手段
1 speech input unit 2 speech recognition unit 21 hypothesis search unit 22 determination unit 23 hypothesis generation unit 24 result generation unit 3 result output unit 101 hypothesis search unit 102 determination unit 103 transparent word hypothesis generation unit 104 result generation unit

次に、本発明の第1の実施例を図面を参照して説明する。かかる実施例は、上記第1の実施形態に対応するものである。本実施例では、「ペン、んー、青いので書いて」(日本語発声:図6に示す英語は、"a bed, you know, a brown one is made of woods" )という発声を音声認識する場合を例に挙げて動作の説明をする。 Next, a first embodiment of the present invention will be described with reference to the drawings. This example corresponds to the first embodiment. In this example, "pen, n, write because of blue" (Japanese utterance: English example shown in Fig. 6 is " a bed, you know, a brown one is made of woods") The operation will be described by taking the case as an example.

まず、ステップA101では、音声入力部1が、話者の「ペン、んー、青いので書いて」(日本語発声:英語例、"a bed, you know, a brown one is made of woods" )という発声を音声データとして取り込む。 First, in step A101, the voice input unit 1 reads the speaker's "pen, don, blue so write" (Japanese utterance: English example is "a bed , you know, a brown one is made of woods " ) Is captured as audio data.

次に、ステップA102で、仮説探索部21は、取り込まれた音声データを入力として、どの単語であるかが確定しない単語内仮説の尤度計算をする。この処理は、例えば、この発話例の「書いて」(日本語:英語例、"made of woods")という単語の/i/の音素の発声に対して、/i/や/u/の音素のモデルとの音響尤度計算を行い、「青いので」(日本語:英語例、"a brown one is" )といった当該仮説の先方の単語連鎖の言語尤度との合算することに該当する。 Next, in step A102, the hypothesis search unit 21 calculates the likelihood of an intra-word hypothesis that is not determined as to which word is received by using the acquired speech data as an input. This processing is performed, for example, on the utterance of the phoneme of / i / of the word “write” (Japanese: English example is “made of woods ) of this utterance example. perform acoustic likelihood calculation of the phoneme model, "because blue" (Japanese: English example, "a brown one is"), such as corresponding to the sum of the language likelihood of the other party of the word chain of the hypothesis To do.

図5は、本例において探索される仮説の例を示す説明図である。図5において、各楕円は、認識結果の候補として探索が行われる単語(単語仮説)を示している。また、各単語仮説に付された数値は、各単語仮説が先行する単語仮説と連鎖している状態とされる単語連鎖の対数尤度を表す。この例では、「んー」(日本語:英語例、"you know")という単語が確定した場合に、先行する「ペン」(日本語:英語例は、"a bed")という発声が「ペン」(日本語:英語例は、"a bed")という単語仮説になっている場合、「ペンんー」(日本語:英語例、"a bed, you know" )という単語連鎖の言語尤度が与えられている。図5に示す例では、「−60」という対数尤度が与えられている。なお、同時に「パンんー」(日本語:英語例、"a pet, you know")といった単語連鎖の仮説も計算されることがあり、本例では「−50」という対数尤度が与えられている。 FIG. 5 is an explanatory diagram showing examples of hypotheses searched in this example. In FIG. 5, each ellipse indicates a word (word hypothesis) to be searched as a recognition result candidate. The numerical value attached to each word hypothesis represents the log likelihood of the word chain in which each word hypothesis is linked to the preceding word hypothesis. In this example, when the word "n-" (Japanese: English example is "you know") is confirmed, the preceding "pen" (Japanese: English example is "a bed") When the word hypothesis is “pen” (Japanese: English example is “a bed”), the word chain of “pen” (Japanese: English example is “a bed , you know”) Language likelihood is given. In the example illustrated in FIG. 5, a log likelihood of “−60” is given. At the same time, a word chain hypothesis such as "Pan-n" (Japanese: English example is " a pet, you know") may be calculated. In this example, a log likelihood of "-50" is given. It has been.

次に、ステップA104では、判定部22が、確定した単語列の中で可能性のある修復対象区間と非流暢区間と修復区間の組を列挙して、1つ目の組を取り出す。例えば、修復区間にはステップA103で確定した単語を含むようにして、修復対象区間と非流暢区間と修復区間を例えば連続する1単語ずつでもいいし、修復対象区間をL単語、非流暢区間をM単語、修復区間をN単語まで許す連続した区間として、それぞれの組み合わせを全て列挙してもよい。例えば修復対象区間を1単語、非流暢区間を1単語、修復区間を1単語とすると、本発声例では、ステップA103で「青い」(日本語:英語例、"a brown")という単語が確定した際には、修復対象区間として「ペン」(日本語:英語例、"a bed")、非流暢区間として「んー」(日本語:英語例、"you know")、修復区間として「青い」(日本語:英語例、"a brown")という区間組が列挙される。 Next, in step A104, the determination unit 22 enumerates possible combinations of the repair target section, the non-fluent section, and the repair section in the confirmed word string, and takes out the first set. For example, the repair section includes the word determined in step A103, and the repair target section, the non-fluent section, and the repair section may be one continuous word, the repair target section is L words, and the non-fluent section is M words. All the combinations may be listed as continuous intervals allowing up to N words for the repair interval. For example, the repair target section one word, one word a non-fluent interval, when one word the repair section, in this utterance example is, "blue" in step A103 (Japanese: English example, "a brown") the word when finalized, the "pen" as a repair target section (Japanese: English example, "a bed"), "Hmm" as a non-fluent interval (Japanese: English example, "you know"), repair "blue" as a section (Japanese: English example, "a brown") that the interval set are listed.

本発声例において、非流暢区間が「んー」(日本語:英語例、"you know")、修復区間が「青い」(日本語:英語例、"a brown")と「の」(日本語:英語例、"one" )と仮定された場合に生成する仮説の例を図7に示す。図7に示す例では、図5に示した仮説を基に、非流暢区間の「んー」(日本語:英語例、"you know")と修復区間の「青い」(日本語:英語例、"a brown")と「の」(日本語:英語例、"one" )とを透過単語とする仮説が新しく生成されたことがわかる。この仮説に対しては、透過単語とみなされた非流暢区間の単語「んー」(日本語:英語例、"you know")と修復区間の単語「青い」(日本語:英語例、"a brown")と「の」(日本語:英語例、"one" )とを除き、「ペンで書いて」(日本語:英語例、"a bed is made of woods" )という単語連鎖だとみなして言語尤度が与えられる。本例では、「んー青いので」(日本語:英語例、"you know, a brown one is" )という単語連鎖に与えられる対数尤度は「0」となり、「ペンで」(日本語:英語例、"a bed is")という単語連鎖に対して「−10」という高い対数尤度が与えられる。また本例では、音響尤度に関しては変更しないことにする。 In this utterance example, the non-fluent section is "n-" (Japanese: English is "you know"), the repair section is "blue" (Japanese: English is "a brown " ) and "no" FIG. 7 shows an example of a hypothesis generated when it is assumed that (Japanese: English example is “one”). In the example shown in FIG. 7, based on the hypothesis shown in FIG. 5, the non-fluent section “n-” (Japanese: English is “you know”) and the repair section “blue” (Japanese: English) The example shows that a new hypothesis having transparent words “a brown ) and “no” (Japanese: English is “one”) is generated. For this hypothesis, the words were considered transparent word non-fluent section "Hmm" (Japanese: English example, "you know") and the word "blue" in the repair section (Japanese: English example , "A brown " ) and "no" (Japanese: English example is "one"), but "write with a pen" (Japanese: English example is " a bed is made of woods") Language likelihood is given as a word chain. In this example, "I'm over blue" (Japanese: English example, "you know, a brown one is") log-likelihood given to the word chain that is next to "0", "pen" (Japanese : English example is given a high log likelihood of “−10” for the word chain “a bed is ). In this example, the acoustic likelihood is not changed.

ステップA110において、結果出力部3が、最終的に最尤となる仮説である「ペンで書いて」(日本語:英語例、"a bed is made of woods" )という音声認識結果を出力する。 In step A110, the result output unit 3 outputs a speech recognition result of “write with a pen” (Japanese: English example is “a bed is made of woods ), which is a hypothesis that becomes the maximum likelihood finally. .

本実施例を用いることによって、計算した言い直しらしさから非流暢区間と修復区間とみなされた「んー青いの」(日本語:英語例、"you know, a brown one" )を動的に透過単語として扱うことで、修復対象区間の前の単語と修復対象区間である「ペン」(日本語:英語例は、"a bed")と修復区間の後ろの単語の「で」(日本語:英語例、"is")との距離が短くなる。そのため、従来の音声認識で使用しているN−gram言語モデルでも「パンで書いて」(日本語:英語例、"a pet is made of woods" )よりも「ペンで書いて」(日本語:英語例、"a bed is made of woods" )の方が尤もらしい言語尤度を見ることができるようになる。その結果、N−gram言語モデルを使用しても、言い直しを含む発声の修復対象区間に対して精度よく音声認識できる。 By using this example, "n-blue" (Japanese: English example is "you know, a brown one " ), which was regarded as a non-fluent section and a repair section, was calculated dynamically By treating them as transparent words, the word before the restoration target section and the “pen” (Japanese: English example is “a bed”) and the word “de” (Japan) Word: The English example has a shorter distance to " i s"). Therefore, even in the N-gram language model used in the conventional speech recognition, “write with bread” rather than “write with bread” (Japanese: English example isa pet is made of woods”) (Japan) word: English example, will be able to see the language likelihood plausible is more of "a bed is made of woods" ). As a result, even if the N-gram language model is used, speech recognition can be performed with high accuracy for the utterance restoration target section including rephrasing.

次に、本発明の第2の実施例を図面を参照して説明する。かかる実施例は上記第2の実施形態に対応するものである。本実施例では、第1の実施例と同様に、「ペン、んー、青いので書いて」(日本語発声:英語例、"a bed, you know, a brown one is made of woods" )という発声を音声認識する場合を例に挙げて動作の説明をする。 Next, a second embodiment of the present invention will be described with reference to the drawings. This example corresponds to the second embodiment. In this example, as in the first example, “pen, don, blue so write” (Japanese utterance: English example is “a bed , you know, a brown one is made of woods ) The operation will be described by taking as an example the case of recognizing the voice.

まず、ステップA201では、音声入力部1が、話者の「ペン、んー、青いので書いて」(日本語発声:英語例、"a bed, you know, a brown one is made of woods" )という発声を音声データとして取り込む。 First, in step A201, the voice input unit 1 uses the speaker's "pen, don, blue so write" (Japanese utterance: English example is "a bed , you know, a brown one is made of woods " ) Is captured as audio data.

図8は、本発声例において修復対象区間が「パン」(日本語:英語例、"a pet" )または「ペン」(日本語:英語例は、"a bed")、非流暢区間が「んー」(日本語:英語例、"you know")と仮定された場合に生成する仮説の例を示す説明図である。図8に示すように、本例では、修復対象区間の「パン」(日本語:英語例、"a pet" )または「ペン」(日本語:英語例は、"a bed")と非流暢区間の「んー」(日本語:英語例、"you know")を除き、「青いので書いて」(日本語:英語例、"a brown one is made of woods" )という単語連鎖だとみなして言語尤度が与えられる。このため、文頭から「パンんー」(日本語:英語例、"a pet, you know")という単語連鎖と、文頭から「ペンんー」(日本語:英語例、"a bed, you know")という単語連鎖に与えられる対数尤度は「0」となり、文頭と「青い」(日本語:英語例、"a brown")という単語連鎖に対して「−20」という高い対数尤度が与えられる。 8, repair target section is "bread" in the present utterance example (Japanese: English example, "a pet") or "pen" (Japanese: English example, "a bed") is, non-fluent section It is explanatory drawing which shows the example of the hypothesis | generation produced | generated when it is assumed that "n-" (Japanese: English example is "you know"). As shown in FIG. 8, in this example, the "bread" of the repair target section (Japanese: English example, "a pet") or "pen" (Japanese: English example, "a bed") and the non Except for the fluent section "n-" (Japanese: English example is "you know"), the word chain is "blue so write" (Japanese: English example is "a brown one is made of woods " ) Language likelihood is given. Therefore, from the beginning of the sentence, the word chain “Pan-n” (Japanese: English example isa pet, you know”) and from the beginning of the sentence “Pen-n” (Japanese: English example isa bed, logarithmic likelihood given to the word chain “you know”) is “0”, and the logarithm of “−20” is high for the word chain and the word chain “blue” (Japanese: English example is “a brown ) A likelihood is given.

ステップA213では、結果生成部24が、透過フラグが修復対象区間側のときの最尤仮説である「ペンで書いて」(日本語:英語例、"a bed is made of woods" )と、透過フラグが修復区間側のときの最尤仮説である「青いので書いて」(日本語:英語例、"a brown one is made of woods")の2つの最尤仮説を使って音声認識結果を生成する。 In step A213, the result generation unit 24 “writes with a pen” (Japanese: English example is “a bed is made of woods ), which is the maximum likelihood hypothesis when the transparency flag is on the repair target section side. Speech recognition results using two maximum likelihood hypotheses: “Blue so write” which is the maximum likelihood hypothesis when the transparency flag is on the repair section side (Japanese: English example is “a brown one is made of woods ) Is generated.

ここでは、結果生成部23は、まず、透過フラグが修復区間側の最尤仮説の中の透過単語としていない修復対象区間の単語列である「ペン」(日本語:英語例は、"a bed")と非流暢区間の透過単語の単語列である「んー」(日本語:英語例、"you know")を抽出する。次いで、結果生成部23は、透過フラグが修復対象区間の最尤仮説の非流暢区間の透過単語の単語列である「んー」(日本語:英語例、"you know")と透過単語としていない修復区間の単語列である「青いの」(日本語:英語例、"a brown one")を抽出する。 Here, the result generation unit 23 firstly selects “pen” (Japanese: English example is “a bed”, which is a word string of a repair target section whose transparency flag is not a transparent word in the maximum likelihood hypothesis on the repair section side. ") and a word string of the transmitted word of non-fluent section" Hmm "(Japanese: English example," to extract you know "). Next, the result generation unit 23 uses “n-” (Japanese: English example is “you know”) and the transparent word, where the transparent flag is the word string of the transparent word in the non-fluent section of the maximum likelihood hypothesis of the repair target section. “Blue” (Japanese: English example: “a brown one ), which is a word string of the repair section that is not defined , is extracted.

そして、結果生成部23は、共通する非流暢区間を中心に、修復対象区間、非流暢区間、修復区間の順で単語列を並べ、修復区間より後ろの共通する単語列を並べることで、「ペンんー青いので書いて」(日本語:英語例、"a bed, you know, a brown one is made of woods" )という音声認識結果を生成する。ここでは、修復対象区間側を透過単語として扱った透過単語仮説を生成しつつ仮説探索を行う一連の探索処理において判定された最尤仮説が示す当該言い直し区間における単語連鎖と、修復区間側を透過単語として扱った透過単語仮説を生成しつつ仮説探索を行う一連の探索処理において判定された最尤仮説が示す当該言い直し区間における単語連鎖とを組み合わせることによって、当該言い直し区間における単語を透過単語とせずに全て含んだ状態でそれらの連鎖を示す音声認識結果を生成すればよい。 Then, the result generation unit 23 arranges the word strings in the order of the repair target section, the non-fluid section, and the repair section around the common non-fluid section, and arranges the common word strings after the repair section. It produces a speech recognition result of “Pen-Nen so I write” (Japanese: English example isa bed, you know, a brown one is made of woods ). Here, the word chain in the reworded section indicated by the maximum likelihood hypothesis determined in a series of search processes in which a hypothesis search is performed while generating a transparent word hypothesis that treats the repair target section side as a transparent word, and the repair section side Transparency of a word in the reworded section by combining the word chain in the reworded section indicated by the maximum likelihood hypothesis determined in a series of search processes in which a hypothesis search is performed while generating a transparent word hypothesis treated as a transparent word What is necessary is just to produce | generate the speech-recognition result which shows those chain | linkages in the state which included all instead of a word.

最後に、ステップA214で、ステップA213で生成された結果が出力される。ここでは、音声認識結果として「ペンんー青いので書いて」(日本語:英語例、"a bed, you know, a brown one is made of woods" )が出力される。 Finally, in step A214, the result generated in step A213 is output. In this case, "wrote because Pen'n blue" as a result of speech recognition (Japanese: English example, "a bed, you know, a brown one is made of woods") is output.

また、音声認識結果としてこのテキスト情報のみを出力するのではなく、「ペン」(日本語:英語例は、"a bed")に修復対象区間、「んー」(日本語:英語例、"you know")に非流暢区間、「青いの」(日本語:英語例、"a brown one")に修復区間の情報を付与して出力することも可能になる。修復対象区間、非流暢区間、修復区間の情報が付与された音声認識結果を出力すれば、例えば、この音声認識結果を言語解析システムで解析するときに、この付与された情報を使用することでより正確に言語解析することも可能になる。 In addition, instead of outputting only the text information as the speech recognition result, "pen" (Japanese: English example, "a bed") to repair target section, "Hmm" (Japanese: English example, "you know") to a non-fluent section, "blue one" (Japanese: English example, "a brown one") to grant to the information of the repair period will also possible to output. If the speech recognition result with the information on the restoration target section, the non-fluent section, and the restoration section is output, for example, when the speech recognition result is analyzed by the language analysis system, the given information is used. It becomes possible to analyze the language more accurately.

Claims (10)

入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成して最適な解を探索する仮説探索手段と、
仮説探索手段が探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定手段と、
言い直し判定手段によって言い直しであると判定された場合に、当該単語もしくは単語列を含む言い直し区間のうちの非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った仮説である透過単語仮説を生成する透過単語仮説生成手段とを備え、
仮説探索手段は、探索対象とする仮説に透過単語仮説生成手段によって生成された透過単語仮説を含めて最適な解を探索する
ことを特徴とする音声認識システム。
A hypothesis search means for generating a hypothesis that is a chain of words to be searched as a recognition result candidate for input speech data, and searching for an optimal solution;
A re-statement determining means for calculating a re-stateability of a word or a word string included in the hypothesis being searched by the hypothesis searching means and determining whether or not the word or word string is re-stated;
A hypothesis that treats a word or word string included in a non-fluent section or repair section of a re-word section including the word or word string as a transparent word when it is determined to be re-worded by the re-word determination means. A transparent word hypothesis generating means for generating a certain transparent word hypothesis,
The hypothesis searching means searches for an optimal solution by including the transparent word hypothesis generated by the transparent word hypothesis generating means in the hypothesis to be searched.
言い直し判定手段は、仮説探索手段が探索中の仮説に含まれる単語または単語列に対して、当該単語または単語列を修復区間に含む修復対象区間と非流暢区間と修復区間の組み合わせを仮定し、仮定した修復対象区間と非流暢区間と修復区間の組み合わせ毎に言い直しらしさを計算し、計算した言い直しらしさが所定の閾値以上であるか否かを判定することによって、該組み合わせに対して言い直しであるか否かを判定し、
透過単語仮説生成手段は、前記言い直し判定手段によって言い直しであると判定された組み合わせの非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った仮説を生成する
請求項1に記載の音声認識システム。
The rephrasing determination means assumes a combination of a repair target section, a non-fluent section, and a repair section that include the word or word string in the repair section for the word or word string included in the hypothesis being searched by the hypothesis search means. By calculating the rephrasability for each combination of the assumed repair target section, the non-fluent section, and the repair section, and determining whether the calculated restatement is equal to or greater than a predetermined threshold, Determine if it ’s a rephrase,
The transparent word hypothesis generation means generates a hypothesis that treats a word or a word string included in a non-fluent section or repair section of the combination determined to be restated by the restatement determination means as a transparent word. The speech recognition system described.
透過単語仮説生成手段は、透過単語仮説として、修復対象区間または非流暢区間に含まれる単語もしくは単語列を透過単語として扱った修復対象区間側透過単語仮説と、非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った修復区間側透過単語仮説とを生成し、
仮説探索手段は、探索対象とする仮説に、透過単語仮説生成手段によって生成された修復対象区間側透過単語仮説と修復区間側透過単語仮説とを含めて最適な解を探索する
請求項1または請求項2に記載の音声認識システム。
The transparent word hypothesis generation means includes, as a transparent word hypothesis, a repair target section side transparent word hypothesis that treats a word or a word string included in a repair target section or a non-fluent section as a transparent word, and a non-fluent section or a repair section. Generate a repair word side transparent word hypothesis that treats a word or word string as a transparent word,
The hypothesis search means searches for an optimal solution including the repair target section side transparent word hypothesis and the repair section side transparent word hypothesis generated by the transparent word hypothesis generation means in the hypothesis to be searched. Item 3. The speech recognition system according to Item 2.
音声認識結果を生成する結果生成手段を備え、
仮説探索手段は、生成された修復対象区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第1の探索処理と、生成された修復区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第2の探索処理とを行い、
結果生成手段は、前記第1の探索処理による音声認識結果と、前記第2の探索処理による音声認識結果とを組み合わせた音声認識結果を生成する
請求項3に記載の音声認識システム。
A result generating means for generating a speech recognition result;
The hypothesis searching means includes a first search process for searching for an optimal solution by including the generated repair target section side transparent word hypothesis in a hypothesis to be searched, and the generated repair section side transparent word hypothesis as a search target. And a second search process for searching for an optimal solution included in the hypothesis to be performed,
The voice recognition system according to claim 3, wherein the result generation unit generates a voice recognition result obtained by combining the voice recognition result obtained by the first search process and the voice recognition result obtained by the second search process.
結果生成手段は、言い直しであると判定された区間に関し、前記第1の探索処理による音声認識結果として示される最尤仮説が修復対象区間側透過単語仮説であって、前記第2の探索処理による音声認識結果として示される最尤仮説が修復区間側透過単語仮説である場合に、前記修復対象区間側透過単語仮説が示す当該言い直し区間における単語連鎖と、前記修復区間側透過単語仮説が示す当該言い直し区間における単語連鎖とを組み合わせて、当該言い直し区間における単語を透過単語とせずに全て含んだ状態の単語連鎖を示す音声認識結果を生成する
請求項4に記載の音声認識システム。
The result generation means relates to the section determined to be rephrased, and the maximum likelihood hypothesis indicated as the speech recognition result by the first search process is a repair target section side transparent word hypothesis, and the second search process When the maximum likelihood hypothesis shown as the speech recognition result by is the repair section side transparent word hypothesis, the word chain in the reword section indicated by the repair target section side transparent word hypothesis and the repair section side transparent word hypothesis indicate The speech recognition system according to claim 4, wherein a speech recognition result indicating a word chain including all words in the rephrasing section without including a transparent word is generated by combining the word chain in the rephrasing section.
音声認識結果を出力する結果出力手段を備え、
結果出力手段は、最尤仮説の単語連鎖によって示されるテキスト情報だけでなく、修復対象区間、非流暢区間または修復区間の情報を付与した音声認識結果を出力する
請求項1から請求項5のうちのいずれか1項に記載の音声認識システム。
A result output means for outputting a speech recognition result;
The result output means outputs not only the text information indicated by the word chain of the maximum likelihood hypothesis, but also a speech recognition result to which information on a repair target section, a non-fluent section or a repair section is added. The speech recognition system according to any one of the above.
仮説探索手段が、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成しつつ最適な解を探索する過程で、
探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定し、
言い直しであると判定された場合に、当該単語もしくは単語列を含む言い直し区間のうちの非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った仮説である透過単語仮説を生成することによって、
前記仮説探索手段が、探索対象とする仮説に、前記生成された透過単語仮説を含めて最適な解を探索する
ことを特徴とする音声認識方法。
In the process of searching for an optimal solution while the hypothesis search means generates a hypothesis that is a chain of words to be searched as a recognition result candidate for the input speech data,
Calculate the rephrasability of a word or word string included in the hypothesis being searched, determine whether the word or word string is rephrased,
A transparent word hypothesis, which is a hypothesis that treats a word or a word string included in a non-fluent section or a repair section of the rephrasing section including the word or word string as a transparent word when it is determined to be rephrased By generating
The speech recognition method, wherein the hypothesis searching means searches for an optimal solution including the generated transparent word hypothesis in a hypothesis to be searched.
仮説探索手段が、入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成しつつ最適な解を探索する過程で、
透過単語仮説生成手段が、言い直しであると判定された場合に、修復対象区間または非流暢区間に含まれる単語もしくは単語列を透過単語として扱った修復対象区間側透過単語仮説と、非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った修復区間側透過単語仮説とを生成することによって、
仮説探索手段が、生成された修復対象区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第1の探索処理と、生成された修復区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第2の探索処理とを行い、
結果出力手段が、前記第1の探索処理による音声認識結果と、前記第2の探索処理による音声認識結果とを組み合わせた音声認識結果を出力する
請求項7に記載の音声認識方法。
In the process of searching for an optimal solution while the hypothesis search means generates a hypothesis that is a chain of words to be searched as a recognition result candidate for the input speech data,
When the transparent word hypothesis generating means determines that the word is rephrased, the repair target section side transparent word hypothesis that treats the word or word string included in the repair target section or the non-fluent section as a transparent word, and the non-fluent section Or by generating a repair word side transparent word hypothesis that treats a word or word string included in the repair section as a transparent word,
The hypothesis search means includes a first search process for searching for an optimal solution by including the generated repair target section side transparent word hypothesis in a hypothesis to be searched, and the generated repair section side transparent word hypothesis as a search target. And a second search process for searching for an optimal solution included in the hypothesis to be performed,
The speech recognition method according to claim 7, wherein the result output means outputs a speech recognition result obtained by combining the speech recognition result by the first search process and the speech recognition result by the second search process.
コンピュータに、
入力された音声データに対して、認識結果の候補として探索が行われる単語の連鎖である仮説を生成しつつ最適な解を探索する仮説探索処理の過程で、
探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定処理、
言い直しであると判定された場合に、当該単語もしくは単語列を含む言い直し区間のうちの非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った仮説である透過単語仮説を生成する透過単語仮説生成処理を実行させ、
前記仮説探索処理で、探索対象とする仮説に、前記生成された透過単語仮説を含めて最適な解を探索させる
ための音声認識プログラム。
On the computer,
In the process of hypothesis search processing that searches for an optimal solution while generating a hypothesis that is a chain of words to be searched as candidate recognition results for the input speech data,
A re-phrase determination process for calculating the re-phrase of a word or word string included in the hypothesis being searched and determining whether the word or word string is re-phrased;
A transparent word hypothesis, which is a hypothesis that treats a word or a word string included in a non-fluent section or a repair section of the rephrasing section including the word or word string as a transparent word when it is determined to be rephrased Execute the generated transparent word hypothesis generation process,
A speech recognition program for searching for an optimal solution including the generated transparent word hypothesis in a hypothesis to be searched in the hypothesis search process.
コンピュータに、
探索中の仮説に含まれる単語または単語列の言い直しらしさを計算し、当該単語または単語列が言い直しであるか否かを判定する言い直し判定処理、
言い直しであると判定された場合に、修復対象区間または非流暢区間に含まれる単語もしくは単語列を透過単語として扱った修復対象区間側透過単語仮説を生成する第1の透過単語仮説生成処理、
言い直しであると判定された場合に、非流暢区間または修復区間に含まれる単語もしくは単語列を透過単語として扱った修復区間側透過単語仮説を生成する第2の透過単語仮説生成処理、
生成された修復対象区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第1の探索処理、
生成された修復区間側透過単語仮説を探索対象とする仮説に含めて最適な解を探索する第2の探索処理、および
前記第1の探索処理による音声認識結果と、前記第2の探索処理による音声認識結果とを組み合わせた音声認識結果を出力する結果出力処理を実行させる
請求項9に記載の音声認識プログラム。
On the computer,
A re-phrase determination process for calculating the re-phrase of a word or word string included in the hypothesis being searched and determining whether the word or word string is re-phrased;
A first transparent word hypothesis generation process for generating a repair target section side transparent word hypothesis that treats a word or a word string included in a repair target section or a non-fluent section as a transparent word when it is determined to be rephrased;
A second transparent word hypothesis generation process for generating a repaired section side transparent word hypothesis that treats a word or a word string included in a non-fluent section or repaired section as a transparent word when it is determined to be rephrased;
A first search process for searching for an optimal solution by including the generated repair target section side transparent word hypothesis in a hypothesis to be searched;
A second search process for searching for an optimal solution by including the generated repair section side transparent word hypothesis in a hypothesis to be searched; a speech recognition result by the first search process; and a second search process. The speech recognition program according to claim 9, wherein a result output process for outputting a speech recognition result in combination with a speech recognition result is executed.
JP2012551755A 2011-01-07 2011-12-22 Speech recognition system, speech recognition method, and speech recognition program Pending JPWO2012093451A1 (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011002307 2011-01-07
JP2011002307 2011-01-07
PCT/JP2011/007203 WO2012093451A1 (en) 2011-01-07 2011-12-22 Speech recognition system, speech recognition method, and speech recognition program

Publications (1)

Publication Number Publication Date
JPWO2012093451A1 true JPWO2012093451A1 (en) 2014-06-09

Family

ID=46457320

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012551755A Pending JPWO2012093451A1 (en) 2011-01-07 2011-12-22 Speech recognition system, speech recognition method, and speech recognition program

Country Status (3)

Country Link
US (1) US20130268271A1 (en)
JP (1) JPWO2012093451A1 (en)
WO (1) WO2012093451A1 (en)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011083528A1 (en) * 2010-01-06 2011-07-14 日本電気株式会社 Data processing apparatus, computer program therefor, and data processing method
US20130325482A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Estimating congnitive-load in human-machine interaction
US10186257B1 (en) * 2014-04-24 2019-01-22 Nvoq Incorporated Language model for speech recognition to account for types of disfluency

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3058125B2 (en) * 1997-06-27 2000-07-04 日本電気株式会社 Voice recognition device
JP3426176B2 (en) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション Speech recognition device, method, computer system and storage medium
JP2007057844A (en) * 2005-08-24 2007-03-08 Fujitsu Ltd Speech recognition system and speech processing system
JP4542974B2 (en) * 2005-09-27 2010-09-15 株式会社東芝 Speech recognition apparatus, speech recognition method, and speech recognition program
JP4836076B2 (en) * 2006-02-23 2011-12-14 株式会社国際電気通信基礎技術研究所 Speech recognition system and computer program
US8457967B2 (en) * 2009-08-15 2013-06-04 Nuance Communications, Inc. Automatic evaluation of spoken fluency

Also Published As

Publication number Publication date
US20130268271A1 (en) 2013-10-10
WO2012093451A1 (en) 2012-07-12

Similar Documents

Publication Publication Date Title
JP6837298B2 (en) Devices and methods for calculating acoustic scores, devices and methods for recognizing voice, and electronic devices
US10074363B2 (en) Method and apparatus for keyword speech recognition
EP2387031B1 (en) Methods and systems for grammar fitness evaluation as speech recognition error predictor
US12046226B2 (en) Text-to-speech synthesis method and system, a method of training a text-to-speech synthesis system, and a method of calculating an expressivity score
US8321218B2 (en) Searching in audio speech
KR102052031B1 (en) Method for pronunciation assessment and system using the method
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
CN105336322A (en) Polyphone model training method, and speech synthesis method and device
CN104978963A (en) Speech recognition apparatus, method and electronic equipment
CN106710585B (en) Method and system for broadcasting polyphonic characters during voice interaction
JP6875819B2 (en) Acoustic model input data normalization device and method, and voice recognition device
KR20210059581A (en) Method and apparatus for automatic proficiency evaluation of speech
Mao et al. Applying multitask learning to acoustic-phonemic model for mispronunciation detection and diagnosis in l2 english speech
CN114627896B (en) Voice evaluation method, device, equipment and storage medium
KR20240122776A (en) Adaptation and Learning in Neural Speech Synthesis
CN111968622A (en) Attention mechanism-based voice recognition method, system and device
WO2012093451A1 (en) Speech recognition system, speech recognition method, and speech recognition program
Yamasaki et al. Transcribing and aligning conversational speech: A hybrid pipeline applied to french conversations
Habeeb et al. An ensemble technique for speech recognition in noisy environments
Mao et al. Integrating articulatory features into acoustic-phonemic model for mispronunciation detection and diagnosis in l2 english speech
WO2012093661A1 (en) Speech recognition device, speech recognition method, and speech recognition program
Anzai et al. Recognition of utterances with grammatical mistakes based on optimization of language model towards interactive CALL systems
Imai et al. Evaluating Open-Source ASR Systems: Performance Across Diverse Audio Conditions and Error Correction Methods
JP6370732B2 (en) Utterance intention model learning device, utterance intention extraction device, utterance intention model learning method, utterance intention extraction method, program