JP2006209173A - Dependency structure analyzing apparatus and computer program - Google Patents
Dependency structure analyzing apparatus and computer program Download PDFInfo
- Publication number
- JP2006209173A JP2006209173A JP2005016341A JP2005016341A JP2006209173A JP 2006209173 A JP2006209173 A JP 2006209173A JP 2005016341 A JP2005016341 A JP 2005016341A JP 2005016341 A JP2005016341 A JP 2005016341A JP 2006209173 A JP2006209173 A JP 2006209173A
- Authority
- JP
- Japan
- Prior art keywords
- dependency
- node
- inter
- unit
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004590 computer program Methods 0.000 title claims description 5
- 238000004458 analytical method Methods 0.000 claims abstract description 198
- 230000004044 response Effects 0.000 claims abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 20
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 104
- 238000000034 method Methods 0.000 abstract description 48
- 230000008569 process Effects 0.000 abstract description 19
- 238000010586 diagram Methods 0.000 description 10
- 238000007476 Maximum Likelihood Methods 0.000 description 9
- 230000000750 progressive effect Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 8
- 230000000877 morphologic effect Effects 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- YXHAMVMGQAWTHT-KHYOSLBOSA-N ram-346 Chemical compound C([C@H]12)CC(=O)C[C@@]11CCN(C)[C@@H]2CC2=CC=C(OC)C(OC)=C21 YXHAMVMGQAWTHT-KHYOSLBOSA-N 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 102100033026 Transmembrane protein 102 Human genes 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 101710172087 Class B acid phosphatase Proteins 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】発話途中でも節間の係り受けを決定し、後の処理に利用することができるようにする。
【解決手段】 係り受け構造解析装置42は、逐次的に入力される発話40の係り受け構造を漸進的に解析するもので、発話40の節境界を発話の局所的情報に基づいて検出し、当該節境界と直前の節境界との間の発話からなる節境界単位を出力する節判定処理部60と、節境界が検出されたことに応答して、係り先が未決定の節境界単位について節間係り受け確率モデル38を用いた節間係り受け推定で得られた係り先情報を出力する節間係り受け解析処理部70と、係り先情報の出力に応答して、係り先が未決定の節境界単位について得られた係り先情報の履歴に基づいて、係り先が未決定の節境界単位のうち、所定の条件を充足するものの係り先を決定して出力する節間係り受け判定処理部72とを含む。
【選択図】 図2
To determine the dependency between clauses even during utterance so that it can be used for later processing.
A dependency structure analyzing device 42 analyzes a dependency structure of utterances 40 sequentially input, detects a node boundary of the utterance 40 based on local information of the utterance, A node determination processing unit 60 that outputs a node boundary unit composed of utterances between the node boundary and the immediately preceding node boundary, and a node boundary unit whose relationship destination is undetermined in response to the detection of the node boundary. Intersection dependency analysis processing unit 70 that outputs dependency destination information obtained by inter-node dependency estimation using inter-subordinate dependency probability model 38, and the dependency destination is undetermined in response to the output of dependency destination information Based on the history of the dependency destination information obtained for each node boundary unit, among the node boundary units for which the dependency destination is not yet determined, the interdependence dependency determination process for determining and outputting the dependency destination that satisfies a predetermined condition Part 72.
[Selection] Figure 2
Description
この発明は文の構成要素の間の係り受け解析技術に関し、特に、同時通訳及び字幕生成のように、発話をその進行と同時に係り受け解析する技術、すなわち漸進的係り受け解析技術の改良に関する The present invention relates to a dependency analysis technique between sentence components, and more particularly to a technique for dependency analysis simultaneously with its progress, such as simultaneous interpretation and subtitle generation, that is, an improvement of a progressive dependency analysis technique.
同時通訳又は映画若しくはテレビジョン放送における字幕自動生成において適切な結果を得るためには、発話を音声認識処理等により一旦テキスト情報に変換し、さらに音声認識結果の入力と同時並行的に係り受け解析することが必要である。そのように入力と同時に係り受け解析する技術を本明細書では漸進的係り受け解析と呼ぶ。 In order to obtain appropriate results in simultaneous interpretation or automatic caption generation in movies or television broadcasts, speech is once converted into text information by voice recognition processing, etc., and dependency analysis is performed simultaneously with input of the speech recognition results. It is necessary to. Such a technique of performing dependency analysis simultaneously with input is referred to as progressive dependency analysis in this specification.
上記したような需要が存在するため、従来から漸進的係り受け解析に関する研究がいくつか行なわれている。そうした従来の手法では、ある言語単位(例えば文、節等)で入力を分割し、分割後の言語単位に対し何らかの手法に基づいて係り受け解析を行なうことを繰返す。例えば非特許文献1には、確率文脈自由文法に基づいて漸進的に係り受け解析を行なう技術が開示されている。
Due to the above-described demand, several studies on gradual dependency analysis have been conducted. In such a conventional method, the input is divided in a certain language unit (for example, sentence, clause, etc.), and dependency analysis is repeatedly performed on the divided language unit based on some method. For example, Non-Patent
一方、例えば独話では、1文が長く構造が複雑であるという特徴に着目し、文中の節境界を検出して節境界に基づく係り受け解析を行なう手法が、非特許文献2に開示されている。この手法では、節レベルと文レベルとの2段階で係り受け解析を実行する。まず、節境界解析により文を節に分割し、各節に対して係り受け解析を行なうことにより、節内の係り受け関係を同定する。次に節境界をまたぐ係り受け関係を定め、全体の係り受け構造を作り上げる。
On the other hand, for example in monologue, Non-Patent
一方、発話中の節境界を検出するための節境界検出手法が特許文献1に開示されている。特許文献1に記載の手法は、基本的には形態素列中で局所的に特定のパタンを検出した場合に、そのパタンに関連した所定箇所に節境界を想定するというものである。そのために、形態素列の局所的なパタンと、節境界の位置とをいわゆる正規表現で表したルールが予め準備される。節境界検出時には、検出された節境界と、直前に検出された節境界とではさまれた単位を近似的な節として逐次出力できる。
ところで、文境界が付与されていない発話データ、特に独話データの場合には、明示的な文末標識がない。そのため、係り受け解析に先立って発話データを文単位に区切ることは容易ではない。そうした状況では、上記した非特許文献1に記載の手法を適用することは難しい。また、非特許文献2に記載の手法は発話データ全体の入力の後に適用することが前提である。従って、この手法はそのままでは漸進的な係り受け解析には用いることができない。
By the way, in the case of utterance data to which no sentence boundary is given, especially monologue data, there is no explicit sentence end indicator. Therefore, it is not easy to divide speech data into sentence units prior to dependency analysis. In such a situation, it is difficult to apply the method described in
しかし、経済及び人の交流が国際化した現代では、ある言語の発話内容をリアルタイムで別の言語に自動的に変換したり、字幕を生成したりするという技術に関する需要は大きい。そうした処理では、発話の進行と並行して精度よく係り受け解析を行なうことができる技術が必要である。 However, in the present age when economics and human exchange are internationalized, there is a great demand for technology for automatically converting the utterance content of one language into another language in real time and generating subtitles. Such processing requires technology that can perform dependency analysis with high accuracy in parallel with the progress of the utterance.
従って、本発明の目的は、発話途中でも節間の係り受けを決定し、後の処理に利用することができる係り受け構造解析装置とそのためのコンピュータプログラムとを提供することである。 Accordingly, an object of the present invention is to provide a dependency structure analyzing apparatus and a computer program therefor, which can determine dependency between clauses even during utterance and can be used for later processing.
本発明の第1の局面に係る係り受け構造解析装置は、逐次的に入力される発話の係り受け構造を漸進的に解析する係り受け構造解析装置であって、逐次入力される発話の節境界を発話の局所的情報に基づいて検出し、当該節境界と直前の節境界との間の発話からなる節境界単位を出力するための節境界検出手段と、節境界検出手段により節境界が検出されたことに応答して、係り先が未決定の節境界単位について所定の節間係り受け解析方法を適用し、得られた係り先情報を出力するための節間係り受け解析手段と、節間係り受け解析手段による係り先情報の出力に応答して、係り先が未決定の節境界単位について節間係り受け解析手段により得られた係り先情報の履歴を保持し、当該履歴に基づいて、係り先が未決定の節境界単位のうち、所定の条件を充足するものの係り先を決定して出力するための節間係り受け判定手段とを含む。 A dependency structure analyzing apparatus according to a first aspect of the present invention is a dependency structure analyzing apparatus that progressively analyzes a dependency structure of utterances that are sequentially input, and is a node boundary of utterances that are sequentially input. Is detected based on the local information of the utterance, and the node boundary is detected by the node boundary detecting means for outputting the node boundary unit consisting of the utterance between the relevant node boundary and the immediately preceding node boundary, and the node boundary detecting means detects the node boundary. In response to this, an inter-node dependency analysis means for applying a predetermined inter-cell dependency analysis method to a node boundary unit whose dependency point is undetermined, and outputting the obtained dependency information, In response to the output of the dependency destination information by the dependency dependency analysis means, a history of dependency destination information obtained by the inter-cell dependency analysis means for the node boundary unit whose dependency is undetermined is retained, and based on the history , Out of the node boundary unit whose relationship is not yet determined, And a internode dependency determination means for determines and outputs one of dependency destination that satisfies certain conditions.
節境界検出手段により、入力される発話の節境界が検出され、それまでの節境界間の発話からなる節境界単位が出力される。節間係り受け解析手段は、節境界が検出されると、係り先が未決定の節境界単位について係り先を推定する。節間係り受け判定手段は、係り先が未決定の節境界単位について、推定された係り先の履歴を保持し、その履歴に基づいて所定の条件を充足する節境界単位の係り先を決定する。節境界検出手段による節境界の検出と節境界単位の出力と節間係り受け解析手段による節間係り受け解析とが逐次的に行なわれる。節間係り受け解析の結果に応じて、所定の条件が充足されると、節間係り受け判定手段が対応する節境界単位の係り先を決定し出力する。これら処理が発話の入力と同時並行的に漸進的に行なわれるので、文単位でなく、発話途中でも節間の係り受けを決定し、後の処理に利用することができる。 The node boundary detection means detects the node boundary of the input utterance, and outputs the node boundary unit consisting of the utterances between the node boundaries so far. When the node boundary is detected, the inter-node dependency analyzing means estimates the dependency for the node boundary unit whose dependency is not yet determined. The inter-node dependency determination means retains the history of the estimated dependency destination for the node boundary unit for which the dependency destination has not been determined, and determines the dependency destination of the node boundary unit that satisfies a predetermined condition based on the history. . The detection of the node boundary by the node boundary detecting means, the output of the node boundary unit, and the inter-node dependency analysis by the inter-node dependency analyzing means are sequentially performed. When a predetermined condition is satisfied according to the result of the inter-node dependency analysis, the inter-cell dependency determining means determines and outputs a corresponding inter-unit boundary unit. Since these processes are performed gradually in parallel with the input of the utterance, the dependency between the clauses can be determined not only in the sentence unit but also in the middle of the utterance and used for the subsequent process.
好ましくは、係り受け構造解析装置はさらに、節境界検出手段により節境界が検出されたことに応答して、節境界検出手段から出力された節境界単位に対して所定の節内係り受け解析方法を適用し、得られた節内係り受け結果を保存するための節内係り受け解析手段を含み、節間係り受け判定手段は、節間係り受け解析手段による係り先情報の出力に応答して、係り先が未決定の節境界単位について節間係り受け解析手段により得られた係り先情報の履歴を保持するための履歴保持手段と、履歴保持手段により保持されている履歴に基づいて、係り先が未決定の節境界単位のうち、所定の条件を充足するものの係り先を決定するための節係り先決定手段と、節係り先決定手段により決定された係り先と、当該節境界単位について節内係り受け解析手段に保持されていた節内係り受け結果とをあわせて当該節境界単位に対する係り受け関係情報として出力するための手段とを含む。 Preferably, the dependency structure analyzing apparatus further includes a predetermined intra-section dependency analysis method for the nodal boundary unit output from the nodal boundary detecting means in response to the nodal boundary being detected by the nodal boundary detecting means. And inter-group dependency analysis means for storing the obtained intra-section dependency result, and the inter-node dependency determination means responds to the output of dependency destination information by the inter-node dependency analysis means. A history holding means for holding the history of the dependency destination information obtained by the inter-node dependency analysis means for the node boundary unit whose dependency destination is undetermined, and a relationship based on the history held by the history holding means Among clause boundary units whose destinations are not yet determined, a clause destination determination means for determining a destination of a clause that satisfies a predetermined condition, a dependency destination determined by the clause destination determination means, and the clause boundary unit Dependency in section Together with intranodal dependency results held in the analyzing means and means for outputting as a dependency relationship information for the clause boundary unit.
節内係り受け解析手段がこの節境界単位に対して節内係り受け解析を行ない、その結果を保持しておく。ある節境界単位に対し節間係り受けが決定すると、当該節境界単位に対する節内係り受け解析の結果とあわせて係り受け関係として出力される。逐次入力される発話に対し、漸進的に各節境界単位に対する係り受け関係が節内及び節間の双方について得られる。その結果、文単位でなく、発話途中でも節内及び節間の係り受けを決定し、後の処理に利用することができる。 The intra-clause dependency analysis means performs intra-clause dependency analysis on the node boundary unit and holds the result. When the inter-node dependency is determined for a certain node boundary unit, the dependency relationship is output together with the result of the intra-node dependency analysis for the node boundary unit. For utterances that are input sequentially, a dependency relationship with respect to each node boundary unit is obtained progressively for both within and between nodes. As a result, it is possible to determine the dependency within the clause and between the clauses even during the utterance instead of the sentence unit, and use it for later processing.
さらに好ましくは、履歴保持手段は、節間係り受け解析手段による係り先情報の出力に応答して、係り先が未決定の節境界単位について節間係り受け解析手段により得られた係り先情報の直前の履歴を各節境界単位に対し所定個数だけ保持するための手段を含み、節係り先決定手段は、ある節境界単位に対して保持するための手段に保持されている係り先情報が全て一致していることに応答して、当該ある節境界単位の係り先を節間係り受け解析手段により最後に得られた係り先に決定するための手段を含む。 More preferably, the history holding means responds to the output of the dependency destination information by the inter-node dependency analysis means, and the dependency destination information obtained by the inter-node dependency analysis means for the node boundary unit whose dependency is not yet determined. Including a means for holding a predetermined number of previous histories for each node boundary unit, and the node destination determination unit includes all the destination information held in the unit for holding a node boundary unit. In response to the coincidence, means for determining a destination of the certain node boundary unit as a last obtained by the inter-node dependency analyzing means is included.
節間係り受け判定手段はさらに、所定の自然数を記憶するための所定値記憶手段を含み、保持するための手段は、節間係り受け解析手段による係り先情報の出力に応答して、係り先が未決定の節境界単位について節間係り受け解析手段により得られた係り先情報の直前の履歴を、各節境界単位に対し所定値記憶手段に記憶された所定の自然数の個数だけ保持するための手段を含んでもよい。 The inter-node dependency determining means further includes a predetermined value storage means for storing a predetermined natural number, and the means for holding is in response to the output of dependency destination information by the inter-node dependency analyzing means. In order to hold the history immediately before the dependency destination information obtained by the inter-node dependency analysis means for the undecided clause boundary unit, by the number of a predetermined natural number stored in the predetermined value storage means for each node boundary unit. These means may be included.
係り受け構造解析装置はさらに、所定値記憶手段に記憶される所定の自然数を入力するための入力手段を含んでもよい。 The dependency structure analyzing apparatus may further include an input unit for inputting a predetermined natural number stored in the predetermined value storage unit.
好ましくは、節係り先決定手段は、節間係り受け解析手段による係り先情報の出力に応答して、係り先が未決定の節境界単位について節間係り受け解析手段により得られた係り先情報と、当該節境界単位について保持するための手段に保持されている直前の係り先情報とが一致するか否かを判定するための判定手段と、判定手段により一致という結果が連続して得られた回数を、係り先が未決定の節境界単位の各々に対してカウントするためのカウンタ手段と、カウンタ手段による、ある節境界単位のカウント結果が所定の値に達したことに応答して、当該ある節境界単位の係り先を、当該ある節境界単位に対して節間係り受け解析手段により最後に得られた係り先に決定するための手段とを含む。 Preferably, the node destination determination means is the response destination information obtained by the node dependency analysis means for the node boundary unit whose dependency is not yet determined in response to the output of the dependency destination information by the internode dependency analysis means. And the determination means for determining whether or not the last relation information held in the means for holding the relevant section boundary unit matches, and the determination means continuously obtains the result of the match. In response to the counter means for counting the number of times for each of the node boundary units for which the relationship is undetermined, and the count result of a certain node boundary unit by the counter means reaching a predetermined value, And a means for determining a dependency point of the certain node boundary unit as a dependency point finally obtained by the inter-node dependency analysis means for the certain node boundary unit.
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを、上記したいずれかの係り受け構造解析装置として動作させるものである。従って、上記した係り受け構造解析装置と同様の作用・効果を奏することができる。 The computer program according to the second aspect of the present invention, when executed by a computer, causes the computer to operate as any one of the dependency structure analyzing apparatuses described above. Therefore, the same operation and effect as the above-described dependency structure analyzing apparatus can be obtained.
[節と係り受け]
以下に述べる本発明の実施の形態は、節を基本的な解析単位とする発話の漸進的係り受け解析手法を用いる。そのために、上記した特許文献1に記載の節境界検出がほぼリアルタイムで発話の節境界を検出できることを利用する。さらに、節境界が検出され、解析の対象となる節が確定するたびに、その節の内部の係り受け構造を作り上げるとともに、既に入力されている節の係り先を決定することを試みる。節の係り先となる文節の決定は、後続するいくつかの文節との係り受けの尤度を考慮した動的なタイミングで実行する。
[Section and dependency]
The embodiment of the present invention described below uses a gradual dependency analysis method of utterances with a section as a basic analysis unit. Therefore, the fact that the node boundary detection described in
節とは、述語を中心としたまとまりであり、複文又は重文の場合、文は複数の節から構成される。さらに、節は、統語的及び意味的にまとまった単位である。そのため、文に変わる単位として節を利用できる。なお、以下の実施の形態は、「文は一つ以上の節の連接であり、各節を構成する文節は、節の最終文節を除き、その節の内部の文節に係る」とみなすことにより実現している。 A clause is a group centered on a predicate. In the case of a compound sentence or a heavy sentence, a sentence is composed of a plurality of clauses. In addition, a clause is a syntactically and semantically unit. Therefore, clauses can be used as units that change into sentences. In the following embodiment, it is assumed that “a sentence is a concatenation of one or more clauses, and the clauses constituting each clause are related to the clauses inside the clause except the last clause of the clause”. Realized.
図1に、以下の実施の形態で行なわれる係り受け構造解析を模式的に示す。図1を参照して、発話「先日総理府が発表いたしました世論調査によりますと死刑を支持するという人が八十パーセント近くになっております。」という文は、4つの節「先日総理府が発表いたしました」、「世論調査によりますと」、「死刑を支持するという」、及び「人が八十パーセント近くになっております」から構成される。各節は係り受け構造を形成し、それらが節の最終文節からの係り受け構造でつながっている。図1において節内の係り受けは実線の矢印で、節間の係り受けは点線の矢印で、それぞれ示されている。 FIG. 1 schematically shows a dependency structure analysis performed in the following embodiment. Referring to Figure 1, the sentence "The percentage of people who support the death penalty is nearly 80 percent according to a poll released by the Prime Minister the other day." It was made up of “I did it”, “According to public opinion polls”, “To support the death penalty”, and “Persons are nearly 80 percent”. Each section forms a dependency structure, and they are connected by a dependency structure from the last sentence of the section. In FIG. 1, the dependency in the node is indicated by a solid arrow, and the dependency between the nodes is indicated by a dotted arrow.
節を文に代わる解析単位とするためには、係り受け解析の前処理として発話文を節に分割する必要がある。節には、主節の中に埋め込まれた従属節も存在するため、本来、文を節に一次元的に分割することは困難である。また、漸進的な処理では文の最後まで到達しないうちに発話の前半部分の係り受け解析を行なう必要があり、文の分割はさらに困難である。 In order to make a clause an analysis unit instead of a sentence, it is necessary to divide an utterance sentence into clauses as a preprocessing of dependency analysis. Since there are subordinate clauses embedded in the main clause, it is inherently difficult to divide the sentence into one-dimensional sections. Further, in the gradual processing, it is necessary to perform dependency analysis of the first half of the utterance before the end of the sentence is reached, and the sentence division is further difficult.
しかし、上記した特許文献1に記載の節境界検出手法を用いることにより、検出された節境界で文を近似的に節に分割することができる。しかも特許文献1に記載の手法では、必要な情報は入力された文を形態素解析した結果得られる形態素列の局所的なパタンである。従って、漸進的手法にこの手法を適用することにより、各節ごとに内部の係り受け構造を解析できる。なお、検出された節境界によりはさまれた言語単位を以下の説明では「節境界単位」と呼び、これを新たな解析単位と考える。特許文献1に記載の手法では、局所的な形態素列のみを手がかりとして節境界単位の終端位置と節境界単位の種類とを特定し、144種の節ラベルのいずれかを各節境界単位に付与する。
However, by using the node boundary detection method described in
以下の実施の形態では、このように各節境界単位の内部の係り受け構造を解析した後、さらに各節境界単位の最終文節からの係り先について以下のようにして決定する。すなわち、後続する節境界単位が入力されるたびに、節間の係り受けを繰返し解析し、所定の条件が充足された場合に、各節境界単位の最終文節の係り先を決定する。なお、以下の実施の形態の説明では、説明を簡略にするため、節境界単位を単に節と呼ぶ。 In the following embodiment, after analyzing the dependency structure inside each clause boundary unit as described above, the dependency destination from the final clause of each clause boundary unit is further determined as follows. That is, each time a subsequent clause boundary unit is input, the dependency between clauses is repeatedly analyzed, and when a predetermined condition is satisfied, the destination of the final clause of each clause boundary unit is determined. In the following description of the embodiments, the node boundary unit is simply referred to as a node in order to simplify the description.
[節と係り受け構造の関係]
節と係り受け構造との関係を明らかにするために、独話文コーパスを用いて節と係り受け構造との関係について分析した。分析には、日本放送協会(NHK)の解説番組「あすを読む」の書起こしデータ200文に対して形態素解析、文節まとめ上げ、節境界解析、及び係り受け解析を自動的に行ない、その結果を人手で修正したものを用いた。
[Relationship between section and dependency structure]
In order to clarify the relationship between clauses and dependency structures, we analyzed the relationship between clauses and dependency structures using a monologue corpus. For the analysis, the Japanese Broadcasting Corporation (NHK) commentary program "Read Asu"
この200文の基礎統計を表1に示す。 Table 1 shows the basic statistics of these 200 sentences.
[第1の実施の形態]
−構成−
以下、本発明の第1の実施の形態に係る係り受け構造解析システム30の機能的構成について、図2〜図5を参照して説明する。図2を参照して、係り受け構造解析システム30は、節内の係り受けに関する確率モデルである節内係り受け確率モデル36と、節間の係り受けに関する確率モデルである節間係り受け確率モデル38とを用い、入力される発話40に対する係り受け構造を漸進的に解析して係り受け関係46を節単位で順次出力するための係り受け構造解析装置42を含む。係り受け構造解析装置42には、後述するように内部処理で用いられる所定値(N)を入力する際に利用者が操作する入出力装置44が接続される。
[First Embodiment]
−Configuration−
Hereinafter, the functional configuration of the dependency
節内係り受け確率モデル36及び節間係り受け確率モデル38は、予め行なわれた係り受け構造解析の結果を示す情報が付された学習データ32を用い、後述する式に従って係り受け学習処理部34により準備される。
The intra-node
係り受け構造解析装置42は、発話40に対し形態素解析、文節まとめ上げ、及び特許文献1に記載の節境界検出処理を行なうことにより発話40を節に逐次分割し、節が分割されるたびに当該節を出力するための節判定処理部60と、節判定処理部60がその節判定処理中に発話データを一時記憶するために使用する発話データ一時記憶部62と、節判定処理部60により節が出力されるたびに当該節を受け、節内係り受け確率モデル36を参照して当該節に対する節内係り受け解析処理を行ない、その結果を当該節の形態素列とともに出力するための節内係り受け解析処理部64と、節内係り受け解析処理部64による係り受け解析結果を節の形態素列とともに記憶するための解析結果記憶部66とを含む。
The dependency
係り受け構造解析装置42はさらに、入出力装置44を用いて操作者により入力された所定値(N)を記憶するための所定数記憶部68と、節判定処理部60により節境界が検出された節が節内係り受け解析処理部64に出力されたことに応答して、それ以前に出力された節であってまだ係り先が確定していない最終文節を持つものに対する節間係り受け解析処理を節間係り受け確率モデル38を利用して行なうための節間係り受け解析処理部70とを含む。
The dependency
係り受け構造解析装置42はさらに、節間係り受け解析処理部70による節間係り受け解析処理により各節の最終文節に対して得られた係り先に関する情報を、節ごとに履歴として記憶するための節間係り先一時記憶部74と、カウンタとして使用される変数を記憶するためのカウンタ記憶部76と、解析結果記憶部66に記憶された節内解析結果、節間係り先一時記憶部74に記憶された節間係り先の履歴、及びカウンタ記憶部76を用い、節の最終文節の係り先が、所定数記憶部68に記憶された所定値で定められる回数の間、変化せず一定だったか否かを節間係り受け解析処理部70による解析の完了に応答して判定し、その結果に従って当該節の最終文節の係り先を特定し、当該節の節内係り受け関係と、当該節に関する節間係り受け関係とを係り受け関係46として出力するための節間係り受け判定処理部72とを含む。なお本実施の形態では、節間係り受け判定処理部72は、上記した判定の後、次の判定の際に新たな節間係り先と比較するために、節間係り先一時記憶部74に記憶されていた節間係り先に関する情報を記憶する。
The dependency
図3に、節間係り受け解析処理部70の詳細な構成を示す。図3を参照して、節間係り受け解析処理部70は、節判定処理部60から節が与えられたことを検出して節入力信号を出力するための節入力検出部90と、節入力検出部90からの節入力信号に応答して、新たに入力された節に対する記憶領域を節間係り先一時記憶部74に、カウンタ領域をカウンタ記憶部76に、それぞれ確保するための節間係り受け記憶初期化部96と、節入力検出部90からの節入力信号に応答して、解析結果記憶部66に記憶されている各節の係り受け解析結果に対し、節間係り受け確率モデル38を用いた節間係り受け解析処理を行ない、各節の最終文節の係り先を推定する処理を行なうための節最終文節係り先解析処理部92と、節最終文節係り先解析処理部92により推定された各節の最終文節の係り先によって、節間係り先一時記憶部74に記憶されている各節の節間係り先の履歴を更新するための係り先更新処理部94とを含む。
FIG. 3 shows a detailed configuration of the inter-node dependency
以下、上記した各部の処理のうち、係り受け解析の手法の詳細について説明する。 The details of the dependency analysis method will be described below among the processes of the above-described units.
−節境界に基づく文解析−
本実施の形態における係り受け解析では、形態素解析、文節まとめ上げ、及び節境界解析が施された文を入力とし、係り受けの後方修飾性、係り先の唯一性、及び非交差性の3つの性質を絶対的制約とする。解析の手順は以下の通りである。
-Sentence analysis based on clause boundaries-
In the dependency analysis in the present embodiment, a sentence subjected to morphological analysis, sentence grouping, and clause boundary analysis is input, and there are three types of dependency: backward modification of dependency, uniqueness of dependency, and non-crossing The property is an absolute constraint. The analysis procedure is as follows.
(1) 節レベルの係り受け解析
1文中の全ての節に対して、その内部の係り受け構造を解析する。図2に示す節内係り受け解析処理部64が実行する処理である。
(1) Dependency analysis at the node level Analyze the dependency structure inside all the clauses in one sentence. This is a process executed by the intra-node dependency analysis processing unit 64 shown in FIG.
(2) 文レベルの係り受け解析
1文中の全ての節に対して、その最終文節の係り先を解析し推定する。図2に示す節間係り受け解析処理部70が実行する処理である。
(2) Dependency analysis at the sentence level For all clauses in one sentence, analyze and estimate the destinations of the last sentence. This is a process executed by the inter-node dependency
以下では、1文を構成する節をC1,C2,…,Cm、節Ciを構成する文節列をb1 i,…,bni i、文節bk iを係り文節とする係り受け関係をdep(bk i)、1文の係り受け構造を{dep(b1 1),…,dep(bnm-1 m)}で表す。 In the following, clauses constituting one sentence are C 1 , C 2 ,..., C m , clause strings constituting clause C i are b 1 i ,..., B ni i , and clause b k i is a clause. The receiving relationship is represented by dep (b k i ), and the dependency structure of one sentence is represented by {dep (b 1 1 ),..., Dep (b nm−1 m )}.
節レベルの係り受け解析
節レベルの係り受け解析では、節Ci中の文節列b1 i,…,bni iをBiとするとき、P(Si|Bi)を最大にする係り受け構造Si(={dep(b1 i),…,dep(bni-1 i)})を求める。ただし、節の最終文節bni i(1≦i≦m)の受け文節は決定しない。
The dependency analysis section level dependency parsing node level, clause column b 1 i in sections C i, ..., when the b ni i and B i, P | relates to maximize (S i B i) The receiving structure Si (= {dep (b 1 i ),..., Dep (b ni-1 i )}) is obtained. However, the receiving clause of the final clause b ni i (1 ≦ i ≦ m) of the clause is not determined.
係り受け関係は互いに独立であると仮定すると、P(Si|Bi)は以下の式で計算できる。 Assuming that the dependency relationships are independent of each other, P (Si | Bi) can be calculated by the following equation.
次に、式(1)の右辺の各項の計算について述べる。係り文節における自立語の原形をhk i、その品詞をtk i、係りの種類をrk iとし、受け文節における自立語の原形をhl i、その品詞をtl iとする。また、受け文節が節の最終文節であるか否かをel iとし、文節間距離をdkl iiとする。ここで、係りの種類とは、係り文節が付属語を伴うときはその付属語の語彙、品詞、活用形であり、そうでないときは文節末の形態素の品詞、活用形である。 Next, calculation of each term on the right side of Equation (1) will be described. The original form of the independent word in the dependency phrase is h k i , its part of speech is t k i , the type of the dependency is r k i , the original form of the independent word in the reception phrase is h l i , and its part of speech is t l i . Also, e l i indicates whether the received phrase is the last phrase in the section, and the distance between phrases is d kl ii . Here, the type of relationship is the vocabulary, part of speech, or inflected form of the attached word when the related phrase accompanies the attached word, and the morphological part of speech or inflected form of the ending of the clause otherwise.
以上の属性を用いて、確率式(1)の右辺の各項を構成する確率を以下のように計算する。 Using the above attributes, the probability of forming each term on the right side of the probability formula (1) is calculated as follows.
文レベルの係り受け解析
この処理では、節の最終文節の係り先の文節(受け文節)を同定する。1文の文節列をB(=B1…Bm)とし、節の最終文節を係り文節とするような係り受け構造{dep(bn1 1),…,dep(bnm-1 m-1)}をSlastとするとき、P(Slast|B)を最大とするSlastを求める。P(Slast|B)は以下の式で計算できる。
Sentence level dependency analysis In this process, the destination clause (receiving clause) of the final clause of the clause is identified. Dependent structure {dep (b n1 1 ),..., Dep (b nm-1 m-1 , where B (= B 1 ... B m ) is a sentence sequence of one sentence and the last phrase of the clause is a related phrase. )} when to the S last, P (S last | Request S last to maximize B). P (S last | B) can be calculated by the following equation.
ただし、本実施の形態では、先に解析した節内部の係り受け構造を前提として節の最終文節の受け文節を決定する。すなわち、後方に位置する全ての文節を受け文節の候補として計算するのではなく、節内部の係り受け候補から非交差性を満たすものだけを受け文節の候補とする。図1に示す例の場合、文節「支持するという」の受け文節は「人が」又は「なっております」のいずれかであるとして計算する。 However, in the present embodiment, the receiving clause of the final clause of the clause is determined on the assumption of the dependency structure inside the clause analyzed earlier. That is, not all the clauses located behind are calculated as candidate phrases, but only those satisfying the non-intersection among the dependency candidates in the clause are taken as candidate phrases. In the case of the example shown in FIG. 1, the received clause of the phrase “I support” is calculated as being either “People” or “I am”.
漸進的係り受け解析
既に述べたように、係り受け構造解析装置42は節判定処理部60による節の検出があるごとに漸進的に係り受け解析を行なう。すなわち、入力に対して節判定処理部60が節境界を随時判定し、節が同定されると、その時点までの入力に対して係り受け解析を実行する。
Progressive Dependency Analysis As already described, the dependency
節間係り受け解析処理部70による係り受け解析については、その受け文節がいつ決定できるかは明らかではない。そのため、それを決定するタイミングが問題となる。本実施の形態では、前述した通り、節の最終文節が入力されてから後続の節についてある程度解析が進んだ時点でその受け文節を決定する。これは、文節間の係り受け関係が文をまたぐことがないこと、及びその距離が格段に長くなることはないこと、という二つの事実に着目したものである。
Regarding dependency analysis by the inter-node dependency
具体的には、節境界単位が入力されるたびにその時点での最尤の係り受け構造を上記「文レベルの係り受け解析」で述べた手法により解析して、その時点でのその節の係り受け関係を解析し、節の最終文節の係り受け関係が一定の入力回数(所定数記憶部68に記憶される「所定値N」)の間変わらなかった(この回数を以下「不変回数」と呼ぶ。)場合、その受け文節を当該最終文節の係り先として決定する。つまり、直前の係り先の推定結果の履歴に基づいて、節の係り先を決定する。 Specifically, whenever the clause boundary unit is input, the maximum likelihood dependency structure at that time is analyzed by the method described in the above-mentioned “sentence level dependency analysis”, and the relationship of the clause at that time is analyzed. The dependency relationship was analyzed, and the dependency relationship of the final clause of the clause did not change for a certain number of times of input (“predetermined value N” stored in the predetermined number storage unit 68) (this number is hereinafter referred to as “invariant number”). In this case, the received clause is determined as the destination of the final clause. In other words, the node destination is determined based on the history of the immediately previous destination destination estimation result.
漸進的係り受け解析アルゴリズム
この解析では、節Ciが入力されるごとに、既に入力された節C1,…,Ciの各最終文節bni i,…,bni jに対する係り受け構造D={dep(bnj j),k|1≦j≦i}を更新することにより節間の係り受けを定める。ここでkはdep(bnj j)の不変回数を示す。以下に係り受け解析アルゴリズムを示す。なお,固定値を所定値N(Nは自然数)とする。
The progressive dependency analysis algorithms this analysis, each time the node C i is input, section C 1 already entered, ..., each final clause of C i b ni i, ..., b relates for ni j receiving structure D = {Dep (b nj j ), k | 1 ≦ j ≦ i} is updated to determine the dependency between nodes. Here, k represents the invariant number of dep (b nj j ). The dependency analysis algorithm is shown below. The fixed value is a predetermined value N (N is a natural number).
(1)内部の係り受け構造が決定された節Ciを受ける。 (1) A node C i whose internal dependency structure is determined is received.
(2)節の最終文節のうち、係り先が未決定な文節に対して、それを係り文節とする係り受け関係を「文レベルの係り受け解析」で説明した方法により求める。 (2) Of the final clauses in the clause, for the clauses whose dependency destinations are not yet determined, the dependency relationship using the dependency clause as the dependency clause is obtained by the method described in the “sentence level dependency analysis”.
(3)(2)で生成された係り受け関係dep(bnj j)に基づき、最終文節に対する係り受け関係Dを更新する。ここでdep(bnj j)が前回と同一の場合は不変回数に1加算し、異なる場合は不変回数を1とする。 (3) Based on the dependency relationship dep (b nj j ) generated in (2), the dependency relationship D for the final phrase is updated. Here, when dep (b nj j ) is the same as the previous time, 1 is added to the invariant number, and when it is different, the invariant number is set to 1.
(4)不変回数=所定値Nを満たす係り受け関係dep(bnj j)∈Dに対して、文節bnj jの係り先が決定したとしてdep(bnj j)を出力する。 (4) With respect to the dependency relationship dep (b nj j ) ∈D satisfying the invariant number = predetermined value N, dep (b nj j ) is output assuming that the dependency destination of the clause b nj j is determined.
(5)全ての節が入力された時点で、不変回数<所定値Nの(dep(bnj j),k)∈Dに対して、その係り受け関係dep(bnj j)を出力する。 (5) At the time when all the clauses are input, the dependency relationship dep (b nj j ) is output for (dep (b nj j ), k) εD where the invariant number <the predetermined value N.
なお本実施の形態では、文末は係り先がないものとして解析する。そのため、節末の解析では係り先なしを候補に含める。具体的には、式(3)において、係り先のない文節はそれ自身に係る(すなわち,bni i=bl j)とし、係り先なしとなる確率も計算する。 In the present embodiment, the sentence ending is analyzed as having no dependency. Therefore, in the analysis at the end of the paragraph, no destination is included as a candidate. Specifically, in Equation (3), a clause without a relation is related to itself (that is, b ni i = b l j ), and the probability of having no relation is also calculated.
−動作−
上記実施の形態に係る係り受け構造解析システム30は以下のように動作する。この動作には二つの局面が存在する。図2を参照して、第1の局面は係り受け学習処理部34による節内係り受け確率モデル36及び節間係り受け確率モデル38の学習という局面である。第2の局面はこの節内係り受け確率モデル36及び節間係り受け確率モデル38を用いた、係り受け構造解析装置42による漸進的係り受け解析処理である。また、入出力装置44を用いた所定値Nの設定は任意の時により操作者により行なわれるものとする。
-Operation-
The dependency
第1の局面では、まず学習データ32を準備する。学習データ32は、予め何らかの方法で係り受け解析を行なった多数の文に対し、係り受け解析を手作業で修正したものを用いる。
In the first aspect, learning
係り受け学習処理部34による節内係り受け確率モデル36及び節間係り受け確率モデル38の計算方法は、上記した計算式に従って行なわれる。
The calculation method of the intra-node
節内係り受け確率モデル36及び節間係り受け確率モデル38、並びに節判定処理部60が形態素解析において使用する辞書及び節境界検出のためのルール等の言語的資源が準備できれば、発話40に対する係り受け構造解析装置42による漸進的係り受け解析が可能になる。
If the linguistic resources such as the intra-clause
まず節判定処理部60が、逐次入力される発話40を発話データ一時記憶部62に蓄積しながら、上記特許文献1に記載の手法に従って形態素解析する。節判定処理部60はさらに、この処理により得られる形態素列に対して節境界検出のためのルールを適用することにより節境界を逐次的に検出する。節判定処理部60は、節境界を検出すると直前の節境界との間の形態素列からなる節を節内係り受け解析処理部64に与える。このとき、節には節識別子(以下「節ID」と呼ぶ。)が付与される。以後の処理ではこの節IDにより各節が区別される。節IDとしては、本実施の形態では1から始まる連続番号を使用するが、節の区別が可能であればどのような手法で付与してもよい。
First, the node
図2に示す節内係り受け解析処理部64は、節判定処理部60から節を受取ると、節内係り受け確率モデル36を用いて当該節内の最終文節を除く文節の間の係り受け解析を実行し、その結果を解析結果記憶部66に記憶させる。
When the intra-node dependency analysis processing unit 64 shown in FIG. 2 receives a node from the node
図3を参照して、節間係り受け解析処理部70の節入力検出部90は、節判定処理部60から節が入力されると、節入力信号を節間係り受け記憶初期化部96及び節最終文節係り先解析処理部92に与える。節入力検出部90はまた、節を構成する形態素列を節最終文節係り先解析処理部92に与える。
Referring to FIG. 3, when a node is input from node
節間係り受け記憶初期化部96は、節入力信号に応答して節間係り先一時記憶部74内に、新たな節のための記憶領域を確保して初期化する。節間係り受け記憶初期化部96はまた、カウンタ記憶部76内に、新たな節のためのカウンタ領域を確保し、その値を0に初期化する。
The inter-node dependency
一方、節最終文節係り先解析処理部92は、節入力検出部90から節入力信号と節の形態素列とが与えられると、解析結果記憶部66に記憶されている、それまで入力された節に関する節内解析結果と、節間係り受け確率モデル38とを用い、まだ係り先が確定していない節の最終文節の係り先を最尤推定により推定する。節最終文節係り先解析処理部92は、その結果を係り先更新処理部94に与える。係り先更新処理部94はその結果を、節間係り先一時記憶部74内のその節に対応する記憶領域に保存する。節最終文節係り先解析処理部92による処理が、まだ係り先の決定していない節の全てに対して完了すると、係り先更新処理部94は、節間係り受け判定処理部72に対して全ての節について係り先の推定が終了したことを通知する。
On the other hand, when the clause input signal and the morpheme sequence of the clause are given from the clause
節間係り受け判定処理部72は、この通知に応答して以下のような処理を実行する。すなわち節間係り受け判定処理部72は、係り先の決定していない節に対して自己が記憶している係り先の情報と、節間係り先一時記憶部74中に記憶されている同じ節に関する係り先の情報とが一致するか否かを判定する。両者が一致していなければ節間係り受け判定処理部72はカウンタ記憶部76内の当該節に対応するカウンタの値を1に設定し、節間係り先一時記憶部74に記憶されている係り先情報を記憶する。両者が一致していれば、節間係り受け判定処理部72はカウンタ記憶部76内の当該節に対応するカウンタの値に1を加算する。この場合、節間係り受け判定処理部72はさらに、加算の結果カウンタの値が所定数記憶部68に記憶されている所定値Nと一致しているか否かを判定する。両者が一致していれば、節間係り受け判定処理部72はその節に関する係り先を、節間係り先一時記憶部74に記憶されている係り先に決定し、当該節について解析結果記憶部66に保存されている節内係り受け解析結果とともに、その節の係り受け関係46として出力する。カウンタの値が所定値Nに一致していなければ(すなわちN未満であれば)、節間係り受け判定処理部72は次の節についての処理を開始する。
In response to this notification, the inter-node dependency
このようにして節間係り受け判定処理部72は係り先が未決定の全ての節についてこの処理を繰返す。
In this way, the inter-node dependency
係り受け構造解析装置42は、発話40の全体に対して上記した処理を繰返して実行する。その結果、履歴に基づいて係り先が決定された節の係り受け関係46が係り受け構造解析装置42から逐次出力される。
The dependency
仮に所定の終了条件が充足されると、節間係り受け判定処理部72は、係り先が未決定の全ての節について、解析結果記憶部66に保存されている節内係り受け解析結果と、節間係り先一時記憶部74に保存されている節の直前の係り先の推定結果とをまとめ、各節に関する係り受け関係46として出力する。
If the predetermined termination condition is satisfied, the inter-node dependency
こうして、発話40を構成する節の全てについて、節内係り受け解析結果と、節間係り受け解析結果とが得られる。節間係り受け解析結果は、発話40の入力とともに逐次決定されるので、発話の途中でも、発話に対する係り受け解析結果を用いた機械翻訳又は字幕生成などの処理を適切に行なうことができる。最後に出力される節間係り受け解析結果は、決定条件を充足したものではないが、節間係り受け解析処理部70による最尤推定により推定されたものであるから、一定の精度が期待できる。
Thus, the intra-section dependency analysis result and the inter-node dependency analysis result are obtained for all the nodes constituting the
−コンピュータによる実現−
ソフトウェア構成
図2及び図3に示す各ブロックは、コンピュータハードウェアと、当該コンピュータにより実行されるソフトウェアすなわちコンピュータプログラム(以下単に「プログラム」と呼ぶ。)とにより実現できる。図4及び図5に、これらブロックのうち節間係り受け解析処理部70及び節間係り受け判定処理部72による処理を実現するためのプログラムのフローチャートを示す。
-Realization by computer-
Software Configuration Each block shown in FIGS. 2 and 3 can be realized by computer hardware and software executed by the computer, that is, a computer program (hereinafter simply referred to as “program”). 4 and 5 show a flowchart of a program for realizing the processing by the inter-node dependency
図4を参照して、このプログラムが起動されると、まずステップ110で初期設定を行なう。この初期設定では、予めメモリに設定されていた所定値(図2に示す所定数記憶部68に記憶された所定値N)をメモリから読出したり、作業に使用する記憶領域を初期設定したり、処理中の節数を表す変数Mを初期値0に設定したりする。
Referring to FIG. 4, when this program is started, first, at
ステップ112において、節判定処理部60を実現するプログラムにより節境界が検出されたことに応答し、検出された節境界とその直前の節境界との間に挟まれた節をメモリ上から読出す。
In
ステップ114において、この新たな節を特定するための節IDを割当て、この節の節間係り先(この節の最終文節の係り先)を一時的に記憶する領域と、この節の節間係り先が、係り先推定の繰返しに対し何回同じ値となっているか(この回数を以下「継続数」と呼ぶ。)をカウントするためのカウンタの領域とを、それぞれ節間係り先一時記憶部74とカウンタ記憶部76とに確保する処理を行なう。ステップ114においてさらに、処理中の節の数を表す変数Mに1を加算する。
In
ステップ116で、節間の係り受け構造の解析処理を、処理中の各節について行なう。この結果、処理中の各節について、ステップ112で入力された新たな節を考慮して最終文節の係り先が推定される。この処理は図2に示す節間係り受け確率モデル38を用いて行なわれる。推定結果は節間係り先一時記憶部74に保存される。節間係り先一時記憶部74の中の領域には、ステップ114において各節の節IDとの対応関係が付与されている。従って、節間係り先一時記憶部74の中のどの領域に結果を記憶するかは、節IDによって判定できる。
In
ステップ118では、処理中の全節に対し、最終文節の係り先の継続数が更新される。本実施の形態では、継続数をC(J)(J=1〜M)で表す。すなわち、ステップ118では、ステップ116においてある節(J番目の節とする。)の最終文節について新たに推定された係り先が、前回推定されたものと同一の場合には、当該節の継続数C(J)に1が加算される。この節について新たに推定された係り先が前回推定されたものと異なる場合には、当該節の継続数C(J)には1が設定される。ステップ118の処理の詳細については図5を参照して後述する。なお、継続数を記憶するためのカウンタ領域の各々についても、節IDとの対応関係がステップ114で付与されている。どのカウンタを増分すべきかは、処理中の節の節IDで判定できる。
In
ステップ120では、ステップ118での継続数の更新処理の結果、継続数C(J)が所定数記憶部68に記憶された所定値N以上となった節があるか否かについての判定が行なわれる。そのような節がなければ制御はステップ126に進む。あればステップ122に進む。
In
ステップ122では、継続数が所定値N以上となった節の全てについて節内係り受けだけではなく節間係り受けも確定したと判定し、解析結果記憶部66に記憶されていた当該節に関する節内係り受けと、ステップ116において当該節に対し推定された節間係り受けとがまとめられ、その節の係り受け関係として出力される。
In
ステップ124では、ステップ122で係り受け関係が出力された節に対しステップ114で確保されていた記憶領域及びカウンタ領域を解放する。さらに、係り受け関係が出力された節の数だけ変数Mが減算される。
In
この後、ステップ126では発話データの入力が終了したか否かが判定される。この判定は、例えば入力なしで所定時間が経過したか否かを判定したり、操作者による終了指示を検出したりすることにより行なわれる。制御は、入力が終了していればステップ128に進み、さもなければステップ112に戻る。
Thereafter, in
ステップ128では、節間係り受け関係について未確定の節の全てについて、解析結果記憶部66に記憶されていた節間係り受け関係と、節間係り先一時記憶部74に記憶されている推定された節間係り受け関係とがまとめられ、各節の係り受け関係として出力される。この処理が終了するとこのプログラムの実行も終了する。
In
図5に、図4のステップ118で実行される処理を実現するためのプログラムのより詳細なフローチャートを示す。この処理は、処理中の全ての節に対し、図1に示す節間係り受け確率モデル38を参照して最終文節の係り先を推定し、その結果と、1回前の繰返しで得られた推定結果とを比較して当該節の継続数を更新する処理である。
FIG. 5 shows a more detailed flowchart of a program for realizing the processing executed in
図5を参照して、まずステップ140で繰返し制御変数Jに0を代入する。この変数Jは、処理対象の節の順番を表す。
Referring to FIG. 5, first, at
ステップ142では、変数Jに1を加算する。そしてステップ144で変数Jが処理中の節数を表す変数Mを超えたか否かが判定される。超えていれば処理を終了する。変数Jが変数M以下であれば制御はステップ146に進む。
In
ステップ146では、J番目の節について推定された節間係り先が、前回の繰返しで推定された節間係り先と同じか否かが判定される。この判定は、図2に示す構成では、節間係り先一時記憶部74に記憶されたある節の節間係り先が、節間係り受け判定処理部72に記憶された、同じ節の1回前の繰返しにおいて推定された節間係り先と一致するか否かを調べることにより行なわれる。制御は、一致していればステップ148に、さもなければステップ150に、それぞれ進む。
In
ステップ148では、J番目の節に対する継続数C(J)に1が加算される。この後制御はステップ142に戻る。
In
一方、ステップ150では、J番目の節に対する継続数C(J)に1が設定される。続いてステップ152において、今回のJ番目の節の最終文節が節間係り先一時記憶部74から読出され、節間係り受け判定処理部72内の記憶部に記憶される。この後、制御はステップ142に戻る。
On the other hand, in
ハードウェア構成
上記した実施の形態に係る係り受け構造解析装置42は、コンピュータシステムにより実現できる。図6は上記した実施の形態による係り受け構造解析装置42を実現するコンピュータシステム250の全体構成を示す外観図である。図6を参照して、コンピュータシステム250は、マイクロフォン264及びスピーカ278の組と、CD−ROM(Compact Disc Read−Only Memory)ドライブ270及びFD(Flexible Disk)ドライブ272を有するコンピュータ260と、いずれもコンピュータ260に接続されたモニタ262、キーボード266及びマウス268とを含む。
Hardware Configuration The dependency
マイクロフォン264とスピーカ278とは、必要であれば音声翻訳のための発話の入力及び翻訳結果の出力等に用いられるものであって、この発明の一部を構成するものではない。従って、システムのうちマイクロフォン264及びスピーカ278に関する部分の詳細はここでは説明しない。
The
図7はコンピュータ260のハードウェアブロック図である。図7を参照して、コンピュータ260は、CPU(Central Processing Unit:中央処理装置)340と、CPU340に接続されたバス342と、バス342に接続された読出専用メモリ(ROM)344と、バス342に接続されたランダムアクセスメモリ(RAM)346と、バス342に接続されたハードディスク348と、CD−ROM(コンパクト・ディスクROM)360が装着され、CD−ROMからデータを読出すCD−ROMドライブ270と、FD(フレキシブル・ディスク)362が装着され、FDからデータを読出し、データを書込むFDドライブ272と、マイクロフォン264及びスピーカ278が接続されるサウンドボード350と、バス342に接続されローカルエリアネットワーク(LAN)等のデータ通信ネットワークに接続する機能を提供するネットワークボード352とを含む。
FIG. 7 is a hardware block diagram of the
図2〜図5を参照して説明した実施の形態に係る係り受け構造解析装置42は、上記した通り、コンピュータシステム250のハードウェア、その上で実行されるプログラム、及びコンピュータシステム250のハードディスク348、RAM346等に格納される節内係り受け確率モデル36、節間係り受け確率モデル38、並びに節判定処理部60のためのルール集及び辞書などのデータにより実現可能である。
As described above, the dependency
コンピュータシステム250に係り受け構造解析装置42としての動作を行なわせるためのプログラムは、CD−ROMドライブ270又はFDドライブ272に挿入されるCD−ROM360又はFD362に記憶され、さらにハードディスク348に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ260に送信されハードディスク348に記憶されてもよい。プログラムは実行の際にRAM346にロードされる。CD−ROM360から、FD362から、又はネットワークを介して、直接にRAM346にプログラムをロードしてもよい。
A program for causing the
このプログラムは、コンピュータ250にこの実施の形態の係り受け構造解析装置42として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ250上で動作するオペレーティングシステム(OS)又はサードパーティのプログラム、若しくはコンピュータ250にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した係り受け構造解析装置42としての動作を実行する命令のみを含んでいればよい。コンピュータシステム250の動作原理は周知であるので、ここでは繰返さない。
This program includes a plurality of instructions for causing the
[解析例]
以下、本実施の形態により、発話「正当な事由がない限り契約期間が切れたといっても明け渡しを請求できない点にあるといわれています」の各節の最終文節の係り先を解析する様子を図8〜図13を用いて説明する。図8〜図13はいずれも、上部に係り受け構造を、下部に節の最終文末の係り受け構造を、それぞれ示す。すなわち、(dep(bnj j),k)∈Dのdep(bnj j)が係り文節及び受け文節に、kが不変回数に、それぞれ相当する。なお、ここでは所定値N=3として説明する。
[Example of analysis]
In the following, according to this embodiment, the state of analyzing the destination of the final sentence of each section of the utterance `` It is said that it is impossible to claim surrender even if the contract period expires unless there is a valid reason '' This will be described with reference to FIGS. 8 to 13 each show a dependency structure at the top and a dependency structure at the end of the last sentence of the section at the bottom. That is, (dep (b nj j), k) ∈D of dep (b nj j) is dependent bunsetsu and receiving clauses, k is unchanged number, corresponding respectively. Here, the description will be made assuming that the predetermined value N = 3.
図8は、最初の節「正当な事由がない限り」が入力されたときの状態を示す。 FIG. 8 shows a state when the first section “unless there is a valid reason” is input.
図9は、第2の節「契約期間が切れたと」が入力され、係り受け構造{dep(限り)}が解析された状態を示す。dep(限り)は図9の中央上部の点線矢印に相当し、「限り」の係り先が「切れた」であり、不変回数が1であることが図9の下部に示されている。 FIG. 9 shows a state where the second section “contract period has expired” is input and the dependency structure {dep (limited)} is analyzed. Dep (limited) corresponds to the dotted arrow in the upper center of FIG. 9, and it is shown in the lower part of FIG. 9 that the destination of “limited” is “broken” and the invariant number is 1.
同様にして図10及び図11はそれぞれ、第3の節「いっても」及び第4の節「明け渡しを請求できない」が入力されたときの最尤の係り受け構造{dep(限り),dep(切れた)}、{dep(限り),dep(切れた),dep(請求できない)}が解析により推定された状態を示す。 Similarly, FIG. 10 and FIG. 11 show the maximum likelihood dependency structure {dep (limited), dep when the third section "I can't claim" and the fourth section "I can't claim surrender", respectively. (Broken)}, {dep (limited), dep (broken), dep (cannot be charged)} indicate states estimated by analysis.
図12は、節「点にあると」が新たに入力され、最尤の構造{dep(限り),dep(切れた),dep(いっても),dep(請求できない)}が求められた状態を示す。このとき、図12に下部に示すように、係り受け関係dep(切れた)の不変回数が所定値3に達する。従って、節「契約期間が切れたと」の係り先が「いっても」であると決定され、この節の係り受け関係が(節内及び節間を含め)出力される。
In FIG. 12, the node “when it is at a point” is newly input, and the maximum likelihood structure {dep (limited), dep (cut), dep (even), dep (cannot be charged)} is obtained. Indicates the state. At this time, as shown in the lower part of FIG. 12, the invariant number of the dependency relationship dep (broken) reaches a
図13は、新たな節「いわれています」が入力され、最尤の係り受け構造{dep(限り),dep(切れた)}、{dep(限り),dep(切れた),dep(いっても),dep(あると)}が求められた状態を示す。図12と同様に、不変回数が所定値3に達した節「正当な事由がない限り」、「いっても」について、節の係り先が決定され、係り受け情報が出力される。
In FIG. 13, a new clause “I am called” is input, and the maximum likelihood dependency structure {dep (limited), dep (broken)}, {dep (limited), dep (broken), dep (all Even if) dep (if any)} is obtained. In the same manner as in FIG. 12, for the clauses “when there is no legitimate reason” where the number of invariants has reached the
[解析実験]
上記実施の形態で採用された手法の有効性を評価するため、解析実験を行なった。
[Analysis experiment]
In order to evaluate the effectiveness of the technique employed in the above embodiment, an analysis experiment was performed.
−実験の概要−
実験には、NHKの解説番組「あすを読む」(番組あたりの長さは約10分)を使用した。使用したデータの概要を表2に示す。
-Outline of the experiment-
In the experiment, NHK's commentary program “Read Asu” (length per program is about 10 minutes) was used. A summary of the data used is shown in Table 2.
これらのデータを用いて解析を行ない、係り受け正解率と解析時間とを求めた。解析システムは、GNU CommonLISPのプログラムとして実装し、クロック周波数2.40GHzの高性能CPU、及び2GBのメモリ容量を持ち、オープンソースのオペレーティングシステムが稼動しているコンピュータ上で実行した。なお、この実験では、所定値Nの値を1から12まで1刻みで変化させて、計12回実験した。 Analysis was performed using these data, and the dependency correct answer rate and the analysis time were obtained. The analysis system was implemented as a GNU CommonLISP program, and was executed on a computer having a high-performance CPU with a clock frequency of 2.40 GHz and a memory capacity of 2 GB and running an open source operating system. In this experiment, the predetermined value N was changed from 1 to 12 in increments of 1, and a total of 12 experiments were performed.
−実験結果−
各所定値Nに対応する係り受け正解率を表3に示す。
-Experimental results-
Table 3 shows the dependency correct answer rate corresponding to each predetermined value N.
表4に、本実施の形態で使用した節境界検出プログラムCBAP(特許文献1に記載のものと同様)の節境界解析の精度について、ラベルを無視して節境界の位置のみで評価した結果を示す。表4から明らかなように、本実施の形態によれば適合率、再現率ともに高く、後に行なわれる解析への影響はあまりない。 Table 4 shows the result of evaluating the node boundary analysis accuracy of the node boundary detection program CBAP (similar to that described in Patent Document 1) used in the present embodiment by ignoring the label and only the position of the node boundary. Show. As is apparent from Table 4, according to the present embodiment, both the relevance rate and the recall rate are high, and there is not much influence on the analysis performed later.
所定値Nと解析時間の関係を図14に示す。図14を参照して、所定値Nを大きくするに従って、解析時間が増加している。解析時間が最も短かかったのは、所定値N=3のときで、全7番組で12.5秒、1番組あたり1.8秒であった。なお、この解析時間には、CBAPによる節境界解析の時間も含まれている。節境界解析の平均解析時間は1番組あたり0.3秒程度である。 The relationship between the predetermined value N and the analysis time is shown in FIG. Referring to FIG. 14, the analysis time increases as the predetermined value N is increased. The analysis time was the shortest when the predetermined value N = 3, which was 12.5 seconds for all 7 programs and 1.8 seconds per program. This analysis time includes the time of node boundary analysis by CBAP. The average analysis time for node boundary analysis is about 0.3 seconds per program.
本手法では、文末は係り先がないとして解析を実行している。すなわち、係り先なしと判定された文節を文末であるとみなしている。このような観点から、本手法の文末判定性能を評価した。表5に文末判定の適合率、再現率、F値を示す。 In this method, analysis is performed assuming that there is no dependency at the end of the sentence. That is, the clause determined to have no relation is regarded as the end of the sentence. From this point of view, the end-of-sentence judgment performance of this method was evaluated. Table 5 shows the precision, recall, and F value of the sentence end determination.
以上の結果から、本実験においては所定値Nが3のとき、最も高い性能を示しており、文単位を入力とする従来の係り受け解析手法(正解率で79.0%、処理時間で1番組あたり約2.1秒)(非特許文献2)と比較しても、同程度の解析精度と解析時間とを達成している。 From the above results, in this experiment, when the predetermined value N is 3, the highest performance is shown, and the conventional dependency analysis method using the sentence unit as an input (the accuracy rate is 79.0%, the processing time is 1). Compared with (approximately 2.1 seconds per program) (Non-Patent Document 2), the same analysis accuracy and analysis time are achieved.
[変形例]
上記した第1の実施の形態のシステムでは、節間係り受けの解析の際、不変回数のカウントにカウンタを用い、前回の節間係り受け解析の結果を図2に示す節間係り受け判定処理部72に履歴として保持している。しかし本発明はそのような実施の形態には限定されない。例えば、節間係り先一時記憶部74を二次元テーブルとし、処理中の各節に対し、節間係り受け解析の結果の履歴を、所定数記憶部68に記憶されている所定値Nだけ保存するようにしてもよい。この場合、履歴中のN個の解析結果が全て等しい場合に、当該節の係り受け関係が決定したものと判定する。
[Modification]
In the system according to the first embodiment described above, a counter is used for counting the number of invariants during the analysis of inter-node dependency, and the result of the previous inter-cell dependency analysis is shown in FIG. This is held in the
また、上記した実施の形態では、図2に示す節間係り受け判定処理部72は、節間係り受けを決定する際の条件として所定数記憶部68に記憶された所定値Nを用い、その所定値Nは入出力装置44によって設定することができる。しかし、本発明を実施する際には、このように所定値を変化可能にする必要はない。例えば所定値としてある数を定め、節間係り受け判定処理部72はその数を固定的に使用するようにすることもできる。上記した実験の結果から、この場合にはN=3とするのが適当と思われるが、それ以外の値を採用してもよい。また、処理対象となる発話の内容によってもこの値が変わる可能性がある。
Further, in the above-described embodiment, the inter-node dependency
さらに、上記した実施の形態では、節内係り受け解析処理部64及び節間係り受け解析処理部70はいずれも、確率モデルに従って係り受け解析を行なう。しかし本発明はそのようなものには限定されない。例えば、文法的な解析によって係り受け解析を行なうもの、予め準備された係り受け解析のためのルールに従って係り受け解析を行なうもの、等を使用することもできる。
Furthermore, in the above-described embodiment, the intra-node dependency analysis processing unit 64 and the inter-node dependency
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。 The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
30 係り受け構造解析システム
32 学習データ
34 係り受け学習処理部
36 節内係り受け確率モデル
38 節間係り受け確率モデル
40 発話
42 係り受け構造解析装置
44 入出力装置
46 係り受け関係
60 節判定処理部
62 発話データ一時記憶部
64 節内係り受け解析処理部
66 解析結果記憶部
68 所定数記憶部
70 節間係り受け解析処理部
72 節間係り受け判定処理部
74 節間係り先一時記憶部
76 カウンタ記憶部
90 節入力検出部
92 節最終文節係り先解析処理部
94 係り先更新処理部
96 節間係り受け記憶初期化部
DESCRIPTION OF
Claims (7)
逐次入力される前記発話の節境界を発話の局所的情報に基づいて検出し、当該節境界と直前の節境界との間の発話からなる節境界単位を出力するための節境界検出手段と、
前記節境界検出手段により節境界が検出されたことに応答して、係り先が未決定の節境界単位について所定の節間係り受け解析方法を適用し、得られた係り先情報を出力するための節間係り受け解析手段と、
前記節間係り受け解析手段による係り先情報の出力に応答して、係り先が未決定の節境界単位について前記節間係り受け解析手段により得られた係り先情報の履歴を保持し、当該履歴に基づいて、前記係り先が未決定の節境界単位のうち、所定の条件を充足するものの係り先を決定して出力するための節間係り受け判定手段とを含む、係り受け構造解析装置。 A dependency structure analysis device that progressively analyzes the dependency structure of utterances that are sequentially input,
A node boundary detecting means for detecting a node boundary of the utterance sequentially input based on local information of the utterance, and outputting a node boundary unit consisting of an utterance between the node boundary and the immediately preceding node boundary;
In response to detection of a node boundary by the node boundary detection means, a predetermined inter-node dependency analysis method is applied to a node boundary unit whose dependency is undetermined, and the obtained dependency destination information is output. Inter-node dependency analysis means,
In response to the output of the dependency destination information by the inter-node dependency analysis means, a history of dependency destination information obtained by the inter-node dependency analysis means for a node boundary unit whose dependency is not yet determined is retained, and the history And a dependency structure determining unit for determining and outputting a dependency point that satisfies a predetermined condition among the node boundary units for which the dependency point has not yet been determined.
前記節間係り受け判定手段は、
前記節間係り受け解析手段による係り先情報の出力に応答して、係り先が未決定の節境界単位について前記節間係り受け解析手段により得られた係り先情報の履歴を保持するための履歴保持手段と、
前記履歴保持手段により保持されている履歴に基づいて、前記係り先が未決定の節境界単位のうち、所定の条件を充足するものの係り先を決定するための節係り先決定手段と、
前記節係り先決定手段により決定された係り先と、当該節境界単位について前記節内係り受け解析手段に保持されていた節内係り受け結果とをあわせて当該節境界単位に対する係り受け関係情報として出力するための手段とを含む、請求項1に記載の係り受け構造解析装置。 In response to detection of a node boundary by the node boundary detection unit, a predetermined intra-node dependency analysis method is applied to the node boundary unit output from the node boundary detection unit, and Further includes an intra-section dependency analysis means for storing the dependency results;
The inter-node dependency determining means is:
A history for holding a history of dependency information obtained by the inter-cell dependency analysis unit for a node boundary unit whose dependency is not yet determined in response to the output of dependency information by the inter-cell dependency analysis unit Holding means;
Based on the history held by the history holding means, among the node boundary units for which the dependency destination is undetermined, a relationship destination determining means for determining an engagement destination that satisfies a predetermined condition;
Dependency relationship information for the node boundary unit is determined by combining the dependency point determined by the node dependency destination determination unit and the intra-node dependency analysis result held in the intra-node dependency analysis unit for the node boundary unit. The dependency structure analyzing apparatus according to claim 1, further comprising means for outputting.
前記節係り先決定手段は、ある節境界単位に対して前記保持するための手段に保持されている係り先情報が全て一致していることに応答して、当該ある節境界単位の係り先を前記節間係り受け解析手段により最後に得られた係り先に決定するための手段を含む、請求項2に記載の係り受け構造解析装置。 In response to the output of dependency destination information by the inter-node dependency analysis unit, the history holding unit immediately before the dependency destination information obtained by the inter-cell dependency analysis unit for a node boundary unit whose dependency is not yet determined. Means for holding a predetermined number of histories for each clause boundary unit,
The node destination determination means responds to the fact that all the destination information held in the means for holding a certain node boundary unit matches, and determines the destination of the node boundary unit. 3. The dependency structure analyzing apparatus according to claim 2, further comprising means for determining a last obtained dependency by the inter-node dependency analysis means.
前記保持するための手段は、前記節間係り受け解析手段による係り先情報の出力に応答して、係り先が未決定の節境界単位について前記節間係り受け解析手段により得られた係り先情報の直前の履歴を、各節境界単位に対し前記所定値記憶手段に記憶された前記所定の自然数の個数だけ保持するための手段を含む、請求項3に記載の係り受け構造解析装置。 The inter-node dependency determining means further includes a predetermined value storage means for storing a predetermined natural number,
The means for holding the dependency destination information obtained by the inter-node dependency analysis means for a node boundary unit whose dependency destination is undetermined in response to the output of the dependency destination information by the inter-node dependency analysis means. 4. The dependency structure analyzing apparatus according to claim 3, further comprising means for holding the history immediately before the number of the predetermined natural number stored in the predetermined value storage means for each node boundary unit.
前記節間係り受け解析手段による係り先情報の出力に応答して、係り先が未決定の節境界単位について前記節間係り受け解析手段により得られた係り先情報と、当該節境界単位について前記保持するための手段に保持されている直前の係り先情報とが一致するか否かを判定するための判定手段と、
前記判定手段により一致という結果が連続して得られた回数を、係り先が未決定の節境界単位の各々に対してカウントするためのカウンタ手段と、
前記カウンタ手段による、ある節境界単位のカウント結果が所定の値に達したことに応答して、当該ある節境界単位の係り先を、当該ある節境界単位に対して前記節間係り受け解析手段により最後に得られた係り先に決定するための手段とを含む、請求項3に記載の係り受け構造解析装置。 The section destination determination means is
In response to the output of the dependency destination information by the inter-node dependency analysis means, the dependency destination information obtained by the inter-node dependency analysis means for the node boundary unit whose dependency is undetermined, and the above-mentioned node boundary unit A determination means for determining whether or not the last-mentioned dependency destination information held in the means for holding matches;
Counter means for counting the number of times that the result of matching is continuously obtained by the judging means for each of the node boundary units for which the relationship is undetermined;
In response to the count result of a certain node boundary unit reaching a predetermined value by the counter means, the dependency of the certain node boundary unit is changed to the inter-node dependency analysis means for the certain node boundary unit. 4. The dependency structure analyzing apparatus according to claim 3, further comprising means for determining the last obtained dependency point.
A computer program that, when executed by a computer, causes the computer to operate as the dependency structure analyzing apparatus according to any one of claims 1 to 6.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005016341A JP2006209173A (en) | 2005-01-25 | 2005-01-25 | Dependency structure analyzing apparatus and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005016341A JP2006209173A (en) | 2005-01-25 | 2005-01-25 | Dependency structure analyzing apparatus and computer program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006209173A true JP2006209173A (en) | 2006-08-10 |
Family
ID=36966003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005016341A Withdrawn JP2006209173A (en) | 2005-01-25 | 2005-01-25 | Dependency structure analyzing apparatus and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006209173A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8332208B2 (en) | 2007-09-05 | 2012-12-11 | Sony Corporation | Information processing apparatus, information processing method, and program |
JP2014149786A (en) * | 2013-02-04 | 2014-08-21 | Nippon Telegr & Teleph Corp <Ntt> | Natural language analysis processing device, method, and program |
JP2017058804A (en) * | 2015-09-15 | 2017-03-23 | 株式会社東芝 | Detection device, method, and program |
-
2005
- 2005-01-25 JP JP2005016341A patent/JP2006209173A/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8332208B2 (en) | 2007-09-05 | 2012-12-11 | Sony Corporation | Information processing apparatus, information processing method, and program |
JP2014149786A (en) * | 2013-02-04 | 2014-08-21 | Nippon Telegr & Teleph Corp <Ntt> | Natural language analysis processing device, method, and program |
JP2017058804A (en) * | 2015-09-15 | 2017-03-23 | 株式会社東芝 | Detection device, method, and program |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7634406B2 (en) | System and method for identifying semantic intent from acoustic information | |
JP6813591B2 (en) | Modeling device, text search device, model creation method, text search method, and program | |
CN102176310B (en) | Speech recognition system with huge vocabulary | |
JP3696231B2 (en) | Language model generation and storage device, speech recognition device, language model generation method and speech recognition method | |
JP4105841B2 (en) | Speech recognition method, speech recognition apparatus, computer system, and storage medium | |
JP4215418B2 (en) | Word prediction method, speech recognition method, speech recognition apparatus and program using the method | |
US20030046078A1 (en) | Supervised automatic text generation based on word classes for language modeling | |
JPH09505173A (en) | Method and system for bootstrapping statistical processing into a rule-based natural language parser | |
US20190080688A1 (en) | Language model generating device, language model generating method, and recording medium | |
KR20080069990A (en) | Computer-readable media with voice segment indexing and retrieval methods and computer executable instructions | |
JP2015506515A (en) | Method, apparatus and computer storage medium for automatically adding tags to a document | |
KR101636902B1 (en) | Method for detecting a grammatical error and apparatus thereof | |
KR20140021838A (en) | Method for detecting grammar error and apparatus thereof | |
WO2012165529A1 (en) | Language model construction support device, method and program | |
US20060277028A1 (en) | Training a statistical parser on noisy data by filtering | |
He et al. | Hidden vector state model for hierarchical semantic parsing | |
JP4820240B2 (en) | Word classification device, speech recognition device, and word classification program | |
JP2006209173A (en) | Dependency structure analyzing apparatus and computer program | |
Wang | Mandarin spoken document retrieval based on syllable lattice matching | |
JP2008293098A (en) | Response score information generation device, dialogue processing device | |
Nash-Webber | Semantic support for a speech understanding system | |
JP2004046775A (en) | Device, method and program for extracting intrinsic expression | |
JP6115487B2 (en) | Information collecting method, dialogue system, and information collecting apparatus | |
JP6276516B2 (en) | Dictionary creation apparatus and dictionary creation program | |
Le et al. | Automatic quality estimation for speech translation using joint ASR and MT features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071218 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20091109 |