[go: up one dir, main page]

JP2018055670A - 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム - Google Patents

類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム Download PDF

Info

Publication number
JP2018055670A
JP2018055670A JP2017096570A JP2017096570A JP2018055670A JP 2018055670 A JP2018055670 A JP 2018055670A JP 2017096570 A JP2017096570 A JP 2017096570A JP 2017096570 A JP2017096570 A JP 2017096570A JP 2018055670 A JP2018055670 A JP 2018055670A
Authority
JP
Japan
Prior art keywords
sentence
database
sentences
context
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017096570A
Other languages
English (en)
Other versions
JP6817556B2 (ja
Inventor
山内 真樹
Maki Yamauchi
真樹 山内
菜々美 藤原
Nanami Fujiwara
菜々美 藤原
今出 昌宏
Masahiro Imaide
昌宏 今出
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to CN201710674166.5A priority Critical patent/CN107870901B/zh
Priority to US15/697,489 priority patent/US10303761B2/en
Publication of JP2018055670A publication Critical patent/JP2018055670A/ja
Application granted granted Critical
Publication of JP6817556B2 publication Critical patent/JP6817556B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる類似文生成方法を提供する。【解決手段】類似文生成方法は、第1文を入力し、第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、第2データベースに基づいて一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、第1文において第1語句が一以上の第2語句に置き換えられた一以上の第2文において、N−gram値に相当する数の第2語句を含んだ連続する一以上の第3語句を抽出し、一以上の第3語句について、第3データベースにおける出現頻度を算出し、算出された出現頻度が閾値以上であるか判定し、算出された出現頻度が閾値以上であると判定された場合は、一以上の第2文を第1文の類似文として採用し、外部の機器に出力する。【選択図】図5

Description

本開示は、原文から類似文を生成する類似文生成方法、類似文生成プログラム、類似文生成装置、及び該類似文生成装置を備える類似文生成システムに関する。
近年、第1言語の文を第1言語と異なる第2言語の文に翻訳する機械翻訳が研究及び開発されており、このような機械翻訳の性能向上には、翻訳に利用可能な多数の例文を収集した対訳コーパスが必要となる。このため、1個の原文から当該原文に類似する1又は複数の類似文(言い換え文)を生成することが行われている。
例えば、特許文献1には、所定のパターンで文を変形し、ふさわしい変形かどうかを判定するため、評価関数を用いて評価値を算出し、評価値の最も高い表現を選択する言語変換処理統一システムが開示されている。
また、特許文献2には、活性に係るポイントを形態素に設定して、そのポイントを増減させ、増減されたポイントに基づいてテキストから情報を抽出する自然言語処理方法が開示されている。
また、特許文献3には、ユーザによって指定された言い換え前用例及び言い換え後用例に基づいて新たな言い換え後用例を生成し、解析済み文に差分を適用することによって作成された言い換え文を出力する文書処理装置が開示されている。
特許第3932350号公報 特開2005−339043号公報 特許第5060539号公報
しかしながら、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましく、例文として使用可能な類似文の生成には、更なる改善が必要とされていた。
本開示は、上記従来の課題を解決するもので、言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システムを提供することを目的とする。
本開示の一様態による方法は、原文から類似文を生成する方法であって、第1文を入力し、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定し、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する。
本開示によれば、言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる。
本開示の実施の形態1における類似文生成装置の構成の一例を示すブロック図である。 図1に示す置き換え候補辞書のデータ構成の一例を示す図である。 図1に示す文脈依存率辞書のデータ構成の一例を示す図である。 図1に示す言語モデルデータベースのデータ構成の一例を示す図である。 図1に示す類似文生成装置による類似文生成処理の一例を示すフローチャートである。 本開示の実施の形態2における類似文生成システムの構成の一例を示すブロック図である。 図6に示す類似文生成システムのフィードバックデータ更新処理を含む類似文生成処理の一例を示すフローチャートである。
(本開示の基礎となった知見)
上記のように、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましく、文節置き換えを用いた類似文生成による、少量の対訳コーパスをベースとした文章量の自動拡大が要望されている。この文節置き換えを用いた類似文の生成の際、置き換え対象となる表現(語句)を含む類似候補文の取捨選択において、置き換えの良否が文脈に依存する場合が存在する。
このため、言語モデルに基づく置き換えルールの動的な取捨選択により、文脈依存性を考慮しつつ、事例の学習及び反映を可能にしたいが、効率良く類似候補文を取捨選択するには如何に類似候補文を取捨選択するかが重要となる。
例えば、置き換え(換言)による対訳コーパスの拡張及び類似候補文の生成を行う場合、換言ルールとして、「話せない」が(1)「話せません」、(2)「喋れない」、(3)「秘密です」のいずれかに置き換えられる場合、「英語は話せない」との文章に、上記の換言ルールを適用すると、「英語は話せません」、「英語は喋れない」、及び「英語は秘密です」の3つの類似候補文が生成される。
この場合、文脈から、「英語は話せません」及び「英語は喋れない」は、類似文として採用できるが、「英語は秘密です」は日本語として適切な表現ではないため、類似文として採用することはできず、棄却されることとなる。このように、同一の換言ルールを適用しても、文脈によって、類似候補文が類似文として採用できる場合とできない場合とが発生する。
類似文として採用できる採択文と採用できない棄却文とを識別する従来の方法としては、単語ベクトルや文ベクトルを用いた分散表現モデルでの類似性や言語モデル(例えば、N−gram言語モデル)での出現頻度等を基準に判断することが行われていた。具体的には、言語モデルの識別対象領域(探索範囲)を大きくする(例えば、N−gramのNを大きくする)ことにより、表現として存在しているかどうかを判断し、文脈に依存する換言ルール(置き換えルール)の採択及び棄却を決定していた。
また、言語モデルを用いて、文の流暢さをモデル化することによる評価も行われていた。例えば、言語モデルをN−gram言語モデルとし、N−gram言語モデルのデータベース内により多く含まれている表現を用いた訳文やフレーズのスコアを高くし、あまり含まれていないもののスコアを低くする、と言った手法などがある。この手法を応用することにより、類似候補文のスコアを算出し、閾値処理によって、「良い文」(類似文として採用できる採択文)又は「悪い文」(類似文として採用できない棄却文)を識別していた。
しかしながら、識別対象領域を大きくすると、データ量及び計算量が増加するとともに、データ分布が疎になるため、全ての置き換え候補を大きな識別対象領域から検索するためには、データ量及び計算量が増大する。例えば、2−gramでは約8,000万エントリであるが、5−gramでは約8億エントリとなり、N−gramのNを大きくすると、データ量及び計算量が飛躍的に増大するという課題がある。
上記の課題を解決するため、本開示では、例えば、置き換え候補文字列と、当該置き換え候補文字列が文脈に依存する程度を表す文脈依存値とを対応付けて複数記憶する文脈依存値記憶部を設け、文脈に依存して置き換え良否が変動する類似文において、文脈に依存して置き換えの良否が変動するか否かに応じて、置き換え候補文字列の前後の単語を含む言語モデルを参照するか否かを決定する。
すなわち、文脈依存値に応じて言語モデルのデータベースに対する探索範囲(識別対象領域)を決定し、決定した探索範囲を用いて言語モデルのデータベースを探索することにより、文脈依存値が高いとみなされる置き換え候補文字列のみ、より大きな探索領域で識別を行い、文脈依存値が低い置き換え候補文字列は、小さな探索領域で識別を行い、探索コストと識別精度とのバランスを図っている。
また、従来の類似文の生成方法では、分散表現や言語モデル内に含まれていない表現は、そもそも識別することができず、棄却されることとなる。例えば、訓練データ内に、「それは秘密です」というフレーズを含む文が無いと、「それは秘密です」を含む類似候補文の識別ができず、棄却されるという課題がある。
上記の課題を解決するため、本開示では、例えば、外部からの入力(例えば、ユーザ又は所定の装置等のフィードバック)により、文脈依存性の有る置き換え候補文字列が入力された場合に、言語モデルのデータベース及び文脈依存値記憶部等を更新する。また、新しい文表現が入力された場合に、その表現に応じて、文脈依存値記憶部内の当該単語の文脈依存値を変化させ、また、新しい文表現を含むN−gram等を部分構築し、新しい文表現を言語モデルに反映する。このように、正しいデータを追加することにより、置き換え文字列の前後の単語を含む言語モデルの出現頻度等を加減するとともに、文脈依存値記憶部そのものも外部入力に応じて更新する。
上記のように、外部知識や新知識をフィードバックして、言語モデルのデータベース等を更新することにより、識別精度を向上させることができる。この結果、低コストで精度の良い類似候補文の識別を行い、更に、N−gramモデルのデータベース内に存在しない表現にも、更新して対応できる高効率で自律的な類似候補文の識別を行うことができる。
上記の知見に基づき、本願発明者らは、原文から類似文を如何にして生成すべきかについて鋭意検討を行った結果、本開示を完成したものである。
本開示の一態様に係る方法は、原文から類似文を生成する方法であって、第1文を入力し、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定し、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する。
このような構成により、第1文を入力し、第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、第1データベースは語句と第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、第2データベースは語句と第2データベースに含まれた語句に対応する文脈依存値とを対応づけ、文脈依存値は、第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、第1文において第1語句が一以上の第2語句に置き換えられた一以上の第2文において、N−gram値に相当する数の第2語句を含んだ連続する一以上の第3語句を抽出し、一以上の第3語句について、第3データベースにおける出現頻度を算出し、第3データベースは語句と第3データベースに含まれる語句の第3データベースにおける出現頻度とを対応づけ、算出した出現頻度が閾値以上であるか判定し、算出した出現頻度が閾値以上であると判定された場合は、一以上の第2文を第1文の類似文として採用し、外部の機器に出力しているので、文脈依存値が高い第2語句のみ、大きな探索領域で識別を行い、文脈依存値が低い第2語句は、小さな探索領域で識別を行うことができ、言語モデルのデータベースである第3データベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる。
前記第1文は第1言語で記述され、前記第1文は対訳コーパスに含まれ、前記対訳コーパスは第1言語で記述された文と第2言語で記述された対訳文との対を複数含み、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として前記対訳コーパスに追加するようにしてもよい。
このような構成により、対訳コーパスに類似文を追加することができる。
前記第3データベースは、N−gram言語モデルのデータベースを含み、前記文脈依存値に応じて、前記N−gram言語モデルのNをi(正の整数)に決定し、前記第3データベースを照合することにより、前記第2語句を含むi−gramの出現頻度を求め、前記第2語句を含むi−gramの出現頻度に基づいて、前記一以上の第2文を前記第1文の類似文として採用するか否かを判定するようにしてもよい。
このような構成により、文脈依存値に応じてN−gram言語モデルのNをi(正の整数)に決定し、N−gram言語モデルのデータベースを照合することにより、第2語句を含むi−gramの出現頻度を求め、求めた出現頻度に基づいて、一以上の第2文を第1文の類似文として採用するか否かを判定しているので、文脈依存値が大きいほどiを大きく、文脈依存値が小さいほどiを小さく設定することにより、文脈依存性が高い第2語句に対して、広い識別対象領域を用いて、文脈依存値が大きい第2語句を含むi−gramの出現頻度を高精度に求めることができるとともに、文脈依存性が低い第2語句に対して、狭い識別対象領域を用いて、文脈依存値が小さい第2語句を含むi−gramの出現頻度を低コストで且つ高精度に求めることができ、類似文の識別を効率よく且つ高精度に行うことができる。
前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、前記翻訳結果文を評価し、前記翻訳結果文の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成するようにしてもよい。
このような構成により、採用すると判定された一以上の第2文と、一以上の第2文を生成した第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、作成した翻訳結果文を評価し、この翻訳結果文の評価結果に基づいて、翻訳対象文の言語及び/又は翻訳結果文の言語に関する言語情報と、この言語情報に対する評価情報とを含むフィードバック情報を生成しているので、文脈依存性を考慮した事例を学習及び反映するためのフィードバック情報を自律的に生成することができる。
前記第1データベース、前記第2データベース及び前記第3データベースのうち少なくとも一つを、前記フィードバック情報を用いて更新するようにしてもよい。
このような構成により、言語情報と評価情報とを含むフィードバック情報を用いて、第1データベース、第2データベース及び第3データベースのうち少なくとも一つを更新しているので、文脈依存性を考慮した事例を第1データベース、第2データベース及び第3データベースのうち少なくとも一つに反映することができ、更新前の第1データベース、第2データベース及び第3データベースに存在しない表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。
前記フィードバック情報が文脈依存性を有する前記第2語句を含む場合、前記第2データベース及び前記第3データベースを更新するようにしてもよい。
このような構成により、フィードバック情報が文脈依存性を有する第2語句を含む場合、第2データベース及び第3データベースを更新しているので、文脈依存性を考慮した事例を第2データベース及び第3データベースに反映することができ、文脈依存性を考慮した高効率で且つ自律的な類似文の識別を行うことができる。
前記フィードバック情報が新しい文表現を含む場合、前記文表現に応じて前記第2データベースの文脈依存値を変化させるようにしてもよい。
このような構成により、フィードバック情報が新しい文表現を含む場合、新しい文表現に応じて第2データベースの文脈依存値を変化させているので、新しい文表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。
前記フィードバック情報が新しい文表現を含む場合、前記文表現を含むように前記第3データベースを更新するようにしてもよい。
このような構成により、フィードバック情報が新しい文表現を含む場合、新しい文表現を含むように第3データベースを更新しているので、更新前の第3データベースに存在しない新しい文表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。
また、本開示は、以上のような特徴的な処理を実行する類似文生成方法として実現することができるだけでなく、このような類似文生成方法に含まれる特徴的な処理をコンピュータに実行させるコンピュータプログラムとして実現することもできる。また、類似文生成方法により実行される特徴的な処理に対応する特徴的な構成を備える類似文生成装置などとして実現することもできる。したがって、以下の他の態様でも、上記の類似文生成方法と同様の効果を奏することができる。
本開示の他の態様に係るプログラムは、原文から類似文を生成する装置として、コンピュータを機能させるためのプログラムであって、前記コンピュータに、第1文を入力し、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定し、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、処理を実行させる。
本開示の他の態様に係る装置は、原文から類似文を生成する装置であって、第1文を入力される入力部と、前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出する第2語句抽出部と、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出する算出部と、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出する第3語句抽出部と、前記一以上の第3語句について、第3データベースにおける出現頻度を算出する算出部と、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、前記算出された出現頻度が閾値以上であるか判定する判定部と、前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する出力部とを備える。
本開示の他の態様に係るシステムは、原文から類似文を生成するシステムであって、上記の装置と、前記装置により前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成する翻訳部と、前記翻訳部により作成された前記翻訳結果文を評価する評価部と、前記評価部の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成する生成部とを備える。
このような構成により、上記の類似文生成方法と同様の効果を奏することができるとともに、第1文の類似文として採用すると判定された一以上の第2文と、当該一以上の第2文を生成した第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、作成された翻訳結果文を評価し、この評価結果に基づいて、翻訳対象文の言語及び/又は翻訳結果文の言語に関する言語情報と、言語情報に対する評価情報とを含むフィードバック情報を生成しているので、文脈依存性を考慮した事例を学習及び反映するためのフィードバック情報を自律的に生成し、文脈依存性を考慮した事例を自律的に学習及び反映することができる類似文生成システムを実現することができる。
そして、上記のようなコンピュータプログラムを、CD−ROM等のコンピュータ読み取り可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
また、本開示の一実施の形態に係る類似文生成装置又は類似文生成システムの構成要素の一部とそれ以外の構成要素とを複数のコンピュータに分散させたシステムとして構成してもよい。
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すためのものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
以下、本開示の各実施の形態について、図面を参照しながら説明する。
(実施の形態1)
図1は、本開示の実施の形態1における類似文生成装置の構成の一例を示すブロック図である。図1に示す類似文生成装置1は、置き換え対象文(原文)から類似文を生成する。類似文生成装置1は、置き換え対象文入力部10、置き換え候補抽出部11、文脈依存率照合部12、文脈依存性判定部13、言語モデル照合部14、置き換え判定部15、置き換え結果出力部16、置き換え候補辞書21、文脈依存率辞書22、及び言語モデルデータベース23を備える。
置き換え対象文入力部10は、ユーザによる所定の操作入力を受け付け、ユーザが入力した置き換え対象文(第1文)を置き換え候補抽出部11に出力する。例えば、「僕は英語が話せないので日本語でお願いします」との置き換え対象文が置き換え対象文入力部10に入力される。なお、類似文生成装置1が生成する類似文の言語は、日本語に特に限定されず、英語、中国語、韓国語、フランス語、ドイツ語、イタリア語、ポルトガル語等の他の言語であってもよい。
置き換え候補辞書21は、文節/単語/形態素等での置き換え事例を辞書として格納する置き換え候補記憶部であり、置き換え対象文から置き換えられる置き換え対象部分の置き換え候補となる一又は複数の置き換え候補文字列を予め記憶している。置き換え候補辞書21は、語句と置き換え候補辞書21に含まれた語句の類義語とを対応づけた第1データベースの一例である。
図2は、図1に示す置き換え候補辞書21のデータ構成の一例を示す図である。図2に示すように、置き換え候補辞書21には、置き換え対象部分(語句)と置き換え候補文字列(語句の類義語)とが対応付けて記憶されている。例えば、置き換え対象部分の「これだ」に対応付けて「これです」、「これでございます」等の置き換え候補文字列が記憶され、置き換え対象部分の「話せない」に対応付けて、「話せません」、「しゃべれない」、「秘密です」等の置き換え候補文字列が記憶されている。
置き換え候補抽出部11は、置き換え対象文(第1文)を構成する複数の語句のうち置き換え対象部分(第1語句)と同じ意味を持つ置き換え候補文字列(一以上の第2語句)を置き換え候補辞書21から抽出する。具体的には、置き換え候補抽出部11は、置き換え対象文入力部10から入力された置き換え対象文を文節/単語/形態素等の単位で分割し、分割された文節/単語/形態素等から置き換え対象部分を決定し、置き換え候補辞書21から置き換え対象部分に対応付けて記憶されている置き換え可能な文字列対(置き換え候補文字列)を検索し、一又は複数の置き換え候補文字列を抽出して置き換え対象文とともに文脈依存率照合部12に出力する。例えば、置き換え対象部分が「話せない」である場合、置き換え候補抽出部11は、「話せません」、「しゃべれない」、及び「秘密です」等の置き換え候補文字列を置き換え候補辞書21から抽出する。なお、置き換え対象文の分割方法は、上記の例に特に限定されず、種々の公知の手法を用いることができる。
文脈依存率辞書22は、文節/単語/形態素等で置き換えた場合の適用可能性(文脈依存性)を示す文脈依存値を、文節/単語/形態素等と数値との対で辞書として格納する文脈依存値記憶部である。具体的には、文脈依存率辞書22は、置き換え候補文字列と、当該置き換え候補文字列が文脈に依存する程度を表す文脈依存率pcとを対応付けた複数のデータ対を予め記憶している。文脈依存率辞書22は、語句と文脈依存率辞書22に含まれた語句に対応する文脈依存値とを対応づけた第2データベースの一例であり、文脈依存値は、文脈依存率辞書22に含まれた語句が示す意味が文脈に依存する程度を示す。
図3は、図1に示す文脈依存率辞書22のデータ構成の一例を示す図である。図3に示すように、文脈依存率辞書22には、例えば、置き換え候補文字列「です」に対してpc=0.35、「ですが」に対してpc=0.05、「話せません」に対してpc=0.25、「しゃべれない」に対してpc=0.01、「秘密です」に対してpc=0.75等が文脈依存率辞書22に予め記憶されている。
ここで、文脈依存率pcは、例えば、置き換え候補文字列が文脈に依存することにより、置き換え候補文字列を用いた類似候補文が棄却される確率を0〜1の範囲で表した値である。なお、文脈依存値は、上記の文脈依存率pcに特に限定されず、種々の変更が可能であり、置き換え候補文字列が文脈に依存する程度を表す他の数値を用いたり、置き換え候補文字列が文脈に依存する程度をクラス分け(例えば、文脈依存度を大、中、小等のクラスに分類)して、どのクラスに属するかを記憶したりしてもよい。
文脈依存率照合部12は、置き換え候補文字列の文脈依存率pcを文脈依存率辞書22から検索して、置き換え候補文字列に対応付けて記憶されている文脈依存率pcを抽出し、抽出した文脈依存率pcを置き換え対象文とともに文脈依存性判定部13に出力する。例えば、文脈依存率pcとして、置き換え候補文字列が「話せません」の場合に0.25、「しゃべれない」の場合に0.01、「秘密です」の場合に0.75が抽出される。
文脈依存性判定部13は、文脈依存率辞書22に基づいて得られた置き換え候補文字列(一以上の第2語句)に対応する文脈依存値に基づいてN−gram値を算出する。具体的には、文脈依存性判定部13は、文脈依存率pcの値から、置き換え候補文字列を含む類似候補文の判定を行うために参照する言語モデルデータベース23の識別対象領域を判定し、判定結果を置き換え対象文とともに言語モデル照合部14に出力する。
ここで、本実施の形態では、言語モデルデータベース23として、N−gram言語モデルのデータベースを用いており、言語モデルデータベース23には、言語情報とその出現頻度とが対応付けられたテーブル形式でデータが記憶されている。言語モデルデータベース23は、語句と言語モデルデータベース23に含まれる語句の言語モデルデータベース23における出現頻度とを対応づけた第3データベースの一例である。
図4は、図1に示す言語モデルデータベース23のデータ構成の一例を示す図である。図4に示すように、言語モデルデータベース23には、例えば、言語情報及びその出現頻度として、「英語」に対して「234,567,890」が、「英語 は」に対して「12,345,670」が、「英語 が」に対して「22,222,220」が、「英語 が 好き」に対して「999,001」がそれぞれ対応付けてテーブル形式で言語モデルデータベース23に予め記憶されている。また、この出現頻度を基にして、例えば、出現確率を求めることができる。
なお、言語モデルデータベース23に記憶される情報は、上記の例に特に限定されず、言語情報とその出現頻度等に応じた値とが対応付けられたテーブルであれば、任意の内容であってもよい。また、言語モデルデータベース23の言語モデルも、上記のN−gram言語モデルに特に限定されず、他の言語モデルを用いてもよい。
言語モデルデータベース23がN−gram言語モデルのデータベースである場合、文脈依存性判定部13は、文脈依存率pcに応じて、言語モデルデータベース23のN−gram言語モデルのN(N−gram値)をi(正の整数)に決定する。具体的には、例えば、文脈依存性判定部13は、文脈依存率pcを4つのクラスに分類し、0≦pc≦0.25をクラス1、0.25<pc≦0.5をクラス2、0.5<pc≦0.75をクラス3、0.75<pc≦1をクラス4とし、N−gramのN(正の整数)として、クラス1ではN=4、クラス2ではN=5、クラス3ではN=6、クラス4ではN=7をそれぞれ決定する。
例えば、置き換え候補文字列の「話せません」の場合、文脈依存率pcが0.25となり、クラス1に属し、文脈依存性判定部13は、言語モデルデータベース23の識別対象領域として、クラス1相当のN−gramすなわちN=4を決定する。なお、識別対象領域の判定基準は、上記の例に特に限定されず、種々の変更が可能であり、文脈依存率pcを用いて識別対象領域を直接数式化したりしてもよい。例えば、N=floor(k−log2(pc))(ここで、kは定数)とし、置き換え候補文字列の「話せません」の場合、文脈依存率pcが0.25となり、定数k=6とする場合、N=4となる。
また、言語モデルデータベース23はN−gram言語モデルに限らず、その他の言語資源に基づくデータベースであってもよい。例えば、実数値やベクトル等の分散表現で記述された言語モデルであってもよく、任意の既存手法や既存データを組合せて構築することができる。いずれの場合も、識別対象領域としてデータベースを検索する範囲を任意の変数で定義し、その任意の変数を文脈依存率pcに応じて決定することができる。
言語モデル照合部14は、置き換え対象文(第1文)において置き換え対象部分(第1語句)が置き換え候補文字列(一以上の第2語句)に置き換えられた置き換え文(一以上の第2文)において、N−gram値に相当する数の置き換え候補文字列(第2語句)を含んだ連続するN−gram(一以上の第3語句)を抽出し、N−gram(一以上の第3語句)について、言語モデルデータベース23を算出する。
すなわち、言語モデル照合部14は、文脈依存性判定部13で判定された識別対象領域に対応した識別対象データを言語モデルデータベース23から検索して抽出することにより、置き換え候補文字列との照合を行い、置き換え候補文字列に関連した、文節/単語/形態素等からなる言語情報と、その言語情報の出現頻度又は出現確率に応じた値とのペアデータを生成し、置き換え対象文とともに置き換え判定部15に出力する。
具体的には、言語モデル照合部14は、文脈依存性判定部13から参照する識別対象領域の大きさとして与えられたNの値を用い、言語モデルデータベース23からN−gram(例えば、置き換え候補文字列がクラス1に属する場合、4−gram)の出現頻度又は出現確率を取得し、照合した置き換え候補文字列と、取得した出現頻度又は出現確率とを置き換え判定部15に出力する。
置き換え判定部15は、言語モデル照合部14から得た、文節/単語/形態素等からなる言語情報と、その言語情報の出現頻度又は出現確率に応じた値とのペアデータを用いて、該当する置き換え候補文字列を置き換え対象文に適用するか又は棄却するかを決定し、この置き換え結果を置き換え対象文とともに置き換え結果出力部16に出力する。
上記の決定方法の一例として、置き換え判定部15は、算出された出現頻度が閾値以上であるか判定する。具体的には、j番目(jは任意の整数)の言語情報の出現頻度の値をnjとし、所定の閾値をThとしたときに、置き換え判定部15は、すべてのjに対して、nj>Thで有れば、置き換え候補文字列を置き換え対象文に適用すると決定し、それ以外の場合には棄却すると決定する。
例えば、N−gramとして4−gramを用い、置き換え候補文字列の「話せません」に対して、言語情報と、その言語情報の出現頻度として、「は 英語 が 話せません」に対して「51,550」が、「英語 が 話せません ので」に対して「1,720」が、「が 話せません ので 日本」に対して「530」が、「話せません ので 日本 語」に対して「3,220」がそれぞれ取得され、Th=500の場合、j=1〜4のすべてに対して、出現頻度は閾値Th以上となり、置き換え候補文字列の「話せません」は適用と判定される。
なお、置き換え候補文字列の置き換え対象文への適用又は棄却の決定方法としては、上記の例に特に限定されず、種々の変更が可能であり、njの分布に応じて適用又は棄却を決定したり(例えば、4−gramの出現頻度の下位3%を棄却したり)、nj=0となるjが存在するか否かに応じて適用又は棄却を決定したり、又は、njを用いた任意の式から算出される値に応じて適用又は棄却を決定したりしてもよい。
置き換え結果出力部16は、算出された出現頻度が閾値以上であると判定された場合は、適用と判定された置き換え候補文字列によって生成された置き換え文(一以上の第2文)を置き換え対象文(第1文)の類似文として採用し、外部の機器に出力する。具体的には、置き換え結果出力部16は、置き換え結果に基づき、置き換え対象文の置き換え対象部分を置き換え判定部15で適用と判定された置き換え候補文字列に置き換え、適用と判定された置き換え候補文字列によって生成された置き換え文(置き換え後の文)を類似文として採用し、生成した類似文を外部の機器(図示省略)等に出力する。
また、置き換え対象文(第1文)は第1言語(例えば、日本語)で記述され、置き換え対象文(第1文)は、対訳コーパスに含まれ、対訳コーパスは第1言語で記述された文と第2言語(例えば、英語)で記述された対訳文との対を複数含み、置き換え結果出力部16は、算出された出現頻度が閾値以上であると判定された場合は、適用と判定された置き換え候補文字列によって生成された置き換え文(一以上の第2文)を置き換え対象文(第1文)の類似文として対訳コーパスに追加するようにしてもよい。
なお、類似文生成装置1の構成は、上記のように、機能ごとに専用のハードウエアで構成する例に特に限定されず、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)及び補助記憶装置等を備える1台又は複数台のコンピュータ又はサーバ(情報処理装置)が、上記の処理を実行するための類似文生成プログラムをインストールし、類似文生成装置として機能するように構成してもよい。また、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23は、類似文生成装置1の内部に設ける例に特に限定されず、外部のサーバ等に置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23を設け、所定のネットワークを介して類似文生成装置1が必要な情報を取得するようにしてもよい。この点については、他の実施の形態も同様である。
次に、上記のように構成された類似文生成装置1による類似文生成処理について、詳細に説明する。図5は、図1に示す類似文生成装置1による類似文生成処理の一例を示すフローチャートである。なお、以下の処理では、出現頻度を用いて置き換え候補文字列の適用/棄却の判定を行っているが、この例に特に限定されず、例えば、出現確率等を用いてもよい。この点については、他の実施の形態も同様である。
まず、ステップS11において、置き換え対象文入力部10は、ユーザによる置き換え対象文(原文)の入力を受け付け、入力された置き換え対象文を置き換え候補抽出部11に出力する。
次に、ステップS12において、置き換え候補抽出部11は、置き換え対象文を文節/単語/形態素等の単位で分割し、分割された文節/単語/形態素等から置き換え対象部分を決定し、置き換え候補辞書21から置き換え対象部分に対応付けて記憶されている置き換え候補文字列を抽出して置き換え対象文とともに文脈依存率照合部12に出力する。
次に、ステップS13において、文脈依存率照合部12は、文脈依存率辞書22を照合して、置き換え候補文字列の文脈依存率pcを抽出して置き換え対象文とともに文脈依存性判定部13に出力する。
次に、ステップS14において、文脈依存性判定部13は、置き換え候補文字列の文脈依存率pcの値から、言語モデルデータベース23のN−gramのNを決定することにより、文脈依存性から参照する言語モデル長を決定し、決定したNの値を置き換え対象文とともに言語モデル照合部14に出力する。
例えば、置き換え対象文が「僕は英語が話せないので日本語でお願いします」であり、置き換え候補文字列が「話せません」であり、置き換え候補文が「僕は英語が話せませんので日本語でお願いします」である場合、文脈依存性判定部13は、言語モデルデータベース23のN−gramのNとして、N=4を決定する。
次に、ステップS15において、言語モデル照合部14は、文脈依存性判定部13から参照する識別対象領域の大きさとして与えられたNの値を用い、言語モデルデータベース23からN−gramの出現頻度を取得し、照合した置き換え候補文字列と、取得した出現頻度とを置き換え対象文とともに置き換え判定部15に出力する。
例えば、上記の置き換え対象文の「話せない」を「話せません」に置き換える場合、言語モデル照合部14は、置き換えを行った文節「話せません」を含む周囲4−gram(例えば、「は 英語 が 話せません」、「英語 が 話せません ので」、「が 話せません ので 日本」、「話せません ので 日本 語」)を生成し、言語モデルデータベース23と照合し、各4−gramの出現頻度(例えば、「は 英語 が 話せません」の51,550、「英語 が 話せません ので」の1,720、「が 話せません ので 日本」の530、「話せません ので 日本 語」の3,220)を得る。
次に、ステップS16において、置き換え判定部15は、言語モデル照合部14から置き換え候補文字列を含むN−gramと、その出現頻度とを取得し、置き換え候補文字列のスコアを算出する。
次に、ステップS17において、置き換え判定部15は、置き換え候補文字列のスコア(出現頻度)が所定の閾値Th以上であるか否かを判定することにより、置き換え候補文字列を置き換え対象文に適用するか又は棄却するかを判定し、この判定結果を置き換え対象文とともに置き換え結果出力部16に出力する。
ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th未満であると判定された場合、ステップS20において、置き換え結果出力部16は、置き換え候補文字列を棄却して処理を終了する。
一方、ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th以上であると判定された場合、ステップS18において、置き換え結果出力部16は、置き換え候補文字列を置き換え対象文の置き換え対象部分に適用し、置き換え対象文の置き換え対象部分を置き換え候補文字列に置き換えた置き換え文を作成する。
次に、ステップS19において、置き換え結果出力部16は、適用と判定された置き換え候補文字列によって生成された置き換え文を類似文として出力して処理を終了する。
上記の処理により、本実施の形態では、文脈依存率pcに応じてN−gram言語モデルのNを決定し、文脈依存率pcが大きいほどNを大きく、文脈依存率pcが小さいほどNを小さく設定している。また、決定されたNを用いて、言語モデルデータベース23を照合することにより、置き換え候補文字列を含むN−gramの出現頻度を求め、求めた出現頻度に基づいて、置き換え候補文字列によって生成された置き換え文を類似文として採用するか否かを判定しているので、広い識別対象領域を用いて、文脈依存率pcが大きい置き換え候補文字列を含むi−gramの出現頻度を高精度に求めることができるとともに、狭い識別対象領域を用いて、文脈依存率pcが小さい置き換え候補文字列を含むN−gramの出現頻度を低コストで且つ高精度に求めることができる。この結果、言語モデルデータベース23に対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができる。
(実施の形態2)
図6は、本開示の実施の形態2における類似文生成システムの構成の一例を示すブロック図である。図6に示す類似文生成システムは、類似文生成装置1aと、翻訳装置2とを備える。
類似文生成装置1aは、置き換え対象文入力部10a、置き換え候補抽出部11、文脈依存率照合部12、文脈依存性判定部13、言語モデル照合部14、置き換え判定部15、置き換え結果出力部16、データ更新部17、置き換え候補辞書21、文脈依存率辞書22、及び言語モデルデータベース23を備える。翻訳装置2は、対訳コーパス生成部31、翻訳モデル生成部32、被翻訳文入力部33、機械翻訳部34、翻訳結果文出力部35、翻訳結果評価部36、及びフィードバックデータ生成部37を備える。
類似文生成装置1aは、置き換え対象文(原文)から類似文を生成し、採用すると判定した類似文等を翻訳装置2に出力する。翻訳装置2は、類似文生成装置1aにより採用すると判定された類似文と、当該類似文を生成した原文を所定の言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、任意の翻訳対象文を翻訳して翻訳結果文を作成し、作成した翻訳結果文の評価結果に基づき、翻訳対象文の言語及び翻訳結果文の言語のうち少なくとも一方に関する言語情報と、この言語情報に対する評価情報とを含むフィードバック情報を生成して類似文生成装置1aにフィードバックする。類似文生成装置1aは、フィードバック情報に基づき、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のうち少なくとも一つのデータを更新する。
ここで、図6に示す類似文生成装置1aが図1に示す類似文生成装置1と異なる点は、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のデータを更新するデータ更新部17が追加され、置き換え対象文入力部10aが置き換え対象文の入力に加えて、入力された置き換え対象文(原文)の翻訳文を翻訳装置2に出力する点であり、その他の点は同様であるので、同一部分には同一符号を付して、詳細な説明は省略する。
置き換え対象文入力部10aは、ユーザによる所定の操作入力を受け付け、ユーザが入力した置き換え対象文を置き換え候補抽出部11に出力し、その後の置き換え対象文に対する置き換え候補抽出部11から置き換え結果出力部16までの処理は、図1に示す置き換え候補抽出部11から置き換え結果出力部16までの処理と同様であり、置き換え結果出力部16は、置き換え判定部15で適用と判定された置き換え候補文字列によって生成された置き換え文(類似文)を対訳コーパス生成部31に出力する。
また、置き換え対象文入力部10aは、ユーザによる所定の操作入力を受け付け、ユーザが入力した、置き換え文を生成した原文を所定の言語で翻訳した翻訳文、すなわち、置き換え対象文の翻訳文(原文に対応する対訳文)を対訳コーパス生成部31に出力する。例えば、上記の置き換え文が日本語(原言語文)で作成され、翻訳装置2が日英翻訳を行う場合、上記の翻訳文は英語(目的言語文)で作成されている。なお、原言語文及び目的言語文は、上記の例に特に限定されず、類似文生成装置1aが英語の類似文を生成する場合、英語を原言語文、日本語を目的言語文としてもよく、また、中国語、韓国語、フランス語、ドイツ語、イタリア語、ポルトガル語等の他の言語であってもよい。
対訳コーパス生成部31は、置き換え結果出力部16から出力された置き換え文と、置き換え対象文入力部10aから出力された置き換え対象文の翻訳文とを関連付け、新たな対訳コーパスを生成して翻訳モデル生成部32に出力する。なお、対訳コーパスの生成方法としては、上記の例に特に限定されず、既に作成している対訳コーパスに新たな対訳コーパスを追加してもよく、公知の種々の方法を用いることができる。
翻訳モデル生成部32は、対訳コーパス生成部31で生成された新たな対訳コーパスを用いて、所定の学習により翻訳モデルを生成して機械翻訳部34に出力する。なお、翻訳モデルの生成方法としては、公知の種々の方法を用いることができるので、詳細な説明は省略する。
被翻訳文入力部33は、ユーザによる所定の操作入力を受け付け、ユーザが入力した翻訳対象文(原言語文)を機械翻訳部34に出力する。機械翻訳部34は、翻訳モデル生成部32により生成された翻訳モデルを用いて、翻訳対象文を翻訳し、翻訳結果文(目的言語文)を翻訳対象文とともに翻訳結果文出力部35に出力する。翻訳結果文出力部35は、翻訳結果として、翻訳結果文を翻訳対象文とともに翻訳結果評価部36に出力する。
翻訳結果評価部36は、翻訳結果文出力部35から出力された翻訳結果文(目的言語文)の翻訳精度及び品質に対して評価を行う。ここで、翻訳結果評価部36の評価方法としては、機械的な数値指標によって評価を行ってもよく、また、人手による評価結果を翻訳結果評価部36に入力するようにしてもよい。翻訳結果評価部36は、評価結果として、評価値又は評価カテゴリなどの評価情報を翻訳結果文(目的言語文)及び/又は翻訳対象文(原言語文)と関連付けてフィードバックデータ生成部37に出力する。
フィードバックデータ生成部37は、翻訳結果評価部36より出力された評価結果を基に、フィードバック情報として、類似文生成装置1aにフィードバックするフィードバックデータを生成してデータ更新部17に出力する。ここで、フィードバックデータは、原言語及び/又は目的言語側の任意の言語情報と、当該言語情報に関する値又は状態の評価情報とのペアデータである。このフィードバックデータとしては、種々のデータを用いることができ、以下のデータを用いることができる。
例えば、翻訳結果が悪かった場合に、ユーザ又は所定の翻訳結果文修正装置により翻訳結果文(目的言語文)を修正し、より良い翻訳文を入力することにより、入力された翻訳文と元の翻訳対象文(原言語文)とのペアの言語情報と、翻訳結果の状態(悪い)の評価情報とのペアデータをフィードバックデータとしてもよい。
また、ユーザ又は所定の翻訳対象文修正装置により翻訳対象文(原言語文)を修正し、同趣旨で異なる表現の翻訳対象文を入力することにより、より良い翻訳結果文を取得できた場合に、元の翻訳対象文(原言語文)と翻訳結果の良かった翻訳対象文(原言語文)とのペアの言語情報と、翻訳結果の状態(良い/悪いの2値)の評価情報とのペアデータをフィードバックデータとしてもよい。
また、対訳コーパスの中から翻訳対象文(原言語文)に近い文を一又は複数抽出し、ユーザ又は所定の翻訳文評価装置により原言語として破綻していないかどうかの評価値(例えば、良い/悪いの2値)を求め、抽出された原言語文に近い文に対して評価値を付与し、この評価値と、原言語文に近い文を示す言語情報とのペアデータをフィードバックデータとしてもよい。
また、機械翻訳部34により複数の翻訳結果文を作成し、その中からより適切な翻訳結果文をユーザ又は所定の翻訳文評価装置により選択し、選択された翻訳結果文と、選択されなかった翻訳結果文とのペアの言語情報と、これらの翻訳結果文の選択結果を示す評価情報とのペアデータをフィードバックデータとしてもよい。
データ更新部17は、フィードバックデータ生成部37が生成したフィードバックデータ(言語情報と当該言語情報に関する値又は状態の評価情報とのペアデータ)に基づき、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のうち少なくとも一つのデータベース内容を更新する。
また、データ更新部17は、フィードバックデータが文脈依存性を有する置き換え候補文字列を含む場合、文脈依存率辞書22及び言語モデルデータベース23を更新する。また、データ更新部17は、フィードバックデータが新しい文表現を含む場合、この文表現に応じて文脈依存率辞書22の文脈依存率の値を変化させ、また、新しい文表現を含むように言語モデルデータベース23のN−gramを部分構築し、言語モデルデータベース23を更新する。
また、データ更新部17は、言語情報に原言語側の情報が含まれており、当該の言語情報内に、置き換え候補辞書21、文脈依存率辞書22又は言語モデルデータベース23に登録されている情報が含まれている場合、対応するフィードバックデータの値又は状態の評価情報に応じて、置き換え候補辞書21、文脈依存率辞書22又は言語モデルデータベース23の対応する情報を更新したり、追加したり、削除したりする。
例えば、positiveな(肯定的な)値又は状態の評価情報を持つ原言語側の言語情報がフィードバックされた場合、データ更新部17は、出現頻度に所定の重みを加えて出現頻度の値を増加させる等により、言語モデルデータベース23の当該言語情報を含む値をpositive方向に変化させる。一方、negativeな(否定的な)値又は状態の評価情報を持つ原言語側の言語情報がフィードバックされた場合、データ更新部17は、文脈に依存する割合が高くなる方向に文脈依存率を更新する等により、文脈依存率辞書22の当該言語情報を含む値をnegative方向に変化させる。
また、翻訳結果の悪かった元の翻訳対象文(原言語文)及び翻訳結果の良かった翻訳対象文(原言語文)の言語情報と、それぞれの翻訳結果状態(悪い/良い)の評価情報とのペアデータをフィードバックされ、悪い状態の元の翻訳対象文に対する良い状態に対応する翻訳対象文の差分が置き換え候補辞書21に登録されていない場合、データ更新部17は、良い状態に対応する差分を置き換え候補辞書21に登録する。
また、翻訳結果の悪かった翻訳対象文(原言語文)の言語情報と、翻訳結果状態(悪い)の評価情報とのペアデータをフィードバックされた場合、データ更新部17は、翻訳結果の悪かった翻訳対象文の置き換え候補文字列を置き換え候補辞書21から削除する。
なお、類似文生成装置1a及び翻訳装置2の構成は、上記のように、機能ごとに専用のハードウエアで構成する例に特に限定されず、CPU、ROM、RAM及び補助記憶装置等を備える1台又は複数台のコンピュータ又はサーバ(情報処理装置)が、上記の処理を実行するためのプログラムをインストールし、類似文生成装置又は翻訳装置として機能するように構成してもよい。
次に、上記のように構成された類似文生成システムによるフィードバックデータ更新処理を含む類似文生成処理について、詳細に説明する。図7は、図6に示す類似文生成システムのフィードバックデータ更新処理を含む類似文生成処理の一例を示すフローチャートである。なお、図7に示す処理のうち、図5に示す処理と同一の処理には同一符号を付して、詳細な説明は省略する。
まず、類似文生成装置1aによる類似文生成処理として、ステップS11aにおいて、置き換え対象文入力部10aは、ユーザによる原文に対応する対訳文及び置き換え対象文の入力を受け付け、対訳文を対訳コーパス生成部31に出力し、置き換え対象文を置き換え候補抽出部11に出力する。なお、対訳文を対訳コーパス生成部31に出力するタイミングは、上記の例に特に限定されず、ステップS17の処理時に、置き換え対象文入力部10aが対訳文を対訳コーパス生成部31に出力するようにしてもよい。
次に、ステップS12〜S17において、図5に示すステップS12〜S17と同様の処理が実行され、ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th未満であると判定された場合、ステップS20において、置き換え結果出力部16は、置き換え候補文字列を棄却して処理を終了する。
一方、ステップS17において置き換え候補文字列のスコア(出現頻度)が所定の閾値Th以上であると判定された場合、ステップS18において、図5に示すステップS18と同様の処理が実行された後、ステップS19において、置き換え結果出力部16は、置き換え判定部15で適用と判定された置き換え候補文字列によって生成された置き換え文(置き換わり文)を対訳コーパス生成部31に出力し、類似文生成装置1aによる類似文生成処理が終了する。
次に、翻訳装置2及び類似文生成装置1aによるフィードバックデータ更新処理として、ステップS21において、対訳コーパス生成部31は、置き換え結果出力部16から出力された置き換え文と、置き換え対象文入力部10aから出力された対訳文とを関連付け、新たな対訳コーパスを生成して翻訳モデル生成部32に出力する。
次に、ステップS22において、翻訳モデル生成部32は、対訳コーパス生成部31で生成された新たな対訳コーパスを用いて、翻訳モデルを学習により生成して機械翻訳部34に出力する。
次に、ステップS23において、被翻訳文入力部33は、ユーザによる翻訳対象文の入力を受け付け、ユーザが翻訳を希望する任意の翻訳対象文を機械翻訳部34に出力する。
次に、ステップS24において、機械翻訳部34は、翻訳モデル生成部32が生成した翻訳モデルにより、翻訳対象文を翻訳結果文に翻訳し、翻訳結果文を翻訳対象文とともに翻訳結果文出力部35に出力する。
次に、ステップS25において、翻訳結果文出力部35は、翻訳結果文を翻訳対象文とともに翻訳結果評価部36に出力する。
次に、ステップS26において、翻訳結果評価部36は、翻訳結果文出力部35から出力された翻訳結果文の翻訳精度及び品質に対して評価を行い、評価結果として、評価値又は評価カテゴリなどの情報を翻訳結果文と関連付けてフィードバックデータ生成部37に出力する。
次に、ステップS27において、フィードバックデータ生成部37は、翻訳結果評価部36より出力された評価結果からフィードバックデータを生成してデータ更新部17に出力する。
最後に、ステップS28において、データ更新部17は、フィードバックデータ生成部37が生成したフィードバックデータに基づき、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23のうち少なくとも一つのデータベース内容を更新し、フィードバックデータ更新処理を終了する。
上記の処理により、本実施の形態では、採用すると判定された置き換え文と、原文に対する対訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳した翻訳結果文を評価し、この評価結果に基づき、翻訳対象文の言語及び/又は翻訳結果文の言語に関する言語情報と、この言語情報に対する評価情報とを含むフィードバック情報を生成しているので、文脈依存性を考慮した事例を類似文生成装置1aに学習及び反映するためのフィードバックデータを自律的に生成することができる。
また、本実施の形態では、言語情報と評価情報とを含むフィードバックデータを用いて、置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23を更新しているので、文脈依存性を考慮した事例を置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23に反映することができ、更新前の置き換え候補辞書21、文脈依存率辞書22及び言語モデルデータベース23に存在しない新しい文表現にも対応できる高効率で且つ自律的な類似文の識別を行うことができる。
本開示は、言語モデルのデータベースに対する探索コストを低減できるとともに、類似文の識別を高精度に行うことができるので、原文から類似文を生成する類似文生成方法、類似文生成プログラム、類似文生成装置、及び該類似文生成装置を備える類似文生成システムに有用である。
1、1a 類似文生成装置
2 翻訳装置
10、10a 置き換え対象文入力部
11 置き換え候補抽出部
12 文脈依存率照合部
13 文脈依存性判定部
14 言語モデル照合部
15 置き換え判定部
16 置き換え結果出力部
17 データ更新部
21 置き換え候補辞書
22 文脈依存率辞書
23 言語モデルデータベース
31 対訳コーパス生成部
32 翻訳モデル生成部
33 被翻訳文入力部
34 機械翻訳部
35 翻訳結果文出力部
36 翻訳結果評価部
37 フィードバックデータ生成部

Claims (11)

  1. 原文から類似文を生成する方法であって、
    第1文を入力し、
    前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
    第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
    前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、
    前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、
    前記算出された出現頻度が閾値以上であるか判定し、
    前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、
    方法。
  2. 前記第1文は第1言語で記述され、
    前記第1文は対訳コーパスに含まれ、前記対訳コーパスは第1言語で記述された文と第2言語で記述された対訳文との対を複数含み、
    前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として前記対訳コーパスに追加する、
    請求項1記載の方法。
  3. 前記第3データベースは、N−gram言語モデルのデータベースを含み、
    前記文脈依存値に応じて、前記N−gram言語モデルのNをi(正の整数)に決定し、
    前記第3データベースを照合することにより、前記第2語句を含むi−gramの出現頻度を求め、
    前記第2語句を含むi−gramの出現頻度に基づいて、前記一以上の第2文を前記第1文の類似文として採用するか否かを判定する、
    請求項1又は2記載の方法。
  4. 前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、
    前記翻訳結果文を評価し、
    前記翻訳結果文の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成する、
    請求項1〜3のいずれかに記載の方法。
  5. 前記第1データベース、前記第2データベース及び前記第3データベースのうち少なくとも一つを、前記フィードバック情報を用いて更新する、
    請求項4記載の方法。
  6. 前記フィードバック情報が文脈依存性を有する前記第2語句を含む場合、前記第2データベース及び前記第3データベースを更新する、
    請求項4記載の方法。
  7. 前記フィードバック情報が新しい文表現を含む場合、前記文表現に応じて前記第2データベースの文脈依存値を変化させる、
    請求項4記載の方法。
  8. 前記フィードバック情報が新しい文表現を含む場合、前記文表現を含むように前記第3データベースを更新する、
    請求項4記載の方法。
  9. 原文から類似文を生成する装置として、コンピュータを機能させるためのプログラムであって、
    前記コンピュータに、
    第1文を入力し、
    前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
    第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
    前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、
    前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、
    前記算出された出現頻度が閾値以上であるか判定し、
    前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、
    処理を実行させるプログラム。
  10. 原文から類似文を生成する装置であって、
    第1文を入力される入力部と、
    前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出する第2語句抽出部と、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
    第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出する算出部と、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
    前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出する第3語句抽出部と、
    前記一以上の第3語句について、第3データベースにおける出現頻度を算出する算出部と、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、
    前記算出された出現頻度が閾値以上であるか判定する判定部と、
    前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する出力部とを備える、
    装置。
  11. 原文から類似文を生成するシステムであって、
    請求項10記載の装置と、
    前記装置により前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成する翻訳部と、
    前記翻訳部により作成された前記翻訳結果文を評価する評価部と、
    前記評価部の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成する生成部とを備える、
    システム。
JP2017096570A 2016-09-27 2017-05-15 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム Active JP6817556B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710674166.5A CN107870901B (zh) 2016-09-27 2017-08-09 从翻译源原文生成相似文的方法、记录介质、装置以及系统
US15/697,489 US10303761B2 (en) 2016-09-27 2017-09-07 Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016187711 2016-09-27
JP2016187711 2016-09-27

Publications (2)

Publication Number Publication Date
JP2018055670A true JP2018055670A (ja) 2018-04-05
JP6817556B2 JP6817556B2 (ja) 2021-01-20

Family

ID=61836781

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017096570A Active JP6817556B2 (ja) 2016-09-27 2017-05-15 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム

Country Status (1)

Country Link
JP (1) JP6817556B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984493A (zh) * 2018-07-19 2018-12-11 中国联合网络通信集团有限公司 一种中文文章查重方法和系统
JP2020035019A (ja) * 2018-08-27 2020-03-05 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
JP2020126360A (ja) * 2019-02-01 2020-08-20 日本放送協会 学習データ拡張装置、学習装置、翻訳装置、およびプログラム
JP2021515322A (ja) * 2018-05-10 2021-06-17 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム
WO2021176698A1 (ja) * 2020-03-06 2021-09-10 富士通株式会社 機械学習データ生成プログラム、機械学習プログラム、機械学習データ生成方法、及び抽出装置
CN117407242A (zh) * 2023-10-10 2024-01-16 浙江大学 基于大语言模型的低成本、零样本的在线日志解析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02301869A (ja) * 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
JP2015118498A (ja) * 2013-12-18 2015-06-25 Kddi株式会社 同一意図の類似文を作成するプログラム、装置及び方法
JP2017016384A (ja) * 2015-07-01 2017-01-19 日本放送協会 混合係数パラメータ学習装置、混合生起確率算出装置、及び、これらのプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02301869A (ja) * 1989-05-17 1990-12-13 Hitachi Ltd 自然言語処理システム保守支援方式
US5311429A (en) * 1989-05-17 1994-05-10 Hitachi, Ltd. Maintenance support method and apparatus for natural language processing system
JP2015118498A (ja) * 2013-12-18 2015-06-25 Kddi株式会社 同一意図の類似文を作成するプログラム、装置及び方法
JP2017016384A (ja) * 2015-07-01 2017-01-19 日本放送協会 混合係数パラメータ学習装置、混合生起確率算出装置、及び、これらのプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
宮部真衣,吉野孝: "翻訳リペア支援のためのWeb日本語Nグラムを用いた類義語フィルタリング", 情報処理学会研究報告, vol. 第2008巻,第114号, JPN6020041666, 20 November 2008 (2008-11-20), pages 85 - 90, ISSN: 0004380611 *
山内真樹,外3名: "自動コーパス生成とフィードバックによる少量コーパスからの統計機械翻訳", 2016年度 人工知能学会全国大会(第30回)論文集[CD−ROM], JPN6020041665, 6 June 2016 (2016-06-06), ISSN: 0004380610 *
市村哲,外2名: "類語提示機能を備えた翻訳リペアシステムにおけるWebNグラムの活用", 情報処理学会論文誌 論文誌ジャーナル[CD−ROM], vol. 第53巻,第12号, JPN6020041668, 15 December 2012 (2012-12-15), pages 2762 - 2772, ISSN: 0004380612 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021515322A (ja) * 2018-05-10 2021-06-17 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム
JP7179273B2 (ja) 2018-05-10 2022-11-29 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム
US11900069B2 (en) 2018-05-10 2024-02-13 Tencent Technology (Shenzhen) Company Limited Translation model training method, sentence translation method, device, and storage medium
CN108984493A (zh) * 2018-07-19 2018-12-11 中国联合网络通信集团有限公司 一种中文文章查重方法和系统
CN108984493B (zh) * 2018-07-19 2022-04-29 中国联合网络通信集团有限公司 一种中文文章查重方法和系统
JP2020035019A (ja) * 2018-08-27 2020-03-05 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
JP7155758B2 (ja) 2018-08-27 2022-10-19 大日本印刷株式会社 情報処理装置、情報処理方法及びプログラム
JP2020126360A (ja) * 2019-02-01 2020-08-20 日本放送協会 学習データ拡張装置、学習装置、翻訳装置、およびプログラム
JP7329929B2 (ja) 2019-02-01 2023-08-21 日本放送協会 学習データ拡張装置、学習装置、翻訳装置、およびプログラム
WO2021176698A1 (ja) * 2020-03-06 2021-09-10 富士通株式会社 機械学習データ生成プログラム、機械学習プログラム、機械学習データ生成方法、及び抽出装置
CN117407242A (zh) * 2023-10-10 2024-01-16 浙江大学 基于大语言模型的低成本、零样本的在线日志解析方法
CN117407242B (zh) * 2023-10-10 2024-04-05 浙江大学 基于大语言模型的低成本、零样本的在线日志解析方法

Also Published As

Publication number Publication date
JP6817556B2 (ja) 2021-01-20

Similar Documents

Publication Publication Date Title
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
US10108607B2 (en) Method and device for machine translation
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
CN107038158B (zh) 对译语料库制作方法、装置、记录介质以及机器翻译系统
CN110543644A (zh) 包含术语翻译的机器翻译方法、装置与电子设备
US20070021956A1 (en) Method and apparatus for generating ideographic representations of letter based names
US20110184723A1 (en) Phonetic suggestion engine
KR20160008480A (ko) 명칭을 강인하게 태깅하는 방법 및 시스템
US20180173694A1 (en) Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
US10394961B2 (en) Foreign language sentence creation support apparatus, method, and program
RU2579873C2 (ru) Разрешение семантической неоднозначности при помощи семантического классификатора
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
KR101962113B1 (ko) 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법
US10055404B2 (en) Translation apparatus
CN116306594A (zh) 一种医学ocr识别纠错方法
US20240062009A1 (en) Method and device for segmenting word based on cross-language data augmentation, and storage medium
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
US20050273316A1 (en) Apparatus and method for translating Japanese into Chinese and computer program product
US20230143110A1 (en) System and metohd of performing data training on morpheme processing rules
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
Torunoglu-Selamet et al. Exploring spelling correction approaches for turkish
JP6564709B2 (ja) 文書き換え装置、方法、及びプログラム
Sreeram et al. A Novel Approach for Effective Recognition of the Code-Switched Data on Monolingual Language Model.
Luekhong et al. Pooja: similarity-based bilingual word alignment framework for SMT

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200109

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201209

R151 Written notification of patent or utility model registration

Ref document number: 6817556

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151