JP2006126886A - 文短縮用知識の学習装置、文短縮装置、機械翻訳装置および文短縮のためのコンピュータプログラム - Google Patents
文短縮用知識の学習装置、文短縮装置、機械翻訳装置および文短縮のためのコンピュータプログラム Download PDFInfo
- Publication number
- JP2006126886A JP2006126886A JP2004310314A JP2004310314A JP2006126886A JP 2006126886 A JP2006126886 A JP 2006126886A JP 2004310314 A JP2004310314 A JP 2004310314A JP 2004310314 A JP2004310314 A JP 2004310314A JP 2006126886 A JP2006126886 A JP 2006126886A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- shortening
- learning
- knowledge
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004904 shortening Methods 0.000 title claims abstract description 68
- 238000013519 translation Methods 0.000 title claims abstract description 46
- 238000004590 computer program Methods 0.000 title claims description 4
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012217 deletion Methods 0.000 claims abstract description 24
- 230000037430 deletion Effects 0.000 claims abstract description 24
- 238000010801 machine learning Methods 0.000 claims abstract description 9
- 238000013500 data storage Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000000877 morphologic effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
【課題】入力文が長文であっても、構文解析処理を用いずに入力文を短縮する。
【解決手段】機械翻訳システム20は、文の要素に関する削除知識34を作成する削除知識作成処理部32と、削除知識34を用いて入力文36を短縮する長文短縮部60と、長文短縮部60の出力する短縮文62を入力とする機械翻訳部64とを含む。削除知識作成処理部32は、同義の長短の文対からなる学習用文対30から、文短縮のための知識を学習する文短縮用知識の学習装置であって、長い文を構成する各要素のうち、短い文を構成する要素に含まれるものとそうでないものとに対しそれぞれ所定のタグを付与した学習データ52を作成する学習データ作成部50と、学習データ52を用いた機械学習により、任意の要素に対し削除可能かを示すタグを推定するための削除知識34を獲得する削除知識学習部54とを含む。長文短縮部60は、削除知識34を用いて入力文36を短縮する。
【選択図】図1
【解決手段】機械翻訳システム20は、文の要素に関する削除知識34を作成する削除知識作成処理部32と、削除知識34を用いて入力文36を短縮する長文短縮部60と、長文短縮部60の出力する短縮文62を入力とする機械翻訳部64とを含む。削除知識作成処理部32は、同義の長短の文対からなる学習用文対30から、文短縮のための知識を学習する文短縮用知識の学習装置であって、長い文を構成する各要素のうち、短い文を構成する要素に含まれるものとそうでないものとに対しそれぞれ所定のタグを付与した学習データ52を作成する学習データ作成部50と、学習データ52を用いた機械学習により、任意の要素に対し削除可能かを示すタグを推定するための削除知識34を獲得する削除知識学習部54とを含む。長文短縮部60は、削除知識34を用いて入力文36を短縮する。
【選択図】図1
Description
この発明は、自然言語処理に関し、特に、入力文を、機械翻訳処理などの自動化処理に適した形式に変換する文変換技術に関する。
構文解析などの自然言語処理、およびそうした自然言語処理を用いた機械翻訳などの応用処理は、一般的に長文をうまく処理できない。具体的には、長文を入力とすると、処理精度が低下したり、処理時間が増加したりする。これは、文が長くなることにより、構文解析などにおける枝分かれの数が指数関数的に増大することによる。
従来、こうした問題に対処するために、例えば特許文献1においては、予め係り受け関係の重要度が設定された重要関係テーブルを準備しておき、入力文を構文解析して得られた解析木において、重要関係テーブルにおいて重要な係り受けとして設定されている係り受け関係に属する要素を選択する。さらに、解析木において、これら選択された要素間の経路に存在する要素も選択する。こうして選択された要素に基づいて、短縮文を生成する。
特開平11−015830号公報
しかし、特許文献1に記載の技術においては、文短縮処理を行なうために構文解析を必要とする。したがって構文解析を精度よく行なう必要がある。しかし入力文が長文であれば、構文解析そのものの処理精度が低くなり、また処理時間も長くなるという問題がある。したがって、特許文献1に記載の技術では上記した問題は本質的には解決されない。
それゆえに本発明の目的は、自然言語処理およびそれらを用いた応用プログラムにおいて、入力文が長文であっても、簡単な処理で処理精度が高められるように入力文を短縮することができる文短縮装置を提供することである。
本発明の他の目的は、自然言語処理およびそれらを用いた応用プログラムにおいて、入力文が長文であっても、構文解析処理を用いずに入力文を短縮することができる文短縮装置を提供することである。
本発明の第1の局面に係る文短縮用知識の学習装置は、第1の文、および第1の文よりも短くかつ第1の文と同義として採用された第2の文との対からなる複数の学習用文対から、長い文を短縮するための知識を学習する文短縮用知識の学習装置であって、第1の文を構成する要素列を構成する各要素を、第2の文を構成する要素列に含まれる要素と含まれない要素とに分類しそれぞれ所定のタグを付与するための学習用タグ付与手段と、学習用タグ付与手段によりタグが付与された要素の各々に対し、予め定められた特徴量を算出し、各要素と対応する特徴量とを入力とする機械学習により、入力される特徴量に対応するタグを推定するための知識を獲得するための手段とを含む。
この知識を学習することにより、任意の文についてその要素の特徴量が与えられると、当該要素が削除可能か否かが推定され、その結果に対応するタグが得られる。このタグにより削除可能な語を入力文から削除することにより、文の短縮を図ることができる。
好ましくは、第1の文および第2の文はいずれも同じ言語の文であって、かつ文を構成する要素間に分離記号を含まない記法で電子化されており、文短縮用知識の学習装置はさらに、第1の文および第2の文をそれぞれ所定の方法にしたがって要素に分離する処理を行なって学習用タグ付与手段に与えるための手段を含む。
日本語、中国語などのように分かち書きの習慣がない場合、このように予め文を要素に分離することで、精度よく入力文の要素の削除可能性を判定できる文短縮用知識を学習することができる。
本発明の第2の局面に係る文短縮装置は、文短縮用知識を用い、入力文を短縮する文短縮装置であって、文短縮用知識は、文を構成する要素と、当該要素に対して所定の方法により算出される特徴量とが与えられると、当該要素に対応する、短縮用の所定のタグを特定するための知識であり、文短縮装置は、入力文が与えられると、当該入力文を構成する要素ごとに、所定の方法にしたがって特徴量を算出し、当該特徴量と、当該要素とに基づいて文短縮用知識により特定される短縮用のタグを当該要素に付与するための短縮用タグ付与手段と、短縮用タグ付与手段により、予め定められたタグが付与された要素のみを所定の態様で連結することにより、入力文から他のタグが付与された要素を削除して得られる短縮文を作成するための削除実行手段とを含む。
入力文が与えられると、入力文を構成する各要素について所定の方法で特徴量が算出される。当該特徴量を用いて文短縮用知識を参照することにより、各要素に対し短縮用のタグが付与される。このタグを用いて、文の各要素について削除可能か否かが判定できる。削除可能な要素を削除し、残りの要素で文を作成することで短縮された文が得られる。
好ましくは、入力文は、文を構成する要素間に分離記号を含まない形式で電子化されており、文短縮装置はさらに、入力文を短縮用タグ付与手段に与えるに先立って、所定の方法にしたがって入力文を、当該入力文を構成する要素に分離するための手段を含む。
日本語、中国語などのように分かち書きの習慣がない場合、このように予め入力文を要素に分離することで、精度よく入力文の要素の削除可能性を判定できる。
本発明の第3の局面に係る機械翻訳装置は、上記したいずれかの文短縮装置と、当該文短縮装置の出力する文を入力として機械翻訳を実行するための機械翻訳手段とを含む。
入力文を文短縮装置で短縮し、短縮された文を入力として機械翻訳を実行する。入力文が長い場合と比較して構文解析などにおいて誤りが生じたりする可能性が低くなり、精度よい翻訳ができる。また、処理時間も短縮できる。
本発明の第4の局面に係るコンピュータプログラムは、コンピュータにより実行されると、上記した第2の局面に係る文短縮装置として当該コンピュータを動作させるものである。
[第1の実施の形態]
−概要−
本実施の形態は機械翻訳システムに関し、機械翻訳の前処理として長文の入力文を短縮する文短縮装置を含むものに関する。この文短縮装置は、機械学習により得られた文短縮のための知識に基づいて文の短縮を行なう機能を持つ。
−概要−
本実施の形態は機械翻訳システムに関し、機械翻訳の前処理として長文の入力文を短縮する文短縮装置を含むものに関する。この文短縮装置は、機械学習により得られた文短縮のための知識に基づいて文の短縮を行なう機能を持つ。
より具体的には、長い文と短い文とからなり、両者がほぼ同義である文対を多数集めたデータから、削除しても文の意味を損なわない語を検出する知識を機械学習により作成する。そして、文短縮装置にこの知識を備えておき、任意の入力文に対してもこの知識に照らして削除可能な語を検出し、削除されずに残った語を用いて、入力文より短くほぼ同義の文を生成する。削除しても文の意味を損なわない語の検出は、互いに同義の長い文と短い文とを形態素解析し、得られた形態素列を比較して行なう。
なお、本明細書において文の「長さ」とは、文に含まれる形態素(単語)など、所定の文要素の数のことをいう。
−構成−
図1に、この実施の形態に係る機械翻訳システム20のブロック図を示す。図1を参照して、この機械翻訳システム20は、長い文と短い文とからなり、両者がほぼ同義である文対の多数の集まりである学習用文対集記憶部30と、学習用文対集記憶部30に記憶された学習用文対集を用いて、文から削除しても文の意味を損なわないような語を検出する削除知識を作成するための削除知識作成処理部32と、削除知識作成処理部32により作成された削除知識を記憶するための削除知識記憶部34とを含む。
図1に、この実施の形態に係る機械翻訳システム20のブロック図を示す。図1を参照して、この機械翻訳システム20は、長い文と短い文とからなり、両者がほぼ同義である文対の多数の集まりである学習用文対集記憶部30と、学習用文対集記憶部30に記憶された学習用文対集を用いて、文から削除しても文の意味を損なわないような語を検出する削除知識を作成するための削除知識作成処理部32と、削除知識作成処理部32により作成された削除知識を記憶するための削除知識記憶部34とを含む。
図2に、学習用文対集記憶部30に記憶された学習用文対70,72,…,74の構成を示す。図2を参照して、例えば学習用文対70は、「申し訳ありませんがシングルの方は満室となっております。」という長い文90と、「シングルは満室となっております。」という短い文92とを含む。長い文90と短い文92とは、ほぼ同義である。
機械翻訳システム20はさらに、任意の入力文36を受け、削除知識記憶部34に記憶された削除知識を用いて入力文36を短縮した後に機械翻訳を実行して入力文36に対する翻訳文40を出力するための機械翻訳装置38を含む。
図1に示す削除知識作成処理部32は、学習用文対集記憶部30に記憶された学習用文対集に対し、後述するような処理を実行して、削除知識記憶部34の機械学習に用いられる学習データを作成するための学習データ作成部50と、学習データ作成部50により作成された学習データを記憶するための学習データ記憶部52と、学習データ記憶部52に記憶された学習データを用いて削除知識記憶部34の機械学習を実行するための削除知識学習部54とを含む。
図3に、図1に示す学習データ作成部50のより詳細な構成を示す。図3を参照して、学習データ作成部50は、学習用文対集記憶部30に記憶された学習データの文対のうち、長い文と短い文とに対する形態素解析をそれぞれ行なうための長文形態素解析部110および短文形態素解析部114と、長文形態素解析部110および短文形態素解析部114による形態素解析の結果得られた形態素列をそれぞれ記憶するための長文形態素列記憶部112および短文形態素列記憶部116とを含む。実際には、長文形態素解析部110および短文形態素解析部114は、同じ形態素プログラムで長い文と短い文とを順に形態素解析することにより実現される。
学習データ作成部50はさらに、長文形態素列記憶部112に記憶された形態素列と短文形態素列記憶部116に記憶された形態素列との間の比較を行ない、長文形態素列記憶部112に記憶された形態素を、短文形態素列記憶部116に記憶された形態素列に存在する形態素と存在しない形態素とに分類し、存在する形態素には「削除不可」、存在しない形態素には「削除可能」をそれぞれ示すタグを付して学習データ記憶部52に格納させるためのタグ付け処理部118を含む。タグ付け処理部118は、ダイナミックプログラミング手法を用いて実現できる。
図4に、タグ付け処理部118によるタグ付け処理の原理を模式的に示す。図2に示す学習用文対70の例に即して述べると、図4に示すように、長い文90内には、短い文92には存在しない文字列130および132が存在している。すなわちこれら文字列130および132を削除して短い文92を作成しても、文の意味はほぼ同義のままと考えられる。そこで、タグ付け処理部118は、このように長い文にあって短い文にはない文字列を長文形態素列記憶部112に記憶されている形態素列の中で検出し、「削除可能」を示すタグ付けを行なう。また双方に記憶されている形態素については「削除不可」を示すタグ付けを行なう。
図5に、タグ付け処理部118によるタグ付けの結果得られる削除知識の構成を模式的に示す。図5を参照して、長い文90は、11個の形態素に分けられる。一方、短い文92は7個の形態素に分けられる。長い文90のうち、「○」で示す7個の形態素は、短い文92の中に対応するものを持つが、「×」で示す残りの4個の形態素は対応するものを持たない。そこで、本実施の形態では、長い文90の各形態素に、短い文92に対応するものを持つか否かにしたがって削除情報タグを付す。こうした操作により作成されるタグ列140と、対応する形態素列とからなるタグ付形態素列150を学習データ記憶部52に学習データとして記憶させる。
削除知識学習部54は、このようにして得られた多数のタグ付形態素列150を用いた機械学習により、任意の入力文から得られた形態素列中の形態素の各々に対し削除可能か否かが判定できるような削除知識を獲得する。
この削除知識の獲得には種々の機械学習の手法が利用可能である。本実施の形態では、最大エントロピー法に基づく学習を行なう。その際、各形態素に付随する特徴量として、タグ付けの対象となる語の周辺の単語の語表層形、語基本形、品詞などを用いる。より具体的には、対象語の直前の単語および二つ前の単語についてこうした特徴量を求め、対象語の学習に用いる。
再び図1を参照して、機械翻訳装置38は、入力文36が与えられると、削除知識記憶部34に格納された削除知識を用いて、入力文36とほぼ同義でより短縮された形の短縮文62を出力するための長文短縮部60と、長文短縮部60の出力した短縮文62に対し機械翻訳を行ない、入力文36に対する翻訳文40を出力するための機械翻訳部64とを含む。
図6に、図1に示す長文短縮部60の構成をブロック図形式で示す。図6を参照して、長文短縮部60は、入力文36に対し形態素解析を行ない、品詞および単語の原型などの付随情報を伴う形態素列を出力するための形態素解析部160と、形態素解析部160の出力する形態素列を記憶するための形態素列記憶部162と、形態素列記憶部162に記憶された入力文36の形態素列から、削除知識記憶部34を参照するための、上記した形式の特徴量を作成するための特徴量作成部164と、特徴量作成部164により作成された特徴量を用いて削除知識記憶部34を参照することにより、形態素列記憶部162に記憶された各形態素に対するタグを判定し、各形態素に付与する処理を実行するためのタグ付け処理部166と、タグ付け処理部166によりタグ付けされた形態素列記憶部162中の形態素列から、削除不可のタグが付された形態素のみを抽出し連結することにより短縮文62を作成するための削除実行部168とを含む。
図7に、タグ付け処理部166により実行される入力文36に対するタグ付け処理の結果の一例を示す。図7を参照して、入力文36から得られた形態素列180に含まれる各形態素に対し、タグ付けをすることでタグ列182が得られる。削除実行部168は、これらタグ付けされた形態素のうち、「○」(削除不可)に対応するタグが付された形態素190,192,194,196,および198のみを選択して短縮文の作成を行なう。
図8に、タグ付け処理部166によりタグ付けされた形態素列を用いて削除実行部168が短縮文62を作成する原理を模式的に示す。図8を参照して、前述したとおり削除不可のタグ付けがされた形態素190,192,194,196,および198が得られると、削除実行部168は、これら形態素を入力文36中で出現する順序にしたがって連結する。その結果、図8に示す例では「ツインは満室ですか」という短縮文62が得られることになる。
−動作−
以上説明した構成を有する機械翻訳システム20は以下のように動作する。予め学習用文対集記憶部30には、相互にほぼ同義である長い文と短い文とからなる多数の文対が記憶されているものとする。
以上説明した構成を有する機械翻訳システム20は以下のように動作する。予め学習用文対集記憶部30には、相互にほぼ同義である長い文と短い文とからなる多数の文対が記憶されているものとする。
図3に示す学習データ作成部50の長文形態素解析部110は、学習用文対集記憶部30の中のある文対のうち、長い文を形態素解析し、得られた形態素列を長文形態素列記憶部112に格納する。短文形態素解析部114は、同じ文対のうちの短い文を形態素解析し、得られた形態素列を短文形態素列記憶部116に与える。
タグ付け処理部118は、長文形態素列記憶部112に記憶された形態素列と短文形態素列記憶部116に記憶された形態素列とを比較し、長文形態素列記憶部112にある形態素のうち、短文形態素列記憶部116にない形態素に「削除可能タグ(×)」を、短文形態素列記憶部116にもある形態素に「削除不可タグ(○)」を、それぞれ付してタグ列を作成し、長文形態素列記憶部112に格納されていた形態素列とともに学習データとして学習データ記憶部52に格納させる。
学習データ作成部50は、上記した処理を学習用文対集記憶部30に含まれる全ての文対に対し実行する。この実行が完了することにより、図1に示す学習データ記憶部52には削除知識学習部54による削除知識の学習に利用可能な学習データが蓄積される。
削除知識学習部54は、学習データ記憶部52に記憶されている学習データの各々について、学習データに含まれる形態素の各々に対する特徴量を入力データ、当該形態素に付されたタグを正解データとして最大エントロピー法により削除知識記憶部34の学習を行なう。
削除知識学習部54によって削除知識が作成され、削除知識記憶部34に格納されると、機械翻訳装置38による入力文36の短縮と機械翻訳処理とが可能になる。
入力文36が与えられると、図6に示す形態素解析部160が形態素解析を実行し、入力文36に対する形態素列を作成し形態素列記憶部162に格納する。特徴量作成部164は、形態素列記憶部162に格納された形態素の各々に対する特徴量を作成しタグ付け処理部166に与える。タグ付け処理部166は、削除知識記憶部34を参照して、与えられた特徴量に対応する削除情報タグを特定し、形態素列記憶部162中の対象形態素に当該タグを付する。
削除実行部168は、特徴量作成部164とタグ付け処理部166とにより形態素列記憶部162中の全ての形態素に対しタグ付けが完了すると、その中から削除不可のタグが付された形態素を取出し、入力文36中に出現する順序にしたがってそれら形態素を連結し、形成された文を短縮文62として出力する。
このようにして得られた短縮文62は、最初に与えられた入力文36と比較して、ほぼ同義であってかつ少ない形態素からなる文、すなわち短縮された文となる。
図1を参照して、機械翻訳部64は、この短縮文62に対し機械翻訳を行ない翻訳文40を出力する。機械翻訳部64に与えられる文は入力文36と比較して短縮されているので、機械翻訳部64内で実行される構文解析処理などの処理に失敗する危険性が低くなり、機械翻訳部64による機械翻訳の精度を向上させることができる。
−実験結果−
上記した実施の形態で説明した削除知識作成処理部32および長文短縮部60による文短縮実験を行なったところ、単語誤り率mWERで約4%という高精度を達成した。また、これと機械翻訳部とを組合わせた実験では、翻訳精度を示す値として広く知られているBLEUのスコアを8%改善させることができた。
上記した実施の形態で説明した削除知識作成処理部32および長文短縮部60による文短縮実験を行なったところ、単語誤り率mWERで約4%という高精度を達成した。また、これと機械翻訳部とを組合わせた実験では、翻訳精度を示す値として広く知られているBLEUのスコアを8%改善させることができた。
[変形例]
以上説明した機械翻訳システム20では、タグ付けの学習の際に最大エントロピー法に基づく手法を用いている。しかし本発明はそのような実施の形態には限定されない。例えば、隠れマルコフモデル、決定木、SVM(サポート・ベクター・マシン)、loglinearモデル、ノイジーチャネルモデルなど、様々な手法を用いることができる。これらの手法のいずれにおいても、タグ付け学習の際にはタグ付け対象の語の周辺の情報を特徴量として用いる。特徴量としては、上記した実施の形態で用いたものを用いることができる。また、学習の際には文全体の情報が分っているので、上記した実施の形態のように対象語の前の単語だけでなく、対象語の後ろの単語を特徴量作成に用いてもよい。
以上説明した機械翻訳システム20では、タグ付けの学習の際に最大エントロピー法に基づく手法を用いている。しかし本発明はそのような実施の形態には限定されない。例えば、隠れマルコフモデル、決定木、SVM(サポート・ベクター・マシン)、loglinearモデル、ノイジーチャネルモデルなど、様々な手法を用いることができる。これらの手法のいずれにおいても、タグ付け学習の際にはタグ付け対象の語の周辺の情報を特徴量として用いる。特徴量としては、上記した実施の形態で用いたものを用いることができる。また、学習の際には文全体の情報が分っているので、上記した実施の形態のように対象語の前の単語だけでなく、対象語の後ろの単語を特徴量作成に用いてもよい。
また、上記した実施の形態では、日本語の文の短縮を例とした。しかし本発明は日本語のみに適用可能なわけではなく、コンピュータで処理可能な形式に電子化できる言語であればどのような言語に対しても適用することができる。また日本語または中国語のように、単語を分かち書きする習慣のない言語では、上記した形態素解析のように単語などの単位ごとに文を分離する処理が必要であるが、英語のように単語間に空白のような分離文字を入れる習慣がある言語の場合、単語を分離する処理は不要である。
[コンピュータによる実現]
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図9はこのコンピュータシステム330の外観を示し、図10はコンピュータシステム330の内部構成を示す。
この実施の形態のシステムは、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現される。図9はこのコンピュータシステム330の外観を示し、図10はコンピュータシステム330の内部構成を示す。
図9を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図10を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に上記した機械翻訳システム20、削除知識作成処理部32、長文短縮部60、および機械翻訳部64としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態の機械翻訳システム20、削除知識作成処理部32、長文短縮部60、および機械翻訳部64として動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した機械翻訳システム20としての動作を実行する命令のみを含んでいればよい。コンピュータシステム330の動作原理自体は周知であるので、ここでは繰返さない。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
20 機械翻訳システム
30 学習用文対集記憶部
32 削除知識作成処理部
34 削除知識記憶部
36 入力文
38 機械翻訳装置
50 学習データ作成部
52 学習データ記憶部
54 削除知識学習部
60 長文短縮部
62 短縮文
64 機械翻訳部
110 長文形態素解析部
112 長文形態素列記憶部
114 短文形態素解析部
116 短文形態素列記憶部
118,166 タグ付け処理部
160 形態素解析部
162 形態素列記憶部
164 特徴量作成部
168 削除実行部
30 学習用文対集記憶部
32 削除知識作成処理部
34 削除知識記憶部
36 入力文
38 機械翻訳装置
50 学習データ作成部
52 学習データ記憶部
54 削除知識学習部
60 長文短縮部
62 短縮文
64 機械翻訳部
110 長文形態素解析部
112 長文形態素列記憶部
114 短文形態素解析部
116 短文形態素列記憶部
118,166 タグ付け処理部
160 形態素解析部
162 形態素列記憶部
164 特徴量作成部
168 削除実行部
Claims (6)
- 第1の文、および前記第1の文よりも短くかつ前記第1の文と同義として採用された第2の文との対からなる複数の学習用文対から、長い文を短縮するための知識を学習する文短縮用知識の学習装置であって、
前記第1の文を構成する各要素を、前記第2の文を構成する要素列に含まれる要素と含まれない要素とに分類しそれぞれ所定のタグを付与するための学習用タグ付与手段と、
前記学習用タグ付与手段によりタグが付与された要素の各々に対し、予め定められた特徴量を算出し、各要素と対応する特徴量とを入力とする機械学習により、入力される特徴量に対応するタグを推定するための知識を獲得するための手段とを含む、文短縮用知識の学習装置。 - 前記第1の文および前記第2の文はいずれも同じ言語の文であって、かつ文を構成する要素間に分離記号を含まない記法で電子化されており、
前記文短縮用知識の学習装置はさらに、前記第1の文および前記第2の文をそれぞれ所定の方法にしたがって要素に分離する処理を行なって前記学習用タグ付与手段に与えるための手段を含む、請求項1に記載の文短縮用知識の学習装置。 - 文短縮用知識を用い、入力文を短縮する文短縮装置であって、前記文短縮用知識は、文を構成する要素と、当該要素に対して所定の方法により算出される特徴量とが与えられると、当該要素に対応する、短縮用の所定のタグを特定するための知識であり、
前記文短縮装置は、
入力文が与えられると、当該入力文を構成する要素ごとに、前記所定の方法にしたがって特徴量を算出し、当該特徴量と、当該要素とに基づいて前記文短縮用知識により特定される短縮用のタグを当該要素に付与するための短縮用タグ付与手段と、
前記短縮用タグ付与手段により、予め定められたタグが付与された要素のみを所定の態様で連結することにより、前記入力文から他のタグが付与された要素を削除して得られる短縮文を作成するための削除実行手段とを含む、文短縮装置。 - 前記入力文は、文を構成する要素間に分離記号を含まない形式で電子化されており、
前記文短縮装置はさらに、前記入力文を前記短縮用タグ付与手段に与えるに先立って、所定の方法にしたがって、前記入力文を、当該入力文を構成する要素に分離するための手段を含む、請求項3に記載の文短縮装置。 - 請求項3または請求項4に記載の文短縮装置と、
当該文短縮装置の出力する文を入力として機械翻訳を実行するための機械翻訳手段とを含む、機械翻訳装置。 - コンピュータにより実行されると、請求項3または請求項4に記載の文短縮装置として当該コンピュータを動作させる、文短縮のためのコンピュータプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004310314A JP2006126886A (ja) | 2004-10-26 | 2004-10-26 | 文短縮用知識の学習装置、文短縮装置、機械翻訳装置および文短縮のためのコンピュータプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004310314A JP2006126886A (ja) | 2004-10-26 | 2004-10-26 | 文短縮用知識の学習装置、文短縮装置、機械翻訳装置および文短縮のためのコンピュータプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006126886A true JP2006126886A (ja) | 2006-05-18 |
Family
ID=36721617
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004310314A Withdrawn JP2006126886A (ja) | 2004-10-26 | 2004-10-26 | 文短縮用知識の学習装置、文短縮装置、機械翻訳装置および文短縮のためのコンピュータプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006126886A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011070440A (ja) * | 2009-09-25 | 2011-04-07 | Baidu Japan Inc | 情報処理装置、情報処理方法およびプログラム |
CN110634172A (zh) * | 2018-06-25 | 2019-12-31 | 微软技术许可有限责任公司 | 生成用于演示的幻灯片 |
JP2020035272A (ja) * | 2018-08-31 | 2020-03-05 | 株式会社日立ソリューションズ東日本 | 要約生成装置および要約生成方法 |
JP2021111288A (ja) * | 2020-01-15 | 2021-08-02 | キヤノンメディカルシステムズ株式会社 | 医用情報処理装置及び医用情報処理システム |
-
2004
- 2004-10-26 JP JP2004310314A patent/JP2006126886A/ja not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011070440A (ja) * | 2009-09-25 | 2011-04-07 | Baidu Japan Inc | 情報処理装置、情報処理方法およびプログラム |
CN110634172A (zh) * | 2018-06-25 | 2019-12-31 | 微软技术许可有限责任公司 | 生成用于演示的幻灯片 |
JP2020035272A (ja) * | 2018-08-31 | 2020-03-05 | 株式会社日立ソリューションズ東日本 | 要約生成装置および要約生成方法 |
JP7288293B2 (ja) | 2018-08-31 | 2023-06-07 | 株式会社日立ソリューションズ東日本 | 要約生成装置および要約生成方法 |
JP2021111288A (ja) * | 2020-01-15 | 2021-08-02 | キヤノンメディカルシステムズ株式会社 | 医用情報処理装置及び医用情報処理システム |
JP7510760B2 (ja) | 2020-01-15 | 2024-07-04 | キヤノンメディカルシステムズ株式会社 | 医用情報処理装置及び医用情報処理システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3919771B2 (ja) | 機械翻訳システム、その制御装置、及びコンピュータプログラム | |
JP2018190188A (ja) | 要約生成装置、要約生成方法及びコンピュータプログラム | |
JP5071373B2 (ja) | 言語処理装置、言語処理方法および言語処理用プログラム | |
JP5540335B2 (ja) | 自然言語文生成装置及びコンピュータプログラム | |
JP2006031228A (ja) | 形態素解析装置、方法及びプログラム | |
JP2005108184A6 (ja) | 機械翻訳システム、その制御装置、及びコンピュータプログラム | |
JP2017199363A (ja) | 機械翻訳装置及び機械翻訳のためのコンピュータプログラム | |
JP2009015512A (ja) | 機械翻訳を行う装置、方法およびプログラム | |
KR101709693B1 (ko) | 크라우드 소싱을 이용한 웹툰 언어 자동 번역 방법 | |
JP5564705B2 (ja) | 文構造解析装置、文構造解析方法および文構造解析プログラム | |
JP2010134922A (ja) | 類似語決定方法およびシステム | |
JP5342760B2 (ja) | 訳語学習のためのデータを作成する装置、方法、およびプログラム | |
KR20120045906A (ko) | 코퍼스 오류 교정 장치 및 그 방법 | |
JP2008021139A (ja) | 意味タグ付け用モデル構築装置、意味タグ付け装置及びコンピュータプログラム | |
JP6772394B1 (ja) | 情報学習装置、情報処理装置、情報学習方法、情報処理方法及びプログラム | |
JP2006126886A (ja) | 文短縮用知識の学習装置、文短縮装置、機械翻訳装置および文短縮のためのコンピュータプログラム | |
KR102661819B1 (ko) | 시간적 관계정보의 컨텍스트 이해를 위한 오픈 도메인 정보 활용 방법 | |
US12210844B2 (en) | Generation apparatus, generation method and program | |
JP2008305291A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP2017041207A (ja) | 構造解析装置、方法、及びプログラム | |
JP2008123403A (ja) | 係り受け解析装置及びそのプログラム | |
JP2007233823A (ja) | 自動要約装置及びコンピュータプログラム | |
JP7483085B1 (ja) | 情報処理システム、情報処理装置、情報処理方法、およびプログラム | |
JP5160120B2 (ja) | 情報検索装置、情報検索方法及び情報検索プログラム | |
JP6267971B2 (ja) | ソースコード解析支援装置、ソースコード解析支援方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070920 |
|
A761 | Written withdrawal of application |
Free format text: JAPANESE INTERMEDIATE CODE: A761 Effective date: 20091221 |