JP6409071B2

JP6409071B2 - 文の並び替え方法および計算機

Info

Publication number: JP6409071B2
Application number: JP2016556108A
Authority: JP
Inventors: 利彦柳瀬; 利昇三好; 孝介柳井; 佐藤　美沙; 美沙佐藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2014-10-29
Filing date: 2014-10-29
Publication date: 2018-10-17
Anticipated expiration: 2034-10-29
Also published as: JPWO2016067396A1; WO2016067396A1

Description

本発明は、複数の文を並び替える文の並び替え方法および計算機に関する。

近年、大量のテキストデータを分析することで有用な知見を発見する情報サービスが実用化されている。たとえば、商品レビュー記事やソーシャルネットワークのテキストを用いて、商品の評判を自動的に推定する取り組みや、ニュース記事を分析することで要点のみを特定し、自動的に文書を要約する取り組みが行われている。これらの取り組みが行われた理由としては、たとえば、インターネットを通じて、大量のテキストデータにアクセスできるようになったこと、全文検索やデータベースなど大量情報に対する情報アクセス技術が普及したこと、さらに、機械学習やパターン認識の技術を応用した分析の自動化・半自動化が進展したことが挙げられる。

たとえば、評判分析の場合には、肯定表現、否定表現が辞書として整備される。当該辞書を用いて、過去、人間が商品の肯定・否定を評価した結果から肯定・否定の判定パターンを機械学習手法により計算機に学習させることで、自動的な評判分析が実現されている。

こうしたテキスト分析では、分析結果をユーザが解釈して初めて有用な行動につながる。解釈の際には、分析結果だけでなく、判断の理由や根拠、判断に沿った事例などの付加情報があれば、ユーザの解釈を助けることができる。たとえば、評判分析では『商品Ａは７０％のユーザに肯定的に受け止められている。』という結果だけでなく、実際に肯定的に判断したユーザの意見が列挙された方が、どのような観点で評価されたのかが分かり、商品の改善に生かしやすい。

この技術分野の背景技術として、特許文献１には、テキストからユーザの感情を分析して、その代表意見を列挙する方法が開示されている。

また、複数の文を列挙するだけでなく、意味の通る順に並べるという取り組みとしては、文書自動要約が挙げられる。文書自動要約には、単一のニュース記事を短い文字数に短縮する単一文書要約のほか、複数のニュース記事を、一つの短い文書として要約する複数文書要約がある。文書自動要約の観点としては、元のニュース記事の内容をできるだけ網羅するように要約するタスクや、クエリ指向要約として、与えられたクエリに関係する文を重点的に特定して要約を生成するタスクがある。

文書自動要約で重要になるのは、話題の一貫性である。このための取り組みとして、ＬｅｘｉｃａｌＣｈａｉｎやトピックモデルの活用が行われている．たとえば、ＬｅｘｉｃａｌＣｈａｉｎは、ＷｏｒｄＮｅｔを使って語と語の類似性を求め、類似した語を鎖のようにつなぐモデルである。類似した意味の語が用いられるという過程に基づいて、ＬｅｘｉｃａｌＣｈａｉｎでつながっている語が含まれる文が優先して並べられる。

特開２０１２−２５６２８２号公報

自動的なテキスト分析の結果に加えて、その判断の理由となる文、その判断の具体的な事例となっている文を集め、内容に一貫性のある順序でユーザに提示することができれば、分析後のデータの解釈がより容易になり、また、解釈の信頼性も向上する。そのためには、複数の文書から得られた複数の文を、適切に並び変えることが必要になる。

その際に、文と文の間で、話題の転換を考慮に入れないで全ての文を並べることは難しい。現実では、一つの主張をする際でも関連する事柄を説明する、アナロジーを使うなどで話題の転換がみられる。ＬｅｘｉｃａｌＣｈａｉｎのような語義的な類似性だけのつながりでは、話題の転換をモデル化することが十分にできないため、文の並び替えの失敗の原因になる。

そのため、語義的な関係やトピックによる話題の類似性、話題が転換することを前提に、内容のつながりを考える必要がある。また、システムの実用面を考えると、幅広いテーマに関して話題を網羅することも求められる。

このように、上述した従来技術では、関連する別の話題への話の転換を含めて、一貫した主張を構築することが困難であるという問題がある。また、ユーザから指定される任意のテーマに対して、網羅的に、また、適切な抽象度で文を選択して、文を並び替えることが困難であるという問題がある。

本発明は、論理に一貫性のある出力文を生成することを目的とする。

本願において開示される発明の一側面となる文の並び替え方法および計算機は、プログラムを実行するプロセッサと、前記プログラムを記憶するメモリと、を有し、文の集合と、文の種類を特定する複数の文種と当該複数の文種の並び順序とを規定したテンプレートと、語句に関するルールまたは学習モデルと、を記憶する記憶装置にアクセス可能であり、前記プロセッサは、任意のテーマ文を構成する語句または当該語句に関連する語句であるテーマ表現を規定する単語に関するルールまたは学習モデルに基づいて、前記文の集合内の複数の文の各文から、前記テーマ表現を特定するテーマ表現特定処理と、前記テーマ表現と前記文種との関連性に関するルールまたは学習モデルに基づいて、前記テーマ表現特定処理によって特定されたテーマ表現を含む文ごとに文種を判定する文種判定処理と、前記文種判定処理によって文種が判定された前記複数の文の中から、前記テンプレートに規定された前記複数の文種に該当する文の集合を選択し、当該選択した前記文の集合を前記並び順序にしたがって並び替える並び替え処理と、前記並び替え処理による並び替え後の文の集合を出力する出力処理と、を実行することを特徴とする。

本発明の代表的な実施の形態によれば、論理に一貫性のある出力文を生成することができる。前述した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

知能処理システムの一例を示す説明図である。図１に示した文抽出部および文並び替え部の具体例を示す説明図である。文書処理システムのシステム構成例を示す説明図である。図３に示した計算機のハードウェア構成例を示すブロック図である。図４に示した文書ＤＢの記憶内容例を示す説明図である。文集合の記憶内容例を示す説明図である。文書処理システムの機能的構成例を示すブロック図である。争点オントロジ情報のデータ構造例を示す説明図である。文分析結果の例１を示す説明図である。文分析結果の例２を示す説明図である。テンプレートのデータ構造例を示す説明図である。争点連鎖モデルのデータ構造例を示す説明図である。争点の連鎖状況を示す説明図である。争点連鎖モデルの利用例を示す説明図である。出力部からの出力情報の一例を示す説明図である。生成部の詳細な機能的構成例を示すブロック図である。文書処理システムの計算機による並び替え処理手順例を示すフローチャートである。

＜用語の説明＞
まず、本実施例で用いられる用語について説明する。「テーマ文（または、単に、テーマ）」とは、創作や議論の中心課題、主題または論題を意味する。ディベートなどでは、一例として『消費税は増税すべきである。』といった論題がテーマとして与えられる。

「テーマ表現」とは、本実施例の文書処理システムを利用するユーザが行いたい調査の調査観点を表す語句及びその関連語句である。ユーザが行いたい調査は、テーマとして文書処理システムに与えられる。たとえば、テーマが『消費税は増税すべきである。』の場合、「消費税」や「増税」がテーマ表現である。また、テーマ表現の関連語である「税金」、「付加価値税」、「ＶＡＴ（ＶａｌｕｅＡｄｄｅｄＴａｘ）」などもテーマ表現として扱われる。

「争点」とは、過去の文書での議論の対象や、観点、焦点であり、「争点表現」とは、争点の具体的な例を示す語句である。たとえば、争点が「ニュース」である場合、「経済」、「景気」、「製品」、「税制」、「内政」、「外交」などが争点表現となる。ただし、これらの語は意味の幅が広すぎるため、その下位概念の語句も争点表現としてもよい。たとえば、「税制」の場合、「国税」、「地方税」、「直接税」、「間接税」、「所得税」「住民税」などの下位概念も、争点表現となる。争点および争点表現は、後述する争点オントロジ情報７０１（図８を参照）により定義される。

「肯定・否定表現」とは、争点について肯定的または否定的な語句である。一般的な評判分析、感情分析と同様、肯定・否定表現は、争点との関係で規定される。たとえば、『ジャンクフードは健康に悪い。』という文の場合、「健康」が争点であり、「悪い」が争点を否定する否定表現となる。

促進・抑制表現は、テーマ表現を促進または抑制する表現である。促進・抑制表現は、テーマ表現と述語の組で規定される。具体的には、促進表現の場合では、あるテーマ表現と、そのテーマ表現を促進する述語の組であり、抑制表現の場合は、テーマ表現と抑制を表現する述語の組である。たとえば、『適度な運動は健康に良い。』という文の場合、テーマ表現である「適度な運動」が「健康」を促進するという関係である。また『運賃の値上げによって、乗客数は減少した。』という文の場合、テーマ表現である「運賃の値上げ」が「乗客数」を抑制したという関係になる。

なお、テーマ、テーマ表現、争点、争点表現、肯定・否定表現、および促進・抑制表現は、文書処理システムにおいて、辞書テーブルによりあらかじめ規定しておいてもよい。また、文書処理システムは、機械学習により生成した学習モデルを適用して、テーマ、テーマ表現、争点、争点表現、肯定・否定表現、および促進・抑制表現を特定することとしてもよい。

＜語句の特定例＞
つぎに、本実施例における上述した語句の特定例について説明する。語句の特定方法としては、たとえば、ルールに基づく方法と機械学習に基づく方法の２種類がある。ルールに基づく方法は、特定方法を決定的なルールとして表現した方法であり、たとえば、語句を格納した辞書テーブルである。したがって、入力文と一致する語句が辞書テーブルにある場合、当該語句が入力文から特定される。入力文中の特定語句には、該当するアノテーションが付与される。

また、機械学習に基づく方法は、過去の事例を数値ベクトルに変換することで学習モデルを生成しておき、過去の事例の学習と同様の方法で、入力文を数値ベクトルに変換して学習モデルを適用し、入力文のうち学習モデルにより特定された語句には、該当するアノテーションが付与される。

ここで、機械学習に基づく方法について具体的に説明する。機械学習に基づく方法としては、系列ラベリング問題としてＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ（ＳＶＭ）や条件付き確率場（ＣｏｎｄｉｔｉｏｎａｌＲａｎｄｏｍＦｉｅｌｄ，ＣＲＦ）を用いることができる。系列ラベリング問題とは、固有表現特定や形態素解析などで用いられる機械学習の問題の定式化の一種である。具体的には、ノードの系列として与えられるデータに対して、各ノードに対応するタグを付与する問題（系列ラベリング問題）である。文へのアノテーションの場合、形態素や文字をノードとする場合が多い。

ここで、系列ラベリング問題では、人手で付与した訓練文書から学習モデルを生成する学習フェーズと、生成した学習モデル用いて未知のデータにタグを付与する適用フェーズの二つがある。

まず、学習フェーズについて説明する。学習フェーズでは、計算機は、訓練文書として人手によりある特徴（たとえば、テーマ、テーマ表現、争点、争点表現、肯定・否定表現、および促進・抑制表現）を特定し、特定した特徴を示すアノテーションを付与した訓練文書を作成する。以下では、特徴の一例として争点を挙げる。

次に、計算機は、訓練文書内の文の文字列を数値ベクトルの系列に変換する。具体的には、計算機は、まず、訓練文書内の文に対して形態素解析し、各形態素を系列のノードとする。次に、計算機は、各形態素の表層文字列や品詞などをリストアップする。そして、訓練文書中に表層文字列が合計Ｖｓ種類、品詞の種類が合計Ｖｐ種類あったとする。計算機は、これらの各表層文字列と各品詞を順に辞書のキーとして辞書テーブルに追加し、その値として辞書テーブルへの登録順に自然数を一つずつ重複のないように割り当てる。

計算機は、この辞書テーブルを用いて、各ノードの表層文字列と品詞を数値に変換する。すると、各ノードは、表層文字列と品詞に相当する次元を１として、それ以外の次元を０とする数値ベクトルとして表現できる。この数値ベクトルに対して、争点であるかどうかを表すタグを組にする。ノードが争点に該当すれば、ｉｓｓｕｅタグが、争点に該当しなければＯ（ｏｔｈｅｒ）タグが付与される。

また、別のタグの与え方としては、複合語の争点を仮定したとき、争点の開始位置であるノードにＢ−ｉｓｓｕｅを、中間位置であるノードにＩ−ｉｓｓｕｅというように、ｉｓｓｕｅタグを区別する方法もある。この変種としては、さらに終了位置をＥ−ｉｓｓｕｅ、単一ノードの争点をＵ−ｉｓｓｕｅとして区別する方法もある。計算機は、この数値ベクトル列とタグの組を、ＳＶＭやＣＲＦに入力し、学習モデルを生成する。

入力文に学習モデルを適用する場合は、計算機は、訓練文書内の文と同様の方法で入力文を数値ベクトル列に変換して学習モデルを適用し、入力文の該当語句にアノテーションを付与する。

このように、以下の実施例で語句を特定する場合、ルールに基づく方法と機械学習に基づく方法のいずれかが適用される。なお、上述した機械学習では、争点を例に挙げて説明したため、タグの表記は「ｉｓｓｕｅ」としたが、他の特徴の場合はその特徴に応じたタグ表記となる。たとえば、テーマ表現のタグはｔｈｅｍｅタグ、肯定表現の場合はｐｏｓｉｔｉｖｅタグ、否定表現の場合はｎｅｇａｔｉｖｅタグ、促進表現の場合はｐｒｏｍｏｔｅタグ、抑制表現の場合はｓｕｐｐｒｅｓｓタグとなる。

＜知能処理システムの一例＞
図１は、知能処理システムの一例を示す説明図である。知能処理システム１は、生成システム１００と、データ管理システム１０１と、を有する。知能処理システム１では、生成システム１００がデータ管理システム１０１と連携することで知能処理を実行する。

まず、本発明の知能処理システム１の全体像について説明する。本発明の知能処理システム１は、９つのモジュールが結合された生成システム１００と、データ管理システム１０１と、からなる。

生成システム１００は、議題が入力されると、その議題に対する意見を述べた論述文を出力する。データ管理システム１０１には、あらかじめデータ処理されたデータが保存され、生成システム１００からアクセス可能になっている。以下では、まず生成システム１００を説明してから、データ管理システム１０１を説明する。

生成システム１００では、９つのモジュール１０２〜１１０を順に実行する。これらのモジュール１０２〜１１０は、それぞれ独立したアルゴリズムにより構成されている。

生成システム１００は、まず入力部１０２で、ユーザから議題の入力を受け取付ける。生成システム１００は、さらに、議題に対して肯定的な意見を生成したいか、否定的な意見を生成したいかについての入力を受け付けても良い。このように、生成する文章の立場を明確にすることで、知能処理システム１をディベートのような議論の場で用いることも可能になる。

生成システム１００は、次に議題解析部１０３で、議題を解析し、議題の極性と検索に用いるキーワードを判定する。続いて、検索部１０４で、キーワードと、ディベートにおける争点を示す争点語とを用いて記事を検索する。例えば、議題が「カジノを禁止すべき」というものだった場合、キーワードとしては名詞句である「カジノ」があげられる。さらに、生成システム１００は、極性を判定することで、「カジノ」に対して肯定的な争点語を用いるべきか、否定的な争点語を用いるべきかを決定することができる。ここでいう争点語とは、たとえば、議論における論点となる価値観をあらわした単語をいう。また、ここでいう「促進語」とは、「争点を促進する事象」を言う。一方、ここでいう「抑制語」とは、「争点を抑制する事象」を言う。

生成システム１００は、上記の議題に対し、肯定的な意見を出力したい場合には、検索部１０４で、キーワードとして「カジノ」を、争点語としてはカジノを抑制する「抑制語」を選択して検索を行う。ここでは、議題が「カジノ」に対して否定的であるため、争点語としては「抑制語」を用いる処理としている。検索においては、「カジノ」のような争点語とキーワードとを合わせ検索することにより、「カジノ」に対する是否を述べている記事を検索することができる。議題から抽出したキーワードのみでは、例えば「カジノ」についての宣伝記事や、「カジノ」に行った感想のみを述べているブログ記事のように、ディベートにおいて考慮する必要のない記事等も多く検索結果に含まれてしまい、適切に検索することができない。

生成システム１００は、続いて、争点決定部１０５で、出力された記事を分類し、意見を生成する際に用いる争点を決定する。生成システム１００は、続いて、文抽出部１０６で、出力した記事から争点について述べている文を抽出する。生成システム１００は、続いて、文並び替え部１０７で、抽出された文を並び替えることにより文章を生成する。生成システム１００は、続いて、評価部１０８で、生成された文を評価する。生成システム１００は、続いて、言い換え部１０９で、適切な接続詞を挿入し、不要な表現を削除する。生成システム１００は、続いて、出力部１１０で、最も評価の高い文章を、意見を述べた論述文として出力する。

データ管理システム１０１は、インターフェース／構造化部１１１と４つのデータベース（Ｄａｔａｂａｓｅ、ＤＢ）１１２〜１１５とから構成される。

インターフェース／構造化部１１１は、ＤＢ１１２〜１１５に管理されているデータに対するアクセス手段を提供する。インターフェース／構造化部１１１は、テキストデータＤＢ１１２、テキストアノテーションデータＤＢ１１３、検索用インデックスＤＢ１１４、争点オントロジＤＢ１１５へのアクセス手段を提供するインターフェースであり、ＲＥＳＴなどの技術で実装される。

テキストデータＤＢ１１２は、ニュース記事などのテキストデータである。テキストアノテーションデータＤＢ１１３は、テキストデータＤＢ１１２に付与されたデータである。検索用インデックスＤＢ１１４は、テキストデータＤＢ１１２とアノテーションデータＤＢ１１３を検索可能にするためのインデックスである。争点オントロジＤＢ１１５は、ディベートでよく議論になる争点と、その関連語を紐づけたデータベースである。また、争点オントロジＤＢ１１５は、争点オントロジ情報７０１（図８を参照）を含む。

以下ではまず次に、データ管理システム１０１を説明した後、生成システム１００の各部を説明する。

テキストデータＤＢ１１２に蓄積されているデータは、ニュース記事などのテキストデータである。生成システム１００は、このテキストデータの中から意見文を構成するために適切なセンテンスを抜き出し、抜き出したセンテンスを並べることで論述文を生成する。従ってテキストデータＤＢ１１２は、出力される論述文を構成するセンテンスのデータソースとなる。英語と日本語のニュース記事をインターネットからクローリングすることにより、テキストデータＤＢ１１２が構築される。それぞれのデータには、例えばユニークな識別子としてｄｏｃ＿ｉｄを振って管理される。

テキストアノテーションデータＤＢ１１３は、テキストデータＤＢ１１２に付与されたデータを蓄積したＤＢである。テキストアノテーションデータＤＢ１１３は、上述したｐｏｓｉｔｉｖｅ、ｎｅｇａｔｉｖｅやｐｒｏｍｏｔｅ、ｓｕｐｐｒｅｓｓのようなアノテーションを格納する。

検索用インデックスＤＢ１１４は、テキストデータＤＢ１１２およびテキストアノテーションデータＤＢ１１３を検索できるようにするためのインデックスデータである。キーワード検索用のインデックスデータとしては、類似検索用に各テキストデータの特徴的な語の統計量（例えばＴＦ−ＩＤＦによる計算結果）のベクトル値を、類似検索用のインデックスとして格納しておく。あるいは、Ｓｏｌｒなどのソフトウェアを使い、Ｓｏｌｒのインデックス生成用ＡＰＩに、テキストデータ１１２やテキストアノテーションデータ１１３を渡す入力をすることで、自動的に検索用インデックス１１４を生成することもできる。

また、類似検索用に各テキストデータの特徴的な語の統計量を表すＴＦ−ＩＤＦによる計算結果のベクトル値を、類似検索用のインデックスとして格納してもよい。

争点オントロジＤＢ１１５は、ディベートでよく議論になる争点と、その関連語を紐づけたデータベースである。ここでの争点オントロジの例として、ディベートでよく議論になる争点の価値と、その価値を促進する表現と、その価値を抑制する表現と、が関連付けられる。例えば、争点の価値例としてｈｅａｌｔｈがある。これは時折、ディベートでは健康という価値が増すか減るかの観点で争点として意見を戦わせることを意味する。ここでは、たとえば、ｈｅａｌｔｈの価値を促進する表現として、ｅｘｅｒｃｉｓｅ、ｄｏｃｔｏｒ、ｏｒｇａｎｄｏｎａｔｉｏｎ、ｍｅｄｉｃｉｎｅなどがある。またｈｅａｌｔｈの価値を抑制する表現として、ｊｕｎｋｆｏｏｄ、ｔａｂａｃｃｏ、ａｌｃｈｏｈｏｌ、ｓｍｏｋｉｎｇなどがある。争点オントロジは、たとえば、過去のディベートなどを参考に、人手で作成される。争点オントロジＤＢ１１５は、このほか、争点オントロジ情報７０１（図８を参照）を保持する。

＜文抽出部１０６および文並び替え部１０７の具体例＞
図２は、図１に示した文抽出部１０６および文並び替え部１０７の具体例を示す説明図である。文抽出部１０６は、検索部１０４で検索された関連記事であるテキストデータ１３ａ〜１３ｄから、争点決定部１０５で認識された争点に関わる文２００ａ〜２００ｄを特定する。文２００ａ〜２００ｄにおいて、「健康」、「課税」など下線で示した語句は争点決定部１０５で認識された争点であり、「ジャンクフード」など太字で示した語句はテーマ表現である。

文並び替え部１０７は、文抽出部１０６で特定された複数の文２００ａ〜２００ｄを並び替えることにより、論述文２０１を生成する。文並び替え部１０７は、文２００ａ〜２００ｄの文種（主張、理由、事例）を特定する。本例では、文２００ａが事例、文２００ｂが文種なし、文２００ｃが主張、文２００ｄが理由と特定されたものとする。主張→理由→事例の順序で並び替えると一貫性のある文章となるため、文並び替え部１０７は、文２００ａ〜２００ｄの文種が主張→理由→事例の順序となるように並べ替えて、論述文２０１を生成する。

これにより、生成システム１００は、内容に一貫性のある順序で論述文２０１をユーザに提示することができ、その後のデータの解釈がより容易になり、また、解釈の信頼性の向上も図ることができる。

＜システム構成例＞
図３は、文書処理システムのシステム構成例を示す説明図である。文書処理システム３００は、図１に示した知能処理システム１の一部を構成するシステムである。文書処理システム３００は、１台以上の計算機３０１と端末１４とを有する。計算機３０１と端末１４とは、不図示のネットワークによって接続される。ネットワークは、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）またはＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどである。また、計算機３０１は、文書ＤＢ３０２にアクセス可能である。文書ＤＢ３０２は、図１に示したテキストデータＤＢ１１２に相当する。計算機３０１は、文書ＤＢ３０２内の複数の文を分類して複数の文集合３０３−１〜３０３−ｎにまとめる。端末１４は、いずれかの文集合３０３−ｉを選択して、計算機３０１に与える。

＜計算機３０１のハードウェア構成例＞
図４は、図３に示した計算機３０１のハードウェア構成例を示すブロック図である。計算機３０１は、プロセッサ４１０とメモリ４２０とローカルファイルシステム４３０と入力装置４４０と出力装置４５０とネットワークデバイス４６０とバス４７０を有する。プロセッサ４１０〜ネットワークデバイス４６０は、バス４７０によって接続される。また、ローカルファイルシステム４３０とは、計算機３０１に内蔵ないし外部に接続された書き換え可能な記憶領域を指し、具体的にはハードディスクドライブ（ＨＤＤ）やソリッドステートドライブ（ＳＳＤ）、ＲＡＭディスクなどの記憶装置である。

入力装置４４０は、キーボード及びマウス、ないしは音声入力装置など、ユーザからの入力を受け付けるインターフェースである。出力装置４５０は、ディスプレイ装置及びプリンタないしは音声合成装置などのプログラムの実行結果をユーザが読んだり、聞いたりできる形で出力するインターフェースである。ネットワークを介してリモートから操作する場合、入力装置４４０と出力装置４５０は省略可能である。

図５は、図４に示した文書ＤＢ３０２の記憶内容例を示す説明図である。文書ＤＢ３０２は、文書を文に分割して記憶するデータベースである。文書は、例えば、図１に示したテキストデータ１３である。文書ＤＢ３０２は、文書ＩＤフィールド５０１と、文ＩＤフィールド５０２と、本文フィールド５０３と、を有し、文ごとに、各フィールド５０１〜５０３の値を有する。

文書ＩＤフィールド５０１は、値として文書ＩＤを格納する領域である。文書ＩＤとは、文書を一意に特定する識別情報である。本例では、新聞名と日付と紙面番号を連結した文字列を文書ＩＤとする。

文ＩＤフィールド５０２は、文ＩＤを格納する領域である。文ＩＤとは、文書ＩＤで特定される文書中の文の位置を一意に特定する識別情報である。本例では、文書の先頭位置からの出現順を文ＩＤとする。

本文フィールド５０３は、文ＩＤで特定される位置に存在する文を格納する領域である。文書ＤＢ３０２は、文書ＩＤおよび文ＩＤを指定されることで、対応する文を読み出す。なお、文書ＩＤのみが指定され、文ＩＤが指定されなかった場合、同じ文書ＩＤを持つ全ての文が読み出される。また、このような文または文書の取得方法が実現可能であれば、他のデータ構造で文書が保存されてもよい。

図６は、文集合３０３−ｉの記憶内容例を示す説明図である。文集合３０３−ｉも、文書ＤＢ３０２と同様、文書ＩＤフィールド５０１と、文ＩＤフィールド５０２と、本文フィールド５０３と、を有し、文ごとに、各フィールド５０１〜５０３の値を有する。

＜文書処理システム３００の機能的構成例＞
図７は、文書処理システム３００の機能的構成例を示すブロック図である。計算機３０１は、入力部７１０と、検索部７１１と、分類部７１２と、を有する。また、計算機３０１は、取得部７２０と、分析部７２１と、文種判定部７２２と、テンプレート選択部７２３と、並び替え処理部７２４と、算出部７２５と、妥当性判定部７２６と、出力部７２７と、生成部７２８と、を有する。これらは、具体的には、たとえば、メモリ４２０に記憶されたプログラムをプロセッサ４１０に実行させることでその機能を実現する。また、計算機３０１は、争点オントロジ情報７０１と、テンプレートＤＢ７０２と、争点連鎖モデル７０３と、訓練文書ＤＢ７０４と、を格納する。これらは、具体的には、たとえば、ＫＶＳ（ＫｅｙＶａｌｕｅＳｔｏｒｅ）やリレーショナルデータベース、または図４に示したローカルファイルシステム４３０により実現する。

（事前処理）
まず、事前処理について説明する。事前処理とは、文書ＤＢ３０２内の文書に存在する文を複数の文集合３０３−１〜３０３−ｎに分類しておく処理である。事前処理は、具体的には、たとえば、図１に示した入力部１０２、議題解析部１０３および検索部１０４に相当する。入力部１０２、議題解析部１０３および検索部１０４は、データ管理システム１０１と連携して実行される。事前処理では、入力部７１０と、検索部７１１と、分類部７１２と、が用いられる。

入力部７１０は、端末１４からテーマ表現となる単語の入力を受け付ける。たとえば、入力部７１０は、「ジャンクフード」といったテーマ表現を示す単語の入力を受け付ける。

検索部７１１は、入力部７１０からのクエリの入力を受け付ける。クエリは、たとえば、上述した「ジャンクフード」などのテーマ表現である。検索部７１１は、文書ＤＢ３０２からクエリに関連する文を検索する。クエリに関連する文とは、クエリであるテーマ表現の文字列を含む文である。

分類部７１２は、検索結果であるさまざまな話題や文脈を含む文を、似た話題の文としてまとめなおす。これにより、話題に対応する文集合３０３−ｉが生成される。検索結果の話題が複数あった場合には、話題の数ｎ分の文集合３０３−１〜３０３−ｎが得られる。

分類部７１２は、たとえば、機械学習を用いて文を分類する。機械学習の例としては、Ｂａｇ−ｏｆ−ｗｏｒｄｓ表現を用いたｋ−ｍｅａｎｓ法がある。Ｂａｇ−ｏｆ−ｗｏｒｄｓ表現とは、テキストに単語がいくつ含まれるか、という情報だけでテキストを数値的に表現する方法である。Ｂａｇ−ｏｆ−ｗｏｒｄｓ表現では、辞書の語彙数だけの次元をもつベクトルが生成される。各次元には対応する単語の出現頻度が記録される。

ｋ−ｍｅａｎｓ法は、ｂａｇ−ｏｆ−ｗｏｒｄｓの数値ベクトルを用いてテキスト間の類似性を比較することで、あらかじめ決められた個数のクラスタにテキストをクラスタリングする。また、別の機械学習の例としては、潜在意味解析や確率的潜在意味解析、潜在的ディリクレ配分法などのトピックモデルと呼ばれる方法によっても文を分類することができる。

（並び替え処理）
つぎに、並び替え処理について説明する。並び替え処理とは、複数の文を並び替えることにより、一貫性のある論述文として出力する処理である。並び替え処理は、具体的には、たとえば、図１に示した争点決定部１０５〜文並び替え部１０７に相当する。争点決定部１０５〜１０７は、データ管理システム１０１と連携して実行される。並び替え処理では、取得部７２０と、分析部７２１と、文種判定部７２２と、テンプレート選択部７２３と、並び替え処理部７２４と、算出部７２５と、妥当性判定部７２６と、出力部７２７と、生成部７２８と、争点オントロジ情報７０１と、テンプレートＤＢ７０２と、争点連鎖モデル７０３と、訓練文書ＤＢ７０４と、が用いられる。

取得部７２０は、端末１４からテーマとなる文字列の入力を受け付ける。ここで入力されるテーマは、たとえば、『ジャンクフードは健康に悪い。』といったテーマを示す文である。また、取得部７２０は、端末１４から文集合３０３−ｉ群のいずれかの文集合３０３−ｉを取得する。

分析部７２１は、テーマ表現特定部７３１により、入力されたテーマからテーマ表現を特定する。テーマ表現特定部７３１は、具体的には、たとえば、上述したルールに基づく方法または機械学習に基づく方法により、テーマからテーマ表現を特定する。たとえば、テーマが『ジャンクフードは健康に悪い。』の場合、「ジャンクフード」がテーマ表現として特定される。ルールに基づく方法の場合、テーマ表現用の辞書テーブルが用いられる。当該辞書テーブルには、テーマ表現を示す単語が格納されている。テーマ表現を示す単語は、文集合３０３−ｉの分類単位である話題ごとに格納されてもよい。この場合、取得部７２０によって取得された文集合３０３−ｉの話題に対応する単語がテーマ表現の特定対象となる。

また、並び替え処理では、テーマ表現特定部７３１は、取得部７２０によって取得された文集合３０３−ｉの各文において、テーマから特定したテーマ表現に一致する単語がある場合には、文集合３０３−ｉの文中の当該単語にアノテーションとしてタグを付与する。具体的には、たとえば、テーマ表現が「ジャンクフード」の場合において、『ジャンクフードは、栄養バランスを著しく欠いた食品である。』という文のうち「ジャンクフード」がテーマ表現に一致する。したがって、『＜ｔｈｅｍｅｔｈｅｍｅ−ｉｄ“健康”＞ジャンクフード＜／ｔｈｅｍｅ＞は、栄養バランスを著しく欠く。』のように、テーマ表現特定部７３１は、「ジャンクフード」にｔｈｅｍｅタグを示すタグをアノテーションとして付与する。ｔｈｅｍｅ−ｉｄ“健康”は属性値であり、テーマ表現に対応する話題である。

また、機械学習の場合は、テーマ表現特定部７３１は、上位概念や下位概念などテーマ表現に関連する具体的な語句も特定する。たとえば、テーマ表現が「ジャンクフード」の場合、上位概念として「食品」、下位概念として「ファーストフード」や「ソフトドリンク」が文集合３０３−ｉの各文から特定される。

分析部７２１は、争点表現特定部７３２により、取得された文集合３０３−ｉの各文から争点表現を特定する。争点表現特定部７３２は、具体的には、たとえば、上述したルールに基づく方法または機械学習に基づく方法により、文集合３０３−ｉの各文から争点表現を特定する。争点表現特定部７３２は、あらかじめ用意された辞書テーブルを用いる。辞書テーブルには、争点表現である単語が格納されている。辞書テーブルとしては、たとえば、争点オントロジ情報７０１が用いられる。

図８は、争点オントロジ情報７０１のデータ構造例を示す説明図である。争点オントロジ情報７０１は、争点フィールド８０１と争点表現フィールド８０２とを有し、エントリごとに争点と争点表現との対応関係を示す。争点フィールド８０１は、争点を格納する領域である。争点表現フィールド８０２は、争点の下位概念である争点表現を格納する領域である。争点表現特定部７３２は、争点オントロジ情報７０１の争点表現に一致する単語を争点表現として、文集合３０３−ｉの各文から特定する。

また、機械学習に基づく方法が適用される場合、争点表現特定部７３２は、たとえば、学習モデルにより、文集合３０３−ｉの各文の中から争点表現に該当する語句を特定する。

また、争点表現特定部７３２は、取得部７２０によって取得された文集合３０３−ｉの各文において、特定した争点表現に一致する単語がある場合には、当該単語にアノテーションとしてタグを付与する。具体的には、たとえば、「危険ドラッグ」が争点表現である場合、『日本は、危険ドラッグを禁止した。』という文について、『日本は、＜ｉｓｓｕｅｉｓｓｕｅ−ｉｄ“健康”＞危険ドラッグ＜／ｉｓｓｕｅ＞を禁止した。』のように、争点表現特定部７３２は、「危険ドラッグ」にｉｓｓｕｅタグを、アノテーションとして付与する。ｉｓｓｕｅ−ｉｄ“健康”は属性値であり、争点表現に対応する争点である。

なお、後述するが、ｉｓｓｕｅタグについては、生成部７２８が争点連鎖モデル７０３を生成する際に付与される場合がある。したがって、この場合、争点表現特定部７３２は、単に付与済みのｉｓｓｕｅタグに挟まれている文字列を争点表現として特定すればよい。

分析部７２１は、肯定・否定表現特定部７３３により、テーマ表現や争点表現を肯定する肯定表現またはテーマ表現や争点表現を否定する否定表現を、テーマや文集合３０３−ｉの各文から特定する。肯定・否定表現特定部７３３は、具体的には、たとえば、上述したルールに基づく方法または機械学習に基づく方法により、テーマや文集合３０３−ｉの各文から肯定・否定表現を特定する。肯定・否定表現特定部７３３は、あらかじめ用意された辞書テーブルを用いる。辞書テーブルには、肯定表現および否定表現を示す単語が肯定または否定という属性と関連付けられて格納されている。具体的には、たとえば、肯定・否定表現特定部７３３は、ある文に争点表現が存在する場合、当該争点表現の係り受け先となる語句を特定し、特定した語句を辞書テーブルで検索する。肯定・否定表現特定部７３３は、一致する語句が辞書テーブルにある場合、当該語句の属性（肯定または否定）を特定する。

たとえば、『ジャンクフードは＜ｉｓｓｕｅｉｓｓｕｅ−ｉｄ“健康”＞健康＜／ｉｓｓｕｅ＞に悪い。』という文の場合、「健康」が争点である。そして、「健康」の係り受け先となる「悪い」が否定の属性付きで辞書テーブルに格納されている場合、肯定・否定表現特定部７３３は、「悪い」を否定表現として特定する。

また、機械学習に基づく方法が適用される場合、肯定・否定表現特定部７３３は、たとえば、学習モデルにより、争点が存在する文の中から、肯定表現または否定表現に分類された語句（たとえば、「禁止」）を特定する。

そして、肯定・否定表現特定部７３３は、『ジャンクフードは＜ｉｓｓｕｅｉｓｓｕｅ−ｉｄ“健康”＞健康＜／ｉｓｓｕｅ＞に悪い。』という文に、アノテーションを付与して、『ジャンクフードは＜ｉｓｓｕｅｉｓｓｕｅ−ｉｄ“健康”＞健康＜／ｉｓｓｕｅ＞に＜ｎｅｇａｔｉｖｅ＞悪い＜／ｎｅｇａｔｉｖｅ＞。』とする。

分析部７２１は、促進・抑制表現特定部７３４により、文集合３０３−ｉの各文のテーマ表現が促進表現または抑制表現のいずれに該当するかを特定する。促進・抑制表現特定部７３４は、具体的には、たとえば、上述したルールに基づく方法または機械学習に基づく方法により、テーマや文集合３０３−ｉの各文からテーマ表現に対する促進・抑制表現を特定する。促進・抑制表現特定部７３４は、あらかじめ用意された辞書テーブルを用いる。辞書テーブルには、促進表現および抑制表現を示す単語が促進または抑制という属性と関連付けられて格納されている。具体的には、たとえば、促進・抑制表現特定部７３４は、ある文にテーマ表現が存在する場合、当該テーマ表現の述部を特定し、当該述部に含まれる語句が促進表現であるか抑制表現であるかを、辞書テーブルを参照して判断する。

たとえば、『＜ｔｈｅｍｅｔｈｅｍｅ−ｉｄ“健康”＞ジャンクフード＜／ｔｈｅｍｅ＞は栄養バランスを著しく欠く。』という文の場合、テーマ表現「ジャンクフード」の述部は、「栄養バランスを著しく欠く」である。この場合、辞書テーブルに抑制表現として「欠く」が格納されていれば、テーマ表現「ジャンクフード」が「栄養バランス」を抑制するという関係を特定することができる。

そして、促進・抑制表現特定部７３４は、『＜ｔｈｅｍｅｔｈｅｍｅ−ｉｄ“健康”＞ジャンクフード＜／ｔｈｅｍｅ＞は栄養バランスを著しく欠く。』という文に、アノテーションを付与して、『＜ｔｈｅｍｅｔｈｅｍｅ−ｉｄ“健康”＞ジャンクフード＜／ｔｈｅｍｅ＞は栄養バランスを著しく＜ｓｕｐｐｒｅｓｓ＞欠く＜／ｓｕｐｐｒｅｓｓ＞。』とする。

分析部７２１は、権威特定部７３５により、文集合３０３−ｉの各文から権威を示す語句を特定する。権威を示す語句は、文の発言主体を示し、たとえば、組織名や人名である。権威特定部７３５は、組織名および人名（または人名の末尾につく「議員」や「氏」といった敬称などの接尾語でもよい）と権威を示す属性とを関連付けた辞書テーブルを用いる。権威特定部７３５は、この辞書テーブルを参照して、文集合３０３−ｉの各文から権威を示す語句を特定する。

たとえば、『「ファーストフードやソフトドリンクに新たに課税することを検討している」とＡ議員は述べた。』という文の場合、権威特定部７３５は、人名である「Ａ議員」を権威として特定する。より具体的には、単に組織名や人名を特定するのではなく、組織名や人名の述語が「述べた」や「示した」といった発言したことを示す動詞である場合に、権威として特定することとしてもよい。この場合、権威特定部７３５は、権威を示す語句にアノテーションを付与する。たとえば、『「ファーストフードやソフトドリンクに新たに課税することを検討している」とＡ議員は述べた。』という文の場合、『「ファーストフードやソフトドリンクに新たに課税することを検討している」と＜ａｕｔｈｏｒｉｔｙ＞Ａ議員＜／ａｕｔｈｏｒｉｔｙ＞は述べた。』となる。

図９は、文分析結果の例１を示す説明図である。文分析結果９００は、一例としてテーブル形式で表現される。文分析結果９００は、項番フィールド９０１と、文フィールド９０２と、争点フィールド９０３と、肯定・否定フィールド９０４と、促進・抑制フィールド９０５と、権威フィールド９０６と、文種フィールド９０７と、を有し、各フィールド９０１〜９０７の値の組み合わせが、１つの文のエントリを構成する。なお、文には、分析部７２１でアノテーションとしてタグが付与されているため、文内の争点、肯定表現、否定表現、促進表現、抑制表現、権威が特定可能である。

項番フィールド９０１は、項番を格納する領域である。項番は、分析部７２１により分析された文を一意に特定する識別情報である。文フィールド９０２は、分析部７２１により分析された文を格納する領域である。争点フィールド９０３は、文フィールド９０２の文に含まれる争点を格納するシールドである。文に争点ではなく争点表現が記載されている場合には、ｉｓｓｕｅタグの属性（ｉｓｓｕｅ−ｉｄ）である争点が格納される。

肯定・否定フィールド９０４は、文フィールド９０２の文における争点に対する肯定表現または否定表現の存否を示す情報を格納する領域である。肯定表現（ｐｏｓｉｔｉｖｅタグ）が存在する場合は「肯定」、否定表現（ｎｅｇａｔｉｖｅタグ）が存在する場合は「否定」、いずれも存在しない場合は、「なし」が格納される。

促進・抑制フィールド９０５は、文フィールド９０２の文におけるテーマ表現に対する促進表現、抑制表現の存否を示す情報を格納する領域である。テーマ表現が、ある対象を「促進している」場合には「促進」、テーマ表現がある対象に「促進されている」場合には「被促進」が格納される。抑制・被抑制についても同様である。

文種フィールド９０７は、文フィールド９０２の文の文種を格納する領域である。文種フィールド９０７の値である文種は、文種判定部７２２によって格納される。

図７に戻り、文種判定部７２２は、分析部７２１によって分析された各文の文種を判定する。文種とは、たとえば、主張、理由、事例、現状説明、主張の重要性、引用などの文の種類である。文種は、文の修辞的な特徴に基づいて定められる。たとえば、並べ替え後の文がどの順番で配置されるか、という観点で設定される。文種は、後述するテンプレートで利用される。このような特徴を持つため、文種の設定は、生成したい論述文に依存する。

文種判定部７２２は、ルールに基づく方法または機械学習に基づく方法を用いて文種を判定する。ルールに基づく方法の場合、文種判定部７２２は、辞書テーブルを用いる。辞書テーブルには、文種ごとに適切なルールが関連付けられる。たとえば、主張という文種の場合、テーマ表現に対する肯定または否定の判断を述べている文が主張文として利用できる。したがって、『テーマ表現が肯定または否定の対象になっている文を文種：主張とする』というルールが設定される。また、たとえば、『争点に対する否定表現を促進する内容である文を文種：理由とする』というルールが設定されてもよい。また、『争点に対する肯定表現や否定表現がなく、テーマ表現に対する促進表現や抑制表現もなく、権威を示す語句が存在する文を文種：事例とする』というルールが設定されてもよい。

機械学習に基づく方法の場合、事前に各文種に人手で振り分けた文を訓練データとして用意し、計算機３０１が文種判定モデルを作成する。具体的には、文種判定部７２２は、訓練データを分析部７２１に与えて、訓練データについてテーマ表現、争点、肯定・否定表現、促進・抑制関係を特徴として数値ベクトルを生成する。計算機３０１は、この数値ベクトルをＳＶＭやロジスティック回帰に与えることにより、数値ベクトルに対応する文種を推定する文種判定モデルを作成する。

文種判定部７２２は、文集合３０３−ｉの各文について、訓練データと同様、分析部７２１によって特定されたテーマ表現、争点、肯定・否定表現、促進・抑制関係を特徴として数値ベクトルを生成する。文種判定部７２２は、生成した数値ベクトルを文種判定モデルに与えて、該当する文種を判定する。

図１０は、文分析結果９００の例２を示す説明図である。図１０は、図９の文分析結果９００において文種フィールド９０７の値である文種が格納された状態を示す。

図７に戻り、テンプレート選択部７２３は、テンプレートＤＢ７０２からいずれかのテンプレートを選択する。テンプレートは、文の修辞的な並べ方を指定する情報である。たとえば、まず主張を述べ、次にその理由を述べ、最後に事例を紹介する、という多くの場合に共通する形式的な順序がテンプレートに規定される。テンプレートは複数のスロットを持つ。スロットとは、文を入れるべき空欄のことを意味する。一つのスロットには、一つの文種が指定される。文を入れる際には、文種にあった文のみが入力可能である。

また、各スロットは、重要度と必須かどうかというプロパティを持つ。重要度は、スロット間の相対的な重要性を表す。主張や理由のようにその文を変更する論旨が大きく変わってしまう主要なスロットに対しては大きな重要度を指定し、２番目ないしは３番目の事例のようにその文がなくても論旨が大きく変わらないスロットに対しては、重要度を低く設定する。また、必須かどうかを示すプロパティでは、そのスロットが埋まっていない場合には、意味のない出力文書であることを設定することができる。

図１１は、テンプレートのデータ構造例を示す説明図である。図１１では、例として２種類のテンプレートＴ１、Ｔ２（以下、総称してテンプレートＴ）を示す。テンプレートＴは一例としてテーブル形式で表現される。テンプレートＴは、あらかじめ人手で設定される情報である。

テンプレートＴは、順序フィールド１１０１と、文種フィールド１１０２と、重要度フィールド１１０３と、必須フィールド１１０４と、スロット１１０５と、を有する。順序フィールド１１０１は、適用される文の順序を示す値を昇順に格納する領域である。文は、順序の値で示される順番で並び替えられる。

文種フィールド１１０２は、適用される文の文種を格納する領域である。重要度フィールド１１０３は、文種の重要度を格納する領域である。重要度は、後述する算出部７２５において、評価値の計算に用いられる。必須フィールド１１０４は、文種が必須か否かを示す情報を格納する領域である。文種が必須である場合は「Ｔｒｕｅ」、必須でない場合は「Ｆａｌｓｅ」が格納される。スロット１１０５は、各エントリに対応する文を埋め込む領域である。

テンプレートＴ１は、最大で３個の文を並べるためのテンプレートＴであり、最初の文の文種が「主張」、２番目の文の文種が「理由」、最後の文の文種が「事例」となるように並び替えられる。なお、最後の文の文種「事例」の必須フィールド１１０４の値が「Ｆａｌｓｅ」であるため、最後の文は欠落されてもよい。

テンプレートＴ２は、最大で５個の文を並べるためのテンプレートＴであり、最初の文の文種が「主張」、２番目の文の文種が「現状説明」、３番目の文の文種が「主張の重要性」、４番目および５番目の文の文種が「引用」となるように並び替えられる。なお、２番目〜５番目の文必須フィールド１１０４の値が「Ｆａｌｓｅ」であるため、欠落されてもよい。

なお、テンプレート選択部７２３は、あらかじめ選択したいテンプレートＴの特徴がユーザにより設定されている場合には、当該特徴に該当するテンプレートＴのみを選択する。たとえば、文種の主張、理由および事例がすべて「Ｔｒｕｅ」に設定されているテンプレートＴのみなど、自由に設定することができる。

並び替え処理部７２４は、組み合わせ処理部７４１と争点選択部７４２とを含む。組み合わせ処理部７４１は、選択したテンプレートＴの各スロット１１０５に文を埋め込む。組み合わせ処理部７４１は、スロット１１０５を埋める際に、争点選択部７４２を呼び出す。

争点選択部７４２は、現在までにスロット１１０５に埋め込まれた文の並びとテンプレートＴと文集合３０３−ｉとを用いて、争点を含む文を文集合３０３−ｉから選択する。争点選択部７４２は、争点連鎖モデル７０３を参照して、争点を含む文を文集合３０３−ｉから選択する。

図１２は、争点連鎖モデル７０３のデータ構造例を示す説明図である。争点連鎖モデル７０３は、文の内容についての連続性を整理した構造化データである。争点連鎖モデル７０３は、内容的な連続状況を整理した構造化データである。争点連鎖モデル７０３は、ある文で、Ａという争点が取り上げられていたとき、次の文で取り上げられやすい争点は何かということを推測するために用いられる。争点連鎖モデル７０３は、生成部７２８により生成される。生成部７２８による生成処理の詳細は後述する。

争点連鎖モデル７０３は、先行文の争点フィールド１２０１と、後続文の争点フィールド１２０２と、所在情報フィールド１２０３と、頻度フィールド１２０４と、を有し、各フィールド１２０１〜１２０４の値の組み合わせにより争点の連鎖のエントリを規定する。ここで、先行文と後続文は、連続する２つの文であり、先行文の次に後続文が出現する。

先行文の争点フィールド１２０１は、先行文の争点を格納する領域である。先行文の争点とは、先行文に含まれる争点である。

後続文の争点フィールド１２０２は、後続文の争点を格納する領域である。後続文の争点は、後続文に含まれている争点である。

所在情報フィールド１２０３は、先行文の争点および後続文の争点の所在情報を格納する領域である。所在情報は、文書ＩＤと文ＩＤとの組み合わせで構成される。文書ＩＤは、先行文および後続文が存在する文書を一意に特定する識別情報である。文ＩＤは、当該文書内で当該先行文および後続文を一意に特定する識別情報である。文ＩＤは、たとえば、文書ＩＤにおける文書での先行文（後続文でもよい）の出現順である。先行文の争点および後続文の争点の同一の組み合わせが複数存在する場合には、組み合わせごとに所在情報が格納される。

頻度フィールド１２０４は、頻度を格納する領域である。頻度は、先行文の争点および後続文の争点の組み合わせが出現する回数である。具体的には、たとえば、所在情報に格納された組み合わせの数となる。なお、頻度は、確率で表現されてもよい。確率で表現する場合は、争点連鎖モデル７０３の頻度フィールド１２０４の値の総和を分母とし、各エントリの所在情報の数を分子とした値が、各エントリの確率となる。

争点連鎖モデル７０３の一行目のエントリは、母集団となる文書の集合において、先行文の争点「健康」および後続文の争点「税金」が、Ｎ新聞Ｘ年Ｙ月Ｚ日１面の１０番目の文（先行文）に出現しており、また、Ｎ新聞Ｐ年Ｑ月Ｒ日８面の４２番目の文（先行文）に出現していることを示す。また、出現回数が２であるため、頻度は「２」となる。

図１３は、争点の連鎖状況を示す説明図である。図１３では、例として２つの文を挙げる。文１３０１，１３０２は、同一の文書の連続する文である。文１３０１は「ジャンクフードは、健康に害を及ぼす可能性がある。」という文であり、文１３０２は「政府は健康増進施策のため、ジャンクフードに課税することを検討している。」という文である。

文１３０１の争点表現は「健康」であり、文２の争点表現は「健康」と「課税」である。これを争点にマッピングすると、文１３０１の争点は「健康」であり、文１３０２の争点は「健康」と「税金」となる。この例では、「健康」を増進するための手段として「税金」を用いたため話題も「健康」から健康に関する「税金」の話題に転換したことが分かる。「健康」と「税金」は、語義的には遠い関係にあるため、こうした話題の転換は、語義の類似性ではモデル化することは難しい。争点連鎖モデル７０３では、話題の転換を直接文の並び替えに利用するためのモデルである。

図１４は、争点連鎖モデル７０３の利用例を示す説明図である。図１４では、争点連鎖モデル７０３の利用例を、状態遷移図を用いて説明する。状態遷移図の円図形はノードであり、争点を示す。状態遷移図の矢印はエッジであり、ノード間の遷移とその重みを示す。重みは、図１２に示した頻度である。文１〜文Ｎは、文集合３０３−ｉから選択される文であり、組み合わせ処理部７４１は、開始端から終了端に向かって文１、文２、…、文Ｎの順に選択し、選択テンプレートＴのスロット１１０５に追加する。なお、Ｎは選択テンプレートＴのスロット１１０５数である。

たとえば、文１では、「健康」を争点とする文が選択されたとする。なお、文１を選択する場合、争点選択部７４２は、文集合３０３−ｉから順次文を文１として選択してもよく、特定の争点を含む文に限定して選択してもよい。特定の争点とは、あらかじめユーザに指定された争点であってもよく、文集合３０３−ｉで出現回数が所定回数以上の争点であってもよい。争点選択部７４２は、文１の「健康」を選択した場合に、争点連鎖モデル７０３において先行文の争点フィールド８０１の値が「健康」であるエントリを特定する。

文２を選択する場合、争点選択部７４２は、文１の「健康」のノードから出るエッジをたどって次の争点を選択する。具体的には、争点選択部７４２は、先行文の争点フィールド１２０１の値が「健康」であるエントリを参照して、後続文の争点フィールド１２０２の値を特定する。総当たりで探索する場合は、争点選択部７４２は、遷移先となる後続文の争点フィールド１２０２の値をそれぞれ特定して、終了端まで探索する。

また、争点選択部７４２は、頻度フィールド１２０４の値を参照して、特定の頻度となる後続文の争点を選択してもよい。特定の頻度とは、遷移元となる先行文の争点から遷移先となる後続文の争点への頻度のうち最大値でもよく、所定値以上の頻度でもよい。最大値を選択する場合は、たとえば、動的計画法が用いられる。また、所定値は、頻度フィールド１２０４の値の平均値や中央値でもよく、管理者が任意に設定した値でもよい。これにより、争点の遷移の起こりやすい文の組み合わせが優先されるようになる。

このようにして、争点選択部７４２は、ｉ（ｉ＝１〜Ｎ−１）番目の文の争点とｉ＋１番目の争点を選択する。なお、文の数が限られているため、途中で合致する遷移先ノードがなくなってしまう場合も考えられる。その場合には、争点選択部７４２は、当該遷移先ノードを通行禁止ノードに設定し、バックトラックして再度探索を続けることができる。

算出部７２５は、組み合わせ処理部７４１によって選択テンプレートＴのスロット１１０５に埋められた文の組み合わせの並びを評価する評価値を算出する。評価の観点としては、たとえば、選択テンプレートＴの充足状況が挙げられる。選択テンプレートＴの充足状況に関する評価値は、選択テンプレートＴのスロット１１０５が何個中何個埋められているかを示す値である。たとえば、３個中２個埋められている場合は、２／３となる。また、各スロット１１０５には重要度が対応付けられているため、算出部は、重要度を重みとして分子の値を重み付き線形和で求めてもよい。たとえば、テンプレートＴ１のすべてのスロット１１０５が埋められている場合、選択テンプレートＴ１の充足状況に関する評価値は、３／３ではなく、（１×１＋１×１＋１×０．８）／３＝２．８／３となる。

また、選択テンプレートＴの必須フィールド１１０４のスロット１１０５が空の場合には、算出部７２５は、当該文の組み合わせに対し不十分フラグを設定する。算出部７２５は、選択テンプレートＴの充足状況に関する評価値を算出せずに、不十分フラグの設定を行うこととしてもよい。

また、評価の観点として、選択テンプレートＴに埋め込まれた隣り合う文の関連性を示す評価値が挙げられる。関連性を示す評価値とは、遷移元となる先行文の争点から遷移先となる後続文の争点への頻度の総和である。

また、算出部７２５は、不十分フラグが設定されなかった場合、充足状況に関する評価値と関連性を示す評価値との重み付き線形和を評価値として算出してもよい。なお、重みは管理者が任意に設定することができる。

妥当性判定部７２６は、算出部７２５によって算出された評価値に基づいて、並び替え処理を終了するか否かを判定する。すなわち、妥当性判定部７２６は、判定対象となる選択テンプレートＴに埋め込まれた文の組み合わせの妥当性を判定する。具体的には、たとえば、妥当性判定部７２６は、判定対象となる選択テンプレートＴに埋め込まれた文の組み合わせについて、不十分フラグが設定されているか否かを判定する。不十分フラグが設定されている場合は、テンプレートＴを再選択する必要があるため、並び替え処理を終了しないと判定する。

また、妥当性判定部７２６は、判定対象となる選択テンプレートＴに埋め込まれた文の組み合わせについて、不十分フラグが設定されていない場合には、評価値を基準にして、並び替え処理を終了するか否かを判定する。具体的には、たとえば、妥当性判定部７２６は、選択テンプレートＴの充足状況に関する評価値がしきい値以上である場合は、争点の連鎖に一貫性があるとして、並び替え処理の終了と判定する。

また、妥当性判定部７２６は、関連性を示す評価値がしきい値以上である場合は、争点の連鎖に一貫性があるとして、並び替え処理の終了と判定する。なお、妥当性判定部７２６は、充足状況に関する評価値と関連性を示す評価値とのうち、少なくともいずれか一方の評価値を用いて、終了判定をおこなう。

妥当性判定部７２６は、判定対象となる評価値がしきい値以上である場合は、争点の連鎖に一貫性があるとして、並び替え処理の終了と判定してもよい。また、両評価値を用いる場合は、両評価値のうち少なくとも一方で終了すべきでないと判定された場合は、妥当性判定部７２６は、争点の連鎖に一貫性がないとして、並び替え処理を終了しないと判定してもよい。また、妥当性判定部７２６は、両評価値の重みづけ線形和がしきい値以上である場合は、争点の連鎖に一貫性があるとして、並び替え処理の終了と判定してもよい。いずれの場合でも、終了しないと判定された場合、テンプレート選択部７２３は、未選択のテンプレートＴを選択することになる。

出力部７２７は、妥当性判定部７２６による判定結果を出力する。具体的には、たとえば、選択テンプレートＴに埋め込まれた文の組み合わせ、すなわち、論述文を出力する。出力方式としては、たとえば、出力装置への出力（ディスプレイでの表示やプリンタでの印刷出力、音声合成による音声出力）、ネットワークデバイスを介して他の装置（たとえば、端末１４）への送信、ローカルファイルシステムへの格納が含まれる。

テンプレート選択部７２３において、選択すべきテンプレートＴがない場合、たとえば、未選択のテンプレートＴがテンプレートＤＢ７０２にない場合や、選択回数が所定回数を超過した場合には、該当する論述文がないこととなり、その旨の出力がされる。

図１５は、出力部７２７からの出力情報の一例を示す説明図である。出力情報１５００は、図１０の分析結果を組み合わせ処理部７４１によって並び替えた結果を示す情報である。図１５の出力情報１５００は、図１０の分析結果について、図１１のテンプレートＴ１を適用した例である。

図７に戻り、生成部７２８は、訓練文書ＤＢ７０４を用いて争点連鎖モデル７０３を生成する。生成部７２８の具体的構成例について図を用いて説明する。

図１６は、生成部７２８の詳細な機能的構成例を示すブロック図である。生成部７２８は、争点抽出モデル生成部１６０１と、争点同定モデル生成部１６０２と、争点アノテーション付与部１６０３と、争点連鎖解析部１６０４と、を有する。

訓練文書ＤＢ７０３は、訓練文書を格納するデータベースである。訓練文書は、人手で文書内の争点表現にアノテーションが付与された文書である。ここで、アノテーション付与とは、争点表現に相当する部分の開始文字位置と終了文字位置を記録する作業を意味する。たとえば、アノテーション付与は、たとえば、ＸＭＬ（ＥｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）の記法を用いて、争点表現を＜ｉｓｓｕｅ＞〜＜／ｉｓｓｕｅ＞というｉｓｓｕｅタグで囲む作業である。

アノテーションの属性は、＜ｉｓｓｕｅｉｓｓｕｅ−ｉｄ＝“健康”＞〜＜／ｉｓｓｕｅ＞というように、ｉｓｓｕｅタグの属性として争点表現が属する争点を記録する。なお、属性値”健康”は争点間で一意に区別できるようにする必要があるため、実際にはＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ）等の識別子の形式に従って一意な名称が付けられる。

争点抽出モデル生成部１６０１は、争点抽出モデル１６１０を生成する。争点抽出モデル１６１０は、訓練文書内の文中の部分文字列が争点表現であれば、その部分を争点表現として抽出するルールまたはパターンである。具体的には、たとえば、争点抽出モデル生成部１６０１は、争点オントロジ情報７０１を参照し、争点オントロジ情報７０１の争点表現に一致する文字列がある場合、ｉｓｓｕｅタグをアノテーションとして付与する。この場合、ｉｓｓｕｅタグの属性は、争点オントロジ情報７０１の争点が設定される。

たとえば、訓練文書内の文に「ジャンクフード」という文字列が出現した場合、争点抽出モデル生成部１６０１は、「ジャンクフード」にアノテーションを付与して、＜ｉｓｓｕｅｉｓｓｕｅ−ｉｄ＝“健康”＞ジャンクフード＜／ｉｓｓｕｅ＞」とする。ｉｓｓｕｅ−ｉｄの「健康」は、争点オントロジ情報７０１において、争点表現「ジャンクフード」の争点である。争点連鎖モデル７０３をルールに基づく方法で生成する場合、争点抽出モデル１６１０は、アノテーション付きの争点表現を含む訓練文書の集合となる。なお、図示しないが、争点抽出モデル生成部１６０１は、アノテーション付きの争点表現に、当該争点表現の所在情報（訓練文書の文書ＩＤおよび争点表現を含む文の文ＩＤ）を関連付けておく。

また、機械学習に基づく方法の場合、争点抽出モデル生成部１６０１は、上述したアノテーション付きの争点表現を含む訓練文書内の文字列を、特徴抽出により数値ベクトルの系列に変換する。まず、争点抽出モデル生成部１６０１は、文に対して形態素解析する。そして、各形態素を系列のノードとする。次に、争点抽出モデル生成部１６０１は、各形態素の表層文字列や品詞などをリストアップする。たとえば、訓練文書中に表層文字列が合計Ｖｓ種類、品詞の種類が合計Ｖｐ種類あったとする。

争点抽出モデル生成部１６０１は、これらの各表層文字列と各品詞を順に辞書テーブルのキーとして追加し、その値として辞書テーブルへの登録順に自然数を一つずつ重複のないように割り当てる。争点抽出モデル生成部１６０１は、この辞書テーブルを用いて、各ノードの表層文字列と品詞を数値に変換する。すると、各ノードは、表層文字列と品詞に相当する次元を「１」として、それ以外の次元を「０」とする数値ベクトルとして表現される。

この数値ベクトルに対して、争点であるかどうかを表すラベルを組にする。争点抽出モデル生成部１６０１は、ノードが争点であれば（アノテーションが付与されていれば）、ｉｓｓｕｅラベルを、争点でなければＯ（ｏｔｈｅｒ）ラベルを与える。また、別のラベルの与え方としては、複合語の争点を仮定したとき、争点の開始位置であるノードにＢ−ｉｓｓｕｅラベルを、中間位置であるノードにＩ−ｉｓｓｕｅラベルを、というように、ｉｓｓｕｅラベルを区別する方法もある。この変種としては、さらに終了位置をＥ−ｉｓｓｕｅラベル、単一ノードの争点をＵ−ｉｓｓｕｅラベルとして区別する方法もある。争点抽出モデル生成部１６０１は、この数値ベクトル列とラベルの組を、ＳＶＭやＣＲＦに入力して学習させる。この機械学習の結果出力されるモデルが、争点抽出モデル１６１０である。争点抽出モデル１６１０を適用することにより、与えられる文字列がどの争点に属する争点表現であるかを特定することができる。

争点同定モデル生成部１６０２は、争点同定モデル１６２０を生成する。争点同定モデル１６２０は、対象とする争点表現が争点オントロジ情報７０１のどのエントリに相当するかを関連付けるモデルである。具体的な方法としては、まず、単純な場合として、争点同定モデル生成部１６０２は、対象とする争点表現が、争点オントロジ情報７０１の中で１つのエントリにだけ出現する場合には、そのエントリと関連付けるルールを生成する。次に、争点同定モデル生成部１６０２は、対象とする争点表現が、争点オントロジ情報７０１の複数のエントリに出現する場合には、周囲の文脈から曖昧性を解消して、いずれかのエントリに関連付けるルールを生成する。具体的には、たとえば、自然言語処理の語義曖昧性解消やエンティティ同定、書誌同定と同様の問題であり、公知のそれらの手法を利用することで曖昧性を解消することができる。これらのルールの集合が争点同定モデル１６２０である。

争点アノテーション付与部１６０３は、争点抽出モデル１６１０を用いて、文書ＤＢ３０２に蓄積された文書内の文から争点表現を抽出する。具体的には、たとえば、争点アノテーション付与部１６０３は、争点抽出モデル１６１０を適用して、文書内の文に含まれる文字列がどの争点に属する争点表現であるかを特定する。次に、争点アノテーション付与部１６０３は、争点同定モデル１６２０を用いて、特定された争点表現を争点オントロジ情報７０１の争点に関連付ける。そして、争点アノテーション付与部１６０３は、争点表現に該当する文字列にｉｓｓｕｅタグを付与する。このとき、争点アノテーション付与部１６０３は、争点オントロジ情報７０１を参照して、ｉｓｓｕｅ−ＩＤとして、争点同定モデル１６２０を用いて争点表現に関連付けられた争点を設定する。これにより、文書ＤＢ３０２内の文書にアノテーションが付与され、争点アノテーション付き文書群１６３０が生成される。

争点連鎖解析部１６０４は、争点アノテーション付き文書群１６３０の各文書内に連続的に出現する２つの文（先行文と後続文）を組として先行文に出現する争点と後続文に出現する争点との組み合わせとその所在情報を特定する。なお、争点連鎖解析部１６０４は、文中から争点表現が特定された場合は、争点オントロジ情報７０１を参照して、争点同定モデル１６２０を用いて関連付けられた争点に変換する。争点連鎖解析部１６０４は、同一の組み合わせの出現回数を計数する。そして、争点連鎖解析部１６０４は、先行文の争点と後続文の争点との組み合わせごとに、その所在情報と頻度である出現回数とを有するエントリを争点連鎖モデル７０３に追加することにより、図１２に示したような争点連鎖モデル７０３を生成する。

なお、争点連鎖解析部１６０４は、争点表現を争点としてまとめ上げずに、先行文に出現する争点表現と後続文に出現する争点表現との組み合わせとその所在情報を特定することとしてもよい。

また、争点連鎖解析部１６０４は、後続文に出現する争点表現を争点に変換するのではなく、後続文と後続文に出現する争点表現との組を、先行文の争点（または争点表現）に関連付けたエントリを保持してもよい。この場合、先行文に出現する争点から後続文のに出現する争点を探索する方法が異なる。この場合の争点連鎖モデル７０３では先行文に出現する争点が与えられると、後続文と後続文に出現する争点表現との組のリストが返される。当該リストを用いて後続文に出現する争点を決定する場合、争点連鎖解析部１６０４は、リストからある確率分布に従って争点表現と文の組をサンプリングする。

たとえば、争点連鎖解析部１６０４は、一様分布に従って事例をサンプリングする際には、リストのエントリを互いに等しい確率でサンプリングし、選ばれた後続文に出現する争点表現を返す。この場合、後続文で多く登場する争点表現が選ばれやすくなるため、頻度でまとめあげたときと同様の効果がある。一方、争点連鎖解析部１６０４は、各後続文に出現する争点表現とテーマ表現との類似度を計算し、類似度の大きさに比例する確率分布で事例をサンプリングしてもよい。この場合、争点連鎖解析部１６０４は、テーマ表現との類似度が高い争点表現（争点でもよい）を選択する。これにより、テーマ表現とのつながりを加味して争点表現（争点でもよい）を選択することができる。

＜並び替え処理手順例＞
図１７は、文書処理システム３００の計算機３０１による並び替え処理手順例を示すフローチャートである。なお、並び替え処理前に、人手により、または入力部７１０、検索部７１１および分類部７１２の処理により、文書ＤＢ３０２内の文書群が複数の文集合３０３−ｉに分類されており、並び替え処理対象として、任意の文集合３０３−ｉが選択されているものとする。

まず、取得部７２０が、並び替え処理対象の文集合３０３−ｉとテーマとを取得する（ステップＳ１７０１）。つぎに、分析部７２１が、取得された文集合３０３−ｉ内の文ごとに、テーマ表現、争点表現、肯定表現、否定表現、促進表現、抑制表現、および、権威を特定する（ステップＳ１７０２）。これにより、図９に示したような文分析結果９００が得られる。

そして、文種判定部７２２が、取得された文集合３０３−ｉ内の文ごとに、文種を判定する（ステップＳ１７０３）。これにより、図１０に示したような文分析結果９００が得られる。

このあと、テンプレート選択部７２３が、テンプレートＤＢ７０２から未選択のテンプレートＴを選択する（ステップＳ１７０４）。テンプレート選択部７２３がテンプレートＴを選択できない場合（ステップＳ１７０５：Ｎｏ）、エラー出力をして終了する（ステップＳ１７０６）。たとえば、未選択のテンプレートＴがテンプレートＤＢ７０２にない場合や、選択回数が所定回数を超過した場合には、テンプレート選択部７２３がテンプレートＴを選択できないため、エラー出力をする。

一方、テンプレート選択部７２３がテンプレートＴを選択できた場合（ステップＳ１７０５：Ｙｅｓ）、組み合わせ処理部７４１は、争点選択部７４２により争点を選択して、選択した争点を含む文を選択テンプレートＴのスロット１１０５に埋め込む（ステップＳ１７０７）。

そして、算出部７２５は、文が埋め込まれた選択テンプレートＴについて評価値を算出する（ステップＳ１７０８）。このあと、妥当性判定部７２６が、算出部７２５によって算出された選択テンプレートＴについての評価値に基づいて、並び替え処理を終了するか否かを判定する（ステップＳ１７０９）。終了しないと判定した場合（ステップＳ１７０９：Ｎｏ）、ステップＳ１７０４に戻り、テンプレート選択部７２３が、テンプレートＴの選択を再試行する（ステップＳ１７０４）。一方、終了すると判定された場合（ステップＳ１７０９：Ｙｅｓ）、出力部７２７は、妥当性判定部７２６による判定結果である選択テンプレートＴに埋め込まれた文の組み合わせ、すなわち、論述文である出力情報１５００を出力する（ステップＳ１７１０）。これにより、一連の並び替え処理を終了する。

＜並び替え処理の適用例＞
ここで、上述した並び替え処理の適用例について説明する。並び替え処理は、たとえば、ディベートの立論システムに実装することができる。

ディベートでのテーマは、いわゆる論題である。たとえば、「ジャンクフードを禁止すべきである。」という論題が挙げられたとする。また、ディベートでのテーマ表現とは、論題の文中に登場する語、及びその関連語を示す。なお、ディベートにおいては、肯定側、否定側の二つの立場があるため、テーマ表現が論題において肯定されているのか、否定されているのかは重要な情報である。そのため、テーマ表現とその肯定・否定の属性の両方がテーマ表現として扱われる。

また、ディベートにおいては、肯定側、否定側の二つの立場があるため、文の中で発言者が明示されている場合に、その発言者を抽出する必要がある。発言者の特定は、たとえば、上述した権威特定部７３５が実行する。

以下では、ディベートの肯定側立論に適用した場合を例に挙げる。本来、ディベートの立論の場合には、文種として、プラン、用語の定義、現状説明、重要性の説明、解決性の説明などが求められる。肯定側の立場の場合で、それぞれの文種を説明する。

プランとは、論題を実現する具体的な施策を表す文である。たとえば、「所得に上限を設定すべきである。」という論題に対して「年間の所得の上限を１０００万円に設定する。」というように具体的に実行可能な施策を示したものがプランである。

用語の定義とは、論題中に現れる語や、立論の際に使用する語の定義文である。前記の例では、「所得」とは「日本に居住する人の所得」を表す、などのように議論の範囲が指定される。

現状説明とは、プランを採用していない現在の状況を表す。たとえば、前記の例の場合では、所得の上限がないために「所得の偏りが大きい」などのデメリットを記述した文である。

並び替え処理をディベートの肯定側立論に適用した場合、計算機３０１は、肯定側立論のすべてを生成するのではなく、最低限の要素として立場の表明（主張）、その理由、事例となる文を選択し、順に並べることになる。

論題「ジャンクフードを禁止すべきである」が与えられた場合、テーマ表現特定部７３１は、論題からテーマ表現である「ジャンクフード」を特定する。また、肯定・否定表現特定部７３３は、論題から肯定表現または否定表現を特定する。この場合、論題に「禁止」が含まれているため、肯定・否定表現特定部７３３は、否定表現として「禁止」を特定する。したがって、テーマ表現「ジャンクフード」の肯定・否定属性は、「否定」となる。

また、論題に関連する文集合３０３−ｉが分析対象としてユーザに選択される。ここでは、トピックが「健康」に分類された文集合３０３−ｉが選択されたものとする。

計算機３０１は、取得部７２０により、文集合３０３−ｉおよびテーマ表現としてジャンクフードの否定を取得する。そのため、並び替え処理では、「ジャンクフード」を「否定」する、主張、理由、例示を示す文を集め、集めた文を主張、理由、例示の順に並べることになる。

分析部７２１は、文集合３０３−ｉの各文に対して、文分析を実行し、図９に示した文分析結果９００を得る。図９では、４つの文が列挙される。文の太字の文字列がテーマ表現、下線を引いてある文字列が争点表現である。テーマ表現は、論題中に登場する語だけではなく、その上位、下位語、具体的な語彙も含むため、テーマ表現「ジャンクフード」に対して「ファーストフード」や「ソフトドリンク」もテーマ表現として扱ってもよい。このような類義語については、分析部７２１が、図示しない類義語の辞書テーブルを参照して特定することになる。また、類義語の辞書テーブルのかわりに、争点オントロジ情報７０１を用いてもよい。

また、図９において、争点フィールド９０３では、文中に登場する争点の抽象度が揃えられる。たとえば、争点表現「課税」は上位概念である争点「税金」に、争点表現「肥満」は上位概念である争点「健康」揃えられる。分析部７２１は、この変換処理を、争点オントロジ情報７０１を用いて実行する。

肯定・否定フィールド９０４において、項番３と項番４のエントリに否定が挙げられている。項番３では争点である「健康」の「リスク」について述べている。したがって、肯定・否定表現特定部７３３は、争点「健康」の係り受け先である「リスク」は、争点「健康」を抑制するため、「リスク」を争点「健康」の否定表現と判定する。一方、争点「健康」の係り受け先が「メリット」など争点「健康」を促進する場合は、「メリット」を争点「健康」の肯定表現と判定する。

促進・抑制フィールド９０５において、項番２と項番４のエントリにそれぞれ被抑制と促進が挙げられている。ここで、項番２の文では、テーマ表現「ジャンクフード」は、「規制」という抑制表現の受動態での主語、つまり抑制の対象として記述されている。したがって、項番２のエントリにおける促進・抑制フィールド９０５の値は、「被抑制」となる。また、項番４の文では、テーマ表現「ジャンクフード」が「助長」という促進表現の能動態の主語、つまり促進の動作主体として記述されている。したがって、項番４のエントリにおける促進・抑制フィールド９０５の値は、「促進」となる。

また、文種判定部７２２の文種判定処理が実行されることにより、図９の文種フィールド９０７に文種が登録されて、図１０に示した文分析結果９００が得られる。ここでは、項番１および項番２のエントリは「事例」、項番３のエントリは「主張」、項番４のエントリは「理由」と判定されたものとする。

項番３の文はテーマ表現の否定という意見を述べているため、「主張」となる。項番４の文は、テーマ表現「ジャンクフード」が争点表現「肥満」という否定表現を促進している、つまり、テーマ表現「ジャンクフード」の悪影響を説明しているため、理由となった。最後に項番１および項番２の文は、テーマ表現「ジャンクフード」に関する肯定・否定表現がなく、テーマ表現「ジャンクフード」が促進・抑制する影響も述べられていない。しかし、項番１および項番２の文から、権威特定部７３５により「議員」や「政府」という権威の語句が特定される。したがって、文種判定部７２２は、項番１および項番２の文の文種を「事例」として特定する。

また、テンプレート選択部７２３は、テンプレートＤＢ７０２のテンプレートＴを選択するが、本例の場合、主張、理由、事例を文種に含むテンプレートＴ１が選択されると他のテンプレートＴ（たとえば、「現状説明」や「主張の重要性」が「Ｔｒｕｅ」）よりも高い評価値が算出部７２５により算出されることになる。

また、組み合わせ処理部７４１は、選択テンプレートＴに文を埋め込む。組み合わせ処理部７４１は、争点連鎖モデル７０３を参照し、過去に見られた内容の並びを優先して、各文種の中から文を選択し、文を並び変える。並び変えられた文のリストが出力候補となる。

算出部７２５は、選択テンプレートＴの充足状況や関連性を確認する。たとえば、選択テンプレートＴがＴ１である場合、選択テンプレートＴ１の順序１から順序３のスロット１１０５が埋まっていること、特に、必須フィールド１１０４が必須である順序１および順序２のスロット１１０５が埋まっていることを確認する。算出部７２５は、各スロット１１０５の争点の連鎖が争点連鎖モデル７０３に存在し、かつ、争点の連鎖が「健康」から「健康」、または「健康」から「税金」という頻度の高い関係であることを確認し、評価値を返す。

妥当性判定部７２６は、たとえば、算出した評価値としきい値とを比較し、閾値以上であれば、終了と判定する。出力部７２７は、終了と判定された場合に、図１５に示したような判定結果である出力情報１５００を出力する。これにより、ディベートにおける立論が生成される。

このように、本実施例によれば、論理に一貫性のある出力文を生成することができる。また、対象となる文に、テーマ表現と、争点表現を肯定または否定する肯定・否定表現との間に関係性がある場合は、当該文を「主張」という文種に判定することができる。また、テーマ表現が、肯定・否定表現を促進または抑制する場合や、テーマ表現によって肯定・否定表現が促進または抑制される場合は、当該文を「理由」という文種に判定することができる。また、テーマ表現について肯定・否定表現がなく、かつ、権威が特定される場合は、当該文を「事例」という文種に判定することができる。

また、テンプレートＴの各文種に重要度が設定されている場合には、当該文種のスロット１１０５に埋め込まれた文の組み合わせについて、重要度に基づく評価値を算出することができる。したがって、文の組み合わせがテンプレートＴにどの程度従っているかを客観的に判断することができる。

また、争点連鎖モデル７０３を適用することにより、過去の話題の転換に基づいて文を並べるため、話題が転換する際にも一貫性をもって文を並び変えることができる。また、争点連鎖モデル７０３の各エントリには連鎖の出現回数である頻度が設定されているため、争点連鎖モデル７０３の頻度を適用することにより、争点の連鎖が起こりやすい文の組み合わせを選択することができる。したがって、論理に一貫性のある出力文を高精度に生成することができる。また、争点オントロジ情報７０１を適用することにより、文中の具体的な争点表現を抽象度の高い争点にまとめ上げることができ、文の組み合わせの自由度の向上を図ることができる。

以上、本発明を添付の図面を参照して詳細に説明したが、本発明はこのような具体的構成に限定されるものではなく、添付した請求の範囲の趣旨内における様々な変更及び同等の構成を含むものである。

なお、本発明は前述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。また、ある実施例の構成の一部を他の実施例の構成に置き換えてもよい。また、ある実施例の構成に他の実施例の構成を加えてもよい。また、各実施例の構成の一部について、他の構成の追加・削除・置換をしてもよい。

また、前述した各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等により、ハードウェアで実現してもよく、プロセッサがそれぞれの機能を実現するプログラムを解釈し実行することにより、ソフトウェアで実現してもよい。

各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記憶装置、又は、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に格納することができる。

また、制御線や情報線は説明上必要と考えられるものを示しており、実装上必要な全ての制御線や情報線を示しているとは限らない。実際には、ほとんど全ての構成が相互に接続されていると考えてよい。

Claims

プログラムを実行するプロセッサと、前記プログラムを記憶するメモリと、を有する計算機が実行する文の並び替え方法であって、
前記プロセッサは、文の集合と、文の種類を特定する複数の文種と当該複数の文種の並び順序とを規定したテンプレートと、語句に関するルールまたは学習モデルと、を記憶する記憶装置にアクセス可能であり、
前記プロセッサは、
任意のテーマ文を構成する語句または当該語句に関連する語句であるテーマ表現を規定する単語に関するルールまたは学習モデルに基づいて、前記文の集合内の複数の文の各文から、前記テーマ表現を特定するテーマ表現特定処理と、
前記テーマ表現と前記文種との関連性に関するルールまたは学習モデルに基づいて、前記テーマ表現特定処理によって特定されたテーマ表現を含む文ごとに文種を判定する文種判定処理と、
前記文種判定処理によって文種が判定された前記複数の文の中から、前記テンプレートに規定された前記複数の文種に該当する文の集合を選択し、当該選択した前記文の集合を前記並び順序にしたがって並び替える並び替え処理と、
前記並び替え処理による並び替え後の文の集合を出力する出力処理と、
を実行することを特徴とする文の並び替え方法。
前記プロセッサは、
前記各文から、争点を例示する語句である争点表現を規定する単語に関するルールまたは学習モデルに基づいて、前記争点表現を特定する争点表現特定処理と、
肯定または否定する語句である肯定・否定表現に関するルールまたは学習モデルに基づいて、前記各文から、前記争点表現特定処理によって特定された争点表現を肯定または否定する肯定・否定表現を特定する肯定・否定表現特定処理と、を実行し、
前記文種判定処理では、前記プロセッサは、前記テーマ表現と前記肯定・否定表現と前記文種との関連性についてのルールまたは学習モデルに基づいて、前記各文に含まれるテーマ表現が、前記肯定・否定表現特定処理によって特定された前記各文に含まれる前記争点表現に対する肯定・否定表現の対象になっている文の文種を前記文ごとに判定することを特徴とする請求項１に記載の文の並び替え方法。
前記プロセッサは、
前記肯定・否定表現を促進する語句、前記テーマ表現が促進される語句、前記テーマ表現を抑制する語句、または、前記テーマ表現が抑制される語句である促進・抑制表現を規定する単語に関するルールまたは学習モデルに基づいて、前記各文に含まれるテーマ表現について、前記文ごとに、前記促進・抑制表現を特定する促進・抑制表現特定処理を実行し、
前記文種判定処理では、前記プロセッサは、前記テーマ表現と前記促進・抑制表現と前記文種との関連性についてのルールまたは学習モデルに基づいて、前記各文に含まれるテーマ表現が、前記促進・抑制表現特定処理によって特定された前記各文に含まれる促進・抑制表現の対象になっている文の文種を前記文ごとに判定することを特徴とする請求項２に記載の文の並び替え方法。
前記プロセッサは、
前記各文から、発言主体を示す語句である権威を特定する権威特定処理を実行し、
前記文種判定処理では、前記プロセッサは、前記権威を規定する単語に関するルールまたは学習モデルに基づいて、前記権威特定処理によって特定された権威を含む文ごとに文種を判定することを特徴とする請求項１に記載の文の並び替え方法。
前記テンプレートには、文種に関する重要度が規定されており、
前記プロセッサは、
前記並び替え処理による並び替え後の文の集合についての前記テンプレートの充足状況と、前記テンプレートによって与えられた、前記並び順序により特定される文の文種に関する重要度と、に基づいて、前記充足状況に関する評価値を算出する算出処理と、
前記算出処理によって算出された評価値に基づいて、前記並び替え後の文の集合の妥当性を判定する妥当性判定処理と、を実行し、
前記出力処理では、前記プロセッサは、前記妥当性判定処理によって妥当であると判定された場合、前記並び替え後の文の集合である論述文を出力することを特徴とする請求項１に記載の文の並び替え方法。
前記記憶装置は、複数の争点が連鎖する状態を規定し、かつ、連鎖する争点間に連鎖の頻度が設定された争点連鎖モデルを記憶し、
前記並び替え処理では、前記プロセッサは、前記文種が判定された前記複数の文の中から、前記テンプレートに規定された前記複数の文種に該当する文の集合を、前記争点連鎖モデルに従って、先行文の争点から連鎖する争点を含む後続文を選択して並び替え、
前記プロセッサは、
前記並び替え処理による並び替え後の文の集合について、前記争点連鎖モデルによって与えられた、前記並び順序により特定される前記先行文と前記後続文との間の連鎖の頻度の総和に基づいて、前記先行文と前記後続文との関連性を示す評価値を算出する算出処理と、
前記算出処理によって算出された評価値に基づいて、前記並び替え後の文の集合の妥当性を判定する妥当性判定処理と、を実行し、
前記出力処理では、前記プロセッサは、前記妥当性判定処理によって妥当であると判定された場合、前記並び替え後の文の集合を出力することを特徴とする請求項１に記載の文の並び替え方法。
前記記憶装置は、複数の争点が連鎖する状態を規定した争点連鎖モデルを記憶し、
前記並び替え処理では、前記プロセッサは、前記文種が判定された前記複数の文の中から、前記テンプレートに規定された前記複数の文種に該当する文の集合を、前記争点連鎖モデルに従って、先行文の争点から連鎖する争点を含む後続文を選択して並び替えることを特徴とする請求項１に記載の文の並び替え方法。
前記記憶装置は、争点と争点表現との対応関係を規定した争点オントロジ情報を記憶し、
前記並び替え処理では、前記プロセッサは、前記文種が判定された前記複数の文の各文に含まれる争点表現を、前記争点オントロジ情報を参照して対応する争点に変換し、前記テンプレートに規定された前記複数の文種に該当する文の集合を、前記各文に含まれる争点表現から変換された争点を用いて前記争点連鎖モデルに従って選択して並び替えることを特徴とする請求項６または７に記載の文の並び替え方法。
プログラムを実行するプロセッサと、前記プログラムを記憶するメモリと、を有する計算機であって、
前記プロセッサは、文の集合と、文の種類を特定する複数の文種と当該複数の文種の並び順序とを規定したテンプレートと、語句に関するルールまたは学習モデルと、を記憶する記憶装置にアクセス可能であり、
前記プロセッサは、
任意のテーマ文を構成する語句または当該語句に関連する語句であるテーマ表現を規定する単語に関するルールまたは学習モデルに基づいて、前記文の集合内の複数の文の各文から、前記テーマ表現を特定するテーマ表現特定処理と、
前記テーマ表現と前記文種との関連性についてのルールまたは学習モデルに基づいて、前記テーマ表現特定処理によって特定されたテーマ表現を含む文ごとに文種を判定する文種判定処理と、
前記文種判定処理によって文種が判定された前記複数の文の中から、前記テンプレートに規定された前記複数の文種に該当する文の集合を選択し、当該選択した前記文の集合を前記並び順序にしたがって並び替える並び替え処理と、
前記並び替え処理による並び替え後の文の集合を出力する出力処理と、
を実行することを特徴とする計算機。