[go: up one dir, main page]

JP2024165421A - Information processing device, information processing method, and information processing program - Google Patents

Information processing device, information processing method, and information processing program Download PDF

Info

Publication number
JP2024165421A
JP2024165421A JP2023081610A JP2023081610A JP2024165421A JP 2024165421 A JP2024165421 A JP 2024165421A JP 2023081610 A JP2023081610 A JP 2023081610A JP 2023081610 A JP2023081610 A JP 2023081610A JP 2024165421 A JP2024165421 A JP 2024165421A
Authority
JP
Japan
Prior art keywords
document
graph
sentences
information processing
important
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023081610A
Other languages
Japanese (ja)
Inventor
祐斗 前橋
Yuto Maebashi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2023081610A priority Critical patent/JP2024165421A/en
Publication of JP2024165421A publication Critical patent/JP2024165421A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 文書の論理構造を考慮した上で文書に含まれる各文の重要度を取得する。【解決手段】 本発明は、情報処理装置に関する。そして、本発明の情報処理装置は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、グラフ文書から、1又は複数の文を重要文として抽出する重要文抽出手段と、重要文抽出手段が重要文として抽出した文に基づいて入力文書を要約した要約を生成する要約生成手段とを有することを特徴とする。【選択図】 図1[Problem] The importance of each sentence included in a document is obtained while taking into consideration the logical structure of the document. [Solution] The present invention relates to an information processing device. The information processing device of the present invention is characterized by having a graph document storage means for storing a graph document in which an input document including a plurality of sentences is converted into a graph format, an important sentence extraction means for extracting one or a plurality of sentences as important sentences from the graph document, and a summary generation means for generating a summary that summarizes the input document based on the sentences extracted as important sentences by the important sentence extraction means. [Selected Figure] Figure 1

Description

この発明は、情報処理装置、情報処理方法及び情報処理プログラムに関し、例えば、文書を要約する処理に適用し得る。 This invention relates to an information processing device, an information processing method, and an information processing program, and can be applied, for example, to the process of summarizing a document.

従来、文書(文を含むデータ)を自動要約する手法には、大きく分けて、「抽出型要約」と「抽象型要約」の2種類の手法が存在する。抽出型要約は、文書中の文から重要度の高い文を抽出し、それらを組み合わせたものを要約とする手法である。抽象型要約は、ニューラルネットワーク等の生成モデルに要約対象の文書を入力することで、要約を生成する手法である。抽象型要約は、要約の長さを制御しやすい反面、入力文書の内容とは異なる要約が生成されることがある。つまり、情報に誤りがなく且つ正確な要約が必要な場面では、抽出型要約を用いるのが好ましい。 Conventionally, there are two main types of methods for automatically summarizing documents (data containing sentences): "extraction-type summarization" and "abstraction-type summarization." Extraction-type summarization is a method in which sentences of high importance are extracted from the sentences in a document and then combined to create a summary. Abstraction-type summarization is a method in which a summary is generated by inputting the document to be summarized into a generative model such as a neural network. While abstraction-type summarization makes it easy to control the length of the summary, it can sometimes generate a summary that differs from the content of the input document. In other words, extraction-type summarization is preferable in situations where an accurate summary with no errors in the information is required.

ところで、従来の抽出型要約では、特許文献1や非特許文献1に開示されるように、文書中に含まれる文同士の類似度を基にグラフを作成し、グラフ構造から各文の重要度を算出するという手法が用いられてきた。例えば、特許文献1に記載された自動要約手法では、文書中に含まれる文同士の類似度に加えて、ユーザの選好度が反映されたキーワードと、文書中の各文との関連度を用いて、各文の重要度を算出している。 Incidentally, conventional extraction-based summarization, as disclosed in Patent Document 1 and Non-Patent Document 1, has used a method of creating a graph based on the similarity between sentences contained in a document and calculating the importance of each sentence from the graph structure. For example, the automatic summarization method described in Patent Document 1 calculates the importance of each sentence using not only the similarity between sentences contained in a document, but also the relevance between each sentence in the document and keywords that reflect the user's preferences.

特開2020-57438号公報JP 2020-57438 A

Erkan, Guenes, and Dragomir R. Radev. "Lexrank: Graph-based lexical centrality as salience in text summarization." Journal of artificial intelligence research 22 (2004): 457-479.Erkan, Guenes, and Dragomir R. Radev. "Lexrank: Graph-based lexical centrality as salience in text summarization." Journal of artificial intelligence research 22 (2004): 457-479.

しかしながら、特許文献1に記載された自動要約手法では、文書に含まれる各文の重要度を算出する上で、各文の出現順序や文同士の関係が無視されており、文書の論理構造が考慮されていないという問題点があった。 However, the automatic summarization method described in Patent Document 1 has the problem that it ignores the order in which each sentence appears and the relationships between sentences when calculating the importance of each sentence in a document, and does not take into account the logical structure of the document.

以上のような問題点に鑑みて、文書の論理構造を考慮した上で文書に含まれる各文の重要度を取得する情報処理装置、情報処理方法及び情報処理プログラムが望まれている。 In view of the above problems, there is a need for an information processing device, an information processing method, and an information processing program that obtain the importance of each sentence contained in a document while taking into account the logical structure of the document.

第1の本発明の情報処理装置は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、前記グラフ文書から、1又は複数の文を重要文として抽出する重要文抽出手段と、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段とを有することを特徴とする。 The information processing device of the first invention is characterized by having a graph document storage means for storing a graph document in which an input document including a plurality of sentences is converted into a graph format, an important sentence extraction means for extracting one or more sentences as important sentences from the graph document, and a summary generation means for generating a summary that summarizes the input document based on the sentences extracted as important sentences by the important sentence extraction means.

第2の本発明の情報処理プログラムは、コンピュータを、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、前記グラフ文書から、1又は複数の文を重要文として抽出する重要文抽出手段と、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段として機能させることを特徴とする。 The second information processing program of the present invention is characterized in that it causes a computer to function as a graph document storage means for storing a graph document in which an input document containing a plurality of sentences is converted into a graph format, an important sentence extraction means for extracting one or more sentences as important sentences from the graph document, and a summary generation means for generating a summary that summarizes the input document based on the sentences extracted as important sentences by the important sentence extraction means.

第3の本発明は、情報処理装置が行う情報処理方法において、前記情報処理装置は、グラフ文書保持手段、重要文抽出手段及び要約生成手段を有し、前記グラフ文書保持手段は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持し、前記重要文抽出手段は、前記グラフ文書から、1又は複数の文を重要文として抽出し、前記要約生成手段は、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成することを特徴とする。 The third invention is an information processing method performed by an information processing device, characterized in that the information processing device has a graph document storage means, an important sentence extraction means, and a summary generation means, the graph document storage means stores a graph document in which an input document including a plurality of sentences is converted into a graph format, the important sentence extraction means extracts one or a plurality of sentences as important sentences from the graph document, and the summary generation means generates a summary that summarizes the input document based on the sentences extracted as important sentences by the important sentence extraction means.

また、第1の本発明において、前記入力文書が入力されると、前記入力文書に基づいて前記グラフ文書を生成するグラフ生成手段をさらに備え、前記グラフ文書保持手段は、前記グラフ生成手段が生成した前記グラフ文書を保持するようにしてもよい。 In the first aspect of the present invention, the system may further include a graph generating means for generating the graph document based on the input document when the input document is input, and the graph document storage means may store the graph document generated by the graph generating means.

さらに、第1の本発明において、前記グラフ生成手段は、前記入力文書を所定の単位の文で分割して、分割した文の集合体を取得し、取得した前記文の集合体を構成する各文をノードとし各ノード間の論理関係をエッジとするグラフ構造のデータを前記グラフ文書として生成することを特徴とするようにしてもよい。 Furthermore, in the first aspect of the present invention, the graph generating means may be characterized in that it divides the input document into sentences of a predetermined unit, obtains a collection of the divided sentences, and generates, as the graph document, data having a graph structure in which each sentence constituting the obtained collection of sentences is a node and the logical relationships between each node are edges.

さらにまた、第1本発明において、前記重要文抽出手段は、前記グラフ文書においてグラフ形式で表された論理構造を行列の形式で表した論理構造行列を生成し、前記論理構造行列に基づく固有ベクトルから、前記グラフ文書を構成する各ノードに対応する文の重要度を取得し、取得した重要度に基づいて前記文の集合体から1又は複数の文を重要文として抽出するようにしてもよい。 Furthermore, in the first aspect of the present invention, the important sentence extraction means may generate a logical structure matrix in which the logical structure expressed in the graph format in the graph document is expressed in the form of a matrix, obtain the importance of sentences corresponding to each node constituting the graph document from eigenvectors based on the logical structure matrix, and extract one or more sentences as important sentences from the collection of sentences based on the obtained importance.

また、第1の本発明において、前記重要文抽出手段は、前記グラフ文書を構成する各エッジの論理関係を数値表現に変換する数値変換処理を行って変換済グラフ文書を生成し、前記変換済グラフ文書に基づいて前記論理構造行列を生成するようにしてもよい。 In addition, in the first aspect of the present invention, the key sentence extraction means may perform a numerical conversion process to convert the logical relationships of the edges constituting the graph document into a numerical expression to generate a converted graph document, and generate the logical structure matrix based on the converted graph document.

さらに、第1の本発明において、前記重要文抽出手段は、機械学習済の学習モデルに基づき前記数値変換処理を行うようにしてもよい。 Furthermore, in the first aspect of the present invention, the key sentence extraction means may perform the numerical conversion process based on a machine-learned learning model.

本発明によれば、文書の論理構造を考慮した上で文書に含まれる各文の重要度を取得することができる。 According to the present invention, it is possible to obtain the importance of each sentence contained in a document while taking into account the logical structure of the document.

実施形態に係る文書要約装置の機能的構成について示したブロック図である。1 is a block diagram showing a functional configuration of a document summarization device according to an embodiment. 実施形態に係るグラフ文書の構造について示した図である。FIG. 2 is a diagram showing a structure of a graph document according to the embodiment. 実施形態に係る文書要約装置の動作について示したフローチャートである。4 is a flowchart showing the operation of the document summarizing device according to the embodiment. 実施形態に係る重要文抽出部による重要文抽出処理の具体例について示したフローチャートである。11 is a flowchart showing a specific example of an important sentence extraction process performed by an important sentence extraction unit according to the embodiment. 実施形態に係る文書要約装置で用いられる数値変換テーブルの構成例について示した図である。4 is a diagram showing an example of the configuration of a numerical value conversion table used in the document summarization device according to the embodiment; FIG. 実施形態に係る文書要約装置で用いられるグラフ文書の各エッジのラベル(論理関係)について数値変換処理を施した状態の例について示した図である。11 is a diagram showing an example of a state in which a numeric conversion process is performed on the labels (logical relationships) of the edges of a graph document used in the document summarization device according to the embodiment. FIG.

(A)主たる実施形態
以下、本発明による情報処理装置、情報処理方法及び情報処理プログラムの一実施形態を、図面を参照しながら詳述する。この実施形態では、本発明の情報処理装置、情報処理方法及び情報処理プログラムを文書要約装置に適用する例について説明する。
An embodiment of an information processing device, an information processing method, and an information processing program according to the present invention will be described in detail below with reference to the drawings. In this embodiment, an example in which the information processing device, the information processing method, and the information processing program according to the present invention are applied to a document summarization device will be described.

(A-1)実施形態の構成
図1は、この実施形態に係る文書要約装置10の機能的構成について示したブロック図である。
(A-1) Configuration of the Embodiment FIG. 1 is a block diagram showing the functional configuration of a document summarization device 10 according to this embodiment.

文書要約装置10は、複数の文により構成される文書を含む入力データについて要約する文書要約処理を行い、要約を含む出力データを出力する装置である。以下では、入力データに含まれる文書を「入力文書」と呼ぶものとする。なお、要約には1または複数の文が含まれる。 The document summarization device 10 is a device that performs document summarization processing to summarize input data including a document composed of multiple sentences, and outputs output data including the summary. Hereinafter, the document included in the input data will be referred to as the "input document." Note that the summary includes one or more sentences.

文書要約装置10は、文書入力部11、前処理部12、重要文抽出部13、要約生成部14、及び要約出力部15を有している。 The document summarization device 10 has a document input unit 11, a preprocessing unit 12, a key sentence extraction unit 13, a summary generation unit 14, and a summary output unit 15.

文書要約装置10は、全てハードウェア(例えば、専用の半導体チップ等)により構成するようにしてもよいし、一部又は全部をコンピュータプログラム(ソフトウェア)により構成するようにしてもよい。例えば、文書要約装置10は、メモリやプロセッサ等を備える図示しないコンピュータにプログラム(実施形態に係る「情報処理プログラム」を含む)をインストールすることにより実現するようにしてもよい。 The document summarization device 10 may be configured entirely from hardware (e.g., a dedicated semiconductor chip, etc.), or may be configured partially or entirely from a computer program (software). For example, the document summarization device 10 may be realized by installing a program (including the "information processing program" according to the embodiment) in a computer (not shown) equipped with a memory, a processor, etc.

文書入力部11は、入力データ(入力文書)の入力を受け付ける処理を行う。文書入力部11において、入力データの供給を受ける手段は限定されないものであり種々の手段を適用することができる。文書入力部11は、例えば、通信により他の装置から入力データの供給を受けるようにしてもよいし、データ記録媒体(例えば、USBメモリやハードディスク等のデータ記録媒体)からオフラインでデータ供給を受けるようにしてもよいし、ユーザから手動により入力(例えば、図示しないキーボード等の入力デバイスを用いて入力)を受け付けるようにしてもよい。 The document input unit 11 performs a process of accepting input data (input document). The means by which the document input unit 11 receives input data is not limited, and various means can be applied. For example, the document input unit 11 may receive input data from another device via communication, may receive data offline from a data recording medium (e.g., a data recording medium such as a USB memory or a hard disk), or may receive manual input from a user (e.g., input using an input device such as a keyboard not shown).

前処理部12は、入力データに含まれる文書について前処理(詳細については後述する)する機能を担っている。前処理部12は、文書分割部121とグラフ生成部122を有している。 The preprocessing unit 12 is responsible for preprocessing (details will be described later) the documents contained in the input data. The preprocessing unit 12 has a document division unit 121 and a graph generation unit 122.

文書分割部121は、入力文書を文単位に分割する処理を行う。以下では、入力文書から分割された各文を「分割文」と呼ぶものとする。文書分割部121は、入力文書から複数の分割文を取得し、取得した分割文の集合体を出力する。文書分割部121が入力文書を分割する手法については限定されないものであり、種々の手法を用いることができる。文書分割部121は、所定のアルゴリズムに従って分割文を抽出(例えば、入力文書に含まれる句読点等の記号や改行コード等に基づいて分割文を抽出)するようにしてもよいし、あらかじめ「プレーンテキスト」と「分割文の集合体」(正解となる分割文の集合体)のペアを教師データとして学習した機械学習モデルを用いて分割文を抽出するようにしてもよい。 The document division unit 121 performs a process of dividing an input document into sentences. Hereinafter, each sentence divided from an input document is referred to as a "divided sentence". The document division unit 121 acquires a plurality of divided sentences from the input document and outputs a collection of the acquired divided sentences. The method by which the document division unit 121 divides an input document is not limited, and various methods can be used. The document division unit 121 may extract divided sentences according to a predetermined algorithm (for example, extracting divided sentences based on symbols such as punctuation marks and line break codes contained in the input document), or may extract divided sentences using a machine learning model that has previously learned pairs of "plain text" and "collections of divided sentences" (collections of divided sentences that are the correct answer) as training data.

グラフ生成部122は、文書分割部121により取得された分割文の集合体を用いて、グラフ形式(グラフ構造)の文書(以下、「グラフ文書」と呼ぶ)を生成する処理を行う。 The graph generation unit 122 uses the collection of divided sentences acquired by the document division unit 121 to perform processing to generate a document in graph format (graph structure) (hereinafter referred to as a "graph document").

図2は、この実施形態におけるグラフ文書の構造について示した図である。 Figure 2 shows the structure of a graph document in this embodiment.

図2は、「明日は雨が降ります。遠足は中止します。降水確率は90%です」というプレーンテキストの入力文書に基づくグラフ文書の構造の例について示している。 Figure 2 shows an example of a graph document structure based on the plain text input document "It will rain tomorrow. The field trip will be canceled. The probability of precipitation is 90%."

図2に示すように、この実施形態のグラフ文書では、各分割文が1つのノード(Node)に割り当てられ、各エッジ(Edge)が両端のノード間(分割文間)の論理関係(関係性)を示しているものとする。図2では、各ノードを矩形のシンボルで示し、ノード間のエッジを矢印で図示している。この実施形態のグラフ文書において、各エッジには矢印の向きに指向性(向)が付与されているものとする。図2では、各ノードのシンボルに分割文が付記され、各エッジの矢印に論理関係を示すラベルが付記されている。 As shown in FIG. 2, in the graph document of this embodiment, each divided sentence is assigned to one node, and each edge indicates the logical relationship between the nodes at both ends (between divided sentences). In FIG. 2, each node is shown with a rectangular symbol, and the edges between the nodes are illustrated with arrows. In the graph document of this embodiment, each edge is assigned a directionality according to the direction of the arrow. In FIG. 2, a divided sentence is attached to the symbol of each node, and a label indicating the logical relationship is attached to the arrow of each edge.

エッジに対応する論理関係(2つの分割文の間の論理関係)としては、例えば、「理由」、「補足」、「例示」等のパターンが挙げられる。この実施形態において、グラフ文書の具体的なデータ形式については限定されないものであり、例えば、種々のグラフ形式のデータベース(データベースを構成するミドルウェア)等のデータ構造を適用することができる。 Examples of logical relationships corresponding to edges (logical relationships between two divided sentences) include patterns such as "reason," "addendum," and "example." In this embodiment, the specific data format of the graph document is not limited, and data structures such as databases (middleware that constitutes a database) in various graph formats can be applied.

図2に示すグラフ文書の構造例では、上記の入力文書(プレーンテキスト)から「明日は雨が降ります」、「遠足は中止します」、「降水確率は90%です」という3つの分割文が抽出され、それぞれの分割文に対してノードX1、X2、X3が割り当てられている。また、図2に示す、グラフ文書の構造例では、ノードX1(明日は雨が降ります)からノードX2(遠足は中止します)へ向けて、「結果」というラベル(論理関係)が付与されたエッジE1が設定されている。さらに、図2に示す、グラフ文書の構造例では、ノードX1(明日は雨が降ります)からノードX3(降水確率は90%です)へ向けて、「補足」というラベル(論理関係)が付与されたエッジE2が設定されている。 In the example of the graph document structure shown in FIG. 2, three divided sentences, "It will rain tomorrow," "The field trip will be canceled," and "The probability of precipitation is 90%," are extracted from the above input document (plain text), and nodes X1, X2, and X3 are assigned to each divided sentence. In addition, in the example of the graph document structure shown in FIG. 2, an edge E1 labeled "Result" (logical relationship) is set from node X1 (It will rain tomorrow) to node X2 (The field trip will be canceled). Furthermore, in the example of the graph document structure shown in FIG. 2, an edge E2 labeled "Supplement" (logical relationship) is set from node X1 (It will rain tomorrow) to node X3 (The probability of precipitation is 90%).

以上のように、この実施形態では、グラフ文書は図2の例に示すような構造を備えているものとする。 As described above, in this embodiment, the graph document is assumed to have a structure as shown in the example of Figure 2.

グラフ生成部122によるグラフ文書の生成処理の具体的処理方法については限定されないものである。例えば、グラフ生成部122は、「分割文の集合体」と対応する「グラフ文書」(正解となるグラフ文書)のペアを教師データとして学習した機械学習モデルを用いる構成としてもよいがこれに限定されない。なお、この実施形態のグラフ生成部122では、分割文の集合体からグラフ文書を生成しているが、プレーンテキストから直接グラフ文書を生成する処理としてもよい。例えば、グラフ生成部122において、「プレーンテキスト」と対応する「グラフ文書」(正解となるグラフ文書)のペアを教師データとして学習した機械学習モデルを備えておけば、プレーンテキストから直接グラフ文書を生成することが可能となる。 The specific processing method of the graph generation unit 122 for generating a graph document is not limited. For example, the graph generation unit 122 may be configured to use a machine learning model that has been trained using pairs of a "collection of divided sentences" and a corresponding "graph document" (a graph document that is the correct answer) as training data, but is not limited to this. Note that in this embodiment, the graph generation unit 122 generates a graph document from a collection of divided sentences, but the graph document may also be generated directly from plain text. For example, if the graph generation unit 122 is provided with a machine learning model that has been trained using pairs of a "plain text" and a corresponding "graph document" (a graph document that is the correct answer) as training data, it becomes possible to generate a graph document directly from plain text.

重要文抽出部13は、前処理部12から供給されたグラフ文書を構成する各ノード(分割文)から重要文を抽出する処理を行う。重要文抽出部13は、グラフ文書の各ノード(分割文)に対して、重要の度合を示す数値(以下、「重要度値」と呼ぶ)を算出し、この重要度値に基づいて1又は複数の分割文を重要文として抽出する。例えば、重要文抽出部13は、グラフ文書から、重要度の高い分割文(例えば、上位から所定数の分割文)を重要文として抽出するようにしてもよい。 The important sentence extraction unit 13 performs a process of extracting important sentences from each node (split sentence) constituting the graph document supplied from the preprocessing unit 12. The important sentence extraction unit 13 calculates a numerical value (hereinafter referred to as an "importance value") indicating the degree of importance for each node (split sentence) of the graph document, and extracts one or more split sentences as important sentences based on this importance value. For example, the important sentence extraction unit 13 may extract split sentences with high importance (for example, a predetermined number of split sentences from the top) as important sentences from the graph document.

要約出力部15は、重要文抽出部13で抽出された重要文(1又は複数の分割文)に基づいて要約を生成する処理を行う。また、要約出力部15は、少なくとも要約を含むデータを出力データとして出力する。要約出力部15は、重要文をそのまま要約として扱うようにしてもよいし、重要文をさらに処理(例えば、他の文書要約アルゴリズムを用いた要約処理)したものを要約として扱うようにしてもよい。要約出力部15が出力データを出力する方式については限定されないものである。要約出力部15は、例えば、通信により他の装置に出力データを送信するようにしてもよいし、データ記録媒体(例えば、USBメモリやハードディスク等のデータ記録媒体)にオフラインで書き込むようにしてもよいし、ディスプレイ等の表示装置に表示出力するようにしてもよいし、プリンタ等の印刷装置から印刷出力するようにしてもよい。 The summary output unit 15 performs a process of generating a summary based on the important sentences (one or more divided sentences) extracted by the important sentence extraction unit 13. The summary output unit 15 also outputs data including at least the summary as output data. The summary output unit 15 may treat the important sentences as they are as summaries, or may treat the important sentences further processed (e.g., summarization processing using another document summarization algorithm) as summaries. The method by which the summary output unit 15 outputs output data is not limited. For example, the summary output unit 15 may transmit the output data to another device via communication, may write the output data offline to a data recording medium (e.g., a data recording medium such as a USB memory or a hard disk), may display the output data on a display device such as a display, or may print the output data from a printing device such as a printer.

(A-2)実施形態の動作
次に、この実施形態の文書要約装置10の動作(実施形態に係る情報処理方法)について説明する。
(A-2) Operation of the Embodiment Next, the operation of the document summarization device 10 of this embodiment (information processing method according to the embodiment) will be described.

図3は、文書要約装置10の動作について示したフローチャートである。 Figure 3 is a flowchart showing the operation of the document summarization device 10.

ここでは、まず、文書要約装置10に入力文書を含む入力データが入力されたものとする(S101)。文書要約装置10では、入力データ(入力文書)は文書入力部11により取得される。文書入力部11は、入力データに含まれる入力文書を、前処理部12に供給する。 First, it is assumed here that input data including an input document is input to the document summarization device 10 (S101). In the document summarization device 10, the input data (input document) is acquired by the document input unit 11. The document input unit 11 supplies the input document included in the input data to the preprocessing unit 12.

前処理部12は、入力文書の供給を受けると、まず当該入力文書のデータ構造を分析する(S102)。ここでは、入力文書は、グラフ文書(グラフ形式/グラフ構造の構造情報を備える文書)又は特に構造情報を備えないプレーンテキストのいずれかであるものとする。つまり、この実施形態の前処理部12は、入力文書の構造を分析して、グラフ形式の構造情報を備えるグラフ文書であるか、特に構造情報を備えないプレーンテキストのいずれかであるかを判断する。そして、前処理部12は、入力文書がグラフ文書である場合には入力文書をそのまま重要文抽出部13に供給して後述するステップS105に移行し、入力文書がプレーンテキストである場合には後述するステップS103に移行して入力文書をグラフ文書に変換する処理を行う。 When the preprocessing unit 12 receives an input document, it first analyzes the data structure of the input document (S102). Here, the input document is assumed to be either a graph document (a document having structural information in a graph format/graph structure) or plain text without any particular structural information. In other words, the preprocessing unit 12 in this embodiment analyzes the structure of the input document to determine whether it is a graph document having structural information in a graph format or plain text without any particular structural information. If the input document is a graph document, the preprocessing unit 12 supplies the input document as is to the key sentence extraction unit 13 and proceeds to step S105, which will be described later, and if the input document is plain text, the preprocessing unit 12 proceeds to step S103, which will be described later, and performs processing to convert the input document into a graph document.

入力文書がプレーンテキストである場合、前処理部12は、まず、文書分割部121に入力文書(プレーンテキスト)を供給して入力文書を文(分割文)の単位に分割させる(S103)。 If the input document is plain text, the preprocessing unit 12 first supplies the input document (plain text) to the document division unit 121, which divides the input document into sentences (divided sentences) (S103).

次に、前処理部12は、文書分割部121により分割された分割文の集合をグラフ生成部122に供給して、グラフ文書を生成させ(S104)、生成させたグラフ文書を重要文抽出部13に供給する。 Next, the preprocessing unit 12 supplies the set of divided sentences divided by the document division unit 121 to the graph generation unit 122 to generate a graph document (S104), and supplies the generated graph document to the key sentence extraction unit 13.

以上のような処理により、前処理部12は、グラフ文書を取得し、重要文抽出部13に供給する。 Through the above processing, the preprocessing unit 12 acquires the graph document and supplies it to the key sentence extraction unit 13.

次に、重要文抽出部13は、供給されたグラフ文書の各ノード(各分割文)に対して重要度値を算出し、算出結果に基づいて重要文となる分割文(ノード)を抽出する処理(以下、「重要文抽出処理」と呼ぶ)を行い(S105)、抽出した重要文(1又は複数の分割文)を要約生成部14に供給する。このとき、重要文として抽出される分割文の数は限定されないものである。例えば、重要文抽出部13では、ユーザの操作により、重要文として抽出する分割文の数を任意に設定可能としてもよい。重要文抽出部13から要約出力部15へ供給されるデータの形式は限定されないものである。例えば、重要文抽出部13は、重要文として抽出した分割文をそれぞれプレーンテキストとして要約生成部14に供給するようにしてもよいし、グラフ文書と共に重要文として抽出したノード(分割文)の識別子のリストを要約生成部14に供給するようにしてもよい。 Next, the important sentence extraction unit 13 calculates an importance value for each node (each divided sentence) of the supplied graph document, performs a process of extracting divided sentences (nodes) that are important sentences based on the calculation result (hereinafter referred to as "important sentence extraction process") (S105), and supplies the extracted important sentences (one or more divided sentences) to the summary generation unit 14. At this time, the number of divided sentences extracted as important sentences is not limited. For example, the important sentence extraction unit 13 may be able to arbitrarily set the number of divided sentences to be extracted as important sentences by a user operation. The format of the data supplied from the important sentence extraction unit 13 to the summary output unit 15 is not limited. For example, the important sentence extraction unit 13 may supply each divided sentence extracted as an important sentence to the summary generation unit 14 as plain text, or may supply a list of identifiers of the nodes (divided sentences) extracted as important sentences together with the graph document to the summary generation unit 14.

次に、要約生成部14は、供給された重要文から要約を作成し(S106)、要約出力部15に供給する。要約の形式は限定されないものである。例えば、要約は、プレーンテキストの形式としてもよいしグラフ形式としてもよい。例えば、要約生成部14は、重要文(分割文のプレーンテキスト)を連結したプレーンテキストを要約として取得するようにしてもよい。また、例えば、要約生成部14は、グラフ文書に対して重要文に対応するノード(分割文)を強調表示(重要文であることを示す表示)したものを要約として取得するようにしてもよい。具体的には、例えば、要約生成部14は、グラフ文書に対して、重要文に対応するノード(分割文)に重要文に該当する旨を示す情報(例えば、ラベル等の情報)を付加したものを要約として取得するようにしてもよい。 Next, the summary generation unit 14 creates a summary from the supplied important sentences (S106) and supplies it to the summary output unit 15. The format of the summary is not limited. For example, the summary may be in plain text format or in graph format. For example, the summary generation unit 14 may acquire plain text in which important sentences (plain text of divided sentences) are linked as a summary. In addition, for example, the summary generation unit 14 may acquire a summary in which nodes (divided sentences) corresponding to important sentences are highlighted (indicated as important sentences) in the graph document. Specifically, for example, the summary generation unit 14 may acquire a summary in which information (for example, information such as a label) indicating that the nodes (divided sentences) corresponding to important sentences are important sentences is added to the nodes (divided sentences) corresponding to important sentences in the graph document.

最後に、要約出力部15は、供給された要約を所定の形式で出力する処理を行う(S107)。 Finally, the summary output unit 15 performs processing to output the provided summary in a predetermined format (S107).

以上のように、文書要約装置10は、入力文書に対応する要約を作成する処理を行う。 As described above, the document summarization device 10 performs the process of creating a summary corresponding to the input document.

次に、文書要約装置10における上述のステップS105の処理(重要文抽出部13による重要文抽出処理)の詳細について説明する。 Next, the details of the process of step S105 described above in the document summarization device 10 (the key sentence extraction process by the key sentence extraction unit 13) will be described.

図4は、重要文抽出部13による重要文抽出処理の具体例について示したフローチャートである。 Figure 4 is a flowchart showing a specific example of the key sentence extraction process performed by the key sentence extraction unit 13.

まず、重要文抽出部13に、重要文抽出処理の対象となるグラフ文書が入力されたものとする(S201)。ここでは、重要文抽出部13には、図2に示すような構造のグラフ文書が入力されたものとして以後の説明を行う。 First, it is assumed that a graph document to be subjected to the key sentence extraction process is input to the key sentence extraction unit 13 (S201). Here, the following explanation will be given assuming that a graph document having the structure shown in FIG. 2 is input to the key sentence extraction unit 13.

重要文抽出部13は、まず、入力されたグラフ文書における各エッジの値(ラベルに設定された論理関係)をスカラとしての数値表現に変換する処理(以下、「数値変換処理」と呼ぶ)を行う(S202)。 The key sentence extraction unit 13 first performs a process of converting the values of each edge in the input graph document (logical relationships set in the labels) into a numerical expression as a scalar (hereinafter referred to as the "numerical conversion process") (S202).

数値変換処理の具体的な手法については限定されないものであり、例えば、予め設定されたテーブル(以下、「数値変換テーブル」と呼ぶ)を用いて行うようにしてもよいし、機械学習済みの学習モデル(例えば、ニューラルネットワーク)を用いるようにしてもよい。重要文抽出部13は、例えば、論理関係(論理関係の名称)ごとに、機械学習済の学習モデルを用いて生成された単語ベクトル(例えば、論理関係の名称を単語とした場合の単語ベクトル)に基づく値を数値表現化した値として取得するようにしてもよい。この実施形態の重要文抽出部13は、あらかじめ数値変換テーブルを備えており、この数値変換テーブルを用いて各エッジのラベルについて数値変換処理を行うものとする。 The specific method of the numerical conversion process is not limited, and may be performed, for example, using a preset table (hereinafter referred to as a "numerical conversion table"), or a machine-learned learning model (e.g., a neural network). For example, the important sentence extraction unit 13 may obtain, for each logical relationship (name of logical relationship), a value based on a word vector (e.g., a word vector when the name of the logical relationship is a word) generated using a machine-learned learning model as a numerically expressed value. The important sentence extraction unit 13 in this embodiment is provided with a numerical conversion table in advance, and performs numerical conversion process on the label of each edge using this numerical conversion table.

図5は、数値変換テーブルの構成例について示した図である。 Figure 5 shows an example of the configuration of a numeric conversion table.

図5では、論理関係(論理関係の名称)ごとに対応する数値が登録されている。例えば、図5では、結果、理由、補足、例示、・・・の各論理関係に対する数値が設定されている。数値変換テーブルに設定する論理関係の数や組み合わせは限定されないものである。また、図5では、結果、理由、補足、例示に対して、それぞれ0.8、0.5、0.2、0.2の数値が設定されているが、各論理関係に対応する数値は限定されないものであり種々の値を設定するようにしてもよい。数値変換テーブルでは、例えば、文書を要約する際に重要度が高くなる傾向にある論理関係ほど大きい数値とするようにしてもよい。例えば、図5の例では、「結果」や「理由」の論理関係で結ばれる文は要約する際の重要度が高くなる傾向にあるが、「理由」や「補足」の論理関係で結ばれる文は上記の2つの論理関係(「結果」や「理由」)と比較すると要約する際の重要度が低くなる傾向にあることを前提としている。また、図5の例では、文書を要約する際に、「結果」の論理関係で結ばれる文は、「理由」の論理関係で結ばれる文よりも、相対的に要約する際の重要度が高くなる傾向にあることを前提としている。図5では、以上のような前提に基づき、「結果>理由>補足=例示」という大小関係となるように、各論理構造に対する数値を設定している。 In FIG. 5, a corresponding numerical value is registered for each logical relationship (the name of the logical relationship). For example, in FIG. 5, numerical values are set for each logical relationship of result, reason, supplement, example, etc. The number and combination of logical relationships set in the numerical conversion table are not limited. Also, in FIG. 5, numerical values of 0.8, 0.5, 0.2, and 0.2 are set for result, reason, supplement, and example, respectively, but the numerical values corresponding to each logical relationship are not limited and various values may be set. In the numerical conversion table, for example, the numerical value may be set to a larger value for a logical relationship that tends to be more important when summarizing a document. For example, in the example of FIG. 5, it is assumed that sentences connected by the logical relationships of "result" and "reason" tend to be more important when summarizing, but sentences connected by the logical relationships of "reason" and "supplement" tend to be less important when summarizing compared to the above two logical relationships ("result" and "reason"). Furthermore, the example in Figure 5 is based on the premise that, when summarizing a document, sentences connected by the logical relationship of "result" tend to be relatively more important than sentences connected by the logical relationship of "reason." Based on the above premise, in Figure 5, values are set for each logical structure so that the magnitude relationship is "result > reason > supplement = example."

図6は、図2に示すグラフ文書の各エッジのラベル(論理関係)について、図5に示す数値変換テーブルに基づいて数値変換処理を施した状態について示した図である。 Figure 6 shows the state of the labels (logical relationships) of each edge in the graph document shown in Figure 2 after numerical conversion processing based on the numerical conversion table shown in Figure 5.

図6に示すように、重要文抽出部13は、図5に示す数値変換テーブルに基づき、ラベル(論理関係)が「結果」となっているエッジE1に対する数値として0.8を設定し、ラベル(論理関係)が「補足」となっているエッジE2に対する数値として0.2を設定することになる。 As shown in Figure 6, based on the numerical conversion table shown in Figure 5, the key sentence extraction unit 13 sets the numerical value for edge E1 whose label (logical relationship) is "result" to 0.8, and sets the numerical value for edge E2 whose label (logical relationship) is "supplement" to 0.2.

以上のように、重要文抽出部13は、各エッジのラベル(論理関係)に対して数値変換処理を行う。 As described above, the key sentence extraction unit 13 performs a numerical conversion process on the labels (logical relationships) of each edge.

次に、重要文抽出部13は、数値変換処理したグラフ文書の各ノード間の論理構造について表した論理構造行列Lを生成する(S203)。 Next, the key sentence extraction unit 13 generates a logical structure matrix L that represents the logical structure between each node of the graph document that has been subjected to the numerical conversion process (S203).

ここでは、グラフ文書の論理構造行列Lは、各ノード間の接続関係を表した隣接行列の各成分(各エッジに対応する成分)に対応するエッジの数値表現(論理関係に対応する数値)を掛け合わせたものとする。論理構造行列Lは、元となるグラフ文書においてグラフ形式で表された論理構造を行列の形式で表したものであると言える。 Here, the logical structure matrix L of a graph document is defined as the product of each component (component corresponding to each edge) of the adjacency matrix that represents the connection relationships between each node and the numerical representation of the corresponding edge (numerical value corresponding to the logical relationship). The logical structure matrix L can be said to represent, in matrix form, the logical structure that is represented in graph form in the original graph document.

以下の(1)式では、図6に示すグラフ文書(エッジの論理関係について数値変換処理済)に基づく隣接行列Aについて表している。隣接行列Aでは、1行目~3行目がそれぞれノードX1~X3に対応し、1列目~3列目がそれぞれX1~X3に対応するものとする。そうすると、隣接行列Aにおいて、ノードX1からノードX2に向けられたエッジE1は1行目の2列目の要素となり、ノードX1からノードX3に向けられたエッジE2は1行目の3列目の要素となる。(1)式に示す隣接行列Aでは、それぞれエッジE1、E2に対応する要素の値が1となり、それ以外の要素は0となっている。 The following formula (1) represents the adjacency matrix A based on the graph document shown in Figure 6 (after numerical conversion processing for the logical relationships of the edges). In adjacency matrix A, the first to third rows correspond to nodes X1 to X3, respectively, and the first to third columns correspond to X1 to X3, respectively. Then, in adjacency matrix A, edge E1 directed from node X1 to node X2 is the element in the second column of the first row, and edge E2 directed from node X1 to node X3 is the element in the third column of the first row. In adjacency matrix A shown in formula (1), the elements corresponding to edges E1 and E2 have a value of 1, and the other elements are 0.

そして、以下の(2)式では、図6に示すグラフ文書(エッジの論理関係について数値変換処理済)に基づく論理構造行列Lについて表している。論理構造行列Lは、隣接行列Aの各要素(各エッジに対応する要素)に対して、対応するエッジの数値表現(論理関係に対応する数値)が乗じられた結果となっている。したがって、以下の(2)式の論理構造行列Lでは、エッジE1に対応する要素(1行の2列目)は、「1×0.8=0.8」となっており、エッジE2に対応する要素(1行の3列目)は、「1×0.2=0.2」となっている。

Figure 2024165421000002
The following formula (2) expresses the logical structure matrix L based on the graph document shown in Fig. 6 (where the logical relationships of the edges have been subjected to numerical conversion processing). The logical structure matrix L is the result of multiplying each element (element corresponding to each edge) of the adjacency matrix A by the numerical expression of the corresponding edge (numerical value corresponding to the logical relationship). Therefore, in the logical structure matrix L of the following formula (2), the element (first row, second column) corresponding to edge E1 is "1 x 0.8 = 0.8", and the element (first row, third column) corresponding to edge E2 is "1 x 0.2 = 0.2".
Figure 2024165421000002

次に、重要文抽出部13は、ステップS203で作成した論理構造行列Lとランダムジャンプ行列Rを一定の割合dで足し合わせる(S204)。 Next, the key sentence extraction unit 13 adds the logical structure matrix L created in step S203 and the random jump matrix R at a constant ratio d (S204).

ここでは、ランダムジャンプ行列Rは、論理構造行列Lと同じ行数と列数を持ち、全ての要素(成分)が1/Nである行列である。ここで、Nは、元となるグラフ文書の全ノード数である。ここでは、図6に示すグラフ文書のノード数は3であるのでN=3となる。そのため、ここでは、ランダムジャンプ行列Rは、以下の(3)式のように、行数及び列数がN=3で全ての要素が1/N=1/3となっている。 Here, the random jump matrix R is a matrix that has the same number of rows and columns as the logical structure matrix L, and all elements (components) are 1/N. Here, N is the total number of nodes in the original graph document. Here, the number of nodes in the graph document shown in Figure 6 is 3, so N = 3. Therefore, here, the random jump matrix R has the number of rows and columns N = 3, and all elements are 1/N = 1/3, as shown in the following formula (3).

ここでは、重要文抽出部13は、以下の(4)式のように、論理構造行列Lとランダムジャンプ行列Rをd:(1-d)の割合で足し合わせた行列Mを求めるものとする。(4)式ではd=0.85としているが、dの値は限定されないものであり任意の値(例えば、実験やシミュレーション等により得られる好適な値)を設定するようにしてもよい。

Figure 2024165421000003
Here, the important sentence extraction unit 13 obtains a matrix M by adding a logical structure matrix L and a random jump matrix R in a ratio of d:(1-d) as shown in the following formula (4). In formula (4), d=0.85 is used, but the value of d is not limited and may be set to any value (for example, a suitable value obtained by an experiment, a simulation, or the like).
Figure 2024165421000003

次に、重要文抽出部13は、ステップS204で作成した行列Mの固有ベクトルxを求める(S205)。 Next, the key sentence extraction unit 13 finds the eigenvector x of the matrix M created in step S204 (S205).

重要文抽出部13が固有ベクトルを求める手順については限定されないものであるが、例えば、以下のような手順を適用することができる。重要文抽出部13は、まず行列Mにおける各行の成分を、各行の総和で割ることにより、行列M’を求める。その結果、行列M’では、各行の総和が1になる。(4)式に示す行列Mに基づいて行列M’を求めるとその結果は(5)式のようになる。そして、次に重要文抽出部13は、M’x=λxを満たす、M’における固有値1の固有ベクトルをxとして求める。(5)式に示す行列M’に基づき固有ベクトルxを求めるとその結果は以下の(6)式のようになる。固有ベクトルxは、1行N列(Nは元となるグラフ文書の全ノード数)の行列で示されるベクトルである。固有ベクトルxにおいて、各列の要素は対応する列のノード(ノードに対応する分割文)の重要度を示すことになる。なお、固有ベクトルxにおいて各列に対応するノードは、元となる論理構造行列L(隣接行列A)の列と一致する。例えば、以下の(5)式に示す固有ベクトルxは、1行3列であり、1行目~3行目がそれぞれノードX1~X3に対応する。以下の(5)式では、ノードX1(明日は雨が降ります)に対応する重要度が0.26、ノードX2(遠足は中止します)に対応する重要度が0.44、ノードX3(降水確率は90%です)に対応する重要度が0.30となっている。

Figure 2024165421000004
The procedure for the important sentence extraction unit 13 to obtain the eigenvector is not limited, but for example, the following procedure can be applied. The important sentence extraction unit 13 first obtains a matrix M' by dividing the components of each row in the matrix M by the sum of the rows. As a result, the sum of each row in the matrix M' becomes 1. When the matrix M' is obtained based on the matrix M shown in the formula (4), the result becomes the formula (5). Next, the important sentence extraction unit 13 obtains an eigenvector of M' with an eigenvalue of 1 that satisfies M'x = λx as x. When the eigenvector x is obtained based on the matrix M' shown in the formula (5), the result becomes the following formula (6). The eigenvector x is a vector represented by a matrix of 1 row and N columns (N is the total number of nodes in the original graph document). In the eigenvector x, the elements of each column indicate the importance of the node (the divided sentence corresponding to the node) in the corresponding column. Note that the nodes corresponding to each column in the eigenvector x match the columns of the original logical structure matrix L (adjacency matrix A). For example, the eigenvector x shown in the following formula (5) has one row and three columns, and the first to third rows correspond to nodes X1 to X3, respectively. In the following formula (5), the importance corresponding to node X1 (it will rain tomorrow) is 0.26, the importance corresponding to node X2 (the field trip will be canceled) is 0.44, and the importance corresponding to node X3 (the probability of precipitation is 90%) is 0.30.
Figure 2024165421000004

次に、重要文抽出部13は、ステップS205で求めた重要度が大きいノードに対応する分割文を重要文として抽出する(S206)。 Next, the important sentence extraction unit 13 extracts the divided sentences corresponding to the nodes with high importance determined in step S205 as important sentences (S206).

ここでは、重要文抽出部13は、最も重要度の高いノード1つに対応する分割文を重要文として抽出するものとする。そうすると、(5)式のような固有ベクトルが得られた場合、重要文抽出部13は、ノードX2に対応する分割文「遠足は中止します」を重要文として抽出することになる。 Here, the important sentence extraction unit 13 extracts the divided sentence corresponding to the node with the highest importance as an important sentence. Then, when an eigenvector like that of equation (5) is obtained, the important sentence extraction unit 13 extracts the divided sentence "The field trip is canceled" corresponding to node X2 as an important sentence.

(A-3)実施形態の効果
この実施形態の文書要約装置10では、以下のような効果を奏することができる。
(A-3) Advantages of the Embodiment The document summarization device 10 of this embodiment can provide the following advantages.

この実施形態の文書要約装置10では、上記のように入力文書(プレーンテキスト)に基づくグラフ文書の構造を論理構造行列Lで表現し、この論理構造行列Lに基づく固有ベクトルxを求めることで、入力文書に含まれる文の出現順序や、文同士の関係性を考慮した上で、重要文を抽出する処理を行うことができる。特に、この実施形態の文書要約装置10で用いられるグラフ文書では、ノード間(文の間)の論理関係について有指向性のエッジを用いて表現しているため、入力文書に含まれる文の出現順序や、文同士の関係性が反映された固有ベクトルx(分割文毎の重要度)が得られる。そのため、この実施形態の文書要約装置10では、入力文書における重要文を精度良く要約に含めることが可能となる。 In the document summarization device 10 of this embodiment, the structure of a graph document based on an input document (plain text) is expressed by a logical structure matrix L as described above, and an eigenvector x based on this logical structure matrix L is obtained, thereby making it possible to perform a process of extracting important sentences while taking into consideration the order in which sentences in the input document appear and the relationships between the sentences. In particular, in the graph document used in the document summarization device 10 of this embodiment, the logical relationships between nodes (sentences) are expressed using directional edges, so that an eigenvector x (importance of each divided sentence) that reflects the order in which sentences in the input document appear and the relationships between the sentences can be obtained. Therefore, in the document summarization device 10 of this embodiment, it becomes possible to accurately include important sentences in the input document in the summary.

(B)他の実施形態
本発明は、上記の各実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(B) Other Embodiments The present invention is not limited to the above-described embodiments, and modified embodiments such as those exemplified below can also be mentioned.

(B-1)上記の実施形態において、文書分割部121は、分割文に1つの文だけが含まれるように入力文書を分割しているが、分割文に複数の文(例えば、段落のような複数文の集合)を含めるようにしてもよい。 (B-1) In the above embodiment, the document divider 121 divides the input document so that each divided sentence contains only one sentence, but the divided sentence may contain multiple sentences (for example, a collection of multiple sentences such as a paragraph).

(B-2)上記の実施形態において、文書要約装置10に入力される入力データに含まれる入力文書は、プレーンテキスト又はグラフ文書のいずれかであるものとしたが、いずれか一方のみが入力される前提としてもよい。例えば、入力データにプレーンテキストのみが含まれる場合には、図3のフローチャートにおいて、ステップS102の処理(文書形式の判定処理)を省略し、ステップS101の後に必ずステップS103、S104の処理(プレーンテキストをグラフ文書に変換する前処理)を行うようにしてもよい。また、例えば、入力データにグラフ文書のみが含まれる場合には、文書要約装置10において前処理部12を省略し、図3のフローチャートにおいて、ステップS102~S104の処理(文書形式の判定処理及び前処理)を省略するようにしてもよい。 (B-2) In the above embodiment, the input document included in the input data input to the document summarization device 10 is either plain text or a graph document, but it may be assumed that only one of them is input. For example, if the input data contains only plain text, the process of step S102 (document format determination process) may be omitted in the flowchart of FIG. 3, and steps S103 and S104 (preprocessing for converting plain text into a graph document) may be performed after step S101. Also, for example, if the input data contains only graph documents, the preprocessing unit 12 may be omitted in the document summarization device 10, and the processes of steps S102 to S104 (document format determination process and preprocessing) may be omitted in the flowchart of FIG. 3.

10…文書要約装置,11…文書入力部,12…前処理部,13…重要文抽出部,14…要約生成部,15…要約出力部,121…文書分割部,122…グラフ生成部 10... document summarization device, 11... document input unit, 12... preprocessing unit, 13... important sentence extraction unit, 14... summary generation unit, 15... summary output unit, 121... document segmentation unit, 122... graph generation unit

Claims (8)

複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、
前記グラフ文書から、1又は複数の文を重要文として抽出する重要文抽出手段と、
前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段と
を有することを特徴とする情報処理装置。
A graph document storage means for storing a graph document in which an input document including a plurality of sentences is converted into a graph form;
an important sentence extraction means for extracting one or more sentences as important sentences from the graph document;
and a summary generating means for generating a summary that summarizes the input document based on the sentences extracted as key sentences by the key sentence extracting means.
前記入力文書が入力されると、前記入力文書に基づいて前記グラフ文書を生成するグラフ生成手段をさらに備え、
前記グラフ文書保持手段は、前記グラフ生成手段が生成した前記グラフ文書を保持する
ことを特徴とする請求項1に記載の情報処理装置。
a graph generating unit that generates the graph document based on the input document when the input document is input;
2. The information processing apparatus according to claim 1, wherein said graph document storage means stores said graph document generated by said graph generating means.
前記グラフ生成手段は、前記入力文書を所定の単位の文で分割して、分割した文の集合体を取得し、取得した前記文の集合体を構成する各文をノードとし各ノード間の論理関係をエッジとするグラフ構造のデータを前記グラフ文書として生成することを特徴とする請求項2に記載の情報処理装置。 The information processing device according to claim 2, characterized in that the graph generation means divides the input document into sentences of a predetermined unit, acquires a collection of the divided sentences, and generates, as the graph document, data having a graph structure in which each sentence constituting the acquired collection of sentences is a node and the logical relationships between each node are edges. 前記重要文抽出手段は、前記グラフ文書においてグラフ形式で表された論理構造を行列の形式で表した論理構造行列を生成し、前記論理構造行列に基づく固有ベクトルから、前記グラフ文書を構成する各ノードに対応する文の重要度を取得し、取得した重要度に基づいて前記文の集合体から1又は複数の文を重要文として抽出することを特徴とする請求項3に記載の情報処理装置。 The information processing device according to claim 3, characterized in that the important sentence extraction means generates a logical structure matrix in which the logical structure expressed in the graph format in the graph document is expressed in the form of a matrix, obtains the importance of sentences corresponding to each node constituting the graph document from eigenvectors based on the logical structure matrix, and extracts one or more sentences as important sentences from the collection of sentences based on the obtained importance. 前記重要文抽出手段は、前記グラフ文書を構成する各エッジの論理関係を数値表現に変換する数値変換処理を行って変換済グラフ文書を生成し、前記変換済グラフ文書に基づいて前記論理構造行列を生成することを特徴とする請求項4に記載の情報処理装置。 The information processing device according to claim 4, characterized in that the key sentence extraction means performs a numerical conversion process to convert the logical relationships of each edge constituting the graph document into a numerical expression to generate a converted graph document, and generates the logical structure matrix based on the converted graph document. 前記重要文抽出手段は、機械学習済の学習モデルに基づき前記数値変換処理を行うことを特徴とする請求項5に記載の情報処理装置。 The information processing device according to claim 5, characterized in that the key sentence extraction means performs the numerical conversion process based on a machine-learned learning model. コンピュータを、
複数の文を含む入力文書をグラフ形式としたグラフ文書を保持するグラフ文書保持手段と、
前記グラフ文書から、1又は複数の文を重要文として抽出する重要文抽出手段と、
前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する要約生成手段と
して機能させることを特徴とする情報処理プログラム。
Computer,
A graph document storage means for storing a graph document in which an input document including a plurality of sentences is converted into a graph form;
an important sentence extraction means for extracting one or more sentences as important sentences from the graph document;
2. An information processing program that causes the program to function as a summary generating means for generating a summary that summarizes the input document based on the sentences extracted as key sentences by the key sentence extracting means.
情報処理装置が行う情報処理方法において、
前記情報処理装置は、グラフ文書保持手段、重要文抽出手段及び要約生成手段を有し、
前記グラフ文書保持手段は、複数の文を含む入力文書をグラフ形式としたグラフ文書を保持し、
前記重要文抽出手段は、前記グラフ文書から、1又は複数の文を重要文として抽出し、
前記要約生成手段は、前記重要文抽出手段が重要文として抽出した文に基づいて前記入力文書を要約した要約を生成する
ことを特徴とする情報処理方法。

An information processing method performed by an information processing device,
The information processing device includes a graph document storage means, an important sentence extraction means, and a summary generation means,
The graph document storage means stores a graph document in which an input document including a plurality of sentences is converted into a graph format;
The key sentence extraction means extracts one or more sentences as key sentences from the graph document,
The information processing method according to claim 1, wherein the summary generating means generates a summary that summarizes the input document based on the sentences extracted as key sentences by the key sentence extracting means.

JP2023081610A 2023-05-17 2023-05-17 Information processing device, information processing method, and information processing program Pending JP2024165421A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023081610A JP2024165421A (en) 2023-05-17 2023-05-17 Information processing device, information processing method, and information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023081610A JP2024165421A (en) 2023-05-17 2023-05-17 Information processing device, information processing method, and information processing program

Publications (1)

Publication Number Publication Date
JP2024165421A true JP2024165421A (en) 2024-11-28

Family

ID=93608290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023081610A Pending JP2024165421A (en) 2023-05-17 2023-05-17 Information processing device, information processing method, and information processing program

Country Status (1)

Country Link
JP (1) JP2024165421A (en)

Similar Documents

Publication Publication Date Title
JP5963328B2 (en) Generating device, generating method, and program
US8302002B2 (en) Structuring document based on table of contents
US7046847B2 (en) Document processing method, system and medium
Rastan et al. Texus: A task-based approach for table extraction and understanding
US12190052B2 (en) System and method for validating tabular summary reports
JP2009163303A (en) Retrieval filtering device and retrieval filtering program
JP2020080025A (en) Question and answer data generation device and question and answer data generation method
CN113836038A (en) Test data construction method, device, equipment and storage medium
CN111859984B (en) Intention mining method, device, equipment and storage medium
US7478092B2 (en) Key term extraction
Meuschke et al. A benchmark of pdf information extraction tools using a multi-task and multi-domain evaluation framework for academic documents
JP5577546B2 (en) Computer system
US20080168036A1 (en) System and Method for Locating and Extracting Tabular Data
Klahold et al. Computer aided writing
US20220284188A1 (en) Machine based expansion of contractions in text in digital media
Ekbal et al. Web-based Bengali news corpus for lexicon development and POS tagging
JPWO2008108061A1 (en) Language processing system, language processing method, language processing program, and recording medium
CN113779218A (en) Question-answer pair construction method and device, computer equipment and storage medium
CN118446315A (en) Problem solving method, device, storage medium and computer program product
JP2024165421A (en) Information processing device, information processing method, and information processing program
US20090259995A1 (en) Apparatus and Method for Standardizing Textual Elements of an Unstructured Text
US8719693B2 (en) Method for storing localized XML document values
CN102646099B (en) Pattern matching system, pattern mapping system, pattern matching method and pattern mapping method
JP7159780B2 (en) Correction Content Identification Program and Report Correction Content Identification Device
JP2008129943A (en) Structured document generation method and apparatus and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240806

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20241224