JP7512798B2 - Information processing device and computer program - Google Patents
Information processing device and computer program Download PDFInfo
- Publication number
- JP7512798B2 JP7512798B2 JP2020162029A JP2020162029A JP7512798B2 JP 7512798 B2 JP7512798 B2 JP 7512798B2 JP 2020162029 A JP2020162029 A JP 2020162029A JP 2020162029 A JP2020162029 A JP 2020162029A JP 7512798 B2 JP7512798 B2 JP 7512798B2
- Authority
- JP
- Japan
- Prior art keywords
- content
- map
- contents
- category
- maps
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Description
本発明は、情報処理装置及びコンピュータプログラムに関する。 The present invention relates to an information processing device and a computer program.
雑誌、書籍、新聞等のレイアウト作成を支援する種々の手法が提案されている。特許文献1には、ドキュメントから複数のコンテンツを抽出し、抽出した複数のコンテンツ間の意味的な関連性の度合いに基づいてドキュメント上の各コンテンツの位置を決定し、決定した位置にコンテンツを配置した新たなドキュメントを生成する情報処理装置が開示されている。
Various methods have been proposed to assist in creating layouts for magazines, books, newspapers, etc.
特許文献1の情報処理装置では、ドキュメント内のコンテンツに記載されたテキストの一致の程度に応じてコンテンツ間の類似度合いを算出し、算出した類似度合いに基づいてコンテンツを配置している。しかし、ドキュメント内のコンテンツはテキストに限定されるわけではなく、図などの他のコンテンツも含まれるので、特許文献1の情報処理装置では、関連性のあるコンテンツの配置を精度よく行うことができない可能性がある。
The information processing device of
本発明は、斯かる事情に鑑みてなされたものであり、文書内のコンテンツの関連性を精度よく判定できる情報処理装置及びコンピュータプログラムを提供することを目的とする。 The present invention has been made in consideration of the above circumstances, and aims to provide an information processing device and computer program that can accurately determine the relevance of content within a document.
本発明の実施の形態に係る情報処理装置は、複数のコンテンツを含む文書データを取得する取得部と、取得した文書データに含まれる前記複数のコンテンツのカテゴリを特定する特定部と、特定したカテゴリのコンテンツの組を生成する生成部と、カテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第1マップのセットを生成する第1マップ生成部と、一つの組に対してカテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第2マップのセットを前記コンテンツの組毎に生成する第2マップ生成部と、前記第1マップのセット、及び前記コンテンツの組毎の前記第2マップのセットを、コンテンツ間の関連性を学習済みの学習済みモデルに入力して、前記コンテンツの組毎のコンテンツ間の関連性の有無を判定する判定部とを備える。 An information processing device according to an embodiment of the present invention includes an acquisition unit that acquires document data including a plurality of pieces of content, an identification unit that identifies categories of the plurality of pieces of content included in the acquired document data, a generation unit that generates a set of content for the identified category, a first map generation unit that generates a set of first maps in which an area corresponding to the content for each category and other areas are imaged with different pixel values, a second map generation unit that generates a set of second maps for each set of content in which an area corresponding to the content for each category and other areas are imaged with different pixel values, and a determination unit that inputs the set of first maps and the set of second maps for each set of content into a trained model that has trained the relevance between the contents, and determines whether or not there is a relevance between the contents for each set of content.
本発明の実施の形態に係るコンピュータプログラムは、コンピュータに、複数のコンテンツを含む文書データを取得し、取得した文書データに含まれる前記複数のコンテンツのカテゴリを特定し、特定したカテゴリのコンテンツの組を生成し、カテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第1マップのセットを生成し、一つの組に対してカテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第2マップのセットを前記コンテンツの組毎に生成し、前記第1マップのセット、及び前記コンテンツの組毎の前記第2マップのセットを、コンテンツ間の関連性を学習済みの学習済みモデルに入力して、前記コンテンツの組毎のコンテンツ間の関連性の有無を判定する、処理を実行させる。 A computer program according to an embodiment of the present invention causes a computer to execute a process of acquiring document data including a plurality of pieces of content, identifying categories of the plurality of pieces of content included in the acquired document data, generating a set of content for the identified category, generating a set of first maps for each category in which an area corresponding to the content and other areas are imaged with different pixel values, generating a set of second maps for each set of content in which an area corresponding to the content and other areas are imaged with different pixel values for each category, inputting the set of first maps and the set of second maps for each set of content into a trained model that has trained the relevance between content, and determining whether or not there is a relevance between the content for each set of content.
本発明によれば、文書内のコンテンツの関連性を精度よく判定できる。 The present invention makes it possible to accurately determine the relevance of content within a document.
以下、本発明の実施の形態を図面に基づいて説明する。図1は本実施の形態の情報処理装置50の構成の一例を示すブロック図である。情報処理装置50は、通信ネットワーク1を介してサーバ10に接続することができる。サーバ10は、例えば、文書データを蓄積するデータサーバとすることができる。情報処理装置50は、通信ネットワーク1を介して、サーバ10から文書データを取得することができる。また、情報処理装置50にはスキャナ20を接続することができる。情報処理装置50は、スキャナ20で読み取って得られた文書データを取得することができる。文書データは、雑誌、書籍、新聞等の版面データであり、複数のコンテンツを含む。コンテンツは、文書内にレイアウトされる各要素である。
The following describes an embodiment of the present invention with reference to the drawings. FIG. 1 is a block diagram showing an example of the configuration of an
情報処理装置50は、装置全体を制御する制御部51、通信部52、記憶部53、カテゴリ特定部54、コンテンツ組生成部55、マップ生成部56、関連性判定部57、表示パネル58、表示処理部59、及び操作部60を備える。情報処理装置50は、例えば、パーソナルコンピュータ、タブレット、スマートフォン等で構成することができる。制御部51は、CPU(Central Processing Unit)、ROM(Read Only Memory)及びRAM(Random Access Memory)などで構成することができる。
The
通信部52は、通信ネットワーク1を介して、サーバ10との間で通信を行う機能を有し、所要の情報の送受信を行うことができる。より具体的には、通信部52は、サーバ10から文書データを取得することができる。また、通信部52は、スキャナ20との間のインタフェース機能も備え、スキャナ20から文書データを取得することができる。
The
記憶部53は、半導体メモリ又はハードディスク等で構成され、通信部52を介して取得した文書データを記憶することができる。また、記憶部53は、情報処理装置50内の処理結果などの所要のデータを記憶することができる。
The
表示パネル58は、液晶ディスプレイ又は有機EL(Electro Luminescence)ディスプレイで構成することができる。
The
表示処理部59は、表示パネル58に所要の情報を表示するための処理を行う。
The
操作部60は、例えば、キーボード、マウス等で構成することができる。また、操作部60は、タッチパネル等で構成され、表示パネル58上で文字の入力操作、表示パネル58に表示されたアイコン、画像又は文字等に対する操作を行うようにしてもよい。
The
カテゴリ特定部54は、特定部としての機能を有し、通信部52を介して、取得した文書データに含まれる複数のコンテンツのカテゴリを特定する。カテゴリには、例えば、タイトル、本文(テキスト)、図(画像)、キャプション(図の説明文)などが含まれる。カテゴリの特定は、例えば、機械学習された分類器、カテゴリを表す特徴量を抽出する画像解析、カテゴリの種類を識別する画像認識、パターンマッチングなど種々の画像処理技術を用いることができる。
The
図2はカテゴリ特定方法の一例を示す模式図である。文書は、複数のコンテンツがレイアウトされ、それぞれのコンテンツは、タイトル、本文、図、キャプションなどのいずれかのカテゴリに分類される。カテゴリ特定部54は、文書内にレイアウトされた各コンテンツのカテゴリを特定することができる。図2の例では、タイトル、本文、図、キャプションなどのカテゴリの中から、所要のカテゴリとして図及びキャプションを特定している。右側の図において、破線で囲まれたコンテンツのカテゴリが、図又はキャプションのいずれかである。なお、タイトル、本文、図、キャプションなどのカテゴリのうち、どのカテゴリを特定するかは、いずれのカテゴリのコンテンツ同士の関連性を対象とするかに応じて、予め設定することができる。以下、本明細書では、所要のカテゴリとして、図及びキャプションを例にして説明する。
Figure 2 is a schematic diagram showing an example of a category identification method. A document has multiple contents laid out, and each content is classified into one of the categories of title, text, figure, caption, etc. The
図3は所要のカテゴリのコンテンツ同士の関連性を示す関連グラフの一例を示す模式図である。所要のカテゴリは、図及びキャプションとする。左図は、特定したカテゴリのコンテンツを表し、具体的には、カテゴリが図であるコンテンツfigure object1、figure object2、figure object3、及びカテゴリがキャプションであるコンテンツcaption object1、caption object2、caption object3がレイアウトされた図を示す。各コンテンツ同士の関連性の有無を判定することにより、右図に示すような正解グラフ(関連グラフ)を得ることができる。正解グラフに示すように、図fig1とキャプションcap1、及びcap2それぞれとが関連性があり、図fig2とキャプションcap3との間、及び図fig3とキャプションcap3との間で関連性がある。図では、関連性があるコンテンツ同士を線分で繋いでいる。 Figure 3 is a schematic diagram showing an example of an association graph showing the association between contents of a required category. The required categories are figures and captions. The left diagram shows the contents of the specified category, specifically, a diagram in which the contents figure object1, figure object2, and figure object3, which are in the category of figures, and the contents caption object1, caption object2, and caption object3, which are in the category of captions, are laid out. By determining whether or not there is an association between each piece of content, a correct answer graph (association graph) such as that shown in the right diagram can be obtained. As shown in the correct answer graph, there is an association between figure fig1 and caption cap1 and cap2, respectively, and there is an association between figure fig2 and caption cap3, and between figure fig3 and caption cap3. In the diagram, related contents are connected by lines.
次に、コンテンツの関連性の判定方法について説明する。 Next, we will explain how to determine the relevance of content.
図4はコンテンツの関連性の判定を行うための一連の処理の流れを示す模式図である。コンテンツ組生成部55は、生成部としての機能を有し、カテゴリ特定部54が特定したカテゴリのコンテンツの組を生成することができる。
Figure 4 is a schematic diagram showing a series of processing steps for determining the relevance of content. The content
図5はコンテンツの組の一例を示す模式図である。特定したカテゴリを、図(fig)とキャプション(cap)とし、文書内に図のコンテンツが3つ(fig1、fig2、fig3)とキャプションのコンテンツが3つ(cap1、cap2、cap3)存在するとする。なお、fig1は、図3のfigure object1に対応し、cap1は、図3のcaption object1に対応する。他のコンテンツも同様である。コンテンツ組生成部55は、図中、(1)~(9)で示す、カテゴリが異なるコンテンツの全ての組(9通りの組)を生成することができる。なお、ここでは、カテゴリが異なるコンテンツの組の全てを生成しているが、同じカテゴリのコンテンツの組(例えば、fig2とfig3)を生成してもよい。
Figure 5 is a schematic diagram showing an example of a content pair. The specified categories are figures (fig) and captions (cap), and there are three figure contents (fig1, fig2, fig3) and three caption contents (cap1, cap2, cap3) in the document. Note that figure 1 corresponds to figure
マップ生成部56は、特定したカテゴリのコンテンツのレイアウトなどを画像化した特徴マップを生成する。具体的には、マップ生成部56は、コンテンツ組マップ、コンテンツ全体マップ、及び座標マップを生成することができる。以下、特徴マップの詳細について説明する。
The
図6はコンテンツ組マップの一例を示す模式図である。コンテンツ組マップは、要素組のセマンティックマップとも称する。コンテンツ組マップは、コンテンツ組生成部55で生成したコンテンツの組それぞれの文書内配置を画像化したものであり、コンテンツの組毎に生成することができる。すなわち、コンテンツ組マップは、一つの組に対してカテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化したマップ(第2マップ)であり、マップ生成部56は、コンテンツ組マップのセットを生成することができる。カテゴリ毎にチャネルを割り当てることができ、図の例では、チャネル1に図が割り当てられ、チャネル2にキャプションが割り当てられている。
Figure 6 is a schematic diagram showing an example of a content set map. The content set map is also called a semantic map of an element set. The content set map is an image of the layout within a document of each content set generated by the content set
コンテンツの組をfig1-cap2とすると、図に関するコンテンツ組マップ(チャネル1のマップ)は、文書内のfig1のレイアウト(配置)を画像化したものとすることができ、キャプションに関するコンテンツ組マップ(チャネル2のマップ)は、文書内のcap2のレイアウト(配置)を画像化したものとすることができる。すなわち、1つのコンテンツの組に対応して、チャネル1、2それぞれの特徴マップを生成することができる。
If the content set is fig1-cap2, the content set map for the figure (
また、コンテンツの組をfig2-cap1とすると、図に関するコンテンツ組マップ(チャネル1のマップ)は、文書内のfig2のレイアウト(配置)を画像化したものとすることができ、キャプションに関するコンテンツ組マップ(チャネル2のマップ)は、文書内のcap1のレイアウト(配置)を画像化したものとすることができる。以下、同様にして、コンテンツの全ての組に対して、コンテンツ組マップを生成することができる。コンテンツの組が9通りある場合、図及びキャプションに関するコンテンツ組マップをそれぞれ9個生成することができる。
Furthermore, if the content set is fig2-cap1, then the content set map for figures (
コンテンツ組マップの画素値は、例えば、コンテンツ領域の画素値を1とし、コンテンツ領域以外の背景の画素値を0とすることができるが、これに限定されるものではない。 The pixel values of the content group map can be, for example, 1 for the content area and 0 for the background outside the content area, but are not limited to this.
図7はコンテンツ全体マップの一例を示す模式図である。コンテンツ全体マップは、要素全体のセマンティックマップとも称する。コンテンツ全体マップは、特定したカテゴリのコンテンツ全体の文書内配置を画像化したものである。すなわち、コンテンツ全体マップは、カテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化したマップ(第1マップ)である。マップ生成部56は、コンテンツ全体マップのセットをコンテンツの組毎に生成する。カテゴリ毎にチャネルを割り当てることができ、図の例では、チャネル1に図が割り当てられ、チャネル2にキャプションが割り当てられている。
Figure 7 is a schematic diagram showing an example of an entire content map. The entire content map is also called a semantic map of all elements. The entire content map is an image of the layout of the entire content of a specified category within a document. In other words, the entire content map is a map (first map) in which the area corresponding to the content for each category and the other areas are imaged with different pixel values. The
コンテンツ全体マップは、特定したカテゴリ毎に生成することができる。図に関するコンテンツ全体マップ(チャネル1のマップ)は、文書内のfig1、fig2、fig3のレイアウト(配置)を画像化したものとすることができる。キャプションに関するコンテンツ全体マップ(チャネル2のマップ)は、文書内のcap1、cap2、cap3のレイアウト(配置)を画像化したものとすることができる。
An overall content map can be generated for each identified category. The overall content map for figures (
コンテンツ全体マップの画素値は、例えば、コンテンツ領域の画素値を1とし、コンテンツ領域以外の背景の画素値を0とすることができるが、これに限定されるものではない。 The pixel values of the entire content map can be, for example, 1 for the content area and 0 for the background outside the content area, but are not limited to this.
図8は座標マップの一例を示す模式図である。座標マップは、文書内の位置情報を画像化したものである。文書の画像が(m×n)画素で構成されるとする(m:y軸方向の画素数、n:x軸方向の画素数)。座標マップは、チャネル1が割り当てられる、x軸の座標マップ、及びチャネル2が割り当てられる、y軸の座標マップで構成することができる。x軸の座標マップは、画素値がx軸方向の位置を表すものであり、x軸方向の画素0、1、2、…、nそれぞれに対して、画素値x0 、x1 、x2 、…、xn が与えられている。図の例では、画素値x0 、x1 、x2 、…、xnを、0、0.1、0.2、…としている。y軸の座標マップは、画素値がy軸方向の位置を表すものであり、y軸方向の画素0、1、2、…、mそれぞれに対して、画素値y0 、y1 、y2 、…、yn が与えられている。図の例では、画素値y0 、y1 、y2 、…、yn を、0、0.1、0.2、…としている。画素値の値が大きくなるに応じて画像は明るくなる。
FIG. 8 is a schematic diagram showing an example of a coordinate map. The coordinate map is an image of position information in a document. Assume that the image of the document is composed of (m×n) pixels (m: number of pixels in the y-axis direction, n: number of pixels in the x-axis direction). The coordinate map can be composed of an x-axis coordinate map to which
図9は特徴マップの構成の一例を示す模式図である。特徴マップは、図(チャネル1)及びキャプション(チャネル2)それぞれのコンテンツ組マップ、図(チャネル1)及びキャプション(チャネル2)それぞれのコンテンツ全体マップ、及び座標マップ(x軸及びy軸)の最終的に6チャネルのマップを結合することにより、構成することができる。なお、座標マップは必須の構成ではないが、座標マップを用いることにより、コンテンツ間の関連性の判定精度を向上させることができる。 Figure 9 is a schematic diagram showing an example of the configuration of a feature map. The feature map can be constructed by combining the maps of six channels, namely the content set maps for the figure (channel 1) and caption (channel 2), the overall content maps for the figure (channel 1) and caption (channel 2), and the coordinate map (x-axis and y-axis). Note that the coordinate map is not a required configuration, but by using the coordinate map, the accuracy of determining the relevance between contents can be improved.
関連性判定部57は、判定部としての機能を有し、特徴マップを入力することにより、コンテンツの組毎にコンテンツ間の関連性の有無を判定することができる。すなわち、関連性判定部57は、コンテンツ組マップのセット、及びコンテンツ全体マップのセットを、コンテンツ間の関連性を学習済みの学習済みモデルに入力して、コンテンツの組毎のコンテンツ間の関連性の有無を判定することができる。学習済みモデルは、例えば、畳み込みニューラルネットワークで構成することができるが、これに限定されるものではなく、他のニューラルネットワークで構成してもよい。また、SVM(Support Vector Machine)、ベイジアンネットワークなど他の機械学習済みのモデルを用いてもよい。
The
上述のように、コンテンツの組毎に、文書内の当該コンテンツのレイアウトを画像化して得られたコンテンツ組マップを用いてコンテンツ間の関連性の有無を判定するので、単にコンテンツ同士の相対位置(相対座標)に基づいて判定する場合に比べて、関連性の有無の判定に用いられる情報量を増やすことができ、コンテンツ間の関連性の有無の判定を精度よく行うことができる。 As described above, for each set of content, the presence or absence of a relationship between the contents is determined using a content set map obtained by imaging the layout of the content within the document. This allows a greater amount of information to be used to determine the presence or absence of a relationship compared to when the determination is simply based on the relative positions (relative coordinates) of the contents, making it possible to more accurately determine the presence or absence of a relationship between the contents.
また、コンテンツ全体マップを用いることにより、コンテンツfig1及びcap1のレイアウト(コンテンツ組マップ)だけでなく、文書内の他のコンテンツとの関連性、例えば、コンテンツfig1とcap1以外のカテゴリがキャプションのコンテンツとの関連性、及びコンテンツcap1とfig1以外のカテゴリが図のコンテンツとの関連性も考慮することができ、文書内のコンテンツの関連性の有無をさらに精度良く判定することができる。 In addition, by using the entire content map, it is possible to take into account not only the layout of the contents fig1 and cap1 (content group map) but also the relevance with other content in the document, for example, the relevance of categories other than the contents fig1 and cap1 with the caption content, and the relevance of categories other than the contents cap1 and fig1 with the figure content, making it possible to more accurately determine whether the content in the document is relevant.
さらに、コンテンツ全体マップ(コンテンツの各組に対して共通)及びコンテンツ組マップ(コンテンツの組毎に異なる)に加えて、座標マップ(コンテンツの各組に対して共通)を用いて、コンテンツの組毎に関連性を判定することにより、コンテンツ全体マップ及びコンテンツ組マップ内の各コンテンツの文書内での位置関係を把握できる情報を加味して関連性を判定できるので、文書内のコンテンツの関連性の有無をさらに精度良く判定することができる。 Furthermore, by using a coordinate map (common to each set of content) in addition to the overall content map (common to each set of content) and the content set map (different for each set of content), relevance can be determined for each set of content by taking into account information that can grasp the positional relationship within the document of each piece of content in the overall content map and content set map, so that the relevance of content within a document can be determined with even greater accuracy.
図10はコンテンツ組マップの他の例を示す模式図である。図6に例示したコンテンツ組マップは、図にチャネル1を割り当て、キャプションにチャネル2を割り当てて、2つのチャネルを用いて、コンテンツ組マップを生成するものであった。図10の例では、マップ生成部56は、特定したカテゴリ毎にコンテンツの画素値が異なるコンテンツ組マップを生成することができる。例えば、図10に示すように、図を模様のない矩形で表し、キャプションを模様(斜線)のある矩形で表す。文書内の図の領域の画素の画素値をaとし、キャプションの領域の画素の画素値をbとし、図及びキャプション以外の領域の画素の画素値をcとすることができる。画素値の違いは、輝度の違いを表すものでもよく、色の違いを表すものでもよい。これにより、1つのコンテンツの組に対応して、1チャネルのコンテンツ組マップを生成することができる。
Figure 10 is a schematic diagram showing another example of a content group map. The content group map shown in Figure 6 is generated by using two channels, with
なお、図示していないが、マップ生成部56は、特定したカテゴリ毎にコンテンツの画素値が異なるコンテンツ全体マップを生成することができる。すなわち、文書内の各図の領域の画素の画素値をaとし、各キャプションの領域の画素の画素値をbとし、各図及び各キャプション以外の領域の画素の画素値をcとすることができる。これにより、1チャネルのコンテンツ全体マップを生成することができる。
Although not shown, the
次に、関連性判定部57の学習方法について説明する。
Next, we will explain the learning method of the
図11は関連性判定部57の学習方法の一例を示す模式図である。予め多数の文書データを収集しておき、各文書内のカテゴリが図のコンテンツと、カテゴリがキャプションのコンテンツの全ての組を生成し、生成したコンテンツの組に、関連ありのラベル、及び関連なしのラベルを付与する。生成したコンテンツの組に基づいて、特徴マップを生成する。訓練用データは、関連ありのラベルが付与された特徴マップ、及び関連なしのラベルが付与された特徴マップを含めることができる。
Figure 11 is a schematic diagram showing an example of a learning method for the
図11の例では、コンテンツfig1とコンテンツcap2とは関連性があるので、コンテンツfig1とコンテンツcap2とに基づいて生成された特徴マップと、関連ありのラベルを用いてニューラルネットワークを学習させて、関連性判定部57を生成することができる。訓練用データには、他の関連性のあるコンテンツの組についての特徴マップと関連ありのラベルが含まれることは言うまでもない。
In the example of FIG. 11, since the content fig1 and the content cap2 are related to each other, the neural network can be trained using the feature map generated based on the content fig1 and the content cap2 and the related labels to generate the
同様に、コンテンツfig2とコンテンツcap1とは関連性がないので、コンテンツfig2とコンテンツcap1とに基づいて生成された特徴マップと、関連なしのラベルを用いてニューラルネットワークを学習させて、関連性判定部57を生成することができる。訓練用データには、他の関連性のないコンテンツの組についての特徴マップと関連なしのラベルが含まれることは言うまでもない。
Similarly, since content fig2 and content cap1 are unrelated, a neural network can be trained using a feature map generated based on content fig2 and content cap1 and an unrelated label to generate a
なお、ニューラルネットワークの学習において、損失関数は、二乗誤差関数など適宜決定することができるが、バイナリ交差(クロス)エントロピーを用いてもよい。交差エントロピーは、訓練用データが教師データと同じになる確率の対数関数で表されるので、教師データと学習結果との差が大きい場合、損失関数が大きくなり、学習の都度の損失関数の減少幅が大きくなり、学習速度を早くできる。 In addition, in training a neural network, the loss function can be appropriately determined as a squared error function, or binary cross entropy can be used. Cross entropy is expressed as a logarithmic function of the probability that the training data will be the same as the teacher data, so if the difference between the teacher data and the training results is large, the loss function will be large, and the loss function will decrease more with each training, allowing for faster learning.
図12は情報処理装置50によるコンテンツの関連性判定結果の一例を示す模式図である。図12A及び図12Bでは、文書内に3つの画像と3つのキャプションがレイアウトされている。図12Aは比較例であり、図12Bは本実施の形態の情報処理装置50による関連性判定結果を示す。図12Aの比較例では、コンテンツ同士の相対位置だけが考慮されている。このため、文書内における距離の近いコンテンツ同士に関連性があると判定してしまう傾向があり、点線で示すように、関連性のあるコンテンツを検出できない場合、あるいは、一点鎖線で示すように、関連性のないコンテンツを関連性があると誤検出する場合がある。これに対して、図12Bに示すように、本実施の形態の情報処理装置50によれば、関連性のあるコンテンツを全て正確に検出していることが分かる。
Figure 12 is a schematic diagram showing an example of a content relevance determination result by the
図12C及び図12Dでは、文書内に2つの画像と2つのキャプションがレイアウトされている。図12Cは比較例であり、図12Dは本実施の形態の情報処理装置50による関連性判定結果を示す。図12Cの比較例では、コンテンツ同士の相対位置だけが考慮されている。このため、一点鎖線で示すように、関連性のないコンテンツを関連性があると誤検出する場合がある。これに対して、図12Dに示すように、本実施の形態の情報処理装置50によれば、関連性のあるコンテンツを全て正確に検出していることが分かる。
In Figures 12C and 12D, two images and two captions are laid out in a document. Figure 12C is a comparative example, and Figure 12D shows the result of a relevance determination made by the
表示処理部59は、出力部としての機能を有し、関連性判定部57の判定結果に基づいて、文書内のカテゴリのコンテンツの関連性を識別する識別情報を出力することができる。識別情報は、例えば、図12に例示したような、文書内の関連性のあるコンテンツ同士を繋ぐ線分でもよく、あるいは、関連性のあるコンテンツを囲む同色の枠でもよい。また、識別情報は、常時表示してもよいが、常時表示する必要がない場合には、所定の操作によって関連付けられたことが分かるように表示してもよい。これにより、ユーザは、関連性のあるコンテンツ同士を容易に認識することができる。
The
図13はクラスタコンテンツに対する操作の一例を示す模式図である。クラスタコンテンツは、関連性判定部57によって関連性があると判定されたコンテンツである。図13に示すように、表示パネル58に複数のコンテンツが配置された文書(例えば、1頁、あるいは両開きの2頁相当)が表示されている。図13の例では、コンテンツとして、タイトル、本文A、本文B、画像(図)A(figure objectA)、キャプションA(caption objectA)、キャプションB(caption objectB)が表示されている。また、画像(図)A(figure objectA)とキャプションA(caption objectA)及びB(caption objectB)とがお互いに関連性があるとする。
Fig. 13 is a schematic diagram showing an example of an operation on cluster content. Cluster content is content that has been determined to be related by the
図13の左図のように、アイコン100を画像A(または画像Aの周辺、キャプションA又はBでもよい)に近づけて、タッチ操作及びドラッグ操作を行うと、右図に示すように、画像AとともにキャプションA及びBを同じように移動させることができる。画像A、キャプションA及びキャプションBは、1個のクラスタコンテンツ101を構成している。
As shown in the left diagram of FIG. 13, when the
このように、表示処理部59は、表示パネル58に表示したクラスタコンテンツを選択する操作を受け付けた場合、クラスタコンテンツよって関連付けられたコンテンツそれぞれを選択した表示態様で表示することができる。例えば、表示パネル58に表示されたクラスタコンテンツ内の一のコンテンツまたはコンテンツの周辺を選択する操作を行い、表示パネル58上を移動(ドラッグ)すると、クラスタコンテンツ内のすべてのコンテンツが選択された表示態様で表示され、クラスタコンテンツ全体を移動(ドラッグ)させることができる。これにより、関連性のあるコンテンツに対しては、同様の操作を繰り返す必要がなく、文書内のコンテンツに対する操作性が向上する。
In this way, when the
図14は情報処理装置50によるコンテンツの関連性判定の処理手順の一例を示すフローチャートである。以下では便宜上、処理の主体を制御部51として説明する。制御部51は、複数のコンテンツを含む文書データを取得し(S11)、コンテンツのカテゴリを特定する(S12)。カテゴリは、例えば、タイトル、本文(テキスト)、図(画像)、キャプション(図の説明文)などを含む。ここでは、図及びキャプションを所要のカテゴリとして特定することができる。
Figure 14 is a flowchart showing an example of a processing procedure for determining the relevance of content by the
制御部51は、特定したカテゴリのコンテンツの組を生成する(S13)。コンテンツの組は、例えば、図5に例示した組の全てとすることができる。制御部51は、コンテンツ全体マップを生成する(S14)。コンテンツ全体マップは、例えば、図7に例示したマップとすることができる。
The
制御部51は、座標マップを生成する(S15)。座標マップは、例えば、図8に例示したマップとすることができる。制御部51は、コンテンツ組マップを生成する(S16)。ここで、コンテンツ組マップは、例えば、図6に例示したマップの一つとすることができる。
The
制御部51は、コンテンツ全体マップ、コンテンツ組マップ、及び座標マップを結合して、特徴マップを構成する(S17)。特徴マップは、例えば、図9に例示したマップとすることができる。なお、座標マップを用いなくてもよい。この場合、ステップS15の処理は不要である。
The
制御部51は、特徴マップを関連性判定部57に入力して、コンテンツの組の関連性の有無を判定する(S18)。制御部51は、すべてのコンテンツの組を判定したか否かを判定し(S19)、すべてのコンテンツの組を判定していない場合(S19でNO)、未処理のコンテンツの組を選択し(S20)、ステップS16以降の処理を続ける。
The
すべてのコンテンツの組を判定した場合(S19でYES)、制御部51は、関連性のあるコンテンツをクラスタコンテンツとして記録し(S21)、コンテンツの関連性を識別する識別情報を出力し(S22)、処理を終了する。識別情報は、例えば、図12に例示したコンテンツを繋ぐ線分とすることができる。
When all the content pairs have been determined (YES in S19), the
上述の例では、コンテンツの組を選択する都度、ステップS16において、コンテンツ組マップを生成する処理を行う構成であったが、これに限定されるものではない。例えば、ステップS16で、全ての組について、コンテンツ組マップを生成しておき、コンテンツの組を選択する都度、ステップS17の処理を繰り返して特徴マップを構成するようにしてもよい。 In the above example, a content group map is generated in step S16 each time a content group is selected, but this is not limited to the above. For example, a content group map may be generated for all groups in step S16, and the process of step S17 may be repeated each time a content group is selected to generate a feature map.
情報処理装置50は、例えば、CPU(例えば、複数のプロセッサコアを実装したマルチ・プロセッサなど)、GPU(Graphics Processing Units)、RAMなどを備えたコンピュータを用いて実現することもできる。図14に示すような処理の手順を定めたコンピュータプログラム(記録媒体に記録可能)をコンピュータに備えられたRAMにロードし、コンピュータプログラムをCPU(プロセッサ)で実行することにより、コンピュータ上で情報処理装置50を実現することができる。
The
上述の例では、カテゴリが図であるコンテンツと、カテゴリがキャプションであるコンテンツとの間の関連性の有無を判定するものであるが、カテゴリは、図とキャプションに限定されるものではなく、他のカテゴリのコンテンツとの関連性の有無を判定することもできる。また、カテゴリが図である複数のコンテンツの間の関連性の有無を判定してもよい。どのカテゴリのコンテンツの関連性の有無を判定するかは、ユーザが設定できるようにしてもよい。 In the above example, the relevance between content whose category is figures and content whose category is captions is determined, but the categories are not limited to figures and captions, and the relevance with content of other categories can also be determined. The relevance between multiple pieces of content whose category is figures may also be determined. The user may be able to set which category of content to determine the relevance of.
本実施の形態の情報処理装置は、複数のコンテンツを含む文書データを取得する取得部と、取得した文書データに含まれる前記複数のコンテンツのカテゴリを特定する特定部と、特定したカテゴリのコンテンツの組を生成する生成部と、カテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第1マップのセットを生成する第1マップ生成部と、一つの組に対してカテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第2マップのセットを前記コンテンツの組毎に生成する第2マップ生成部と、前記第1マップのセット、及び前記コンテンツの組毎の前記第2マップのセットを、コンテンツ間の関連性を学習済みの学習済みモデルに入力して、前記コンテンツの組毎のコンテンツ間の関連性の有無を判定する判定部とを備える。 The information processing device of this embodiment includes an acquisition unit that acquires document data including multiple contents, an identification unit that identifies categories of the multiple contents included in the acquired document data, a generation unit that generates a set of contents of the identified category, a first map generation unit that generates a set of first maps in which an area corresponding to the content and other areas are imaged with different pixel values for each category, a second map generation unit that generates a set of second maps for each set of contents in which an area corresponding to the content and other areas are imaged with different pixel values for each category, and a determination unit that inputs the set of first maps and the set of second maps for each set of contents into a trained model that has trained the relevance between contents and determines whether or not there is a relevance between the contents for each set of contents.
本実施の形態のコンピュータプログラムは、コンピュータに、複数のコンテンツを含む文書データを取得し、取得した文書データに含まれる前記複数のコンテンツのカテゴリを特定し、特定したカテゴリのコンテンツの組を生成し、カテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第1マップのセットを生成し、一つの組に対してカテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第2マップのセットを前記コンテンツの組毎に生成し、前記第1マップのセット、及び前記コンテンツの組毎の前記第2マップのセットを、コンテンツ間の関連性を学習済みの学習済みモデルに入力して、前記コンテンツの組毎のコンテンツ間の関連性の有無を判定する、処理を実行させる。 The computer program of this embodiment causes a computer to execute a process of acquiring document data including a plurality of pieces of content, identifying categories of the plurality of pieces of content included in the acquired document data, generating a set of content for the identified category, generating a set of first maps for each category in which an area corresponding to the content and other areas are imaged with different pixel values, generating a set of second maps for each set of content in which an area corresponding to the content and other areas are imaged with different pixel values for each category, inputting the set of first maps and the set of second maps for each set of content into a trained model that has learned the relevance between content, and determining whether or not there is a relevance between the content for each set of content.
取得部は、複数のコンテンツを含む文書データを取得する。コンテンツは、文書内にレイアウトされる各要素である。文書データは、雑誌、書籍、新聞等の版面データであり、文書データを記録するデータサーバから取得してもよく、スキャナ等の読取装置から読み取ってもよい。 The acquisition unit acquires document data including multiple contents. The contents are the elements laid out in the document. The document data is page data for magazines, books, newspapers, etc., and may be acquired from a data server that records document data, or may be read from a reading device such as a scanner.
特定部は、取得した文書データに含まれる複数のコンテンツのカテゴリを特定する。カテゴリには、例えば、タイトル、本文(テキスト)、図(画像)、キャプション(図の説明文)などが含まれる。特定部は、文書内にレイアウトされた各要素のカテゴリを特定することができる。 The identification unit identifies the categories of multiple contents contained in the acquired document data. The categories include, for example, the title, main text, figures (images), and captions (explanation of figures). The identification unit can identify the category of each element laid out in the document.
生成部は、特定したカテゴリのコンテンツの組を生成する。特定したカテゴリを、図(fig)とキャプション(cap)とし、文書内に図が3つ(fig1、fig2、fig3)とキャプションが3つ(cap1、cap2、cap3)存在するとする。生成部は、例えば、カテゴリが異なるコンテンツの全ての組(fig1-cap1の組、fig1-cap2の組、…等)を生成することができる。この場合、9通りの組を生成することができる。 The generation unit generates a set of content in the specified category. Let us say that the specified category is figure (fig) and caption (cap), and that there are three figures (fig1, fig2, fig3) and three captions (cap1, cap2, cap3) in the document. The generation unit can, for example, generate all sets of content in different categories (fig1-cap1 set, fig1-cap2 set, ..., etc.). In this case, nine sets can be generated.
第1マップ生成部は、カテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第1マップのセットを生成する。第1マップは、特定したカテゴリ毎に生成することができる。例えば、カテゴリが図の場合、図に関する第1マップは、文書内のfig1、fig2、fig3のレイアウト(配置)を画像化したものとすることができ、例えば、fig1、fig2、fig3に対応する画素値を1とし、文書内のfig1、fig2、fig3以外に対応する画素値を0とすることができる。同様に、カテゴリがキャプションの場合、キャプションに関する第1マップは、文書内のcap1、cap2、cap3のレイアウト(配置)を画像化したものとすることができ、例えば、cap1、cap2、cap3に対応する画素値を1とし、文書内のcap1、cap2、cap3以外に対応する画素値を0とすることができる。 The first map generating unit generates a set of first maps in which the area corresponding to the content and the other areas are imaged with different pixel values for each category. The first map can be generated for each specified category. For example, if the category is a figure, the first map for the figure can be an image of the layout (arrangement) of fig1, fig2, and fig3 in the document, and for example, the pixel values corresponding to fig1, fig2, and fig3 can be set to 1, and the pixel values corresponding to other than fig1, fig2, and fig3 in the document can be set to 0. Similarly, if the category is a caption, the first map for the caption can be an image of the layout (arrangement) of cap1, cap2, and cap3 in the document, and for example, the pixel values corresponding to cap1, cap2, and cap3 can be set to 1, and the pixel values corresponding to other than cap1, cap2, and cap3 in the document can be set to 0.
第2マップ生成部は、一つの組に対してカテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第2マップのセットをコンテンツの組毎に生成する。コンテンツの組をfig1-cap1とすると、図に関する第2マップは、文書内のfig1のレイアウト(配置)を画像化したものとすることができ、キャプションに関する第2マップは、文書内のcap1のレイアウト(配置)を画像化したものとすることができる。すなわち、1つのコンテンツの組に対応して2つの第2マップを生成することができる。また、コンテンツの組をfig1-cap2とすると、図に関する第2マップは、文書内のfig1のレイアウト(配置)を画像化したものとすることができ、キャプションに関する第2マップは、文書内のcap2のレイアウト(配置)を画像化したものとすることができる。以下、同様にして、コンテンツの全ての組に対して、第2マップを生成することができる。コンテンツの組が9通りある場合、図及びキャプションに関する第2マップをそれぞれ9個生成することができる。 The second map generating unit generates a set of second maps for each content pair, in which the area corresponding to the content and the other areas are imaged with different pixel values for each category of the pair. If the content pair is fig1-cap1, the second map for the figure can be an image of the layout (placement) of fig1 in the document, and the second map for the caption can be an image of the layout (placement) of cap1 in the document. That is, two second maps can be generated for one content pair. If the content pair is fig1-cap2, the second map for the figure can be an image of the layout (placement) of fig1 in the document, and the second map for the caption can be an image of the layout (placement) of cap2 in the document. In the same manner, second maps can be generated for all content pairs. If there are nine content pairs, nine second maps for the figures and nine second maps for the captions can be generated.
判定部は、第1マップのセット、及びコンテンツの組毎の第2マップのセットを、コンテンツ間の関連性を学習済みの学習済みモデルに入力して、コンテンツの組毎のコンテンツ間の関連性の有無を判定する。 The determination unit inputs the set of first maps and the set of second maps for each group of content into a trained model that has learned the relevance between the contents, and determines whether there is a relevance between the contents for each group of content.
例えば、コンテンツの組(fig1-cap1)のコンテンツfig1とcap1との間の関連性の有無が、文書内のコンテンツfig1及びcap1のレイアウトを画像化して得られた第2マップに基づいて判定されるので、単にコンテンツfig1とcap1との相対位置(相対座標)に基づいて判定する場合に比べて、判定に用いる情報量を増やすことができ、精度の高い判定を行うことができる。 For example, the presence or absence of a relationship between contents fig1 and cap1 of a content pair (fig1-cap1) is determined based on a second map obtained by imaging the layout of contents fig1 and cap1 in a document, so the amount of information used for the determination can be increased and a more accurate determination can be made compared to when the determination is simply based on the relative positions (relative coordinates) of contents fig1 and cap1.
また、第1マップを用いることにより、コンテンツfig1及びcap1のレイアウト(第2マップ)だけでなく、文書内の他のコンテンツとの関連性、例えば、コンテンツfig1とcap1以外のカテゴリがキャプションのコンテンツとの関連性、及びコンテンツcap1とfig1以外のカテゴリが図のコンテンツとの関連性も考慮することができ、文書内のコンテンツの関連性をさらに精度良く判定することができる。 In addition, by using the first map, it is possible to take into account not only the layout (second map) of the contents fig1 and cap1, but also the relevance with other content in the document, for example, the relevance of categories other than the contents fig1 and cap1 with the caption content, and the relevance of categories other than the contents cap1 and fig1 with the figure content, making it possible to more accurately determine the relevance of the content in the document.
本実施の形態の情報処理装置において、前記第1マップ生成部は、特定したカテゴリ毎にコンテンツの画素値が異なる第1マップを生成し、前記第2マップ生成部は、特定したカテゴリ毎にコンテンツの画素値が異なる第2マップを生成する。 In the information processing device of this embodiment, the first map generation unit generates a first map in which the pixel values of the content differ for each identified category, and the second map generation unit generates a second map in which the pixel values of the content differ for each identified category.
第1マップ生成部は、特定したカテゴリ毎にコンテンツの画素値が異なる第1マップを生成する。第2マップ生成部は、特定したカテゴリ毎にコンテンツの画素値が異なる第2マップを生成する。コンテンツの組をfig1-cap1とすると、文書内のfig1に対応する画素の画素値をaとし、cap1に対応する画素の画素値をbとし、当該文書内のfig1及びcap1以外に対応する部分の画素の画素値をcとすることができる。画素値の違いは、輝度の違いを表すものでもよく、色の違いを表すものでもよい。これにより、1つのコンテンツの組に対応して1つの第1マップ及び1つのコンテンツの組に対応して1つの第2マップを生成することができる。 The first map generation unit generates a first map in which the pixel values of the content differ for each identified category. The second map generation unit generates a second map in which the pixel values of the content differ for each identified category. If the set of contents is fig1-cap1, the pixel value of a pixel corresponding to fig1 in the document can be a, the pixel value of a pixel corresponding to cap1 can be b, and the pixel value of a pixel in the document corresponding to parts other than fig1 and cap1 can be c. The difference in pixel value may represent a difference in brightness or a difference in color. This makes it possible to generate one first map corresponding to one set of contents and one second map corresponding to one set of contents.
本実施の形態の情報処理装置は、前記判定部の判定結果に基づいて、文書内の前記カテゴリのコンテンツの関連性を識別する識別情報を出力する出力部を備える。 The information processing device of this embodiment includes an output unit that outputs identification information that identifies the relevance of the content of the category within the document based on the judgment result of the judgment unit.
出力部は、判定部の判定結果に基づいて、文書内のカテゴリのコンテンツの関連性を識別する識別情報を出力する。識別情報は、例えば、文書内の関連性のあるコンテンツ同士を繋ぐ線分でもよく、関連性のあるコンテンツ同士を囲む同色の枠でもよく、常時表示されるものではなく、所定の操作によって関連付けられたことが分かる表示態様でもよい。これにより、ユーザは、関連性のあるコンテンツ同士を容易に認識することができる。 The output unit outputs identification information that identifies the relevance of the content of the category in the document based on the determination result of the determination unit. The identification information may be, for example, a line segment connecting related content in the document, or a frame of the same color surrounding related content, and may not be displayed all the time, but may be displayed in a manner that indicates that the content is associated through a specified operation. This allows the user to easily recognize related content.
本実施の形態の情報処理装置は、文書内の位置情報を画像化した第3マップを生成する第3マップ生成部を備え、前記判定部は、前記第3マップに基づいて、前記コンテンツの組毎のコンテンツ間の関連性の有無を判定する。 The information processing device of this embodiment includes a third map generation unit that generates a third map that visualizes positional information within a document, and the determination unit determines whether or not there is a relationship between the contents for each set of the contents based on the third map.
第3マップ生成部は、文書内の位置情報を画像化した第3マップを生成する。文書の画像が(m×n)画素で構成されるとする(m:y軸方向の画素数、n:x軸方向の画素数)。第3マップは、x軸の座標マップ、及びy軸の座標マップで構成することができる。x軸の座標マップは、画素値がx軸方向の位置を表すものであり、x軸方向の画素0、1、2、…、nそれぞれに対して、画素値x0 、x1 、x2 、…、xn が与えられている。y軸の座標マップは、画素値がy軸方向の位置を表すものであり、y軸方向の画素0、1、2、…、mそれぞれに対して、画素値y0 、y1 、y2 、…、yn が与えられている。
The third map generating unit generates a third map that visualizes position information in the document. Assume that the image of the document is composed of (m×n) pixels (m: number of pixels in the y-axis direction, n: number of pixels in the x-axis direction). The third map can be composed of an x-axis coordinate map and a y-axis coordinate map. The x-axis coordinate map indicates the position of the pixel in the x-axis direction, and pixel values x0 , x1, x2, ..., xn are given to
判定部は、第3マップを入力して、コンテンツの組毎のコンテンツ間の関連性の有無を判定する。すなわち、第1マップ(コンテンツの各組に対して共通)及び第2マップ(コンテンツの組毎に異なる)に加えて、第3マップ(コンテンツの各組に対して共通)を用いて、コンテンツの組毎に関連性を判定することにより、第1マップ及び第2マップ内の各コンテンツの文書内での位置関係を抽出するための情報を考慮して関連性を判定できるので、文書内のコンテンツの関連性の有無をさらに精度良く判定することができる。 The determination unit inputs the third map and determines whether or not there is a relationship between the contents for each group of contents. That is, by determining the relationship for each group of contents using the third map (common to each group of contents) in addition to the first map (common to each group of contents) and the second map (different for each group of contents), the relevance can be determined taking into account information for extracting the positional relationship within the document of each piece of content in the first map and the second map, and therefore the relevance of the contents within the document can be determined with even greater accuracy.
1 通信ネットワーク
10 サーバ
20 スキャナ
50 情報処理装置
51 制御部
52 通信部
53 記憶部
54 カテゴリ特定部
55 コンテンツ組生成部
56 マップ生成部
57 関連性判定部
58 表示パネル
59 表示処理部
60 操作部
REFERENCE SIGNS
Claims (5)
取得した文書データに含まれる前記複数のコンテンツのカテゴリを特定する特定部と、
特定したカテゴリのコンテンツの組を生成する生成部と、
カテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第1マップのセットを生成する第1マップ生成部と、
一つの組に対してカテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第2マップのセットを前記コンテンツの組毎に生成する第2マップ生成部と、
前記第1マップのセット、及び前記コンテンツの組毎の前記第2マップのセットを、コンテンツ間の関連性を学習済みの学習済みモデルに入力して、前記コンテンツの組毎のコンテンツ間の関連性の有無を判定する判定部と、
を備える情報処理装置。 An acquisition unit that acquires document data including a plurality of contents;
an identification unit that identifies categories of the plurality of contents included in the acquired document data;
A generation unit that generates a set of content for the identified category;
a first map generator that generates a set of first maps in which an area corresponding to the content and other areas are imaged with different pixel values for each category;
a second map generating unit that generates, for each set of contents, a set of second maps in which an area corresponding to the content and other areas are imaged with different pixel values for each category of the set;
a determination unit that inputs the set of first maps and the set of second maps for each set of content into a trained model that has trained the relevance between contents and determines whether or not there is a relevance between the contents for each set of content;
An information processing device comprising:
特定したカテゴリ毎にコンテンツの画素値が異なる第1マップを生成し、
前記第2マップ生成部は、
特定したカテゴリ毎にコンテンツの画素値が異なる第2マップを生成する、
請求項1に記載の情報処理装置。 The first map generating unit is
generating a first map in which pixel values of the content differ for each of the identified categories;
The second map generating unit is
generating a second map in which pixel values of the content differ for each of the identified categories;
The information processing device according to claim 1 .
請求項1又は請求項2に記載の情報処理装置。 an output unit that outputs identification information that identifies the relevance of the content of the category in the document based on the determination result of the determination unit;
3. The information processing device according to claim 1 or 2.
前記判定部は、
前記第3マップに基づいて、前記コンテンツの組毎のコンテンツ間の関連性の有無を判定する、
請求項1から請求項3のいずれか一項に記載の情報処理装置。 a third map generating unit that generates a third map by imaging position information within a document;
The determination unit is
determining whether or not there is a relationship between the contents of each of the sets of contents based on the third map;
The information processing device according to claim 1 .
複数のコンテンツを含む文書データを取得し、
取得した文書データに含まれる前記複数のコンテンツのカテゴリを特定し、
特定したカテゴリのコンテンツの組を生成し、
カテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第1マップのセットを生成し、
一つの組に対してカテゴリごとにコンテンツに対応する領域とその他の領域を異なる画素値で画像化した第2マップのセットを前記コンテンツの組毎に生成し、
前記第1マップのセット、及び前記コンテンツの組毎の前記第2マップのセットを、コンテンツ間の関連性を学習済みの学習済みモデルに入力して、前記コンテンツの組毎のコンテンツ間の関連性の有無を判定する、
処理を実行させるコンピュータプログラム。 On the computer,
Acquire document data including multiple contents,
Identifying categories of the plurality of contents included in the acquired document data;
Generate a set of content for the identified categories;
generating a set of first maps in which an area corresponding to the content and other areas are imaged with different pixel values for each category;
generating a set of second maps for each set of content, in which an area corresponding to the content and other areas are imaged with different pixel values for each category of the set;
The set of first maps and the set of second maps for each of the sets of content are input to a trained model that has trained the relevance between contents, and a determination is made as to whether or not there is a relevance between the contents for each of the sets of content.
A computer program that executes a process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020162029A JP7512798B2 (en) | 2020-09-28 | 2020-09-28 | Information processing device and computer program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020162029A JP7512798B2 (en) | 2020-09-28 | 2020-09-28 | Information processing device and computer program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022054812A JP2022054812A (en) | 2022-04-07 |
JP7512798B2 true JP7512798B2 (en) | 2024-07-09 |
Family
ID=80997697
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020162029A Active JP7512798B2 (en) | 2020-09-28 | 2020-09-28 | Information processing device and computer program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7512798B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020642A (en) | 2008-07-11 | 2010-01-28 | Canon Inc | Document managing apparatus, document managing method and computer program |
JP2015099536A (en) | 2013-11-20 | 2015-05-28 | 東芝テック株式会社 | Chart area detection device and chart area detection method |
JP2016535907A (en) | 2013-09-12 | 2016-11-17 | ウィックス.コム リミテッド. | Systems and methods for automatic conversion of interactive sites and applications that support mobile and other display environments |
US20180129899A1 (en) | 2016-11-07 | 2018-05-10 | Gracenote, Inc. | Recurrent Deep Neural Network System for Detecting Overlays in Images |
-
2020
- 2020-09-28 JP JP2020162029A patent/JP7512798B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010020642A (en) | 2008-07-11 | 2010-01-28 | Canon Inc | Document managing apparatus, document managing method and computer program |
JP2016535907A (en) | 2013-09-12 | 2016-11-17 | ウィックス.コム リミテッド. | Systems and methods for automatic conversion of interactive sites and applications that support mobile and other display environments |
JP2015099536A (en) | 2013-11-20 | 2015-05-28 | 東芝テック株式会社 | Chart area detection device and chart area detection method |
US20180129899A1 (en) | 2016-11-07 | 2018-05-10 | Gracenote, Inc. | Recurrent Deep Neural Network System for Detecting Overlays in Images |
Also Published As
Publication number | Publication date |
---|---|
JP2022054812A (en) | 2022-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210295114A1 (en) | Method and apparatus for extracting structured data from image, and device | |
US11263487B2 (en) | Multi-task GAN, and image translator and image classifier trained thereby | |
US11783610B2 (en) | Document structure identification using post-processing error correction | |
US11227159B2 (en) | Explanatory visualizations for object detection | |
US11455502B2 (en) | Learning device, classification device, learning method, classification method, learning program, and classification program | |
JP2008537198A (en) | Intelligent import of information from a foreign application user interface using artificial intelligence | |
CN112183307B (en) | Text recognition method, computer device, and storage medium | |
CN107886082B (en) | Method and device for detecting mathematical formulas in images, computer equipment and storage medium | |
CN112418310B (en) | Text style migration model training method and system and image generation method and system | |
JPWO2020240808A1 (en) | Learning device, classification device, learning method, classification method, learning program, and classification program | |
CN112163577A (en) | Character recognition method and device in game picture, electronic equipment and storage medium | |
CN112749606A (en) | Text positioning method and device | |
CN113711232A (en) | Object detection and segmentation for inking applications | |
CN114120349A (en) | Test paper identification method and system based on deep learning | |
CN118095205A (en) | Information extraction method, device and equipment of layout file and storage medium | |
JP7422548B2 (en) | Label noise detection program, label noise detection method, and label noise detection device | |
JP7491308B2 (en) | OBJECT DETECTION DEVICE, OBJECT DETECTION METHOD, PROGRAM, AND RECORDING MEDIUM | |
JP7512798B2 (en) | Information processing device and computer program | |
JP7534016B2 (en) | Table generation method and system | |
CN116225956A (en) | Automated testing method, apparatus, computer device and storage medium | |
JP3898645B2 (en) | Form format editing device and form format editing program | |
CN113128496B (en) | Method, device and equipment for extracting structured data from image | |
CN115098103B (en) | Front-end code generation method, device, computer equipment and storage medium | |
JP7395915B2 (en) | Information processing device, computer program and information processing method | |
JP2019153230A (en) | Information processor and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230727 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240528 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240610 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7512798 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |