JP2024071936A

JP2024071936A - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP2024071936A
Application number: JP2022182457A
Authority: JP
Inventors: 亮小坂; Ryo Kosaka
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2022-11-15
Filing date: 2022-11-15
Publication date: 2024-05-27

Abstract

【課題】手書きで追記された注釈がわかりやすく反映された要約文を生成する。
【解決手段】手書き部分を含む入力画像を取得する。そして、前記入力画像から所定の手書き部分の領域である対象領域を抽出する。さらに、前記対象領域を手書き文字認識して第１の文字列を生成する。また、前記入力画像から活字文字列を抽出する。さらに、前記対象領域の情報に基づいて、抽出された活字文字列のうち、前記第１の文字列に関連する活字文字列である第２の文字列を決定して、前記第１の文字列の情報と前記第２の文字列を含む活字文字列の情報との間の関係性を推定する。そして、前記入力画像から抽出された活字文字列から、要約文を生成する。このとき、前記第１の文字列の情報と、前記第２の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成する。
【選択図】図４

Description

本発明は、画像から要約文を生成する技術に関する。

ユーザが様々な文書を読んで、その中から必要な情報を短時間で知り得たいという状況は多い。しかし、長い文書を理解するには労力と時間を必要とし、短時間で知り得ることは難しい。また、短時間で理解しようとすると、重要な内容を見落としやすくなってしまう。そのため、ユーザは文書を読み進めていく過程で、重要だと思った個所や気になる個所などにアンダーラインなどを引いたり、手書きでメモ書きを追記して残したりすることがある。そして、このような手書きの注釈が追記された文書を読む際には、手書きの注釈がなされた箇所を注目して理解を進めると効率良く内容を理解できる。また、従来から文書を入力すると、短い要約文を自動で生成するような技術開発が進められてきている。特許文献１は、文書中に追記された手書き注釈を要約文生成の際に活用するための技術を開示している。

特開２００３－１８６８８９号公報

しかしながら、特許文献１では、手書きの注釈に手書き文字が含まれていた場合に、手書き文字を本文の要約に反映させることはできても、ユーザにとっては手書き文字と本文の要約との繋がりを理解しにくい場合があった。

そこで本発明は、手書きで追記された注釈がわかりやすく反映された要約文を生成することを目的とする。

本発明の情報処理装置は、手書き部分を含む入力画像を取得する画像取得手段と、前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出手段と、前記対象領域の画像を手書き文字認識して第１の文字列を生成する手書き文字列生成手段と、前記入力画像から活字文字列を抽出する活字文字列抽出手段と、前記対象領域の情報に基づいて、前記活字文字列抽出手段により抽出された活字文字列のうち、前記第１の文字列に関連する活字文字列である第２の文字列を決定する決定手段と、前記第１の文字列の情報と前記第２の文字列を含む活字文字列の情報との間の関係性を推定する推定手段と、前記活字文字列抽出手段により抽出された活字文字列から、要約文を生成する要約文生成手段と、を有し、前記要約文生成手段は、前記第１の文字列の情報と、前記第２の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とする。

本発明によれば、手書きで追記された注釈がわかりやすく反映された要約文を生成することができる。

情報処理システムの全体構成例を示す図である。各装置の構成例を示す図である。情報処理システムの利用シーケンスを示す図である。要約文生成処理を示すフローチャートである。手書き注釈領域の抽出処理の説明図ある。手書き注釈領域の抽出処理を示すフローチャートである。印字情報解析処理を示すフローチャートである。関係性推定処理の説明図である。要約文生成処理の説明図である。要約文の生成結果を示す図である。要約文の生成結果を示す図である。要約文の表示画面を示す図である。

以下、本発明の実施形態について、図面を参照して説明する。

［実施形態１］
＜情報処理システム＞
図１は、情報処理システムの全体構成例を示す図である。図１に示すように、情報処理システム１００は、情報処理装置１０１及び情報処理サーバ１０３で構成される。情報処理装置１０１及び情報処理サーバ１０３は、ネットワーク１０４を介して互いに接続される。情報処理システム１００は、情報処理装置１０１及び情報処理サーバ１０３が１台ずつで構成されてもよく、複数台ずつで構成されてもよい。例えば、情報処理サーバ１０３は、高速演算リソースと有する第１のサーバ装置と、大容量ストレージを有する第２のサーバ装置で構成され、ネットワーク１０４を介して互いに接続された構成であってもよい。

情報処理装置１０１は、プリント、スキャン、ＦＡＸのように複数の機能を備えたＭＦＰ（Ｍｕｌｔｉ－ＦｕｎｃｔｉｏｎＰｅｒｉｐｈｅｒａｌ）などで実現されるものであって、画像取得部として機能する。情報処理装置１０１は、画像取得部によって、紙などの記憶媒体に印字された原稿１１１を光学的に読み取り、所定のスキャン処理を行うことで文書画像１１３を生成して、情報処理サーバ１０３に送信する。この原稿１１１は、手書きの注釈が追記された活字文書である。また、情報処理装置１０１は、例えば、画像取得部によって、不図示のＦＡＸ送信機から送信されたＦＡＸデータ１１２を受信し、所定のＦＡＸ処理を行うことで文書画像１１３を生成して、情報処理サーバ１０３に送信する。なお、情報処理装置１０１は、前述したスキャンやＦＡＸの機能を備えたＭＦＰ以外に、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などで実現される構成であってもよい。具体的には、情報処理装置１０１としてのＰＣ上で動作する文書作成アプリケーションを用いて生成された、ＰＤＦやＪＰＥＧ等の文書画像１１３を、情報処理サーバ１０３に送信してもよい。

情報処理サーバ１０３は、情報処理部と記憶部とで構成される。情報処理サーバ１０３の情報処理部は、情報処理装置１０１から受信した文書画像１１３に対して、文書画像内の手書き注釈領域の抽出処理を実行する。手書き注釈領域は、矢印線等の手書き注釈記号及び当該手書き注釈記号の周囲の手書き文字の領域である。手書き注釈領域は、処理の対象領域の一例である。また、情報処理サーバ１０３の情報処理部は、文書画像１１３の手書き注釈領域をＯＣＲ処理（文字認識処理）して、手書き文字列データを生成する。そして、情報処理サーバ１０３の情報処理部は、文書画像１１３から手書き部分を除外した文書画像に対して、文書画像内のレイアウトを解析するレイアウト解析処理及びＯＣＲ処理を実行して、レイアウト情報及び活字文字列データを取得する。更に、情報処理サーバ１０３の情報処理部は、文書画像１１３内の活字文字列データを用いて要約文を生成する。本実施形態では、手書き注釈領域から得られた手書き文字列データと、手書き注釈領域に関連する位置にある活字文字列データとの関係性を推定し、推定した結果を用いて要約文を生成する。情報処理サーバ１０３の記憶部は、情報処理部によって得られた手書き注釈領域の情報、レイアウト情報、活字文字列データ、及び生成された要約文などのデータを記憶する。

ネットワーク１０４は、ＬＡＮやＷＡＮ等で実現されるものであって、情報処理装置１０１、情報処理サーバ１０３の間を互いに接続して、装置間でデータを送受信するための通信部である。

＜装置構成＞
図２は、図１の情報処理システム１００を実現するための情報処理装置１０１、情報処理サーバ１０３の構成例を示す図である。
図２（ａ）は、情報処理装置１０１の構成を示す図である。図２（ａ）に示すように、情報処理装置１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、プリンタデバイス２０５、スキャナデバイス２０６、ストレージ２０８、外部インタフェース２１１等で構成され、データバス２０３を介して互いに接続される。

ＣＰＵ２０１は、情報処理装置１０１における動作全体を制御するための制御部である。ＣＰＵ２０１は、ＲＯＭ２０２に記憶された起動プログラムを実行することで、情報処理装置１０１のシステムを起動し、ストレージ２０８に記憶された制御プログラムを実行することで、情報処理装置１０１のプリント、スキャン、ＦＡＸ等の機能を実現する。
ＲＯＭ２０２は、不揮発性メモリで実現されるものであって、情報処理装置１０１を起動する起動プログラムを格納するための記憶部である。
データバス２０３は、情報処理装置１０１を構成するデバイス間で相互にデータを送受信するための通信部である。

ＲＡＭ２０４は、揮発性メモリで実現されるものであって、ＣＰＵ２０１が制御プログラムを実行する際のワークメモリとして使用される記憶部である。
プリンタデバイス２０５は、画像出力デバイスであって、情報処理装置１０１の内部の文書画像を紙などの記憶媒体に印字して印刷出力するための処理部である。
スキャナデバイス２０６は、画像入力デバイスであって、文字や図表等が印字された紙などの記憶媒体を光学的に読み取って文書画像として取得するための処理部である。
原稿搬送デバイス２０７は、ＡＤＦ（ＡｕｔｏＤｏｃｕｍｅｎｔＦｅｅｄｅｒ）等で実現されるものであって、原稿台に載置された原稿を検知し、検知した原稿を１枚ずつスキャナデバイス２０６に搬送するための処理部である。

ストレージ２０８は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等で実現されるものであって、前述の制御プログラムや文書画像を記憶するための記憶部である。
入力デバイス２０９は、タッチパネルやハードキー等で実現されるものであって、ユーザからの情報処理装置１０１に対する操作入力を受け付けるための処理部である。
表示デバイス２１０は、液晶ディスプレイ等で実現されるものであって、情報処理装置１０１の設定画面をユーザに対して表示出力するための表示部である。
外部インタフェース２１１は、情報処理装置１０１とネットワーク１０４との間を接続するものであって、不図示のＦＡＸ送信機からＦＡＸデータを受信したり、情報処理サーバ１０３に対して文書画像を送信したりするためのインタフェース部である。

図２（ｂ）は、情報処理サーバ１０３の構成を示す図である。図２（ｂ）に示すように、情報処理サーバ１０３は、ＣＰＵ２３１、ＲＯＭ２３２、ＲＡＭ２３４、ストレージ２３５、入力デバイス２３６、表示デバイス２３７、外部インタフェース２３８、ＧＰＵ２３９で構成され、データバス２３３を介して互いに接続される。
ＣＰＵ２３１は、情報処理サーバ１０３における動作全体を制御するための制御部である。ＣＰＵ２３１は、ＲＯＭ２３２に記憶されたブートプログラムを実行することで、情報処理サーバ１０３のシステムを起動し、ストレージ２３５に記憶された情報処理プログラムを実行する。これによりＣＰＵ２３１は、与えられた文書画像に対し、手書き注釈領域の抽出、レイアウト解析、ＯＣＲ処理、文字列データ間の関係性の推定、要約文の生成などの各種の情報処理を実行する。

ＲＯＭ２３２は、不揮発性メモリで実現されるものであって、情報処理サーバ１０３を起動するブートプログラムを格納するための記憶部である。
データバス２３３は、情報処理サーバ１０３を構成するデバイス間で相互にデータを送受信するための通信部である。
ＲＡＭ２３４は、揮発性メモリで実現されるものであって、ＣＰＵ２３１が情報処理プログラムを実行する際のワークメモリとして使用される記憶部である。
ストレージ２３５は、ＨＤＤ等で実現されるものであって、前述の情報処理プログラム、文書画像１１３、手書き注釈領域の情報、レイアウト情報、活字文字列データ、及び生成された要約文などのデータを記憶するための記憶部である。

入力デバイス２３６は、マウスやキーボード等で実現されるものであって、情報処理サーバ１０３に対するユーザからの操作入力を受け付けるための処理部である。
表示デバイス２３７は、液晶ディスプレイ等で実現されるものであって、情報処理サーバ１０３の設定画面をユーザに対して表示出力するための表示部である。
外部インタフェース２３８は、情報処理サーバ１０３と、ネットワーク１０４との間を接続するものであって、情報処理装置１０１から文書画像１１３を受信したり、複数の情報処理サーバ１０３間でデータを送受信したりするためのインタフェース部である。
ＧＰＵ２３９は、画像処理プロセッサで構成された演算部である。ＧＰＵ２３９は、ＣＰＵ２３１の制御により、文書画像から手書き注釈情報を抽出したり、文書画像の本文から活字文字列を抽出したり、手書き注釈情報から得られた手書き文字列と本文から得られた活字文字列との関係性を解析したりする演算を実行する。

＜利用シーケンス＞
図３は、図１の情報処理システム１００の利用シーケンスを示す図である。
図３は、ユーザからの要求に対して、情報処理サーバ１０３が、文書画像１１３に含まれる文字列から要約文を生成して出力する流れを説明する図である。図３に示すように、情報処理システム１００を利用するユーザは、文書画像１１３における要約文を生成するために、情報処理装置１０１に原稿１１１を載置して原稿のスキャン実行を指示する（Ｓ３０１）。これを受けて、情報処理装置１０１は、スキャンして取得した文書画像１１３を、情報処理サーバ１０３に対して送信する（Ｓ３０２）。次に、情報処理サーバ１０３は、Ｓ３０２で送信された文書画像１１３を受信し、受信した文書画像１１３に対して要約文生成処理を実行して、文書画像１１３に含まれる文字列から要約文を生成する（Ｓ３０３）。文書画像１１３は、入力画像の一例である。要約文生成処理の詳細は、図４を用いて後述する。その後、情報処理サーバ１０３は、Ｓ３０３で生成された要約文を、情報処理装置１０１の表示デバイス２１０などに表示するなどして、ユーザに対して出力する（Ｓ３０４）。以上で利用シーケンスが終了する。

＜要約文生成処理＞
図４は、情報処理サーバ１０３が文書画像１１３の要約文を生成する流れを説明するフローチャートである。なお、図４で示す各ステップの実行プログラムは、情報処理サーバ１０３のＲＯＭ２３２、ストレージ２３５のいずれかに記憶され、ＣＰＵ２３１、ＧＰＵ２３９のいずれかによって実行される。
Ｓ４０１において、ＣＰＵ２３１は、要約文を生成する対象である文書画像として、図３のＳ３０１でユーザのスキャン操作によって取得された文書画像１１３を取得する。以下では、図９（ａ）に示すような手書き注釈が追記された文書画像９００が取得された場合について説明を行う。文書画像９００は、入力画像の一例である。

次にＳ４０２において、ＣＰＵ２３１は、Ｓ４０１で取得された文書画像９００中から手書き注釈情報の領域を抽出する。図５（ａ）は、手書き注釈情報の例を示す図である。図５（ａ）に示すように、手書き注釈情報には、蛍光ペンによるハイライト表示５０１、アンダーライン５０２や丸囲み５０３による強調表示、取り消し線５０４や挿入記号５０５などの編集記号、吹き出し５０６や矢印線５０７などの指示表示がある。また、手書き注釈情報は、上記のような手書き注釈記号に加えて、手書き注釈記号の周囲にある手書き文字も含む。図５（ａ）の例では、挿入記号５０５の下側にある手書き文字５０９や、吹き出し５０６の内側にある手書き文字５１０や、矢印線５０７の始点にある手書き文字５０８である。手書き注釈領域を抽出する方法の一例として機械学習モデルを用いた方法について説明する。

次に図６を用いて、手書き注釈領域を抽出する方法の一例として機械学習モデルを用いた方法について説明する。図６（ａ）は、文書画像中から手書き注釈領域を抽出するための学習済モデルを生成する処理を示すフローチャートである。なお、ここで生成される学習済モデルは、手書き注釈情報が追記された文書画像から、画素ごとに各手書き注釈情報らしさを示す確率値を示す確率マップに変換できるような変換部として形成される。本フローチャートの処理は、ＣＰＵ２３１がＧＰＵ２３９と協働して実行してもよい。手書き注釈領域を抽出する処理は、処理の対象領域を抽出する対象領域抽出処理の一例である。
まずＳ６０１において、ＣＰＵ２３１は、学習モデルとして用いられるニューラルネットワークを構成する重みパラメータの値を初期化する。例えば、ニューラルネットワークを構成する重みパラメータをランダムな値に設定したり、前回学習済の値をロードして再設定したりする。

次にＳ６０２において、ＣＰＵ２３１は、図５（ａ）に示すような手書き注釈情報が記載された入力データ５００と、入力データ内の各手書き注釈情報が記述された箇所を特定するための正解画素マップのペアを学習データとして取得するように制御する。例えば、図５（ｂ）の正解画素マップ５１１は、画像内のアンダーラインや取り消し線のような手書き線分が記載された画素を特定するためのマップ情報であり、手書き線分が存在する画素には１を、未記入の画素に０を格納したものである。正解画素マップ５１２は丸囲みの記入位置を特定するマップ情報である。正解画素マップ５１３は矢印線の記入位置を特定するマップ情報である。正解画素マップ５１４は、手書き文字の記入位置を特定するマップ情報である。ニューラルネットワークは、入力データを入力すると、画素ごとに各手書き注釈情報らしさの確率値を出力するように学習を行う。

次にＳ６０３において、ＣＰＵ２３１は、Ｓ６０１で準備したニューラルネットワークに対して入力データを入力した際の推定された各ラベルに対する確率値と、入力データとペアとなっている正解画素マップとの間での誤差計算する演算を実行するよう制御する。
次にＳ６０４において、ＣＰＵ２３１は、一般に、誤差逆伝搬法（バックプロパゲーション）と呼ばれる、学習モデルの重みパラメータの値を更新する演算を実行するように制御する。
次にＳ６０５において、ＣＰＵ２３１は、所定の学習回数だけ演算処理が終了したか否かを判定する。ここで、ＣＰＵ２３１が所定の学習回数が終了していないと判定した場合（Ｓ６０５でＮＯ）、Ｓ６０２に遷移してＳ６０２～Ｓ６０４の演算を繰り返す。一方、ＣＰＵ２３１が所定の学習回数が終了したと判定した場合（Ｓ６０５でＹＥＳ）、Ｓ６０６に遷移する。
次にＳ６０６において、ＣＰＵ２３１は、学習済モデルのニューラルネットワークを構成する重みパラメータの値をストレージ２３５等の記憶部に保存する。以上で本フローチャートの処理が終了する。

図６（ｂ）は、図６（ａ）で生成された手書き注釈情報抽出モデルを用いて、手書き注釈領域を抽出する処理を示すフローチャートである。
まずＳ６１１において、ＣＰＵ２３１は、Ｓ６０６でストレージ２３５に保存された学習済モデルを取得する。
次にＳ６１２において、ＣＰＵ２３１は、Ｓ４０１で取得された文書画像を入力データとして、Ｓ６１１で取得した学習済モデルに入力し、各手書き注釈情報に対する確率マップを生成する。そして、所定の閾値以上の確率値を持つ画素の領域を手書き注釈領域として抽出する。図９（ａ）の文書画像９００を入力した場合、図９（ｂ）に示すような手書き注釈領域９１０が抽出される。ここでは、手書き注釈領域として、矢印線９１１，９１４、手書き文字９１２，９１５、及びアンダーライン９１３の領域が抽出されている。

次にＳ６１３において、ＣＰＵ２３１は、Ｓ６１２で抽出された手書き文字に対してＯＣＲ処理を行うことで手書き文字列を生成する。図９（ｂ）の例では、ＣＰＵ２３１が、手書き文字９１２，９１５に対してＯＣＲ処理（手書き文字認識処理）を行うことで、手書き文字列を生成する。ＣＰＵ２３１は、手書き文字列生成手段の一例である。以上で本フローチャートの処理が終了する。

図４に戻る。Ｓ４０３において、ＣＰＵ２３１は、Ｓ４０１で取得した文書画像の印字情報を解析する。具体的には、ＣＰＵ２３１は、文字列／段落／線／表などの詳細な属性情報を判定し、それぞれの属性情報を持つ領域に分割するレイアウト分割処理と、文字列に対する文字認識処理を行う。印字情報解析処理について、図７を用いて説明を行う。

図７は、印字情報解析処理を示すフローチャートである。
まずＳ７０１において、ＣＰＵ２３１は、Ｓ４０１で取得した文書画像から手書き部分を除去することで、もともと印刷されていた印字情報のみが抽出された文書画像を生成する。本実施形態では、ＣＰＵ２３１が、図９（ａ）に示す文書画像９００から、Ｓ４０２で抽出された手書き注釈領域９１０を除去することで、印字情報を抽出する。図９（ｃ）は、印字情報のみ抽出された文書画像９２０を示す。このとき、ＣＰＵ２３１は、手書き注釈情報と印字情報とが重なっている部分については、周囲の印字情報色を使って色補正するなど印字情報が欠損しないような処理を行ってもよい。

次にＳ７０２において、ＣＰＵ２３１は、Ｓ７０１で印字情報のみ抽出された文書画像９２０に対して二値化処理を行うことで白黒の二値画像を生成する。
次にＳ７０３において、ＣＰＵ２３１は、黒画素輪郭で囲まれる画素の塊を抽出する。本実施形態では、ＣＰＵ２３１は、Ｓ７０２で生成された二値画像に対して輪郭線追跡を行うことで抽出する。なお、輪郭線追跡で得られた黒画素の塊の面積が所定の面積よりも大きい場合については、内部にある白画素に対しても輪郭線追跡を行い、白画素の塊を抽出する。そして、ＣＰＵ２３１は、更に一定面積以上の白画素の塊の内部から再帰的に黒画素の塊を抽出することを繰り返す。

次にＳ７０４において、ＣＰＵ２３１は、Ｓ７０３で得られた黒画素の塊に対し、大きさ及び形状で分類し、異なる属性情報を持つ領域へ分類する。例えば、縦横比が１に近く、大きさが一定の範囲のものは文字相当の画素塊とする。また、近接する文字が整列よくグループ化されている部分は文字列領域とし、複数の文字列領域が整列よくグループ化されている部分領域は段落領域とする。また、扁平な画素塊は線領域とする。また、一定大きさ以上で且つ四角系の白画素塊を整列よく内包する黒画素塊の占める範囲は表領域とする。また、不定形の画素塊が散在している領域は写真領域とする。そして、それ以外の任意形状の画素塊はオブジェクト領域とする。なお、属性情報はこれらに限られない。ＣＰＵ２３１は、さらに詳細に解析を行うことで、罫線なしの表領域を推定したり、オブジェクトの種類を線画、スタンプなどと細分化したりしても構わない。このようにしてＣＰＵ２３１は、Ｓ４０１で取得した文書画像から活字文字領域を抽出する。
最後にＳ７０５において、ＣＰＵ２３１は、Ｓ７０４で抽出された活字文字領域に対してＯＣＲ処理（活字文字認識処理）を行うことで、活字文字列を生成する。ＣＰＵ２３１は、活字文字列抽出手段の一例である。以上で本フローチャートの処理が終了する。

図４に戻る。Ｓ４０４において、ＣＰＵ２３１は、Ｓ４０３で得られた活字文字列のうち、Ｓ４０２で抽出された手書き注釈領域内の手書き注釈記号が指し示す活字文字列を、注目文字列に決定する。以下、手書き注釈記号が矢印線である場合を例に説明する。本実施形態において、まずＣＰＵ２３１は、Ｓ４０２で抽出された手書き注釈領域から、矢印線を特定し、矢印線の始点／終点位置近傍、又は矢印線に沿った位置にある手書き文字列を特定する。次にＣＰＵ２３１は、Ｓ４０３で得られた活字文字列のうち、矢印線の始点／終点位置に最も近い活字文字を特定し、特定した活字文字を含む単語／文節／文を注目文字列に決定する。このようにＣＰＵ２３１は、手書き注釈記号を用いて、手書き文字列に関連付く活字文字列を決定する。手書き注釈記号が吹き出しであって、吹き出しの内側に手書き文字列がある場合には、ＣＰＵ２３１は、吹き出しの起点近傍の活字文字列を注目文字列に決定してもよい。

またＣＰＵ２３１は、複数の手書き注釈記号同士や手書き文字列同士の関連付けを行ってもよい。手書き文字列同士の関連付けを行う例としては、活字文字列の近傍を始点にした矢印の終点に手書き文字列があり、その手書き文字列の近傍を始点にした矢印の終点に更に手書き文字列があるような場合がある。またＣＰＵ２３１は、複数の手書き注釈記号を用いて注目文字列を決定してもよい。図９（ｄ）を用いて、注目文字列を決定する方法について具体的に説明する。図９（ｄ）では、矢印線９１４の始点位置の近傍に手書き文字９１５があり、矢印線９１４の終点位置の近傍にアンダーライン９１３がある。この場合ＣＰＵ２３１は、アンダーライン９１３によって強調表示された活字文字列を注目文字列９３１に決定する。つまり、手書き文字９１５と注目文字列９３１が関連付けられる。

次にＳ４０５において、ＣＰＵ２３１は、手書き注釈領域内の手書き文字列の情報と当該手書き文字列に関連付けられた注目文字列を含む文情報との関係性を推定する。関係性としては、注目文字列の内容を分かりやすくするため手書き文字で別の表現に言い換える「並列関係」、注目文字列の内容に手書き文字で補足情報を付け加える「累加関係」がある。また、注目文字列の内容の原因を手書き文字で表す「因果関係」、注目文字列の内容をイメージしやすくするために手書き文字で事例を追記するような「例示関係」もある。また、注目文字列の内容と相反する内容を手書き文字で表す「逆説関係」、注目文字列の内容と対比する内容を手書き文字で表す「対比関係」などもある。関係性は、これらに限られない。関係性を推定する方法の一例として、機械学習モデルを用いた方法について説明する。なお、関係性を推定する際には、ＴＦ－ＩＤＦなどの手法を用いた文章内の単語の出現頻度、Ｗｏｒｄ２Ｖｅｃなどの手法を用いた文章内の単語の分散表現、Ｓｅｎｔ２Ｖｅｃなどの手法を用いた文章自体の分散表現などの特徴量を使って比較しても構わない。また、ＣＰＵ２３１は、手書き文字列の情報（単語情報、文情報）と、注目文字列を含む文情報との間の意味的な関係性を推定してもよい。また、ＣＰＵ２３１は、手書き文字列の情報（単語情報、文情報）から抽出された意味情報と、注目文字列を含む文情報から抽出された意味情報との関係性を推定してもよい。更に、ＣＰＵ２３１は、注目文字列の前後の単語や文節を含む文字列情報、注目文字列を含む文章情報、段落情報、これらの情報から抽出された意味情報との関係性を推定してもよい。

図６（ａ）及び図８を用いて、手書き注釈領域内の手書き文字列の情報と当該手書き文字列に関連付けられた注目文字列を含む文情報との間の関係性を推定する方法の一例として機械学習モデルを用いた方法について説明する。なお、関係性を推定するための学習済みモデルを生成する処理は、図６（ａ）を用いて説明した処理と同様の処理を行えばよい。以下では、差分となる処理についての説明を行う。なお、ここで生成される学習済モデルは、手書き文字列と注目文字列を含む文情報とを入力すると、文字列同士の関連性の確率値が推定できるような変換部として形成される。

まずＳ６０１において、ＣＰＵ２３１は、モデルパラメータの初期値を取得する。
次にＳ６０２において、ＣＰＵ２３１は、学習データを取得する。例えば、図８（ａ）に示すような２つの文と関係性の正解値のペアを学習データとして用いればよい。このとき２つの文にはそれぞれ、短文／長文のような文書形式に限らず、単語列のような手書きで追記されるような単純な表記など、様々な表記を含めるようにする。
次にＳ６０３において、ＣＰＵ２３１は、ＧＰＵ２３９を用いて、２つの入力文を入力すると、各関係性に対する確率値を出力する。そして、２つの入力文とペアとなっている関係性の正解値との間での誤差を算出する。
そしてＳ６０４において、ＣＰＵ２３１は、ＧＰＵ２３９を用いて、算出された誤差に基づきモデルパラメータを更新する。
ＣＰＵ２３１は、以上のようなＳ６０２～Ｓ６０４の処理を所定回数繰り返す（Ｓ６０５）。所定回数繰り返すと、Ｓ６０６において、ＣＰＵ２３１は、学習済モデルのニューラルネットワークを構成する重みパラメータの値をストレージ２３５等の記憶部に保存する。以上で本フローチャートの処理が終了する。

図８（ｂ）は、図６（ａ）で生成された関係性推定モデルを用いて、手書き注釈領域内の手書き文字列の情報と当該手書き文字列に関連付けられた注目文字列を含む文情報との関係性を推定する処理を示すフローチャートである。
まずＳ８１１において、ＣＰＵ２３１は、Ｓ６０６でストレージ２３５に保存された学習済モデルを取得する。
次にＳ８１２において、ＣＰＵ２３１は、手書き文字列のデータと、注目文字列を含む文情報のデータのペアを入力データとし、データ同士の関係性に対する確率値を取得して、最大確率値を持つ関係性をデータ間の関係性であると推定する。以上のようにして、ＣＰＵ２３１は、手書き注釈領域内の手書き文字列の情報と、当該手書き文字列に関連する注目文字列を含む文情報との間の関係性を、推定する。以上で本フローチャートの処理が終了する。
ここでは、図９（ｄ）の手書き文字９１５と文情報９３０とを入力として関係性を推定することで、図９（ｅ）に示すようにすべての関係性に対する確率値が得られる。最大確率０．９５となる関係性が対比関係であるため、手書き文字９１５と文情報９３０とが対比関係であると推定される。なお、入力には注目文字列９３１だけではなく、注目文字列９３１の前後の文字列を含めても構わない。また、注目文字列９３１を含む文情報、文章情報、段落情報などを入力しても構わない。また、注目文字列９３１や手書き文字９１５から抽出された意味情報、言語表現を変えた文書情報などを入力しても構わない。

図４に戻る。ＣＰＵ２３１は、Ｓ４０３で文書画像９２０から得られた活字文字列を用いて要約文を生成する。要約文生成に関しては、公知の手法である入力文書の重要箇所を抽出して並べることで要約文を生成する抽出的手法や、入力文書中の文や単語に限定せずにさまざまな言語表現を用いて要約文を生成する生成的手法を用いることができる。本実施形態において、ＣＰＵ２３１は、手書き注釈領域内の手書き文字列と、当該手書き文字列に関連する注目文字列との間を、Ｓ４０５で推定された関係性に応じた文字列を用いて連結させて、要約文に挿入する。図１０は、図９（ａ）の文書画像９００から生成される要約文の例を示している。図１０（ａ）は、手書き注釈情報を考慮せずに生成された要約文である。図１０（ｂ）は手書き注釈情報を考慮して生成された要約文である。図１０（ｂ）では、手書き注釈情報が反映されて、要約文の内容を充実させることができている。

要約文の一部である文字列１００１では、手書き文字９１２が表す「１１～２５歳くらい」と、矢印線９１１で指示された活字文字列が表す「Ｚ世代」との間が、並列関係を表す「を意味する」という文字列で連結されている。また、要約文の一部である文字列１００２では、手書き文字９１５が意味する「お金はかけたくない」と、矢印線９１４で指示された注目文字列９３１が意味する「早く試してみたい」との間が、対比関係を表す「が」という文字で連結されている。このようにＣＰＵ２３１は、Ｓ４０５で推定された関係性ごとに異なる接続語を用いて、要約文を生成する。手書き注釈内の文字を要約文に単に挿入するだけでは、本文の要約との繋がりが理解しにくい場合があるが、手書き文字と本文の要約との間が、両者の関係性に応じた文字列で補完されているため、手書き文字と本文の要約との繋がりが理解しやすくなる。

図１１は、要約文の生成例を示す図である。図１１（ａ）に示すように、手書き注釈領域内の手書き文字列である「共働きの子供のいない夫婦」が、入力文書内の注目文字列である「ＤＩＮＫｓ層」に矢印線で関連付けられている場合を例に説明する。この場合ＣＰＵ２３１は、「共働きの子供のいない夫婦」と、「ＤＩＮＫｓ層」の前後の文字列を含む文情報との間の関係性を推定する。そしてＣＰＵ２３１は、図１１（ｂ）に示すように、推定された各関係性（並列、累加、因果、例示、逆説）に応じた文字列を用いて、「共働きの子供のいない夫婦」と「ＤＩＮＫｓ層」との間を連結して、要約文に挿入する。なお、図１１（ｂ）の関係性の推定結果が異なっている理由としては、注目文字列である「ＤＩＮＫｓ層」の前後の文字列を含めて関係性を推定しており、その前後の文字列がそれぞれ異なっているためである。

以上述べたように、実施形態１によれば、入力文書中から手書きの注釈を抽出し、本文との関係性を推定した上で、推定された関係性を用いて、本文の要約に盛り込むことができる。これにより、ユーザは本文の要約と手書き注釈との関係性を理解しやすくなる。

［実施形態２］
実施形態１では、手書き注釈情報を反映した要約文を生成する方法について説明した。本実施形態では、要約文の生成に関して修正を行えるＵＩ画面について説明する。

図１２は、本実施形態に係るＵＩ画面の一例を示す。ＵＩ画面１１００は、図４のＳ４０６の処理の後で、ＣＰＵ２３１の制御により、情報処理サーバ１０３の表示デバイス２３７に表示される画面である。なお、ＵＩ画面１１００は、情報処理装置１０１の表示デバイス２１０に表示されてもよい。ＵＩ画面１１００は、入力された文書画像９００を表示するプレビュー表示部１１０１、生成された要約文を表示する要約文表示部１１０２、要約文の再生成を行うための再生成ボタン１１０３、及び確認／修正作業を終了する終了ボタン１１０４で構成される。ＣＰＵ２３１は、ＵＩ画面１１００を用いて、入力された文書画像９００と生成された要約文とを同時に表示デバイス２１０に表示するよう制御する。

ＣＰＵ２３１は、プレビュー表示部１１０１で表示される図９（ａ）の文書画像９００上の、手書き注釈情報であることで要約文に用いられた文字列の位置と、自動要約により要約文に用いられた文字列の位置とに、それぞれ異なるハイライト表示を行う。手書き注釈情報であることで要約文に用いられた文字列とは、手書き注釈領域内の手書き文字列と、当該手書き文字列に関連する注目文字列である。ハイライト表示は、表示アイテムの一例である。これにより、ユーザは要約文表示部１１０２に表示される要約文と照らし合わせて要約文に用いられた箇所を簡単に確認することができる。さらにユーザは、プレビュー表示部１１０１上のマウス操作により、要約文の生成条件を変更することができる。

ＣＰＵ２３１は、入力デバイス２３６としてのマウス１１１１により、自動要約によるハイライトの部分のクリックを検出すると、クリックされた箇所の近傍に、条件変更メニュー１１１２を重畳表示する。ユーザは条件変更メニュー１１１２に表示される詳細化、簡略化、及び削除のアイコンを選択することで、要約文の詳細化、簡略化等の修正を指示することができる。詳細化が選択されると、ＣＰＵ２３１は、クリックされた箇所の前後の文字列を使ってより要約内容を詳細化する。簡略化が選択されると、ＣＰＵ２３１は、クリックされた箇所の内容から重要部をさらに抽出して簡略化する。削除が選択されると、ＣＰＵ２３１は、要約文からクリックされた箇所の内容を削除する。

またＣＰＵ２３１は、入力デバイス２３６としてのマウス１１２１により、手書き注釈情報のハイライトの部分のクリックを検出すると、クリックされた箇所の近傍に、条件変更メニュー１１２２を表示する。ユーザは条件変更メニュー１１２２を操作することで、手書き注釈と本文との関係性の修正を指示することができる。条件変更メニュー１１２２内には、対比、並列、例え、などの関係性の種類が表示されている。ＣＰＵ２３１は、条件変更メニュー１１２２におけるユーザの選択操作により、手書き注釈と本文との関係性の変更を受け付ける。ＣＰＵ２３１は、条件変更メニュー１１２２で選択された関係性の種類に応じて、手書き文字列と注目文字列とを繋ぐ文字列を変更する。
再生成ボタン１１０３が押下されると、ＣＰＵ２３１は、指定された要約文生成条件を反映して要約文を再生成して、要約文表示部１１０２の内容を更新する。終了ボタン１１０４が押下されると、ＣＰＵ２３１は、ＵＩ画面１１００を閉じる。

以上述べたように、実施形態２によれば、要約文の確認／修正を行うためのＵＩ画面１１００を提供したことで、ユーザは要約文を生成した際に要約文に用いられた箇所を容易に確認できる。これにより、周囲の情報も併せて確認することでより理解度を深めながら、短時間で内容の理解を進めることが可能となる。さらに、ユーザは要約文の生成条件を変更でき、所望の要約詳細化レベルとなるように条件を変更したり、手書き注釈と本文との関係性を正しく修正したりすることができる。これにより、ユーザの求めている要約文への修正が容易に行えるようになる。

以上、本発明を実施形態と共に説明したが、上記実施形態は本発明を実施するにあたり具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。

上述の各実施形態では、手書きの注釈が追記された原稿をスキャンして得られた文書画像を処理対象の入力画像として説明したが、入力画像としては、スキャン画像に限られない。表示ディスプレイに表示された文書画像に対して、ペンデバイス等の手書き入力用デバイスを用いて手書きの注釈情報が付加された文書画像を、入力画像としてもよい。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

本実施形態の開示は、以下の構成、方法及びプログラムを含む。
（構成１）
手書き部分を含む入力画像を取得する画像取得手段と、
前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出手段と、
前記対象領域の画像を手書き文字認識して第１の文字列を生成する手書き文字列生成手段と、
前記入力画像から活字文字列を抽出する活字文字列抽出手段と、
前記対象領域の情報に基づいて、前記活字文字列抽出手段により抽出された活字文字列のうち、前記第１の文字列に関連する活字文字列である第２の文字列を決定する決定手段と、
前記第１の文字列の情報と前記第２の文字列を含む活字文字列の情報との間の関係性を推定する推定手段と、
前記活字文字列抽出手段により抽出された活字文字列から、要約文を生成する要約文生成手段と、
を有し、
前記要約文生成手段は、前記第１の文字列の情報と、前記第２の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とする情報処理装置。
（構成２）
前記推定手段は、前記第１の文字列の情報と、前記第２の文字列の情報との間を、前記推定された関係性に応じた文字列で連結させて、前記要約文に含めることを特徴とする構成１に記載の情報処理装置。
（構成３）
前記要約文生成手段は、前記推定手段で推定された関係性に応じて連結させる文字列を異ならせることを特徴とする構成２に記載の情報処理装置。
（構成４）
前記推定手段は、例示、累加、因果、例示、逆説、及び対比のうちの少なくとも何れかの関係性であることを推定することを特徴とする構成１乃至３の何れか１つに記載の情報処理装置。
（構成５）
前記推定手段は、前記第１の文字列の情報と、前記第２の文字列の前後の活字文字列を含む文情報との間の関係性を推定することを特徴とする構成１乃至４の何れか１つに記載の情報処理装置。
（構成６）
前記対象領域抽出手段は、手書き注釈記号と、前記手書き注釈記号の周囲にある手書き文字の領域を抽出し、
前記手書き文字列生成手段は、前記手書き文字の領域から前記第１の文字列を生成することを特徴とする構成１乃至５の何れか１つに記載の情報処理装置。
（構成７）
前記決定手段は、前記手書き注釈記号が指し示す位置にある活字文字列を、前記第２の文字列に決定することを特徴とする構成６に記載の情報処理装置。
（構成８）
前記手書き注釈記号は、矢印線であり、
前記第１の文字列は、前記矢印線の始点、終点又は矢印線に沿った位置にある手書き文字列であり、
前記第２の文字列は、前記矢印線の始点又は終点の位置にある活字文字列であることを特徴とする構成６に記載の情報処理装置。
（構成９）
前記推定手段は、前記第１の文字列の情報と前記第２の文字列を含む活字文字列の情報とを学習モデルに入力することにより、前記関係性を推定することを特徴とする構成１乃至８の何れか１つに記載の情報処理装置。
（構成１０）
前記入力画像と前記要約文とを表示するよう制御する表示制御手段を更に有し、
前記表示制御手段は、前記入力画像上の前記要約文に用いた活字文字列の位置に表示アイテムを表示し、前記第２の文字列の位置に表示する表示アイテムと、前記第２の文字列以外の活字文字列の位置に表示する表示アイテムとを異ならせることを特徴とする構成１乃至９の何れか１つに記載の情報処理装置。
（構成１１）
前記推定手段により推定された前記関係性を変更するため操作を受け付けるための受付手段を更に有することを特徴とする構成１乃至１０の何れか１つに記載の情報処理装置。
（構成１２）
前記対象領域抽出手段は、前記入力画像を学習モデルに入力することにより、前記入力画像における画素ごとの前記所定の手書き部分らしさを表す確率マップを生成することを特徴とする構成１乃至１１の何れか１つに記載の情報処理装置。
（方法）
手書き部分を含む入力画像を取得する画像取得ステップと、
前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出ステップと、
前記対象領域の画像を手書き文字認識して第１の文字列を生成する手書き文字列生成ステップと、
前記入力画像から活字文字列を抽出する活字文字列抽出ステップと、
前記対象領域の情報に基づいて、前記活字文字列抽出ステップにより抽出された活字文字列のうち、前記第１の文字列に関連する活字文字列である第２の文字列を決定する決定ステップと、
前記第１の文字列の情報と前記第２の文字列を含む活字文字列の情報との間の関係性を推定する推定ステップと、
前記活字文字列抽出ステップにより抽出された活字文字列から、要約文を生成する要約文生成ステップと、
を含み、
前記要約文生成ステップでは、前記第１の文字列の情報と、前記第２の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とする情報処理方法。
（プログラム）
情報処理装置のコンピュータを、
手書き部分を含む入力画像を取得する画像取得手段と、
前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出手段と、
前記対象領域の画像を手書き文字認識して第１の文字列を生成する手書き文字列生成手段と、
前記入力画像から活字文字列を抽出する活字文字列抽出手段と、
前記対象領域の情報に基づいて、前記活字文字列抽出手段により抽出された活字文字列のうち、前記第１の文字列に関連する活字文字列である第２の文字列を決定する決定手段と、
前記第１の文字列の情報と前記第２の文字列を含む活字文字列の情報との間の関係性を推定する推定手段と、
前記活字文字列抽出手段により抽出された活字文字列から、要約文を生成する要約文生成手段、
として機能させるプログラムであって、
前記要約文生成手段は、前記第１の文字列の情報と、前記第２の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とするプログラム。

１００：情報処理システム、１０１：情報処理装置、１０３：情報処理サーバ

Claims

手書き部分を含む入力画像を取得する画像取得手段と、
前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出手段と、
前記対象領域の画像を手書き文字認識して第１の文字列を生成する手書き文字列生成手段と、
前記入力画像から活字文字列を抽出する活字文字列抽出手段と、
前記対象領域の情報に基づいて、前記活字文字列抽出手段により抽出された活字文字列のうち、前記第１の文字列に関連する活字文字列である第２の文字列を決定する決定手段と、
前記第１の文字列の情報と前記第２の文字列を含む活字文字列の情報との間の関係性を推定する推定手段と、
前記活字文字列抽出手段により抽出された活字文字列から、要約文を生成する要約文生成手段と、
を有し、
前記要約文生成手段は、前記第１の文字列の情報と、前記第２の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とする情報処理装置。
前記推定手段は、前記第１の文字列の情報と、前記第２の文字列の情報との間を、前記推定された関係性に応じた文字列で連結させて、前記要約文に含めることを特徴とする請求項１に記載の情報処理装置。
前記要約文生成手段は、前記推定手段で推定された関係性に応じて連結させる文字列を異ならせることを特徴とする請求項２に記載の情報処理装置。
前記推定手段は、例示、累加、因果、例示、逆説、及び対比のうちの少なくとも何れかの関係性であることを推定することを特徴とする請求項１に記載の情報処理装置。
前記推定手段は、前記第１の文字列の情報と、前記第２の文字列の前後の活字文字列を含む文情報との間の関係性を推定することを特徴とする請求項１に記載の情報処理装置。
前記対象領域抽出手段は、手書き注釈記号と、前記手書き注釈記号の周囲にある手書き文字の領域を抽出し、
前記手書き文字列生成手段は、前記手書き文字の領域から前記第１の文字列を生成することを特徴とする請求項１に記載の情報処理装置。
前記決定手段は、前記手書き注釈記号が指し示す位置にある活字文字列を、前記第２の文字列に決定することを特徴とする請求項６に記載の情報処理装置。
前記手書き注釈記号は、矢印線であり、
前記第１の文字列は、前記矢印線の始点、終点又は矢印線に沿った位置にある手書き文字列であり、
前記第２の文字列は、前記矢印線の始点又は終点の位置にある活字文字列であることを特徴とする請求項６に記載の情報処理装置。
前記推定手段は、前記第１の文字列の情報と前記第２の文字列を含む活字文字列の情報とを学習モデルに入力することにより、前記関係性を推定することを特徴とする請求項１に記載の情報処理装置。
前記入力画像と前記要約文とを表示するよう制御する表示制御手段を更に有し、
前記表示制御手段は、前記入力画像上の前記要約文に用いた活字文字列の位置に表示アイテムを表示し、前記第２の文字列の位置に表示する表示アイテムと、前記第２の文字列以外の活字文字列の位置に表示する表示アイテムとを異ならせることを特徴とする請求項１に記載の情報処理装置。
前記推定手段により推定された前記関係性を変更するため操作を受け付けるための受付手段を更に有することを特徴とする請求項１に記載の情報処理装置。
前記対象領域抽出手段は、前記入力画像を学習モデルに入力することにより、前記入力画像における画素ごとの前記所定の手書き部分らしさを表す確率マップを生成することを特徴とする請求項１に記載の情報処理装置。
手書き部分を含む入力画像を取得する画像取得ステップと、
前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出ステップと、
前記対象領域の画像を手書き文字認識して第１の文字列を生成する手書き文字列生成ステップと、
前記入力画像から活字文字列を抽出する活字文字列抽出ステップと、
前記対象領域の情報に基づいて、前記活字文字列抽出ステップにより抽出された活字文字列のうち、前記第１の文字列に関連する活字文字列である第２の文字列を決定する決定ステップと、
前記第１の文字列の情報と前記第２の文字列を含む活字文字列の情報との間の関係性を推定する推定ステップと、
前記活字文字列抽出ステップにより抽出された活字文字列から、要約文を生成する要約文生成ステップと、
を含み、
前記要約文生成ステップでは、前記第１の文字列の情報と、前記第２の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とする情報処理方法。
情報処理装置のコンピュータを、
手書き部分を含む入力画像を取得する画像取得手段と、
前記入力画像から所定の手書き部分の領域である対象領域を抽出する対象領域抽出手段と、
前記対象領域の画像を手書き文字認識して第１の文字列を生成する手書き文字列生成手段と、
前記入力画像から活字文字列を抽出する活字文字列抽出手段と、
前記対象領域の情報に基づいて、前記活字文字列抽出手段により抽出された活字文字列のうち、前記第１の文字列に関連する活字文字列である第２の文字列を決定する決定手段と、
前記第１の文字列の情報と前記第２の文字列を含む活字文字列の情報との間の関係性を推定する推定手段と、
前記活字文字列抽出手段により抽出された活字文字列から、要約文を生成する要約文生成手段、
として機能させるプログラムであって、
前記要約文生成手段は、前記第１の文字列の情報と、前記第２の文字列の情報と、前記推定された関係性に応じた文字列とを用いて、前記要約文を生成することを特徴とするプログラム。