[go: up one dir, main page]

JP2000003126A - 音声部を使用するテキスト要約方法 - Google Patents

音声部を使用するテキスト要約方法

Info

Publication number
JP2000003126A
JP2000003126A JP11843099A JP11843099A JP2000003126A JP 2000003126 A JP2000003126 A JP 2000003126A JP 11843099 A JP11843099 A JP 11843099A JP 11843099 A JP11843099 A JP 11843099A JP 2000003126 A JP2000003126 A JP 2000003126A
Authority
JP
Japan
Prior art keywords
text
tokens
data
sentence
pos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11843099A
Other languages
English (en)
Inventor
Gregory T Grefenstette
ティー グレフェンステット グレゴリー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2000003126A publication Critical patent/JP2000003126A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 本発明は自動的に要約するテキストで浮上す
る問題、特に視覚障害者又はテキストを見ることのでき
ない他の人達に影響を及ぼす問題に取り組んでいる。 【解決手段】 テキストは音声部(POS)を使用して
要約され、テキストのトークンのため音声部を示す。P
OSデータはPOSのタグ付けによるように、テキスト
を形成する入力テキストデータを使用して得ることがで
きる。POSデータはグループデータを得るために使用
され、動詞グループ及び名詞グループのように、テキス
トのトークンのグループを示す。また、グループデータ
は各グループ内でPOSベースの除去基準を満たすトー
クンを示す。グループデータは除去基準を満たすトーク
ンを除去することにより要約したテキストデータを得る
ために使用することができる。元のテキストは、使用者
の文書からスキャナ又はビデオカメラを介して得てもよ
く、また、入力テキストデータを得るために認識されて
もよい。要約したテキストはテキストとして又はスピー
チシンセサイザーを使用して音声発音記号表記として出
力されてもよい。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は音声部に基づく自動
テキスト要約に関する。
【0002】
【従来の技術】盲人又は視覚障害者のための従来の読取
り機械はスキャンされる文書のテキストが音声に変換さ
れる割合を使用者に手動で増加させ、非常に迅速な音声
を発生させることができ、従って、文書を聞こえるよう
にフリップし一種の要約を得ている。また、使用者は手
動で文書のサンプルを選択し、各サンプルから音声を発
生させ別のタイプの要約を得ている。
【0003】多くの自動要約技術が他の事情で提案され
ていた。そのような技術によれば、手動で引き出された
テンプレートがテキストの一定のパターンに合致するた
めに使用される。テンプレートが満たされると、見せ掛
けのテンプレートがコンピュータにより製造可能であ
る。この見せ掛けはテンプレートに含まれなかった項目
を無視し、それによりテキストの量を減少させる。これ
は年1回のメッセージ理解会議(MUC)の関係者により
使用されるアプローチである。この技術の欠点は、テン
プレートを作り出すことが無制限のテキストに適用でき
ないドメイン特定フィルタを製造する長期の手動処理で
あることである。
【0004】別の公知な方法によると、完全なテキスト
をメモリに読み込み、単語の用途の統計を計算する必要
があり、最も頻繁な用語はテキストの理解では最も重要
であると考える。その後、元のテキストはメモリで再ス
キャンされ、完全な文は位置と用語の重要性によって得
点を付けられる。最高点の文はテキストの要約としてそ
のまま抜粋される。この種の要約の不利な点は、ページ
を基にページ上で行われるのではなく完全な文書を読み
取らなければならないことである。
【0005】1981年のマサチューセツ州レディング
(Reading)のアディソン−ウェズリー社(Addison-Wesle
y)のSager,Nによる「自然言語情報処理−英語のコンピ
ュータ文法及びその適用(Natural Language Informati
on Processing-A ComputerGrammar of English and Its
Applications)」の7〜16及び253〜255は第2
言語を教える技術を説明しており、これは文の終わりで
始まり左の方向に移動する列の摘出方法を適用してい
る。その方法は、残りが依然として文法的に正しい文の
場合には、文から1つの単語又は1列の単語を摘出し、
これはそれ以上の摘出ができなくなるまで各々次の残り
部分のため繰り返される。摘出の例は前置詞句の除去、
接続詞の要素の数の減少等を含んでいる。その摘出は非
常に類似していると判明したフランス文及びその英訳を
分析する。
【0006】
【発明が解決しようとする課題】本発明は自動的に要約
するテキストで浮上する問題、特に視覚障害者又はテキ
ストを見ることのできない他の人達に影響を及ぼす問題
に取り組んでいる。例えば、人は乗り物を運転していた
りテキストを見ることを妨げる別の行動をしているかも
しれない。或いは、人は完全に、テキストを見たり又は
完全にテキストを読んだりする時間がないかもしれな
い。或いは、照明又は表示状態が印刷又は表示された形
式のテキストを見ることができなくしているかもしれな
い。
【0007】本発明は、意味を示しそうもない非常に僅
かな単語を保持している間に、テキストの意味を示しそ
うな単語を保持する方法で自動的にテキストを要約する
方法の問題に取り組んでいる。より詳細には、本発明
は、十分なデータの不足のため統計的方法を行わせるこ
とができないという、短いテキストを自動的に要約する
問題に取り組んでいる。同様に、本発明は、原則に基づ
いた方法で自動的に文を要約する方法の問題に取り組
み、要約された文が元の文より短くなるようになってい
る。また、本発明は、テンプレートの創作を要求せずに
原則として1つのパスで実行可能な方法でのように、テ
キストを自動的に簡略かつ効率よく要約する方法の問題
に取り組んでいる。また、本発明は、適当なレベルの簡
潔さを提供する方法でテキストを自動的に要約する方法
の問題に取り組んでいる。
【0008】
【課題を解決するための手段】本発明は、自動的に要約
するテキストの音声部(POS)情報を使用する技術を提
供することによりこれらの問題を多少とも解決する。幾
つかの技術はPOS情報を使用して、1つのグループの
連続するトークン内で、自動要約中に除去されるトーク
ンと保持されるトークンとを識別をする。幾つかの技術
は使用者により選択されたPOSベースの基準を適用す
ることにより自動的に要約を実行する。
【0009】本発明は、テキストを自動的に要約する技
術を提供し、入力テキストデータがPOSデータを得る
ために使用され、テキストのトークンのため音声部を示
す。POSデータがグループデータを得るために使用さ
れ、連続するトークンのグループを示すと共に各グルー
プ内でPOSベースの除去基準を満たすトークンを示
す。その後、グループデータがテキストの要約版を得る
ために使用され、除去基準を満たすトークンが除去さ
れ、従って、トークンの数を減少させる。
【0010】グループデータは第1及び第2グループタ
イプのデータを含むことができ、それぞれ第1及び第2
のPOSベースの除去基準が適用可能な第1及び第2の
単語グループタイプを示す。例えば、そのタイプは動詞
グループタイプ及び名詞グループタイプとすることがで
き、各グループはグループタイプを示す要素によって先
行及び後に続かれることができる。
【0011】入力テキストはトークン化されトークン化
した文を得ることができ、POSデータは各トークン化
した文のため得ることができる。その後、文のPOSデ
ータは文のグループデータを得るために使用され、順番
に文を要約するために使用することができる。
【0012】入力テキストは画像データを機械読取り可
能なテキストデータに変換することにより得て、移動式
媒体を運ぶ画像により含まれたテキスト内容を表現す
る。要約したテキストは音声データに変換され、要約し
たテキストの単語の発音記号表記を表現でき、相当する
音が発せられ、従って、テキストの音声の要約を提供す
る。
【0013】また、本発明は自動的にテキストを要約す
る技術を提供し、使用者の入力デバイスからの信号は1
セットのPOSベースの除去基準の1つを選択する。入
力テキストデータはPOSデータを得るために使用さ
れ、テキストのトークンのため音声部を示し、POSデ
ータはテキストの要約版を得るために使用され、トーク
ンは選択されたPOSベースの基準に従って除去され、
従って、トークンの数を減少させる。
【0014】信号を得て基準を選択するため、POSベ
ースの除去基準のセットを示す画像が表示可能である。
上記のように、要約したテキストは音声データに変換で
き、要約したテキストの単語の発音記号表記を表現し、
対応する音が発せられ、従って、テキストの音声の要約
を提供することができる。
【0015】上記技術の各々は入力テキストデータと自
動的にテキストを要約するプロセッサを含むシステムで
実行可能である。更に、各技術は記憶媒体で記憶された
命令データを含む製品で実行可能であり、システムのプ
ロセッサが自動的にテキストの要約を実行できる命令を
示している。
【0016】本発明は、その意味を保持している間にテ
キストの長さを縮小できるので有利な技術を提供し、従
って、テキストを音声に変換するシステム設計又はテキ
ストの要約版を有することに左右される他の動作を実行
するために必要な時間を減少させる。本発明は、僅かな
統語的な解剖で実行され、テキストのどの部分が除去可
能であるかを明らかにする。除去は使用者のコントロー
ルの下、恐らくノブを介して進めることができ、多かれ
少なかれテキストは保持されるようになっている。極端
な場合のみ、重要な名詞又は固有名称が保持される。
【0017】本発明は、盲目の読者に聞こえるようにテ
キストをスキャンさせ、目が見える読者ができるよう
に、テキストのどの部分が完全に読まれるべきかを決定
するため、テキストの可聴の要約を得る。少なくともこ
の適用のため、本発明は、3つの理由のため、従来の統
計ベースの要約技術を改善している。(1)選択された
文だけよりむしろ、テキストの各文の重要な部分を読む
ことができ、(2)従来の統計ベースの要約は2つのパ
スを必要とするが、本発明の技術は、テキストを通る1
つのパスで作動するように実行可能であり、(3)本発
明の技術は、従来の統計ベースの要約とは異なり統計を
使用することなく実行可能であるので、長いテキストと
同様に短いテキストにも適用可能である。本発明の技術
は手動でテンプレートを作ることなく実行可能であるの
で、テンプレートベースの技術を改善する。
【0018】本発明は、光学文字認識とテキストの音声
への変換の生成との間のテキストの処理で適切に使用す
ることができる。入力テキストは電子的に文毎に読取り
可能であり、本発明の実行は、現在使用者に求められる
簡約のレベルによって出力テキストとして簡約版を製作
可能である。完全なテキストからの情報をバッファに入
れる必要はない。入力文は有限状態のトランスデューサ
技術を使用して1列の言語のマーク付けを経験可能であ
る。これらのマーク付けは、所定文の文脈の各単語の音
声部、名詞グループと動詞グループの境界、及び各句内
の主要部要素のように、入力テキストの言語の特徴を示
すことができる。本発明の技術は入力テキストを読むこ
とにより実行可能であり、後述するような方法でマーキ
ングを使用し、その後、使用者に求められる簡約のレベ
ルによって出力する要素を選択する。
【0019】本発明の利点は、入力テキストから電信
(即ち、短く、簡明、簡潔な)テキストを即座に製作す
るために実行されることができることである。更なる利
点は、電信の簡約レベルが最も極端な簡約からほぼフル
テキストまで使用者により制御できることである。
【0020】本発明による技術は、簡約が文毎に実行可
能であるので、盲目の読者(先にゼロックス画像システ
ム(Xerox Imaging Systems)により売られたリーディ
ングエッジ(ReadingEdge)等)のように、テキストス
トリームの要約の要求に適切に適用可能である。このア
プローチは、統計ベースの要約を改善し、そのアルゴリ
ズムは要約が実行可能な前に全体の文書をメモリに読み
込むことを要求する。
【0021】
【発明の実施の形態】ここで使用しているように、「ト
ークン」と「トークン区切り」の概念は密接に関連して
いる。「トークン区切り」はトークンを分けるための基
準(「トークン区切り基準」)を満たす1以上の要素の
1列であり、一方、「トークン」は1以上の要素の1列
であり、その各々は1文字又は文字の組合わせであり、
その1列は適用可能なトークン区切り基準による内部の
トークン区切りを含まない。フランス語及び英語のよう
な言語に適用可能なトークン区切り基準はしばしばトー
クン区切りとして1以上のスペースの列を扱う。正確に
綴った単語、略語、頭字語、短縮形、誤綴りで意味のな
い単語、公式及び方程式を含む数学的で論理的な表現、
区切り基準を満たさない句読点の組合わせ(点線、署名
の線、「スマイリー」等)、及び文字列の各種他のタイ
プに加えて、意味論上、意味を持つかどうかは、それら
が適用可能な基準の下で内部のトークン区切りを含まな
ければ、この定義の下に全てトークンとすることができ
る。また、SGML及びXMLタグ及びハイパーリンキ
ング、フォーマッティング等に関する他のそのような文
字列は、幾つかのトークン区切り基準の下でトークンと
して取扱われる。この定義の下、「単語」又は「単語ト
ークン」は意味論上意味を持つ単位でもあるトークンで
ある。
【0022】「テキスト」はトークン区切りにより分け
られた一連のトークンを形成する一連の文字である。例
えば、テキストは書かれた又は印刷された一連の文字に
より或いは一連の文字コードを含むデータの項目により
定義されてもよい。
【0023】トークン化することはトークン区切り基準
によりテキストをトークンに分割することである。トー
クンナイザ(tokenizer)はここではデータ構造、プロ
グラム、対象、又はテキストをトークン化するために使
用可能なデバイスを意味するために使用される。ここで
使用されているように、文及び文の区切りの概念は同様
に関連している。1つの文の区切りは文を分ける基準
(「文の区切り基準」)を満たす1以上のトークンの1
列であり、一方、1つの文は1以上のトークンの1列で
あり、その列は適用可能な文の区切り基準による内部の
文の区切りを含んでいない。フランス語及び英語のよう
な言語に適用可能な文の区切り基準はしばしば、ピリオ
ド、クウェスチョンマーク、感嘆符等のような文の区切
りとして1以上の適当な文の終止の中断符号の列である
トークンを扱う。そのようなトークンはここでは「文の
最終文字」と呼ばれる。
【0024】トークンの「音声部」又は「POS」はト
ークンがテキストでする文法上の機能であり、他のPO
Sがトークンとして得ることができない時にトークンに
割り当てられる音声のデフォルト部を含んでいる。
【0025】POSベースの除去基準は、テキストのト
ークンの音声部に適用可能な基準であり、テキストから
どのトークンを除去してどのトークンを保持するかを決
定する。従って、除去基準を満たすトークンは除去され
テキストの要約を得ることができる。同じ要約は除去基
準を満たさないトークンだけを保持することにより得る
ことができ、除去はここでは両方のアプローチを達成す
るために使用される。
【0026】単語グループタイプはテキストのトークン
のグループに適用可能な1セットのタイプの1つであ
る。例えば、動詞グループと名詞グループは2つともそ
のタイプである。
【0027】POSベースの除去基準は、所定の単語グ
ループタイプのグループ内でどのトークンが基準を満た
してどれがトークンのPOSを基にしないかを決定する
ことができる場合には、そのグループのタイプのグルー
プに適用可能である。
【0028】図1及び図2はコンピュータベースの机上
スキャニングシステムを示しており、本発明による技術
のシステムの多くのタイプの1つが実行されてもよい。
図1及び図2の配列の動作は日本特許出願No.9,221,863
にもっと詳細に説明されている。当然、本発明は、プロ
セッサがテキストを形成するデータへのアクセスを有す
る広範な各種の他のシステムで実行でき、それらのシス
テムは、読取り機械、デジタルコピー機、多機能機械
(例えば、スキャン、印刷、コピー、ファックス、及び
他の動作が可能な機械)、及びスキャナが画像データを
提供しOCRを実行可能なプロセッサにテキストの画像
を形成可能な他のシステムと同様に従来のデスクトップ
及び携帯パソコン及びワークステーションを含んでいる
であろう。
【0029】図1では、コンピュータシステム1はハウ
ジング2、表示画面6を有するCRTモニタ4、ハード
ディスクドライブ8、フロッピディスクドライブ10、
キーボード12、及びマウス14を含んでいる。コンピ
ュータはネットワークケーブル16に接続され、従来の
内部ドライバカード(図示せず)及び適当なソフトウェ
ア(Novell社から入手可能なNetware等)と一緒になっ
て、コンピュータにローカルエリアネットワーク(LA
N)、ワイドエリアネットワーク(WAN)、又は他の
ネットワークの一部を形成させる。
【0030】剛体のフレーム20はブラケット21又は
別の適当な取り付け設備(図示せず)によりシステム1
を支持する表面18に貼り付けられている。ビデオカメ
ラ22はフレーム20の上部の内部に取付けられ、二者
択一的にカメラ22は書棚又は表面18上の他の剛体の
設備に取付けられてもよい。文書24はカメラ22の視
野内に配置されている。
【0031】図2は図1のコンピュータシステム1のハ
ードウェアを概略的に示している。システム1は共通バ
ス30とそれに接続される中央処理装置(CPU)3
2、ランダムアクセスメモリ(RAM)34、読み出し
専用メモリ(ROM)36、及びディスク、テープ、C
D−ROM、又は別の記憶媒体に記憶されるデータにア
クセスするためのドライブ38を含むメモリデバイス、
キーボード12、マウス14、印刷、製図、又はスキャ
ンする装置40、及びカメラ22のように外部のデバイ
ス46にインターフェースを提供するアナログをデジタ
ル(A/D)及びデジタルをアナログ(D/A)に変換
するデバイス42とデジタル入力/出力(I/O)デバ
イス44及びLAN又はWANの残り部分(図示せず)
を含んでいる。
【0032】使用において、ビデオカメラ22は表面1
8上の物体(例えば、文書)の画像を捕らえ、これらの
画像はコンピュータ表示画面6の窓50に同時に表示さ
れる。この方法では、(OCR及び要約を含む)次の処
理のため本文の内容がそのような文書からスキャンされ
てもよい。
【0033】図3は本発明の1実施例の方法で行われる
行為を概略的に示しているフロー図である。図3に示し
ている行為はCPU32により実行可能であり、RAM
34、ROM36、又は他のローカル又はリモートメモ
リ、又はディスク、テープ、CD−ROM又は他の記憶
媒体にドライブ38によりアクセスしてCPU32に提
供されるようなメモリから検索し、ケーブル16を通し
てネットワークから受け取った命令データにより示され
た実行命令でそれらを実行可能である。
【0034】ボックスS1では、(図1及び図2に関連
して上述した光学文字リーダー又はビデオスキャニング
システム、或いはテキストを表現する他の信号源から発
生可能な)入力文書又はテキスト部分はテキストを定義
する入力テキストデータに変換される。例えば、入力テ
キストデータは、入力文書の画像上のOCR操作から得
たコンピュータで読み取り可能な文字コードのストリー
ムである。しかし、入力テキストデータが、メモリ又は
周辺デバイスから検索又はHTMLワールドワイドウェ
ブ文書のようなネットワークから受信したファイルを基
に従来のコンピュータから引き出し可能であり、又、音
声認識システムから受取り可能であり、(適当なマイク
ロフォン、インターフェース及び音声認識ソフトウェア
を用いて)直接又は適当な通信施設を介して伝達される
使用者の発言からテキストを生成できることは、当業者
であれば認識されるであろう。とにかく、入力テキスト
データはRAM34又は他のローカル又はリモートメモ
リのようなメモリに記憶可能である。
【0035】次に、ボックスS2では、ボックスS1か
らの文字ストリーム又は他の入力テキストデータが、例
えば、有限状態のトークンナイザ又は文字の入力ストリ
ームをトークン又は単語に分ける他のコンピュータベー
スのトークンナイザでトークン化される。有限状態のト
ークンナイザはその分野では公知であり、例えば、US-A
-5,721,939に見られ、US-A-5,488,719に開示された関連
の技術である。従って、例えば、“Hakkinen was again
on pole.”という文からトークン化動作は“Hakkine
n”,“was”,“again”,“on”,“pole”,及び“.”と
いうトークンを生成する。ここで、トークンの“.”は
分の終止トークンと呼ばれ、他のものは単語トークンと
呼ばれる。
【0036】ボックスS3では、ボックスS2からのト
ークンが、文の終止トークンに遭遇するようになるま
で、例えば現在の文のバッファで集められる。トークン
の収集順序は文として考慮されている。(文の終止トー
クンのリストは、ピリオド、クウェスチョンマーク、感
嘆符等のように取扱われる各言語のため意外に早く形成
可能である。)次に、ボックスS3からの現在の文の収
集したトークンは、ボックスS9を介してボックスS4
に示されるように処理可能である。
【0037】ボックスS4では、ボックスS3からのト
ークンは音声部のタグ付けを経験し音声部(POS)デ
ータを得て文の文脈で各トークンの音声部を示し、音声
部は文のトークンの文法の機能を示す範疇の広い意味に
使用される。トークンは語形論的に分析可能であり、注
釈文を得るためタグ付けされた音声部とすることがで
き、POSデータはデータの項目を含み、現在の文のバ
ッファの単語に添えられた各単語のために決定された音
声部を示している。音声部のタグ付けのための技術は公
知であり、例えば、1992年のコンピュータ音声及び
言語(ComputerSpeech and Language),6:225-242のJ.
M.Kupiecによる「隠れたマルコフ模型を使用するロー
バスト音声タグ付け(Robust part-of-speech tagging
using ahidden Markov model)」及び「FSPの近似の
隠れたマルコフ模型及びそれを使用するテキストタグ付
け(FSPs Approximating Hidden Markov Models andText
Tagging Using Same)」という表題の共同で譲り受けさ
れた国際出願 WO-A-99/01828に見られる。
【0038】次に、ボックスS4からのPOSデータは
文の要約版を形成する要約テキストデータを得るために
使用されている。ボックスS5からS9はこれが行える
1つの方法を示している。
【0039】ボックスS5では、ボックスS4からのP
OSデータは文の動詞グループの注釈版を得るために使
用される。例えば、現在の文のバッファでの音声部の注
釈文はコンピュータベースの動詞グループのアノテータ
(annotator)を通過可能であり、最初はシンボルを括
弧に入れる特別の動詞グループを現在の文のバッファに
挿入し、その後、第2にトークンの統語的特性を識別す
る特別のマーカーを各動詞グループ、例えば動詞グルー
プの主要部、動詞グループの音声(能動/受動/不定
詞)等に挿入する。その技術は例えば、1992年2月
のコンピュータ科学技術レポート、CS92-05のG.Grefens
tetteによる「六分儀、生のテキストからの意味論を引
き出すこと、詳細な手段(Sextant. Extracting Semanti
cs fromraw text, implementation details)」、及び1
996年8月11から12日の言語の拡張有限状態モデ
ルのECAI'96研究集会議事録(Proceedings ECAI'96Work
shop on Extended Finite-State Models of Language)
でG.Grefenstetteによる「有限状態フィルタリングと
しての簡単な構文解析(Light Parsing asFinite-State
Filtering)」で説明されている。これらの技術によれ
ば、各動詞グループは原則、又は主要部を識別する有限
状態フィルタを通過可能であり、動詞グループの動詞及
び動詞の主要部マーカーはこれらの動詞の各々に取り付
け可能である。この動詞の主要部マーカーは動詞グルー
プの構造による。動詞グループの主要部マーカーの例
は、“Head_of_Passive_Verb_Group”,Head_of_Active
_Verb_Group”,“Head_of_Infinitive_Verb_Group”等
を含んでいる。
【0040】ボックスS6では、ボックスS4からのP
OSデータは文の名詞グループの注釈版を得るために使
用可能である。例えば、現在の文を注釈する動詞グルー
プは同様にコンピュータベースの名詞グループのアノテ
ータを通過可能であり、名詞グループのマーキングを現
在の文のバッファに挿入し、名詞句の主要部をマーク
し、各名詞の統語的特性、例えば、名詞が前置詞により
支配されているかどうかを示す。適当な名詞グループの
マーキング技術の詳細のため、上述したG.Grefenstett
eの参考文献を参照しなさい。これらの技術によると、
各名詞グループは原則、又は主要部を識別する有限状態
のフィルタを通過可能であり、名詞グループの名詞及び
名詞の主要部マーカーはこれらの名詞の各々に取付け
る。名詞グループの主要部のマーカーの例は、(主語又
は目的語として動詞に付くことのできる)「自由名詞(F
reeNoun)」及び前置詞に付く「前置詞名詞(PreNoun)」
である。
【0041】本発明の幾つかの実施例では、1つだけの
POSベースの基準を適用し、要約中にどのトークンを
除去すべきかを決定するよりむしろ、1セットのPOS
ベースの除去基準をどれでも使用できる。図3の方法に
おいて、除去基準は「簡約レベル」と呼ばれるが、セッ
トの除去基準はレベルの階層内で関係したり、又、何か
他の方法で互いに関係する必要はない。簡約レベルは
又、テキストが要約技術により保持される程度を決定
し、永久に固定される必要はないが、文書の処理開始時
に、又はあらゆる文の処理開始時に、1セットの予め定
義されたレベルから使用者により選択されてもよく(例
えば、キーボード、ディスプレイ、マウスデバイス及び
適当なUI対話技術を含む従来の使用者入力技術によ
り、又は、ノブ、トグル、ダイアル、又はプッシュボタ
ンのような手動選択装置により(図示せず))、又は、
使用者の選択の代わりに、デフォルトレベルで設定され
てもよい。選択されると、1セットの予め定義されたレ
ベルの1つは別のレベルが選択されるまで、使用のため
記憶されてもよい。
【0042】ボックスS7aでは、信号は使用者の入力
デバイスから受け取られ、1セットのPOSベースの除
去基準の1つを選択する。図3の方法において、基準は
図示されているような簡約レベルである。簡約レベルを
選択することにより、使用者の入力デバイスからの信号
はどのくらいのテキストが保持され、又は反対に、どの
くらい除去されるべきかを間接的に示すであろう。
【0043】従って、ボックスS7では、現在設定した
簡約レベルを基に、テキストに付加された注釈は、どの
トークンが保持され、どれが除去されるべきかを決定す
る簡約フィルタにより使用可能である。事実上、簡約フ
ィルタは選択したPOSベースの除去基準を使用してい
る。例えば、簡約の1つのレベルでは、フィルタはトー
クンを保持するだけであり、該トークンは前置詞の音声
部タグでタグ付けされるか(下記の例では、/IN)、又
は、グループ内の重要なトークンを示す動詞又は名詞グ
ループの主要部マーカーにより先行されるか(下記の例
では、HeadN,ActV,PrepN等)、又は、否定の
音声タグでタグ付けされるか、又は、下記の例のピリオ
ドのように或る中断トークンのいずれかである。異なる
簡約レベルを使用する効果は図5〜7に関連して下記に
もっと詳細に述べられている。
【0044】ボックスS7で使用された簡約フィルタは
何か適当な方法で実行可能であり、入力としてタグ付け
され分類されたトークン列を受け取ると共に出力として
簡約した列を提供する有限状態のトランスデューサを含
んでいる。そのようなトランスデューサは従来の技術を
使用して簡約の各レベルのため製造されることができる
であろう。
【0045】次に、ボックスS8では、音声部タグ及び
動詞及び名詞グループのマーキングは現在の文から削除
される。その後、現在の文のバッファの残りのテキスト
はボックスS9では出力である。1つの実施例では、結
果のテキストは、市販のテキストを音声に変換するシン
セサイザを使用して使用者に発音記号で表記したテキス
トとして与えられ、簡約の各レベルのための発音記号で
表記したテキストはこの方法で得ることができ、簡約レ
ベルを選択する使用者の信号に応じて次に起こる再生の
ため記録される。結果のテキストは表示画面上に選択的
に全段抜き大見出し又はボックスで与えられることがで
きるだろう。
【0046】最後に、ボックスS10では、システムは
調べて入力テキストが完全に消費されたかどうかを見
る。そうでなければ、システムはボックスS1の入力テ
キストの処理を続行し、さもなければシステムは停止す
る。
【0047】図4はテキストの典型的な入力文のための
図3での各種行為の結果を示しており、即ち、現在の文
のバッファの内容の視覚化は各段階後のディスプレイに
示された画像に付加されている。
【0048】ボックスS4での行為の後、バッファに入
れられた文は音声タグを含み、例えば、限定詞のため
“/DT”,形容詞のため“/JJ”,単一名詞のため“/NN”,
複数名詞のため“/NNS”,イラストレイテッド(illustra
ted)動詞のため“/VBZ”,文の終わりのため“/SENT”
である。その後、ボックスS5及びS6での行為に続い
て、バッファに入れた文は更にそれぞれ、動詞グループ
のマーキング(例えば、“[VG,“VG]”)及び名詞グル
ープのマーキング(“[NG”,“NG]”)を含んでいる。
動詞及び名詞グループ内では、重要なトークン、又は主
要部は又、動詞グループの能動態の動詞のための“Ac
tV”及び名詞グループの重要な名詞のための“Head
N”のようなデータの項目を先行してマークされる。ボ
ックスS7でのフィルタリング行為の後、“dog”,“ea
ts”,“bones”,“on”,及び“floor”の単語、文の終
わりのピリオド、及びそれらの付加のタグ及び動詞グル
ープ及び名詞グループのマーキングだけが残り、それら
の付加されたタグと共に全ての他のトークンはPOSベ
ースの除去基準が適用されるのに従って除去された。ボ
ックスS8でのタグのストリッピング及び動詞グループ
及び名詞グループのマーキングの後、“dog”,“eat
s”,“bones”,“on”,及び“floor”の単語及び文の終
わりのピリオドは文のバッファに残っている。
【0049】図5〜7は、簡約の幾つかの異なるレベル
から起こる出力が比較のために表示可能な本発明の実施
例による、典型的な入力テキストのための図3での幾つ
かの段階の結果を示しており、簡約の各種レベルを示し
ている。
【0050】上述したように、テキストを注釈したグル
ープ及び主要部は簡約トランスデューサに送られ、使用
者により選択された簡約レベル(何も選択されない場合
にはデフォルトレベル)により単語及び他のトークンを
(ボックスS7で)除去する。簡約のレベルの狭い例は以
下の通りである。 1.固有名称だけで、副節なし 2.主語及び目的名詞だけで、副節なし 3.主語、主要部動詞、及び目的名詞だけで、副節なし 4.主語、主要部動詞、及び目的名詞、前置詞及び従属
名詞主要部だけで、副節なし 5.固有名称だけで、副節を含む 6.主語及び目的名詞だけで、副節を含む 7.主語、主要部動詞、及び目的名詞だけで、副節を含
む 8.主語、主要部動詞、及び目的名詞、前置詞及び従属
名詞主要部だけで、副節を含む
【0051】元の又は入力テキスト(節)が図5に示され
ている。(ボックスS4からS6での)マーク付け後の同
じテキストが図6に示されている。上述した各簡約レベ
ル1〜4及び8のための結果としての出力(要約)テキス
トは図7に示されている。
【0052】公に利用可能なシンセサイザーrsynthのよ
うにテキストを音声に変換するシンセサイザーを使用し
て、元のテキスト(図5)が36秒で発音記号表記される
ことが分かった。(ほとんどの元の意味が保持される)
上記レベル8の簡約として分類された簡約により製作さ
れたテキストを発音表記することは、POSのマーク付
け及び浅薄な構文解析を実行するのに必要な時間を含め
て、同じテキストを音声に変換するシンセサイザーでた
った20秒しか掛からない。
【0053】図4〜7から分かるように、マーク付けさ
れたテキストに含まれたグループデータは適用可能なP
OSベースの除去基準を満たすトークンを直接示してい
ないが、それらはそれらのトークンを間接的に示すのに
十分な情報を提供する。例えば、それが主語、主要部動
詞、目的名詞、又は節又は副節の従属名詞主要部を示す
主要部のマーキングを有する場合、及びそれが前置詞と
してタグ付けされない場合には、(文の終わりのトーク
ン以外の)トークンは上記の簡約レベル8の除去基準を
満たす。
【0054】上述した方法では、コンピュータベースの
机上スキャニングシステムを使用している。しかし、本
発明は、何か特定のデスクトップ、携帯用、又はワーク
ステーションべースの方法に限定されるものではない
が、そのようなデバイス、(スキャン、印刷、ファック
ス等の可能な)多機能機械のような他のプロセッサ制御
デバイスを含むコンピュータ配列の方法、及びワイヤー
ド又はワイヤレスネットワーク配置を組合わせて、周知
のLAN、WAN及び又はインターネットプロトコルを
使用して動作させ、そのようなデバイスの適当な組合わ
せを組み込んでもよい。例えば、本発明は、プロセッサ
制御のデスクトップ平台型スキャニングシステムで実行
することができるであろう。そのようなシステムはその
分野では周知であり、先にゼロックス画像システムから
利用可能なリーディングエッジ(ReadingEdge)により
例示されている。二者択一的には、ハードウェアの構成
は、適当な使用者のインターフェース周辺装置及び平台
型又は用紙送りのデスクトップスキャナに結合された従
来のコンピュータ、スキャンされた書類から機械読取り
可能なテキストを生成可能な適当なOCRソフトウェア
(例えば、スキャンソフト社からのテキストブリッジ)
を組み込んだコンピュータ又はスキャナの形式をとって
もよい。
【0055】方法は、段階、動作、又は文字、単語、テ
キスト等を含む操作に関連する用語で説明された。その
ような段階、動作、又は操作は、そのような文字、単
語、テキスト等の機械読取り可能な(例えば、ASII
コード)表現のプロセッサの作動を制御するソフトウェ
アによって、適切に実行可能であるが、また、ハードウ
ェアの作動でも実行可能である。
【0056】方法は、浅薄な構文解析、POSタグを使
用して統語的なタイプのグループ又は大きな塊(「チャ
ンク(chunk)」)にトークンを分類可能で重要なトークン
又はグループの主要部を任意に識別可能でもある動作に
関して説明した。本発明は又、どのトークンがPOSベ
ースの除去基準を満たすかを示すデータを得るための他
の技術で実行することもできるだろう。例えば、そのよ
うな技術は幾つかの文をうまく解剖しなくてもよいが、
完全な構文解析技術が使用可能であろう。
【0057】方法はPOSタグ付けした文を得て、その
後次の文を取扱う前に文の要約版を得ることを説明し
た。本発明は又、1度に1つより多い文で作動し、又は
テキストを文に分けることなくテキストで作動するよう
に実行可能である。
【0058】方法は、POSタグ及び他のマーク付けし
たデータがバッファの一連の文字コードに含まれている
ことを説明した。しかし、POSタグ及び他のマーク付
けしたデータが記憶され、テキストに含まれるよりむし
ろ、テキストとは別個に又はテキストと並行して取扱わ
れる。
【0059】上述された方法は、特定の方法で特定のP
OSベースの除去基準を適用するが、各種の他のPOS
ベースの除去基準が適用可能であり、そのような基準は
各種方法で適用可能であろう。
【0060】上述した方法は、トークンを動詞及び名詞
グループに分類し、どのトークンがPOSベースの除去
基準を満たすかをそのようなグループ内の主要部を示す
ことにより間接的に示すが、トークンは他の方法で分類
可能であり、POSベースの除去基準を満たすトークン
は直接又は何か他の適当な方法で示されることができる
だろう。更に、除去基準を満たすか又は満たさないトー
クンは、除去基準を満たすトークンを示すグループデー
タを得ることによるよりもむしろ、他の方法で示される
ことができる。
【0061】上述した方法は、基準が適用される前に使
用者から信号を受け取りPOSベースの除去基準を選択
するが、除去基準は各種他の方法で選択可能であろう。
例えば、1セットの除去基準の各々はテキストの二者択
一の要約を得るために適用可能であり、その各々は音声
の録音に変換可能であり、その後、使用者は基準の1つ
で製作された要約を再生のために選択し、又は要約は別
の適当な方法で再生のため選択可能であろう。
【0062】上述した方法は、フィルタとして有限状態
のトランスデューサーを使用して、POSベースの除去
基準をPOSデータに適用するが、POSベースの除去
基準は、データ構造の他のタイプの使用又はアルゴリズ
ムの使用によるように、他の方法でPOSデータに適用
可能である。
【0063】方法は英語に関して上述されているが、本
発明は英語以外の言語に適用可能である。
【0064】上述した方法では、特定の行為は、省略又
は異なって実行可能なことを実行している。例えば、タ
グ付けされマーク付けしたトークンは現在の文のバッフ
ァ以外のデータ構造で保管可能であろう。
【0065】上述した方法では、行為は多くの場合で修
正可能な順序で実行される。例えば、図3のボックスS
5及びS6での行為は順序正しく反対にし、又は説明し
た機能性を変更することなく単一動作にまとめられても
よい。
【0066】上述した方法は、現在使用可能な演算技術
を使用しているが、新たに発見された演算技術が利用可
能になるとそれらを使用するために容易に修正可能であ
ろう。
【0067】上述したように、本発明は要約を行う各種
方法に適用可能である。
【0068】本発明は、盲目又は視覚障害者のための読
取り機械に適用し、資料の音声要約を提供することがで
きる。
【0069】本発明は又、デジタルコピー機、多機能機
械、又は光学文字認識が行えると共に要約が製作され印
刷され出力として提供される別の方法で可能なスキャン
及びプロセス能力を有する他の機械にも適用可能であ
る。
【0070】本発明は又、ウェブページサマライザにも
適用されるかもしれない。
【図面の簡単な説明】
【図1】 自動要約が実行されるコンピュータベースの
机上スキャニングシステムの例を示している。
【図2】 図1のシステムで使用可能なコンピュータの
概略ブロック図である。
【図3】 自動要約を行う処理段階を概略的に示すフロ
ー図である。
【図4】 テキストの典型的な入力文用の図3での各種
段階の結果を示している。
【図5】 典型的な入力テキスト用の図3での段階から
選択した段階の結果を示し、簡約の各種レベルを示して
いる。
【図6】典型的な入力テキスト用の図3での段階から選
択した段階の結果を示し、簡約の各種レベルを示してい
る。
【図7】典型的な入力テキスト用の図3での段階から選
択した段階の結果を示し、簡約の各種レベルを示してい
る。

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 (a)2以上のトークンを含むテキスト
    を形成する入力テキストデータを得て、 (b)前記入力テキストデータを使用してテキストのト
    ークンのため音声部を示す音声部(POS)データを得
    て、 (c)前記POSデータを使用してテキストの2以上の
    グループの2以上の連続するトークンを示すと共に各グ
    ループ内でPOSベースの除去基準を満たすトークンを
    示すグループデータを得て、 (d)前記グループデータを使用して要約されたテキス
    トデータを得てテキストの要約版を形成し、前記除去基
    準を満たすように示されている各グループのトークンが
    除去され、テキストの要約版のトークンの数がテキスト
    のトークンの数より少なくなるようになっている、こと
    を特徴とするテキストを自動的に要約する方法。
  2. 【請求項2】 (A)使用者の入力デバイスから信号を
    受け取り1セットの音声部(POS)ベースの除去基準
    の1つを選択すると共に、入力テキストデータを得て2
    以上のトークンを含むテキストを形成し、 (B)前記入力テキストデータを使用してPOSデータ
    を得てテキストのトークンのため音声部を示し、 (C)前記POSデータを使用して要約されたテキスト
    データを得てテキストの要約版を形成し、トークンが選
    択したPOSベースの基準に従って除去され、テキスト
    の要約板のトークンの数がテキストのトークンの数より
    少なくなるようになっている、ことを特徴とするテキス
    トを自動的に要約する方法。
JP11843099A 1998-03-23 1999-03-23 音声部を使用するテキスト要約方法 Pending JP2000003126A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GBGB9806085.8A GB9806085D0 (en) 1998-03-23 1998-03-23 Text summarisation using light syntactic parsing
GB9806085:8 1998-03-23

Publications (1)

Publication Number Publication Date
JP2000003126A true JP2000003126A (ja) 2000-01-07

Family

ID=10829012

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11843099A Pending JP2000003126A (ja) 1998-03-23 1999-03-23 音声部を使用するテキスト要約方法

Country Status (4)

Country Link
US (1) US6289304B1 (ja)
EP (1) EP0952533B1 (ja)
JP (1) JP2000003126A (ja)
GB (1) GB9806085D0 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08299552A (ja) * 1994-03-14 1996-11-19 Toyomaru Sangyo Kk パチンコ機
JP2007517536A (ja) * 2003-09-26 2007-07-05 ボストン サイエンティフィック リミテッド バルーン拡張型ステントおよびその製造法
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム
US9792834B2 (en) 2008-03-06 2017-10-17 International Business Machines Corporation Computer, method and program for effectively notifying others of problems concerning accessibility in content

Families Citing this family (132)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8352400B2 (en) 1991-12-23 2013-01-08 Hoffberg Steven M Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore
US5836771A (en) 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US6311223B1 (en) * 1997-11-03 2001-10-30 International Business Machines Corporation Effective transmission of documents in hypertext markup language (HTML)
US7168039B2 (en) * 1998-06-02 2007-01-23 International Business Machines Corporation Method and system for reducing the horizontal space required for displaying a column containing text data
US7966078B2 (en) 1999-02-01 2011-06-21 Steven Hoffberg Network media appliance system and method
JP3669869B2 (ja) * 1999-06-28 2005-07-13 株式会社サン・フレア 最適テンプレートパターンを用いた評価方法、評価装置および記録媒体
JP2001014306A (ja) * 1999-06-30 2001-01-19 Sony Corp 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
US7509572B1 (en) * 1999-07-16 2009-03-24 Oracle International Corporation Automatic generation of document summaries through use of structured text
US7475334B1 (en) * 2000-01-19 2009-01-06 Alcatel-Lucent Usa Inc. Method and system for abstracting electronic documents
EP1277200A4 (en) * 2000-02-02 2005-09-14 Famoice Technology Pty Ltd VOICE SYSTEM
US6658377B1 (en) * 2000-06-13 2003-12-02 Perspectus, Inc. Method and system for text analysis based on the tagging, processing, and/or reformatting of the input text
US20030195740A1 (en) * 2000-06-20 2003-10-16 Sunflare Co., Ltd. Translation evaluation using optimum template pattern determination method
US6510413B1 (en) * 2000-06-29 2003-01-21 Intel Corporation Distributed synthetic speech generation
US7092871B2 (en) * 2000-07-20 2006-08-15 Microsoft Corporation Tokenizer for a natural language processing system
US6704699B2 (en) * 2000-09-05 2004-03-09 Einat H. Nir Language acquisition aide
US20020087985A1 (en) * 2000-12-01 2002-07-04 Yakov Kamen Methods and apparatuses for displaying meaningful abbreviated program titles
US7069207B2 (en) * 2001-01-26 2006-06-27 Microsoft Corporation Linguistically intelligent text compression
US7010478B2 (en) * 2001-02-12 2006-03-07 Microsoft Corporation Compressing messages on a per semantic component basis while maintaining a degree of human readability
US20020122053A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporation Method and apparatus for presenting non-displayed text in Web pages
US20030164848A1 (en) * 2001-03-01 2003-09-04 International Business Machines Corporation Method and apparatus for summarizing content of a document for a visually impaired user
US20020143817A1 (en) * 2001-03-29 2002-10-03 International Business Machines Corporation Presentation of salient features in a page to a visually impaired user
US6859771B2 (en) * 2001-04-23 2005-02-22 Microsoft Corporation System and method for identifying base noun phrases
US6990634B2 (en) * 2001-04-27 2006-01-24 The United States Of America As Represented By The National Security Agency Method of summarizing text by sentence extraction
US7200556B2 (en) * 2001-05-22 2007-04-03 Siemens Communications, Inc. Methods and apparatus for accessing and processing multimedia messages stored in a unified multimedia mailbox
US7092872B2 (en) * 2001-06-19 2006-08-15 Fuji Xerox Co., Ltd. Systems and methods for generating analytic summaries
US7260607B2 (en) * 2001-08-02 2007-08-21 Siemens Communications, Inc. Methods and apparatus for performing media/device sensitive processing of messages stored in unified multimedia and plain text mailboxes
US7773730B1 (en) * 2001-08-09 2010-08-10 Voice Signature Llc Voice record integrator
US20070265834A1 (en) * 2001-09-06 2007-11-15 Einat Melnick In-context analysis
US20040054535A1 (en) * 2001-10-22 2004-03-18 Mackie Andrew William System and method of processing structured text for text-to-speech synthesis
GB2381605A (en) * 2001-10-31 2003-05-07 Hewlett Packard Co Internet browsing system
US7853272B2 (en) * 2001-12-21 2010-12-14 Telecommunication Systems, Inc. Wireless network tour guide
US20030158735A1 (en) * 2002-02-15 2003-08-21 Canon Kabushiki Kaisha Information processing apparatus and method with speech synthesis function
US7650562B2 (en) * 2002-02-21 2010-01-19 Xerox Corporation Methods and systems for incrementally changing text representation
US8370761B2 (en) * 2002-02-21 2013-02-05 Xerox Corporation Methods and systems for interactive classification of objects
US7228507B2 (en) 2002-02-21 2007-06-05 Xerox Corporation Methods and systems for navigating a workspace
US7487462B2 (en) 2002-02-21 2009-02-03 Xerox Corporation Methods and systems for indicating invisible contents of workspace
US7549114B2 (en) 2002-02-21 2009-06-16 Xerox Corporation Methods and systems for incrementally changing text representation
US20040036663A1 (en) * 2002-03-29 2004-02-26 Bevers David R. System and method for an image reader with electronic travel
US7188318B2 (en) 2002-06-11 2007-03-06 International Business Machines Corporation Web accessibility assistant
US7469210B1 (en) 2002-08-08 2008-12-23 Voice Signature Llc Outbound voice signature calls
US7567902B2 (en) * 2002-09-18 2009-07-28 Nuance Communications, Inc. Generating speech recognition grammars from a large corpus of data
US7539086B2 (en) * 2002-10-23 2009-05-26 J2 Global Communications, Inc. System and method for the secure, real-time, high accuracy conversion of general-quality speech into text
KR100463655B1 (ko) * 2002-11-15 2004-12-29 삼성전자주식회사 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법
US7451395B2 (en) * 2002-12-16 2008-11-11 Palo Alto Research Center Incorporated Systems and methods for interactive topic-based text summarization
US7376893B2 (en) * 2002-12-16 2008-05-20 Palo Alto Research Center Incorporated Systems and methods for sentence based interactive topic-based text summarization
US7117437B2 (en) 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US9165478B2 (en) 2003-04-18 2015-10-20 International Business Machines Corporation System and method to enable blind people to have access to information printed on a physical document
US20040230415A1 (en) * 2003-05-12 2004-11-18 Stefan Riezler Systems and methods for grammatical text condensation
US7359085B2 (en) * 2003-07-14 2008-04-15 Lexmark International, Inc. Method and apparatus for recording sound information and playing sound information back using an all-in-one printer
US7865354B2 (en) * 2003-12-05 2011-01-04 International Business Machines Corporation Extracting and grouping opinions from text documents
US7400748B2 (en) * 2003-12-16 2008-07-15 Xerox Corporation Method for assisting visually impaired users of a scanning device
US7707039B2 (en) 2004-02-15 2010-04-27 Exbiblio B.V. Automatic modification of web pages
US8442331B2 (en) 2004-02-15 2013-05-14 Google Inc. Capturing text from rendered documents using supplemental information
US7812860B2 (en) 2004-04-01 2010-10-12 Exbiblio B.V. Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device
US10635723B2 (en) 2004-02-15 2020-04-28 Google Llc Search engines and systems with handheld document data capture devices
US8146156B2 (en) 2004-04-01 2012-03-27 Google Inc. Archive of text captures from rendered documents
US7894670B2 (en) 2004-04-01 2011-02-22 Exbiblio B.V. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US9143638B2 (en) 2004-04-01 2015-09-22 Google Inc. Data capture from rendered documents using handheld device
US9008447B2 (en) 2004-04-01 2015-04-14 Google Inc. Method and system for character recognition
US7990556B2 (en) 2004-12-03 2011-08-02 Google Inc. Association of a portable scanner with input/output and storage devices
US20060098900A1 (en) 2004-09-27 2006-05-11 King Martin T Secure data gathering from rendered documents
US9116890B2 (en) 2004-04-01 2015-08-25 Google Inc. Triggering actions in response to optically or acoustically capturing keywords from a rendered document
US20060081714A1 (en) 2004-08-23 2006-04-20 King Martin T Portable scanning device
US8081849B2 (en) 2004-12-03 2011-12-20 Google Inc. Portable scanning and memory device
US8713418B2 (en) 2004-04-12 2014-04-29 Google Inc. Adding value to a rendered document
US8620083B2 (en) 2004-12-03 2013-12-31 Google Inc. Method and system for character recognition
US8489624B2 (en) 2004-05-17 2013-07-16 Google, Inc. Processing techniques for text capture from a rendered document
US8874504B2 (en) 2004-12-03 2014-10-28 Google Inc. Processing techniques for visual capture data from a rendered document
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
JP4424057B2 (ja) * 2004-05-10 2010-03-03 富士ゼロックス株式会社 学習装置およびプログラム
US20050273314A1 (en) * 2004-06-07 2005-12-08 Simpleact Incorporated Method for processing Chinese natural language sentence
US8346620B2 (en) 2004-07-19 2013-01-01 Google Inc. Automatic modification of web pages
US7389299B2 (en) * 2004-09-02 2008-06-17 International Business Machines Corporation Document content analysis technology for reducing cognitive load
US7996208B2 (en) * 2004-09-30 2011-08-09 Google Inc. Methods and systems for selecting a language for text segmentation
US7680648B2 (en) 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US7675641B2 (en) * 2004-10-28 2010-03-09 Lexmark International, Inc. Method and device for converting scanned text to audio data via connection lines and lookup tables
US7827029B2 (en) * 2004-11-30 2010-11-02 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive note-taking
US7801723B2 (en) * 2004-11-30 2010-09-21 Palo Alto Research Center Incorporated Systems and methods for user-interest sensitive condensation
US7401077B2 (en) * 2004-12-21 2008-07-15 Palo Alto Research Center Incorporated Systems and methods for using and constructing user-interest sensitive indicators of search results
US20080221868A1 (en) * 2005-09-05 2008-09-11 Melnick Einat H Digital universal language
US20070061703A1 (en) * 2005-09-12 2007-03-15 International Business Machines Corporation Method and apparatus for annotating a document
US7925974B1 (en) * 2005-12-22 2011-04-12 Sprint Communications Company L.P. Distribution of computation linguistics
US8229733B2 (en) * 2006-02-09 2012-07-24 John Harney Method and apparatus for linguistic independent parsing in a natural language systems
WO2007132690A1 (ja) * 2006-05-17 2007-11-22 Nec Corporation 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
EP2067119A2 (en) 2006-09-08 2009-06-10 Exbiblio B.V. Optical scanners, such as hand-held optical scanners
US20080065370A1 (en) * 2006-09-11 2008-03-13 Takashi Kimoto Support apparatus for object-oriented analysis and design
WO2008061002A2 (en) * 2006-11-14 2008-05-22 Networked Insights, Inc. Method and system for automatically identifying users to participate in an electronic conversation
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
US7970616B2 (en) * 2007-07-23 2011-06-28 Dapkunas Ronald M Efficient review of data
US20110035662A1 (en) 2009-02-18 2011-02-10 King Martin T Interacting with rendered documents using a multi-function mobile device, such as a mobile phone
US8113841B2 (en) 2007-11-30 2012-02-14 Beyo Gmbh Reading device for blind or visually impaired persons
DE602007006823D1 (de) * 2007-11-30 2010-07-08 Beyo Gmbh Lesevorrichtung für blinde oder sehbehinderte Menschen
US7925743B2 (en) * 2008-02-29 2011-04-12 Networked Insights, Llc Method and system for qualifying user engagement with a website
US20100145676A1 (en) * 2008-12-09 2010-06-10 Qualcomm Incorporated Method and apparatus for adjusting the length of text strings to fit display sizes
US8447588B2 (en) * 2008-12-18 2013-05-21 Palo Alto Research Center Incorporated Region-matching transducers for natural language processing
US8510097B2 (en) * 2008-12-18 2013-08-13 Palo Alto Research Center Incorporated Region-matching transducers for text-characterization
US8447066B2 (en) 2009-03-12 2013-05-21 Google Inc. Performing actions based on capturing information from rendered documents, such as documents under copyright
DE202010018551U1 (de) 2009-03-12 2017-08-24 Google, Inc. Automatische Bereitstellung von Inhalten, die mit erfassten Informationen, wie etwa in Echtzeit erfassten Informationen, verknüpft sind
US9904436B2 (en) 2009-08-11 2018-02-27 Pearl.com LLC Method and apparatus for creating a personalized question feed platform
US9646079B2 (en) 2012-05-04 2017-05-09 Pearl.com LLC Method and apparatus for identifiying similar questions in a consultation system
US9081799B2 (en) 2009-12-04 2015-07-14 Google Inc. Using gestalt information to identify locations in printed information
US9323784B2 (en) 2009-12-09 2016-04-26 Google Inc. Image search using text-based elements within the contents of images
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US9015093B1 (en) 2010-10-26 2015-04-21 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US8775341B1 (en) 2010-10-26 2014-07-08 Michael Lamport Commons Intelligent control with hierarchical stacked neural networks
US20120197630A1 (en) * 2011-01-28 2012-08-02 Lyons Kenton M Methods and systems to summarize a source text as a function of contextual information
US8488916B2 (en) * 2011-07-22 2013-07-16 David S Terman Knowledge acquisition nexus for facilitating concept capture and promoting time on task
US8842965B1 (en) * 2011-11-02 2014-09-23 Google Inc. Large scale video event classification
US9501580B2 (en) 2012-05-04 2016-11-22 Pearl.com LLC Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website
US9275038B2 (en) 2012-05-04 2016-03-01 Pearl.com LLC Method and apparatus for identifying customer service and duplicate questions in an online consultation system
US8280888B1 (en) 2012-05-04 2012-10-02 Pearl.com LLC Method and apparatus for creation of web document titles optimized for search engines
IN2015CH01602A (ja) 2015-03-28 2015-04-24 Wipro Ltd
US10387550B2 (en) * 2015-04-24 2019-08-20 Hewlett-Packard Development Company, L.P. Text restructuring
US9442923B1 (en) * 2015-11-24 2016-09-13 International Business Machines Corporation Space constrained text translator
US10013404B2 (en) * 2015-12-03 2018-07-03 International Business Machines Corporation Targeted story summarization using natural language processing
US10248738B2 (en) 2015-12-03 2019-04-02 International Business Machines Corporation Structuring narrative blocks in a logical sequence
US10013450B2 (en) 2015-12-03 2018-07-03 International Business Machines Corporation Using knowledge graphs to identify potential inconsistencies in works of authorship
US9881614B1 (en) * 2016-07-08 2018-01-30 Conduent Business Services, Llc Method and system for real-time summary generation of conversation
US10503808B2 (en) 2016-07-15 2019-12-10 Sap Se Time user interface with intelligent text reduction
US10140260B2 (en) * 2016-07-15 2018-11-27 Sap Se Intelligent text reduction for graphical interface elements
WO2018060777A1 (en) * 2016-09-29 2018-04-05 Yokogawa Electric Corporation Method and system for optimizing software testing
US11488602B2 (en) 2018-02-20 2022-11-01 Dropbox, Inc. Meeting transcription using custom lexicons based on document history
US10657954B2 (en) * 2018-02-20 2020-05-19 Dropbox, Inc. Meeting audio capture and transcription in a collaborative document context
US10467335B2 (en) 2018-02-20 2019-11-05 Dropbox, Inc. Automated outline generation of captured meeting audio in a collaborative document context
US11689379B2 (en) 2019-06-24 2023-06-27 Dropbox, Inc. Generating customized meeting insights based on user interactions and meeting media
FR3102276A1 (fr) 2019-10-17 2021-04-23 Amadeus Procedes et systemes pour résumer des document multiples en utilisant une approche d’apprentissage automatique
US11586829B2 (en) 2020-05-01 2023-02-21 International Business Machines Corporation Natural language text generation from a set of keywords using machine learning and templates
US10878174B1 (en) 2020-06-24 2020-12-29 Starmind Ag Advanced text tagging using key phrase extraction and key phrase generation
US12151826B2 (en) 2021-02-25 2024-11-26 Honeywell International Inc. Methods and systems for efficiently briefing past cockpit conversations
US11379763B1 (en) 2021-08-10 2022-07-05 Starmind Ag Ontology-based technology platform for mapping and filtering skills, job titles, and expertise topics
US12197528B2 (en) * 2022-07-12 2025-01-14 Dell Products L.P. Measuring the readability of website pages

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61117658A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文章抄録装置
JPS62143178A (ja) * 1985-12-18 1987-06-26 Hitachi Ltd 自然言語翻訳方式
JPH02112068A (ja) * 1988-10-21 1990-04-24 Hitachi Ltd テキスト簡略表示方式
JPH04156663A (ja) * 1990-10-20 1992-05-29 Fujitsu Ltd 文章圧縮装置
JPH0635961A (ja) * 1992-07-17 1994-02-10 Matsushita Electric Ind Co Ltd 文書要約装置
JPH06332893A (ja) * 1993-05-21 1994-12-02 Hitachi Ltd 文章加工装置
JPH0765005A (ja) * 1993-08-24 1995-03-10 Ricoh Co Ltd 文書速読支援表示装置並びに文書処理装置及びディジタル複写装置
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
US5146405A (en) * 1988-02-05 1992-09-08 At&T Bell Laboratories Methods for part-of-speech determination and usage
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
CA2078423C (en) 1991-11-19 1997-01-14 Per-Kristian Halvorsen Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
US5488719A (en) * 1991-12-30 1996-01-30 Xerox Corporation System for categorizing character strings using acceptability and category information contained in ending substrings
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
JP3571408B2 (ja) * 1995-03-31 2004-09-29 株式会社日立製作所 文書加工方法および装置
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5963205A (en) * 1995-05-26 1999-10-05 Iconovex Corporation Automatic index creation for a word processor
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US5680628A (en) * 1995-07-19 1997-10-21 Inso Corporation Method and apparatus for automated search and retrieval process
US5721939A (en) * 1995-08-03 1998-02-24 Xerox Corporation Method and apparatus for tokenizing text
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US5960383A (en) * 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61117658A (ja) * 1984-11-13 1986-06-05 Fujitsu Ltd 文章抄録装置
JPS62143178A (ja) * 1985-12-18 1987-06-26 Hitachi Ltd 自然言語翻訳方式
JPH02112068A (ja) * 1988-10-21 1990-04-24 Hitachi Ltd テキスト簡略表示方式
JPH04156663A (ja) * 1990-10-20 1992-05-29 Fujitsu Ltd 文章圧縮装置
JPH0635961A (ja) * 1992-07-17 1994-02-10 Matsushita Electric Ind Co Ltd 文書要約装置
JPH06332893A (ja) * 1993-05-21 1994-12-02 Hitachi Ltd 文章加工装置
JPH0765005A (ja) * 1993-08-24 1995-03-10 Ricoh Co Ltd 文書速読支援表示装置並びに文書処理装置及びディジタル複写装置
JPH08212228A (ja) * 1995-02-02 1996-08-20 Sanyo Electric Co Ltd 要約文作成装置および要約音声作成装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08299552A (ja) * 1994-03-14 1996-11-19 Toyomaru Sangyo Kk パチンコ機
JP2007517536A (ja) * 2003-09-26 2007-07-05 ボストン サイエンティフィック リミテッド バルーン拡張型ステントおよびその製造法
JP4921170B2 (ja) * 2003-09-26 2012-04-25 ボストン サイエンティフィック リミテッド バルーン拡張型ステント及びその製造方法並びにそのステントを有する物品
US9792834B2 (en) 2008-03-06 2017-10-17 International Business Machines Corporation Computer, method and program for effectively notifying others of problems concerning accessibility in content
JP2012037797A (ja) * 2010-08-10 2012-02-23 Nippon Telegr & Teleph Corp <Ntt> 対話学習装置、要約装置、対話学習方法、要約方法、プログラム

Also Published As

Publication number Publication date
US6289304B1 (en) 2001-09-11
GB9806085D0 (en) 1998-05-20
EP0952533A3 (en) 2005-08-03
EP0952533A2 (en) 1999-10-27
EP0952533B1 (en) 2016-09-14

Similar Documents

Publication Publication Date Title
US6289304B1 (en) Text summarization using part-of-speech
EP1330816B1 (en) Language independent voice-based user interface
KR100287093B1 (ko) 음성 합성 방법, 음성 합성 장치, 하이퍼 텍스트의 제어 방법 및 제어 장치
US6393389B1 (en) Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions
US6115683A (en) Automatic essay scoring system using content-based techniques
US20050154580A1 (en) Automated grammar generator (AGG)
JPH1125098A (ja) 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP3789614B2 (ja) ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体
JP4085156B2 (ja) テキスト生成方法及びテキスト生成装置
JP4558680B2 (ja) 出願文書情報作成装置、説明情報抽出装置、出願文書情報作成方法、説明情報抽出方法
JP5382965B2 (ja) 出願文書情報作成装置、出願文書情報作成方法、及びプログラム
JP4579281B2 (ja) 出願文書情報作成装置、出願文書情報作成方法、及びプログラム
JPH10105555A (ja) 対訳例文検索装置
JPH11102372A (ja) 文書要約装置及びコンピュータ読み取り可能な記録媒体
Li A corpus-based study of Gaoxin Huang’s poetry translation style
JP2003132047A (ja) 話し言葉の書き言葉への変換装置
JP2001265792A (ja) 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体
JP3969689B2 (ja) 文書作成支援装置、文書作成支援方法及び文書作成支援プログラムを記憶した記憶媒体
JP2939348B2 (ja) 画像処理装置
Wintermute et al. Accessibility
KR100400222B1 (ko) 선택 제한을 위한 동적 의미 분류 방법 및 장치
JP2003030184A (ja) 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体
JP2004126986A (ja) 文書差分検出装置及びプログラム
JP2005309886A (ja) 文書情報表示装置
JPH0619961A (ja) 中国語文解析方法および中国語文解析装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090706

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091005

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100520