JP2000003126A - 音声部を使用するテキスト要約方法 - Google Patents
音声部を使用するテキスト要約方法Info
- Publication number
- JP2000003126A JP2000003126A JP11843099A JP11843099A JP2000003126A JP 2000003126 A JP2000003126 A JP 2000003126A JP 11843099 A JP11843099 A JP 11843099A JP 11843099 A JP11843099 A JP 11843099A JP 2000003126 A JP2000003126 A JP 2000003126A
- Authority
- JP
- Japan
- Prior art keywords
- text
- tokens
- data
- sentence
- pos
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title description 56
- 230000008030 elimination Effects 0.000 claims description 10
- 238000003379 elimination reaction Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 description 27
- 230000009471 action Effects 0.000 description 10
- 230000000717 retained effect Effects 0.000 description 7
- 239000003550 marker Substances 0.000 description 6
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000013459 approach Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000001771 impaired effect Effects 0.000 description 3
- 238000007639 printing Methods 0.000 description 3
- 238000013518 transcription Methods 0.000 description 3
- 230000035897 transcription Effects 0.000 description 3
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 210000000988 bone and bone Anatomy 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 108020001077 Anthranilate Phosphoribosyltransferase Proteins 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002224 dissection Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
る問題、特に視覚障害者又はテキストを見ることのでき
ない他の人達に影響を及ぼす問題に取り組んでいる。 【解決手段】 テキストは音声部(POS)を使用して
要約され、テキストのトークンのため音声部を示す。P
OSデータはPOSのタグ付けによるように、テキスト
を形成する入力テキストデータを使用して得ることがで
きる。POSデータはグループデータを得るために使用
され、動詞グループ及び名詞グループのように、テキス
トのトークンのグループを示す。また、グループデータ
は各グループ内でPOSベースの除去基準を満たすトー
クンを示す。グループデータは除去基準を満たすトーク
ンを除去することにより要約したテキストデータを得る
ために使用することができる。元のテキストは、使用者
の文書からスキャナ又はビデオカメラを介して得てもよ
く、また、入力テキストデータを得るために認識されて
もよい。要約したテキストはテキストとして又はスピー
チシンセサイザーを使用して音声発音記号表記として出
力されてもよい。
Description
テキスト要約に関する。
り機械はスキャンされる文書のテキストが音声に変換さ
れる割合を使用者に手動で増加させ、非常に迅速な音声
を発生させることができ、従って、文書を聞こえるよう
にフリップし一種の要約を得ている。また、使用者は手
動で文書のサンプルを選択し、各サンプルから音声を発
生させ別のタイプの要約を得ている。
ていた。そのような技術によれば、手動で引き出された
テンプレートがテキストの一定のパターンに合致するた
めに使用される。テンプレートが満たされると、見せ掛
けのテンプレートがコンピュータにより製造可能であ
る。この見せ掛けはテンプレートに含まれなかった項目
を無視し、それによりテキストの量を減少させる。これ
は年1回のメッセージ理解会議(MUC)の関係者により
使用されるアプローチである。この技術の欠点は、テン
プレートを作り出すことが無制限のテキストに適用でき
ないドメイン特定フィルタを製造する長期の手動処理で
あることである。
をメモリに読み込み、単語の用途の統計を計算する必要
があり、最も頻繁な用語はテキストの理解では最も重要
であると考える。その後、元のテキストはメモリで再ス
キャンされ、完全な文は位置と用語の重要性によって得
点を付けられる。最高点の文はテキストの要約としてそ
のまま抜粋される。この種の要約の不利な点は、ページ
を基にページ上で行われるのではなく完全な文書を読み
取らなければならないことである。
(Reading)のアディソン−ウェズリー社(Addison-Wesle
y)のSager,Nによる「自然言語情報処理−英語のコンピ
ュータ文法及びその適用(Natural Language Informati
on Processing-A ComputerGrammar of English and Its
Applications)」の7〜16及び253〜255は第2
言語を教える技術を説明しており、これは文の終わりで
始まり左の方向に移動する列の摘出方法を適用してい
る。その方法は、残りが依然として文法的に正しい文の
場合には、文から1つの単語又は1列の単語を摘出し、
これはそれ以上の摘出ができなくなるまで各々次の残り
部分のため繰り返される。摘出の例は前置詞句の除去、
接続詞の要素の数の減少等を含んでいる。その摘出は非
常に類似していると判明したフランス文及びその英訳を
分析する。
するテキストで浮上する問題、特に視覚障害者又はテキ
ストを見ることのできない他の人達に影響を及ぼす問題
に取り組んでいる。例えば、人は乗り物を運転していた
りテキストを見ることを妨げる別の行動をしているかも
しれない。或いは、人は完全に、テキストを見たり又は
完全にテキストを読んだりする時間がないかもしれな
い。或いは、照明又は表示状態が印刷又は表示された形
式のテキストを見ることができなくしているかもしれな
い。
かな単語を保持している間に、テキストの意味を示しそ
うな単語を保持する方法で自動的にテキストを要約する
方法の問題に取り組んでいる。より詳細には、本発明
は、十分なデータの不足のため統計的方法を行わせるこ
とができないという、短いテキストを自動的に要約する
問題に取り組んでいる。同様に、本発明は、原則に基づ
いた方法で自動的に文を要約する方法の問題に取り組
み、要約された文が元の文より短くなるようになってい
る。また、本発明は、テンプレートの創作を要求せずに
原則として1つのパスで実行可能な方法でのように、テ
キストを自動的に簡略かつ効率よく要約する方法の問題
に取り組んでいる。また、本発明は、適当なレベルの簡
潔さを提供する方法でテキストを自動的に要約する方法
の問題に取り組んでいる。
するテキストの音声部(POS)情報を使用する技術を提
供することによりこれらの問題を多少とも解決する。幾
つかの技術はPOS情報を使用して、1つのグループの
連続するトークン内で、自動要約中に除去されるトーク
ンと保持されるトークンとを識別をする。幾つかの技術
は使用者により選択されたPOSベースの基準を適用す
ることにより自動的に要約を実行する。
術を提供し、入力テキストデータがPOSデータを得る
ために使用され、テキストのトークンのため音声部を示
す。POSデータがグループデータを得るために使用さ
れ、連続するトークンのグループを示すと共に各グルー
プ内でPOSベースの除去基準を満たすトークンを示
す。その後、グループデータがテキストの要約版を得る
ために使用され、除去基準を満たすトークンが除去さ
れ、従って、トークンの数を減少させる。
イプのデータを含むことができ、それぞれ第1及び第2
のPOSベースの除去基準が適用可能な第1及び第2の
単語グループタイプを示す。例えば、そのタイプは動詞
グループタイプ及び名詞グループタイプとすることがで
き、各グループはグループタイプを示す要素によって先
行及び後に続かれることができる。
した文を得ることができ、POSデータは各トークン化
した文のため得ることができる。その後、文のPOSデ
ータは文のグループデータを得るために使用され、順番
に文を要約するために使用することができる。
能なテキストデータに変換することにより得て、移動式
媒体を運ぶ画像により含まれたテキスト内容を表現す
る。要約したテキストは音声データに変換され、要約し
たテキストの単語の発音記号表記を表現でき、相当する
音が発せられ、従って、テキストの音声の要約を提供す
る。
る技術を提供し、使用者の入力デバイスからの信号は1
セットのPOSベースの除去基準の1つを選択する。入
力テキストデータはPOSデータを得るために使用さ
れ、テキストのトークンのため音声部を示し、POSデ
ータはテキストの要約版を得るために使用され、トーク
ンは選択されたPOSベースの基準に従って除去され、
従って、トークンの数を減少させる。
ースの除去基準のセットを示す画像が表示可能である。
上記のように、要約したテキストは音声データに変換で
き、要約したテキストの単語の発音記号表記を表現し、
対応する音が発せられ、従って、テキストの音声の要約
を提供することができる。
動的にテキストを要約するプロセッサを含むシステムで
実行可能である。更に、各技術は記憶媒体で記憶された
命令データを含む製品で実行可能であり、システムのプ
ロセッサが自動的にテキストの要約を実行できる命令を
示している。
キストの長さを縮小できるので有利な技術を提供し、従
って、テキストを音声に変換するシステム設計又はテキ
ストの要約版を有することに左右される他の動作を実行
するために必要な時間を減少させる。本発明は、僅かな
統語的な解剖で実行され、テキストのどの部分が除去可
能であるかを明らかにする。除去は使用者のコントロー
ルの下、恐らくノブを介して進めることができ、多かれ
少なかれテキストは保持されるようになっている。極端
な場合のみ、重要な名詞又は固有名称が保持される。
キストをスキャンさせ、目が見える読者ができるよう
に、テキストのどの部分が完全に読まれるべきかを決定
するため、テキストの可聴の要約を得る。少なくともこ
の適用のため、本発明は、3つの理由のため、従来の統
計ベースの要約技術を改善している。(1)選択された
文だけよりむしろ、テキストの各文の重要な部分を読む
ことができ、(2)従来の統計ベースの要約は2つのパ
スを必要とするが、本発明の技術は、テキストを通る1
つのパスで作動するように実行可能であり、(3)本発
明の技術は、従来の統計ベースの要約とは異なり統計を
使用することなく実行可能であるので、長いテキストと
同様に短いテキストにも適用可能である。本発明の技術
は手動でテンプレートを作ることなく実行可能であるの
で、テンプレートベースの技術を改善する。
への変換の生成との間のテキストの処理で適切に使用す
ることができる。入力テキストは電子的に文毎に読取り
可能であり、本発明の実行は、現在使用者に求められる
簡約のレベルによって出力テキストとして簡約版を製作
可能である。完全なテキストからの情報をバッファに入
れる必要はない。入力文は有限状態のトランスデューサ
技術を使用して1列の言語のマーク付けを経験可能であ
る。これらのマーク付けは、所定文の文脈の各単語の音
声部、名詞グループと動詞グループの境界、及び各句内
の主要部要素のように、入力テキストの言語の特徴を示
すことができる。本発明の技術は入力テキストを読むこ
とにより実行可能であり、後述するような方法でマーキ
ングを使用し、その後、使用者に求められる簡約のレベ
ルによって出力する要素を選択する。
(即ち、短く、簡明、簡潔な)テキストを即座に製作す
るために実行されることができることである。更なる利
点は、電信の簡約レベルが最も極端な簡約からほぼフル
テキストまで使用者により制御できることである。
能であるので、盲目の読者(先にゼロックス画像システ
ム(Xerox Imaging Systems)により売られたリーディ
ングエッジ(ReadingEdge)等)のように、テキストス
トリームの要約の要求に適切に適用可能である。このア
プローチは、統計ベースの要約を改善し、そのアルゴリ
ズムは要約が実行可能な前に全体の文書をメモリに読み
込むことを要求する。
ークン」と「トークン区切り」の概念は密接に関連して
いる。「トークン区切り」はトークンを分けるための基
準(「トークン区切り基準」)を満たす1以上の要素の
1列であり、一方、「トークン」は1以上の要素の1列
であり、その各々は1文字又は文字の組合わせであり、
その1列は適用可能なトークン区切り基準による内部の
トークン区切りを含まない。フランス語及び英語のよう
な言語に適用可能なトークン区切り基準はしばしばトー
クン区切りとして1以上のスペースの列を扱う。正確に
綴った単語、略語、頭字語、短縮形、誤綴りで意味のな
い単語、公式及び方程式を含む数学的で論理的な表現、
区切り基準を満たさない句読点の組合わせ(点線、署名
の線、「スマイリー」等)、及び文字列の各種他のタイ
プに加えて、意味論上、意味を持つかどうかは、それら
が適用可能な基準の下で内部のトークン区切りを含まな
ければ、この定義の下に全てトークンとすることができ
る。また、SGML及びXMLタグ及びハイパーリンキ
ング、フォーマッティング等に関する他のそのような文
字列は、幾つかのトークン区切り基準の下でトークンと
して取扱われる。この定義の下、「単語」又は「単語ト
ークン」は意味論上意味を持つ単位でもあるトークンで
ある。
られた一連のトークンを形成する一連の文字である。例
えば、テキストは書かれた又は印刷された一連の文字に
より或いは一連の文字コードを含むデータの項目により
定義されてもよい。
によりテキストをトークンに分割することである。トー
クンナイザ(tokenizer)はここではデータ構造、プロ
グラム、対象、又はテキストをトークン化するために使
用可能なデバイスを意味するために使用される。ここで
使用されているように、文及び文の区切りの概念は同様
に関連している。1つの文の区切りは文を分ける基準
(「文の区切り基準」)を満たす1以上のトークンの1
列であり、一方、1つの文は1以上のトークンの1列で
あり、その列は適用可能な文の区切り基準による内部の
文の区切りを含んでいない。フランス語及び英語のよう
な言語に適用可能な文の区切り基準はしばしば、ピリオ
ド、クウェスチョンマーク、感嘆符等のような文の区切
りとして1以上の適当な文の終止の中断符号の列である
トークンを扱う。そのようなトークンはここでは「文の
最終文字」と呼ばれる。
ークンがテキストでする文法上の機能であり、他のPO
Sがトークンとして得ることができない時にトークンに
割り当てられる音声のデフォルト部を含んでいる。
ークンの音声部に適用可能な基準であり、テキストから
どのトークンを除去してどのトークンを保持するかを決
定する。従って、除去基準を満たすトークンは除去され
テキストの要約を得ることができる。同じ要約は除去基
準を満たさないトークンだけを保持することにより得る
ことができ、除去はここでは両方のアプローチを達成す
るために使用される。
のグループに適用可能な1セットのタイプの1つであ
る。例えば、動詞グループと名詞グループは2つともそ
のタイプである。
ループタイプのグループ内でどのトークンが基準を満た
してどれがトークンのPOSを基にしないかを決定する
ことができる場合には、そのグループのタイプのグルー
プに適用可能である。
スキャニングシステムを示しており、本発明による技術
のシステムの多くのタイプの1つが実行されてもよい。
図1及び図2の配列の動作は日本特許出願No.9,221,863
にもっと詳細に説明されている。当然、本発明は、プロ
セッサがテキストを形成するデータへのアクセスを有す
る広範な各種の他のシステムで実行でき、それらのシス
テムは、読取り機械、デジタルコピー機、多機能機械
(例えば、スキャン、印刷、コピー、ファックス、及び
他の動作が可能な機械)、及びスキャナが画像データを
提供しOCRを実行可能なプロセッサにテキストの画像
を形成可能な他のシステムと同様に従来のデスクトップ
及び携帯パソコン及びワークステーションを含んでいる
であろう。
ジング2、表示画面6を有するCRTモニタ4、ハード
ディスクドライブ8、フロッピディスクドライブ10、
キーボード12、及びマウス14を含んでいる。コンピ
ュータはネットワークケーブル16に接続され、従来の
内部ドライバカード(図示せず)及び適当なソフトウェ
ア(Novell社から入手可能なNetware等)と一緒になっ
て、コンピュータにローカルエリアネットワーク(LA
N)、ワイドエリアネットワーク(WAN)、又は他の
ネットワークの一部を形成させる。
別の適当な取り付け設備(図示せず)によりシステム1
を支持する表面18に貼り付けられている。ビデオカメ
ラ22はフレーム20の上部の内部に取付けられ、二者
択一的にカメラ22は書棚又は表面18上の他の剛体の
設備に取付けられてもよい。文書24はカメラ22の視
野内に配置されている。
ードウェアを概略的に示している。システム1は共通バ
ス30とそれに接続される中央処理装置(CPU)3
2、ランダムアクセスメモリ(RAM)34、読み出し
専用メモリ(ROM)36、及びディスク、テープ、C
D−ROM、又は別の記憶媒体に記憶されるデータにア
クセスするためのドライブ38を含むメモリデバイス、
キーボード12、マウス14、印刷、製図、又はスキャ
ンする装置40、及びカメラ22のように外部のデバイ
ス46にインターフェースを提供するアナログをデジタ
ル(A/D)及びデジタルをアナログ(D/A)に変換
するデバイス42とデジタル入力/出力(I/O)デバ
イス44及びLAN又はWANの残り部分(図示せず)
を含んでいる。
8上の物体(例えば、文書)の画像を捕らえ、これらの
画像はコンピュータ表示画面6の窓50に同時に表示さ
れる。この方法では、(OCR及び要約を含む)次の処
理のため本文の内容がそのような文書からスキャンされ
てもよい。
行為を概略的に示しているフロー図である。図3に示し
ている行為はCPU32により実行可能であり、RAM
34、ROM36、又は他のローカル又はリモートメモ
リ、又はディスク、テープ、CD−ROM又は他の記憶
媒体にドライブ38によりアクセスしてCPU32に提
供されるようなメモリから検索し、ケーブル16を通し
てネットワークから受け取った命令データにより示され
た実行命令でそれらを実行可能である。
して上述した光学文字リーダー又はビデオスキャニング
システム、或いはテキストを表現する他の信号源から発
生可能な)入力文書又はテキスト部分はテキストを定義
する入力テキストデータに変換される。例えば、入力テ
キストデータは、入力文書の画像上のOCR操作から得
たコンピュータで読み取り可能な文字コードのストリー
ムである。しかし、入力テキストデータが、メモリ又は
周辺デバイスから検索又はHTMLワールドワイドウェ
ブ文書のようなネットワークから受信したファイルを基
に従来のコンピュータから引き出し可能であり、又、音
声認識システムから受取り可能であり、(適当なマイク
ロフォン、インターフェース及び音声認識ソフトウェア
を用いて)直接又は適当な通信施設を介して伝達される
使用者の発言からテキストを生成できることは、当業者
であれば認識されるであろう。とにかく、入力テキスト
データはRAM34又は他のローカル又はリモートメモ
リのようなメモリに記憶可能である。
らの文字ストリーム又は他の入力テキストデータが、例
えば、有限状態のトークンナイザ又は文字の入力ストリ
ームをトークン又は単語に分ける他のコンピュータベー
スのトークンナイザでトークン化される。有限状態のト
ークンナイザはその分野では公知であり、例えば、US-A
-5,721,939に見られ、US-A-5,488,719に開示された関連
の技術である。従って、例えば、“Hakkinen was again
on pole.”という文からトークン化動作は“Hakkine
n”,“was”,“again”,“on”,“pole”,及び“.”と
いうトークンを生成する。ここで、トークンの“.”は
分の終止トークンと呼ばれ、他のものは単語トークンと
呼ばれる。
ークンが、文の終止トークンに遭遇するようになるま
で、例えば現在の文のバッファで集められる。トークン
の収集順序は文として考慮されている。(文の終止トー
クンのリストは、ピリオド、クウェスチョンマーク、感
嘆符等のように取扱われる各言語のため意外に早く形成
可能である。)次に、ボックスS3からの現在の文の収
集したトークンは、ボックスS9を介してボックスS4
に示されるように処理可能である。
ークンは音声部のタグ付けを経験し音声部(POS)デ
ータを得て文の文脈で各トークンの音声部を示し、音声
部は文のトークンの文法の機能を示す範疇の広い意味に
使用される。トークンは語形論的に分析可能であり、注
釈文を得るためタグ付けされた音声部とすることがで
き、POSデータはデータの項目を含み、現在の文のバ
ッファの単語に添えられた各単語のために決定された音
声部を示している。音声部のタグ付けのための技術は公
知であり、例えば、1992年のコンピュータ音声及び
言語(ComputerSpeech and Language),6:225-242のJ.
M.Kupiecによる「隠れたマルコフ模型を使用するロー
バスト音声タグ付け(Robust part-of-speech tagging
using ahidden Markov model)」及び「FSPの近似の
隠れたマルコフ模型及びそれを使用するテキストタグ付
け(FSPs Approximating Hidden Markov Models andText
Tagging Using Same)」という表題の共同で譲り受けさ
れた国際出願 WO-A-99/01828に見られる。
文の要約版を形成する要約テキストデータを得るために
使用されている。ボックスS5からS9はこれが行える
1つの方法を示している。
OSデータは文の動詞グループの注釈版を得るために使
用される。例えば、現在の文のバッファでの音声部の注
釈文はコンピュータベースの動詞グループのアノテータ
(annotator)を通過可能であり、最初はシンボルを括
弧に入れる特別の動詞グループを現在の文のバッファに
挿入し、その後、第2にトークンの統語的特性を識別す
る特別のマーカーを各動詞グループ、例えば動詞グルー
プの主要部、動詞グループの音声(能動/受動/不定
詞)等に挿入する。その技術は例えば、1992年2月
のコンピュータ科学技術レポート、CS92-05のG.Grefens
tetteによる「六分儀、生のテキストからの意味論を引
き出すこと、詳細な手段(Sextant. Extracting Semanti
cs fromraw text, implementation details)」、及び1
996年8月11から12日の言語の拡張有限状態モデ
ルのECAI'96研究集会議事録(Proceedings ECAI'96Work
shop on Extended Finite-State Models of Language)
でG.Grefenstetteによる「有限状態フィルタリングと
しての簡単な構文解析(Light Parsing asFinite-State
Filtering)」で説明されている。これらの技術によれ
ば、各動詞グループは原則、又は主要部を識別する有限
状態フィルタを通過可能であり、動詞グループの動詞及
び動詞の主要部マーカーはこれらの動詞の各々に取り付
け可能である。この動詞の主要部マーカーは動詞グルー
プの構造による。動詞グループの主要部マーカーの例
は、“Head_of_Passive_Verb_Group”,Head_of_Active
_Verb_Group”,“Head_of_Infinitive_Verb_Group”等
を含んでいる。
OSデータは文の名詞グループの注釈版を得るために使
用可能である。例えば、現在の文を注釈する動詞グルー
プは同様にコンピュータベースの名詞グループのアノテ
ータを通過可能であり、名詞グループのマーキングを現
在の文のバッファに挿入し、名詞句の主要部をマーク
し、各名詞の統語的特性、例えば、名詞が前置詞により
支配されているかどうかを示す。適当な名詞グループの
マーキング技術の詳細のため、上述したG.Grefenstett
eの参考文献を参照しなさい。これらの技術によると、
各名詞グループは原則、又は主要部を識別する有限状態
のフィルタを通過可能であり、名詞グループの名詞及び
名詞の主要部マーカーはこれらの名詞の各々に取付け
る。名詞グループの主要部のマーカーの例は、(主語又
は目的語として動詞に付くことのできる)「自由名詞(F
reeNoun)」及び前置詞に付く「前置詞名詞(PreNoun)」
である。
POSベースの基準を適用し、要約中にどのトークンを
除去すべきかを決定するよりむしろ、1セットのPOS
ベースの除去基準をどれでも使用できる。図3の方法に
おいて、除去基準は「簡約レベル」と呼ばれるが、セッ
トの除去基準はレベルの階層内で関係したり、又、何か
他の方法で互いに関係する必要はない。簡約レベルは
又、テキストが要約技術により保持される程度を決定
し、永久に固定される必要はないが、文書の処理開始時
に、又はあらゆる文の処理開始時に、1セットの予め定
義されたレベルから使用者により選択されてもよく(例
えば、キーボード、ディスプレイ、マウスデバイス及び
適当なUI対話技術を含む従来の使用者入力技術によ
り、又は、ノブ、トグル、ダイアル、又はプッシュボタ
ンのような手動選択装置により(図示せず))、又は、
使用者の選択の代わりに、デフォルトレベルで設定され
てもよい。選択されると、1セットの予め定義されたレ
ベルの1つは別のレベルが選択されるまで、使用のため
記憶されてもよい。
デバイスから受け取られ、1セットのPOSベースの除
去基準の1つを選択する。図3の方法において、基準は
図示されているような簡約レベルである。簡約レベルを
選択することにより、使用者の入力デバイスからの信号
はどのくらいのテキストが保持され、又は反対に、どの
くらい除去されるべきかを間接的に示すであろう。
簡約レベルを基に、テキストに付加された注釈は、どの
トークンが保持され、どれが除去されるべきかを決定す
る簡約フィルタにより使用可能である。事実上、簡約フ
ィルタは選択したPOSベースの除去基準を使用してい
る。例えば、簡約の1つのレベルでは、フィルタはトー
クンを保持するだけであり、該トークンは前置詞の音声
部タグでタグ付けされるか(下記の例では、/IN)、又
は、グループ内の重要なトークンを示す動詞又は名詞グ
ループの主要部マーカーにより先行されるか(下記の例
では、★HeadN,★ActV,★PrepN等)、又は、否定の
音声タグでタグ付けされるか、又は、下記の例のピリオ
ドのように或る中断トークンのいずれかである。異なる
簡約レベルを使用する効果は図5〜7に関連して下記に
もっと詳細に述べられている。
何か適当な方法で実行可能であり、入力としてタグ付け
され分類されたトークン列を受け取ると共に出力として
簡約した列を提供する有限状態のトランスデューサを含
んでいる。そのようなトランスデューサは従来の技術を
使用して簡約の各レベルのため製造されることができる
であろう。
動詞及び名詞グループのマーキングは現在の文から削除
される。その後、現在の文のバッファの残りのテキスト
はボックスS9では出力である。1つの実施例では、結
果のテキストは、市販のテキストを音声に変換するシン
セサイザを使用して使用者に発音記号で表記したテキス
トとして与えられ、簡約の各レベルのための発音記号で
表記したテキストはこの方法で得ることができ、簡約レ
ベルを選択する使用者の信号に応じて次に起こる再生の
ため記録される。結果のテキストは表示画面上に選択的
に全段抜き大見出し又はボックスで与えられることがで
きるだろう。
調べて入力テキストが完全に消費されたかどうかを見
る。そうでなければ、システムはボックスS1の入力テ
キストの処理を続行し、さもなければシステムは停止す
る。
図3での各種行為の結果を示しており、即ち、現在の文
のバッファの内容の視覚化は各段階後のディスプレイに
示された画像に付加されている。
れられた文は音声タグを含み、例えば、限定詞のため
“/DT”,形容詞のため“/JJ”,単一名詞のため“/NN”,
複数名詞のため“/NNS”,イラストレイテッド(illustra
ted)動詞のため“/VBZ”,文の終わりのため“/SENT”
である。その後、ボックスS5及びS6での行為に続い
て、バッファに入れた文は更にそれぞれ、動詞グループ
のマーキング(例えば、“[VG,“VG]”)及び名詞グル
ープのマーキング(“[NG”,“NG]”)を含んでいる。
動詞及び名詞グループ内では、重要なトークン、又は主
要部は又、動詞グループの能動態の動詞のための“★Ac
tV”及び名詞グループの重要な名詞のための“★Head
N”のようなデータの項目を先行してマークされる。ボ
ックスS7でのフィルタリング行為の後、“dog”,“ea
ts”,“bones”,“on”,及び“floor”の単語、文の終
わりのピリオド、及びそれらの付加のタグ及び動詞グル
ープ及び名詞グループのマーキングだけが残り、それら
の付加されたタグと共に全ての他のトークンはPOSベ
ースの除去基準が適用されるのに従って除去された。ボ
ックスS8でのタグのストリッピング及び動詞グループ
及び名詞グループのマーキングの後、“dog”,“eat
s”,“bones”,“on”,及び“floor”の単語及び文の終
わりのピリオドは文のバッファに残っている。
から起こる出力が比較のために表示可能な本発明の実施
例による、典型的な入力テキストのための図3での幾つ
かの段階の結果を示しており、簡約の各種レベルを示し
ている。
ープ及び主要部は簡約トランスデューサに送られ、使用
者により選択された簡約レベル(何も選択されない場合
にはデフォルトレベル)により単語及び他のトークンを
(ボックスS7で)除去する。簡約のレベルの狭い例は以
下の通りである。 1.固有名称だけで、副節なし 2.主語及び目的名詞だけで、副節なし 3.主語、主要部動詞、及び目的名詞だけで、副節なし 4.主語、主要部動詞、及び目的名詞、前置詞及び従属
名詞主要部だけで、副節なし 5.固有名称だけで、副節を含む 6.主語及び目的名詞だけで、副節を含む 7.主語、主要部動詞、及び目的名詞だけで、副節を含
む 8.主語、主要部動詞、及び目的名詞、前置詞及び従属
名詞主要部だけで、副節を含む
ている。(ボックスS4からS6での)マーク付け後の同
じテキストが図6に示されている。上述した各簡約レベ
ル1〜4及び8のための結果としての出力(要約)テキス
トは図7に示されている。
うにテキストを音声に変換するシンセサイザーを使用し
て、元のテキスト(図5)が36秒で発音記号表記される
ことが分かった。(ほとんどの元の意味が保持される)
上記レベル8の簡約として分類された簡約により製作さ
れたテキストを発音表記することは、POSのマーク付
け及び浅薄な構文解析を実行するのに必要な時間を含め
て、同じテキストを音声に変換するシンセサイザーでた
った20秒しか掛からない。
れたテキストに含まれたグループデータは適用可能なP
OSベースの除去基準を満たすトークンを直接示してい
ないが、それらはそれらのトークンを間接的に示すのに
十分な情報を提供する。例えば、それが主語、主要部動
詞、目的名詞、又は節又は副節の従属名詞主要部を示す
主要部のマーキングを有する場合、及びそれが前置詞と
してタグ付けされない場合には、(文の終わりのトーク
ン以外の)トークンは上記の簡約レベル8の除去基準を
満たす。
机上スキャニングシステムを使用している。しかし、本
発明は、何か特定のデスクトップ、携帯用、又はワーク
ステーションべースの方法に限定されるものではない
が、そのようなデバイス、(スキャン、印刷、ファック
ス等の可能な)多機能機械のような他のプロセッサ制御
デバイスを含むコンピュータ配列の方法、及びワイヤー
ド又はワイヤレスネットワーク配置を組合わせて、周知
のLAN、WAN及び又はインターネットプロトコルを
使用して動作させ、そのようなデバイスの適当な組合わ
せを組み込んでもよい。例えば、本発明は、プロセッサ
制御のデスクトップ平台型スキャニングシステムで実行
することができるであろう。そのようなシステムはその
分野では周知であり、先にゼロックス画像システムから
利用可能なリーディングエッジ(ReadingEdge)により
例示されている。二者択一的には、ハードウェアの構成
は、適当な使用者のインターフェース周辺装置及び平台
型又は用紙送りのデスクトップスキャナに結合された従
来のコンピュータ、スキャンされた書類から機械読取り
可能なテキストを生成可能な適当なOCRソフトウェア
(例えば、スキャンソフト社からのテキストブリッジ)
を組み込んだコンピュータ又はスキャナの形式をとって
もよい。
キスト等を含む操作に関連する用語で説明された。その
ような段階、動作、又は操作は、そのような文字、単
語、テキスト等の機械読取り可能な(例えば、ASII
コード)表現のプロセッサの作動を制御するソフトウェ
アによって、適切に実行可能であるが、また、ハードウ
ェアの作動でも実行可能である。
用して統語的なタイプのグループ又は大きな塊(「チャ
ンク(chunk)」)にトークンを分類可能で重要なトークン
又はグループの主要部を任意に識別可能でもある動作に
関して説明した。本発明は又、どのトークンがPOSベ
ースの除去基準を満たすかを示すデータを得るための他
の技術で実行することもできるだろう。例えば、そのよ
うな技術は幾つかの文をうまく解剖しなくてもよいが、
完全な構文解析技術が使用可能であろう。
後次の文を取扱う前に文の要約版を得ることを説明し
た。本発明は又、1度に1つより多い文で作動し、又は
テキストを文に分けることなくテキストで作動するよう
に実行可能である。
たデータがバッファの一連の文字コードに含まれている
ことを説明した。しかし、POSタグ及び他のマーク付
けしたデータが記憶され、テキストに含まれるよりむし
ろ、テキストとは別個に又はテキストと並行して取扱わ
れる。
OSベースの除去基準を適用するが、各種の他のPOS
ベースの除去基準が適用可能であり、そのような基準は
各種方法で適用可能であろう。
グループに分類し、どのトークンがPOSベースの除去
基準を満たすかをそのようなグループ内の主要部を示す
ことにより間接的に示すが、トークンは他の方法で分類
可能であり、POSベースの除去基準を満たすトークン
は直接又は何か他の適当な方法で示されることができる
だろう。更に、除去基準を満たすか又は満たさないトー
クンは、除去基準を満たすトークンを示すグループデー
タを得ることによるよりもむしろ、他の方法で示される
ことができる。
用者から信号を受け取りPOSベースの除去基準を選択
するが、除去基準は各種他の方法で選択可能であろう。
例えば、1セットの除去基準の各々はテキストの二者択
一の要約を得るために適用可能であり、その各々は音声
の録音に変換可能であり、その後、使用者は基準の1つ
で製作された要約を再生のために選択し、又は要約は別
の適当な方法で再生のため選択可能であろう。
のトランスデューサーを使用して、POSベースの除去
基準をPOSデータに適用するが、POSベースの除去
基準は、データ構造の他のタイプの使用又はアルゴリズ
ムの使用によるように、他の方法でPOSデータに適用
可能である。
発明は英語以外の言語に適用可能である。
は異なって実行可能なことを実行している。例えば、タ
グ付けされマーク付けしたトークンは現在の文のバッフ
ァ以外のデータ構造で保管可能であろう。
正可能な順序で実行される。例えば、図3のボックスS
5及びS6での行為は順序正しく反対にし、又は説明し
た機能性を変更することなく単一動作にまとめられても
よい。
を使用しているが、新たに発見された演算技術が利用可
能になるとそれらを使用するために容易に修正可能であ
ろう。
方法に適用可能である。
取り機械に適用し、資料の音声要約を提供することがで
きる。
械、又は光学文字認識が行えると共に要約が製作され印
刷され出力として提供される別の方法で可能なスキャン
及びプロセス能力を有する他の機械にも適用可能であ
る。
適用されるかもしれない。
机上スキャニングシステムの例を示している。
概略ブロック図である。
ー図である。
段階の結果を示している。
選択した段階の結果を示し、簡約の各種レベルを示して
いる。
択した段階の結果を示し、簡約の各種レベルを示してい
る。
択した段階の結果を示し、簡約の各種レベルを示してい
る。
Claims (2)
- 【請求項1】 (a)2以上のトークンを含むテキスト
を形成する入力テキストデータを得て、 (b)前記入力テキストデータを使用してテキストのト
ークンのため音声部を示す音声部(POS)データを得
て、 (c)前記POSデータを使用してテキストの2以上の
グループの2以上の連続するトークンを示すと共に各グ
ループ内でPOSベースの除去基準を満たすトークンを
示すグループデータを得て、 (d)前記グループデータを使用して要約されたテキス
トデータを得てテキストの要約版を形成し、前記除去基
準を満たすように示されている各グループのトークンが
除去され、テキストの要約版のトークンの数がテキスト
のトークンの数より少なくなるようになっている、こと
を特徴とするテキストを自動的に要約する方法。 - 【請求項2】 (A)使用者の入力デバイスから信号を
受け取り1セットの音声部(POS)ベースの除去基準
の1つを選択すると共に、入力テキストデータを得て2
以上のトークンを含むテキストを形成し、 (B)前記入力テキストデータを使用してPOSデータ
を得てテキストのトークンのため音声部を示し、 (C)前記POSデータを使用して要約されたテキスト
データを得てテキストの要約版を形成し、トークンが選
択したPOSベースの基準に従って除去され、テキスト
の要約板のトークンの数がテキストのトークンの数より
少なくなるようになっている、ことを特徴とするテキス
トを自動的に要約する方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GBGB9806085.8A GB9806085D0 (en) | 1998-03-23 | 1998-03-23 | Text summarisation using light syntactic parsing |
GB9806085:8 | 1998-03-23 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2000003126A true JP2000003126A (ja) | 2000-01-07 |
Family
ID=10829012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP11843099A Pending JP2000003126A (ja) | 1998-03-23 | 1999-03-23 | 音声部を使用するテキスト要約方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US6289304B1 (ja) |
EP (1) | EP0952533B1 (ja) |
JP (1) | JP2000003126A (ja) |
GB (1) | GB9806085D0 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08299552A (ja) * | 1994-03-14 | 1996-11-19 | Toyomaru Sangyo Kk | パチンコ機 |
JP2007517536A (ja) * | 2003-09-26 | 2007-07-05 | ボストン サイエンティフィック リミテッド | バルーン拡張型ステントおよびその製造法 |
JP2012037797A (ja) * | 2010-08-10 | 2012-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 対話学習装置、要約装置、対話学習方法、要約方法、プログラム |
US9792834B2 (en) | 2008-03-06 | 2017-10-17 | International Business Machines Corporation | Computer, method and program for effectively notifying others of problems concerning accessibility in content |
Families Citing this family (132)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8352400B2 (en) | 1991-12-23 | 2013-01-08 | Hoffberg Steven M | Adaptive pattern recognition based controller apparatus and method and human-factored interface therefore |
US5836771A (en) | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6498921B1 (en) * | 1999-09-01 | 2002-12-24 | Chi Fai Ho | Method and system to answer a natural-language question |
US6311223B1 (en) * | 1997-11-03 | 2001-10-30 | International Business Machines Corporation | Effective transmission of documents in hypertext markup language (HTML) |
US7168039B2 (en) * | 1998-06-02 | 2007-01-23 | International Business Machines Corporation | Method and system for reducing the horizontal space required for displaying a column containing text data |
US7966078B2 (en) | 1999-02-01 | 2011-06-21 | Steven Hoffberg | Network media appliance system and method |
JP3669869B2 (ja) * | 1999-06-28 | 2005-07-13 | 株式会社サン・フレア | 最適テンプレートパターンを用いた評価方法、評価装置および記録媒体 |
JP2001014306A (ja) * | 1999-06-30 | 2001-01-19 | Sony Corp | 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体 |
US7509572B1 (en) * | 1999-07-16 | 2009-03-24 | Oracle International Corporation | Automatic generation of document summaries through use of structured text |
US7475334B1 (en) * | 2000-01-19 | 2009-01-06 | Alcatel-Lucent Usa Inc. | Method and system for abstracting electronic documents |
EP1277200A4 (en) * | 2000-02-02 | 2005-09-14 | Famoice Technology Pty Ltd | VOICE SYSTEM |
US6658377B1 (en) * | 2000-06-13 | 2003-12-02 | Perspectus, Inc. | Method and system for text analysis based on the tagging, processing, and/or reformatting of the input text |
US20030195740A1 (en) * | 2000-06-20 | 2003-10-16 | Sunflare Co., Ltd. | Translation evaluation using optimum template pattern determination method |
US6510413B1 (en) * | 2000-06-29 | 2003-01-21 | Intel Corporation | Distributed synthetic speech generation |
US7092871B2 (en) * | 2000-07-20 | 2006-08-15 | Microsoft Corporation | Tokenizer for a natural language processing system |
US6704699B2 (en) * | 2000-09-05 | 2004-03-09 | Einat H. Nir | Language acquisition aide |
US20020087985A1 (en) * | 2000-12-01 | 2002-07-04 | Yakov Kamen | Methods and apparatuses for displaying meaningful abbreviated program titles |
US7069207B2 (en) * | 2001-01-26 | 2006-06-27 | Microsoft Corporation | Linguistically intelligent text compression |
US7010478B2 (en) * | 2001-02-12 | 2006-03-07 | Microsoft Corporation | Compressing messages on a per semantic component basis while maintaining a degree of human readability |
US20020122053A1 (en) * | 2001-03-01 | 2002-09-05 | International Business Machines Corporation | Method and apparatus for presenting non-displayed text in Web pages |
US20030164848A1 (en) * | 2001-03-01 | 2003-09-04 | International Business Machines Corporation | Method and apparatus for summarizing content of a document for a visually impaired user |
US20020143817A1 (en) * | 2001-03-29 | 2002-10-03 | International Business Machines Corporation | Presentation of salient features in a page to a visually impaired user |
US6859771B2 (en) * | 2001-04-23 | 2005-02-22 | Microsoft Corporation | System and method for identifying base noun phrases |
US6990634B2 (en) * | 2001-04-27 | 2006-01-24 | The United States Of America As Represented By The National Security Agency | Method of summarizing text by sentence extraction |
US7200556B2 (en) * | 2001-05-22 | 2007-04-03 | Siemens Communications, Inc. | Methods and apparatus for accessing and processing multimedia messages stored in a unified multimedia mailbox |
US7092872B2 (en) * | 2001-06-19 | 2006-08-15 | Fuji Xerox Co., Ltd. | Systems and methods for generating analytic summaries |
US7260607B2 (en) * | 2001-08-02 | 2007-08-21 | Siemens Communications, Inc. | Methods and apparatus for performing media/device sensitive processing of messages stored in unified multimedia and plain text mailboxes |
US7773730B1 (en) * | 2001-08-09 | 2010-08-10 | Voice Signature Llc | Voice record integrator |
US20070265834A1 (en) * | 2001-09-06 | 2007-11-15 | Einat Melnick | In-context analysis |
US20040054535A1 (en) * | 2001-10-22 | 2004-03-18 | Mackie Andrew William | System and method of processing structured text for text-to-speech synthesis |
GB2381605A (en) * | 2001-10-31 | 2003-05-07 | Hewlett Packard Co | Internet browsing system |
US7853272B2 (en) * | 2001-12-21 | 2010-12-14 | Telecommunication Systems, Inc. | Wireless network tour guide |
US20030158735A1 (en) * | 2002-02-15 | 2003-08-21 | Canon Kabushiki Kaisha | Information processing apparatus and method with speech synthesis function |
US7650562B2 (en) * | 2002-02-21 | 2010-01-19 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US8370761B2 (en) * | 2002-02-21 | 2013-02-05 | Xerox Corporation | Methods and systems for interactive classification of objects |
US7228507B2 (en) | 2002-02-21 | 2007-06-05 | Xerox Corporation | Methods and systems for navigating a workspace |
US7487462B2 (en) | 2002-02-21 | 2009-02-03 | Xerox Corporation | Methods and systems for indicating invisible contents of workspace |
US7549114B2 (en) | 2002-02-21 | 2009-06-16 | Xerox Corporation | Methods and systems for incrementally changing text representation |
US20040036663A1 (en) * | 2002-03-29 | 2004-02-26 | Bevers David R. | System and method for an image reader with electronic travel |
US7188318B2 (en) | 2002-06-11 | 2007-03-06 | International Business Machines Corporation | Web accessibility assistant |
US7469210B1 (en) | 2002-08-08 | 2008-12-23 | Voice Signature Llc | Outbound voice signature calls |
US7567902B2 (en) * | 2002-09-18 | 2009-07-28 | Nuance Communications, Inc. | Generating speech recognition grammars from a large corpus of data |
US7539086B2 (en) * | 2002-10-23 | 2009-05-26 | J2 Global Communications, Inc. | System and method for the secure, real-time, high accuracy conversion of general-quality speech into text |
KR100463655B1 (ko) * | 2002-11-15 | 2004-12-29 | 삼성전자주식회사 | 부가 정보 제공 기능이 있는 텍스트/음성 변환장치 및 방법 |
US7451395B2 (en) * | 2002-12-16 | 2008-11-11 | Palo Alto Research Center Incorporated | Systems and methods for interactive topic-based text summarization |
US7376893B2 (en) * | 2002-12-16 | 2008-05-20 | Palo Alto Research Center Incorporated | Systems and methods for sentence based interactive topic-based text summarization |
US7117437B2 (en) | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US9165478B2 (en) | 2003-04-18 | 2015-10-20 | International Business Machines Corporation | System and method to enable blind people to have access to information printed on a physical document |
US20040230415A1 (en) * | 2003-05-12 | 2004-11-18 | Stefan Riezler | Systems and methods for grammatical text condensation |
US7359085B2 (en) * | 2003-07-14 | 2008-04-15 | Lexmark International, Inc. | Method and apparatus for recording sound information and playing sound information back using an all-in-one printer |
US7865354B2 (en) * | 2003-12-05 | 2011-01-04 | International Business Machines Corporation | Extracting and grouping opinions from text documents |
US7400748B2 (en) * | 2003-12-16 | 2008-07-15 | Xerox Corporation | Method for assisting visually impaired users of a scanning device |
US7707039B2 (en) | 2004-02-15 | 2010-04-27 | Exbiblio B.V. | Automatic modification of web pages |
US8442331B2 (en) | 2004-02-15 | 2013-05-14 | Google Inc. | Capturing text from rendered documents using supplemental information |
US7812860B2 (en) | 2004-04-01 | 2010-10-12 | Exbiblio B.V. | Handheld device for capturing text from both a document printed on paper and a document displayed on a dynamic display device |
US10635723B2 (en) | 2004-02-15 | 2020-04-28 | Google Llc | Search engines and systems with handheld document data capture devices |
US8146156B2 (en) | 2004-04-01 | 2012-03-27 | Google Inc. | Archive of text captures from rendered documents |
US7894670B2 (en) | 2004-04-01 | 2011-02-22 | Exbiblio B.V. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US9143638B2 (en) | 2004-04-01 | 2015-09-22 | Google Inc. | Data capture from rendered documents using handheld device |
US9008447B2 (en) | 2004-04-01 | 2015-04-14 | Google Inc. | Method and system for character recognition |
US7990556B2 (en) | 2004-12-03 | 2011-08-02 | Google Inc. | Association of a portable scanner with input/output and storage devices |
US20060098900A1 (en) | 2004-09-27 | 2006-05-11 | King Martin T | Secure data gathering from rendered documents |
US9116890B2 (en) | 2004-04-01 | 2015-08-25 | Google Inc. | Triggering actions in response to optically or acoustically capturing keywords from a rendered document |
US20060081714A1 (en) | 2004-08-23 | 2006-04-20 | King Martin T | Portable scanning device |
US8081849B2 (en) | 2004-12-03 | 2011-12-20 | Google Inc. | Portable scanning and memory device |
US8713418B2 (en) | 2004-04-12 | 2014-04-29 | Google Inc. | Adding value to a rendered document |
US8620083B2 (en) | 2004-12-03 | 2013-12-31 | Google Inc. | Method and system for character recognition |
US8489624B2 (en) | 2004-05-17 | 2013-07-16 | Google, Inc. | Processing techniques for text capture from a rendered document |
US8874504B2 (en) | 2004-12-03 | 2014-10-28 | Google Inc. | Processing techniques for visual capture data from a rendered document |
US8868670B2 (en) * | 2004-04-27 | 2014-10-21 | Avaya Inc. | Method and apparatus for summarizing one or more text messages using indicative summaries |
JP4424057B2 (ja) * | 2004-05-10 | 2010-03-03 | 富士ゼロックス株式会社 | 学習装置およびプログラム |
US20050273314A1 (en) * | 2004-06-07 | 2005-12-08 | Simpleact Incorporated | Method for processing Chinese natural language sentence |
US8346620B2 (en) | 2004-07-19 | 2013-01-01 | Google Inc. | Automatic modification of web pages |
US7389299B2 (en) * | 2004-09-02 | 2008-06-17 | International Business Machines Corporation | Document content analysis technology for reducing cognitive load |
US7996208B2 (en) * | 2004-09-30 | 2011-08-09 | Google Inc. | Methods and systems for selecting a language for text segmentation |
US7680648B2 (en) | 2004-09-30 | 2010-03-16 | Google Inc. | Methods and systems for improving text segmentation |
US7675641B2 (en) * | 2004-10-28 | 2010-03-09 | Lexmark International, Inc. | Method and device for converting scanned text to audio data via connection lines and lookup tables |
US7827029B2 (en) * | 2004-11-30 | 2010-11-02 | Palo Alto Research Center Incorporated | Systems and methods for user-interest sensitive note-taking |
US7801723B2 (en) * | 2004-11-30 | 2010-09-21 | Palo Alto Research Center Incorporated | Systems and methods for user-interest sensitive condensation |
US7401077B2 (en) * | 2004-12-21 | 2008-07-15 | Palo Alto Research Center Incorporated | Systems and methods for using and constructing user-interest sensitive indicators of search results |
US20080221868A1 (en) * | 2005-09-05 | 2008-09-11 | Melnick Einat H | Digital universal language |
US20070061703A1 (en) * | 2005-09-12 | 2007-03-15 | International Business Machines Corporation | Method and apparatus for annotating a document |
US7925974B1 (en) * | 2005-12-22 | 2011-04-12 | Sprint Communications Company L.P. | Distribution of computation linguistics |
US8229733B2 (en) * | 2006-02-09 | 2012-07-24 | John Harney | Method and apparatus for linguistic independent parsing in a natural language systems |
WO2007132690A1 (ja) * | 2006-05-17 | 2007-11-22 | Nec Corporation | 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム |
EP2067119A2 (en) | 2006-09-08 | 2009-06-10 | Exbiblio B.V. | Optical scanners, such as hand-held optical scanners |
US20080065370A1 (en) * | 2006-09-11 | 2008-03-13 | Takashi Kimoto | Support apparatus for object-oriented analysis and design |
WO2008061002A2 (en) * | 2006-11-14 | 2008-05-22 | Networked Insights, Inc. | Method and system for automatically identifying users to participate in an electronic conversation |
US20080300872A1 (en) * | 2007-05-31 | 2008-12-04 | Microsoft Corporation | Scalable summaries of audio or visual content |
US7970616B2 (en) * | 2007-07-23 | 2011-06-28 | Dapkunas Ronald M | Efficient review of data |
US20110035662A1 (en) | 2009-02-18 | 2011-02-10 | King Martin T | Interacting with rendered documents using a multi-function mobile device, such as a mobile phone |
US8113841B2 (en) | 2007-11-30 | 2012-02-14 | Beyo Gmbh | Reading device for blind or visually impaired persons |
DE602007006823D1 (de) * | 2007-11-30 | 2010-07-08 | Beyo Gmbh | Lesevorrichtung für blinde oder sehbehinderte Menschen |
US7925743B2 (en) * | 2008-02-29 | 2011-04-12 | Networked Insights, Llc | Method and system for qualifying user engagement with a website |
US20100145676A1 (en) * | 2008-12-09 | 2010-06-10 | Qualcomm Incorporated | Method and apparatus for adjusting the length of text strings to fit display sizes |
US8447588B2 (en) * | 2008-12-18 | 2013-05-21 | Palo Alto Research Center Incorporated | Region-matching transducers for natural language processing |
US8510097B2 (en) * | 2008-12-18 | 2013-08-13 | Palo Alto Research Center Incorporated | Region-matching transducers for text-characterization |
US8447066B2 (en) | 2009-03-12 | 2013-05-21 | Google Inc. | Performing actions based on capturing information from rendered documents, such as documents under copyright |
DE202010018551U1 (de) | 2009-03-12 | 2017-08-24 | Google, Inc. | Automatische Bereitstellung von Inhalten, die mit erfassten Informationen, wie etwa in Echtzeit erfassten Informationen, verknüpft sind |
US9904436B2 (en) | 2009-08-11 | 2018-02-27 | Pearl.com LLC | Method and apparatus for creating a personalized question feed platform |
US9646079B2 (en) | 2012-05-04 | 2017-05-09 | Pearl.com LLC | Method and apparatus for identifiying similar questions in a consultation system |
US9081799B2 (en) | 2009-12-04 | 2015-07-14 | Google Inc. | Using gestalt information to identify locations in printed information |
US9323784B2 (en) | 2009-12-09 | 2016-04-26 | Google Inc. | Image search using text-based elements within the contents of images |
US8788260B2 (en) * | 2010-05-11 | 2014-07-22 | Microsoft Corporation | Generating snippets based on content features |
US9015093B1 (en) | 2010-10-26 | 2015-04-21 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US8775341B1 (en) | 2010-10-26 | 2014-07-08 | Michael Lamport Commons | Intelligent control with hierarchical stacked neural networks |
US20120197630A1 (en) * | 2011-01-28 | 2012-08-02 | Lyons Kenton M | Methods and systems to summarize a source text as a function of contextual information |
US8488916B2 (en) * | 2011-07-22 | 2013-07-16 | David S Terman | Knowledge acquisition nexus for facilitating concept capture and promoting time on task |
US8842965B1 (en) * | 2011-11-02 | 2014-09-23 | Google Inc. | Large scale video event classification |
US9501580B2 (en) | 2012-05-04 | 2016-11-22 | Pearl.com LLC | Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website |
US9275038B2 (en) | 2012-05-04 | 2016-03-01 | Pearl.com LLC | Method and apparatus for identifying customer service and duplicate questions in an online consultation system |
US8280888B1 (en) | 2012-05-04 | 2012-10-02 | Pearl.com LLC | Method and apparatus for creation of web document titles optimized for search engines |
IN2015CH01602A (ja) | 2015-03-28 | 2015-04-24 | Wipro Ltd | |
US10387550B2 (en) * | 2015-04-24 | 2019-08-20 | Hewlett-Packard Development Company, L.P. | Text restructuring |
US9442923B1 (en) * | 2015-11-24 | 2016-09-13 | International Business Machines Corporation | Space constrained text translator |
US10013404B2 (en) * | 2015-12-03 | 2018-07-03 | International Business Machines Corporation | Targeted story summarization using natural language processing |
US10248738B2 (en) | 2015-12-03 | 2019-04-02 | International Business Machines Corporation | Structuring narrative blocks in a logical sequence |
US10013450B2 (en) | 2015-12-03 | 2018-07-03 | International Business Machines Corporation | Using knowledge graphs to identify potential inconsistencies in works of authorship |
US9881614B1 (en) * | 2016-07-08 | 2018-01-30 | Conduent Business Services, Llc | Method and system for real-time summary generation of conversation |
US10503808B2 (en) | 2016-07-15 | 2019-12-10 | Sap Se | Time user interface with intelligent text reduction |
US10140260B2 (en) * | 2016-07-15 | 2018-11-27 | Sap Se | Intelligent text reduction for graphical interface elements |
WO2018060777A1 (en) * | 2016-09-29 | 2018-04-05 | Yokogawa Electric Corporation | Method and system for optimizing software testing |
US11488602B2 (en) | 2018-02-20 | 2022-11-01 | Dropbox, Inc. | Meeting transcription using custom lexicons based on document history |
US10657954B2 (en) * | 2018-02-20 | 2020-05-19 | Dropbox, Inc. | Meeting audio capture and transcription in a collaborative document context |
US10467335B2 (en) | 2018-02-20 | 2019-11-05 | Dropbox, Inc. | Automated outline generation of captured meeting audio in a collaborative document context |
US11689379B2 (en) | 2019-06-24 | 2023-06-27 | Dropbox, Inc. | Generating customized meeting insights based on user interactions and meeting media |
FR3102276A1 (fr) | 2019-10-17 | 2021-04-23 | Amadeus | Procedes et systemes pour résumer des document multiples en utilisant une approche d’apprentissage automatique |
US11586829B2 (en) | 2020-05-01 | 2023-02-21 | International Business Machines Corporation | Natural language text generation from a set of keywords using machine learning and templates |
US10878174B1 (en) | 2020-06-24 | 2020-12-29 | Starmind Ag | Advanced text tagging using key phrase extraction and key phrase generation |
US12151826B2 (en) | 2021-02-25 | 2024-11-26 | Honeywell International Inc. | Methods and systems for efficiently briefing past cockpit conversations |
US11379763B1 (en) | 2021-08-10 | 2022-07-05 | Starmind Ag | Ontology-based technology platform for mapping and filtering skills, job titles, and expertise topics |
US12197528B2 (en) * | 2022-07-12 | 2025-01-14 | Dell Products L.P. | Measuring the readability of website pages |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61117658A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文章抄録装置 |
JPS62143178A (ja) * | 1985-12-18 | 1987-06-26 | Hitachi Ltd | 自然言語翻訳方式 |
JPH02112068A (ja) * | 1988-10-21 | 1990-04-24 | Hitachi Ltd | テキスト簡略表示方式 |
JPH04156663A (ja) * | 1990-10-20 | 1992-05-29 | Fujitsu Ltd | 文章圧縮装置 |
JPH0635961A (ja) * | 1992-07-17 | 1994-02-10 | Matsushita Electric Ind Co Ltd | 文書要約装置 |
JPH06332893A (ja) * | 1993-05-21 | 1994-12-02 | Hitachi Ltd | 文章加工装置 |
JPH0765005A (ja) * | 1993-08-24 | 1995-03-10 | Ricoh Co Ltd | 文書速読支援表示装置並びに文書処理装置及びディジタル複写装置 |
JPH08212228A (ja) * | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | 要約文作成装置および要約音声作成装置 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4358824A (en) * | 1979-12-28 | 1982-11-09 | International Business Machines Corporation | Office correspondence storage and retrieval system |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
JP2783558B2 (ja) * | 1988-09-30 | 1998-08-06 | 株式会社東芝 | 要約生成方法および要約生成装置 |
CA2078423C (en) | 1991-11-19 | 1997-01-14 | Per-Kristian Halvorsen | Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information |
US5488719A (en) * | 1991-12-30 | 1996-01-30 | Xerox Corporation | System for categorizing character strings using acceptability and category information contained in ending substrings |
US5384703A (en) * | 1993-07-02 | 1995-01-24 | Xerox Corporation | Method and apparatus for summarizing documents according to theme |
JP3571408B2 (ja) * | 1995-03-31 | 2004-09-29 | 株式会社日立製作所 | 文書加工方法および装置 |
US5708825A (en) * | 1995-05-26 | 1998-01-13 | Iconovex Corporation | Automatic summary page creation and hyperlink generation |
US5963205A (en) * | 1995-05-26 | 1999-10-05 | Iconovex Corporation | Automatic index creation for a word processor |
US5918240A (en) * | 1995-06-28 | 1999-06-29 | Xerox Corporation | Automatic method of extracting summarization using feature probabilities |
US5778397A (en) * | 1995-06-28 | 1998-07-07 | Xerox Corporation | Automatic method of generating feature probabilities for automatic extracting summarization |
US5680628A (en) * | 1995-07-19 | 1997-10-21 | Inso Corporation | Method and apparatus for automated search and retrieval process |
US5721939A (en) * | 1995-08-03 | 1998-02-24 | Xerox Corporation | Method and apparatus for tokenizing text |
US5924108A (en) * | 1996-03-29 | 1999-07-13 | Microsoft Corporation | Document summarizer for word processors |
US5960383A (en) * | 1997-02-25 | 1999-09-28 | Digital Equipment Corporation | Extraction of key sections from texts using automatic indexing techniques |
-
1998
- 1998-03-23 GB GBGB9806085.8A patent/GB9806085D0/en not_active Ceased
-
1999
- 1999-03-17 US US09/270,457 patent/US6289304B1/en not_active Expired - Lifetime
- 1999-03-23 JP JP11843099A patent/JP2000003126A/ja active Pending
- 1999-03-23 EP EP99105851.2A patent/EP0952533B1/en not_active Expired - Lifetime
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61117658A (ja) * | 1984-11-13 | 1986-06-05 | Fujitsu Ltd | 文章抄録装置 |
JPS62143178A (ja) * | 1985-12-18 | 1987-06-26 | Hitachi Ltd | 自然言語翻訳方式 |
JPH02112068A (ja) * | 1988-10-21 | 1990-04-24 | Hitachi Ltd | テキスト簡略表示方式 |
JPH04156663A (ja) * | 1990-10-20 | 1992-05-29 | Fujitsu Ltd | 文章圧縮装置 |
JPH0635961A (ja) * | 1992-07-17 | 1994-02-10 | Matsushita Electric Ind Co Ltd | 文書要約装置 |
JPH06332893A (ja) * | 1993-05-21 | 1994-12-02 | Hitachi Ltd | 文章加工装置 |
JPH0765005A (ja) * | 1993-08-24 | 1995-03-10 | Ricoh Co Ltd | 文書速読支援表示装置並びに文書処理装置及びディジタル複写装置 |
JPH08212228A (ja) * | 1995-02-02 | 1996-08-20 | Sanyo Electric Co Ltd | 要約文作成装置および要約音声作成装置 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08299552A (ja) * | 1994-03-14 | 1996-11-19 | Toyomaru Sangyo Kk | パチンコ機 |
JP2007517536A (ja) * | 2003-09-26 | 2007-07-05 | ボストン サイエンティフィック リミテッド | バルーン拡張型ステントおよびその製造法 |
JP4921170B2 (ja) * | 2003-09-26 | 2012-04-25 | ボストン サイエンティフィック リミテッド | バルーン拡張型ステント及びその製造方法並びにそのステントを有する物品 |
US9792834B2 (en) | 2008-03-06 | 2017-10-17 | International Business Machines Corporation | Computer, method and program for effectively notifying others of problems concerning accessibility in content |
JP2012037797A (ja) * | 2010-08-10 | 2012-02-23 | Nippon Telegr & Teleph Corp <Ntt> | 対話学習装置、要約装置、対話学習方法、要約方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US6289304B1 (en) | 2001-09-11 |
GB9806085D0 (en) | 1998-05-20 |
EP0952533A3 (en) | 2005-08-03 |
EP0952533A2 (en) | 1999-10-27 |
EP0952533B1 (en) | 2016-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6289304B1 (en) | Text summarization using part-of-speech | |
EP1330816B1 (en) | Language independent voice-based user interface | |
KR100287093B1 (ko) | 음성 합성 방법, 음성 합성 장치, 하이퍼 텍스트의 제어 방법 및 제어 장치 | |
US6393389B1 (en) | Using ranked translation choices to obtain sequences indicating meaning of multi-token expressions | |
US6115683A (en) | Automatic essay scoring system using content-based techniques | |
US20050154580A1 (en) | Automated grammar generator (AGG) | |
JPH1125098A (ja) | 情報処理装置、リンク先ファイルの取得方法および記憶媒体 | |
JP3789614B2 (ja) | ブラウザシステム、音声プロキシサーバ、リンク項目の読み上げ方法及びリンク項目の読み上げプログラムを格納した記憶媒体 | |
JP4085156B2 (ja) | テキスト生成方法及びテキスト生成装置 | |
JP4558680B2 (ja) | 出願文書情報作成装置、説明情報抽出装置、出願文書情報作成方法、説明情報抽出方法 | |
JP5382965B2 (ja) | 出願文書情報作成装置、出願文書情報作成方法、及びプログラム | |
JP4579281B2 (ja) | 出願文書情報作成装置、出願文書情報作成方法、及びプログラム | |
JPH10105555A (ja) | 対訳例文検索装置 | |
JPH11102372A (ja) | 文書要約装置及びコンピュータ読み取り可能な記録媒体 | |
Li | A corpus-based study of Gaoxin Huang’s poetry translation style | |
JP2003132047A (ja) | 話し言葉の書き言葉への変換装置 | |
JP2001265792A (ja) | 自動要約文生成装置、自動要約文生成方法及び自動要約文生成方法を記録した媒体 | |
JP3969689B2 (ja) | 文書作成支援装置、文書作成支援方法及び文書作成支援プログラムを記憶した記憶媒体 | |
JP2939348B2 (ja) | 画像処理装置 | |
Wintermute et al. | Accessibility | |
KR100400222B1 (ko) | 선택 제한을 위한 동적 의미 분류 방법 및 장치 | |
JP2003030184A (ja) | 自然言語処理装置および自然言語処理方法、並びにプログラムおよび記録媒体 | |
JP2004126986A (ja) | 文書差分検出装置及びプログラム | |
JP2005309886A (ja) | 文書情報表示装置 | |
JPH0619961A (ja) | 中国語文解析方法および中国語文解析装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060216 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081006 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090106 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090706 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091005 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100520 |