JP2007058509A - 言語処理システム - Google Patents
言語処理システム Download PDFInfo
- Publication number
- JP2007058509A JP2007058509A JP2005242492A JP2005242492A JP2007058509A JP 2007058509 A JP2007058509 A JP 2007058509A JP 2005242492 A JP2005242492 A JP 2005242492A JP 2005242492 A JP2005242492 A JP 2005242492A JP 2007058509 A JP2007058509 A JP 2007058509A
- Authority
- JP
- Japan
- Prior art keywords
- morpheme
- prohibited
- language processing
- unit
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Abandoned
Links
- 238000000034 method Methods 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 8
- 239000007787 solid Substances 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 230000015654 memory Effects 0.000 description 30
- 238000003672 processing method Methods 0.000 description 23
- 241000036848 Porzana carolina Species 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000010845 search algorithm Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
【解決手段】 使用禁止形態素を保存する禁止形態素記憶部202、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部111、及び禁止形態素記憶部202から使用禁止形態素を読み出し、複数の単語系列候補から使用禁止形態素を含むものを除外し、複数の単語系列候補の中で複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部112を備える。
【選択図】 図1
Description
第1の実施の形態に係る言語処理システムは、図1に示すように、中央演算処理装置(CPU)100a、CPU100aに接続されたデータ記憶装置200を備える。データ記憶装置200は禁止形態素記憶部202及びシステム辞書記憶部201をさらに備える。禁止形態素記憶部202は禁止された読みで読まれる禁止形態素を保存する。システム辞書記憶部201は、複数の単語の読み及び品詞を記録したシステム辞書を保存する。またCPU100aは系列候補生成部111、及び最適系列選択部112をさらに備える。系列候補生成部111は、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する。最適系列選択部112は、禁止形態素記憶部202から使用禁止形態素を読み出し、複数の単語系列候補から使用禁止形態素を含むものを除外し、複数の単語系列候補の中で複数の形態素間の連接可能性が最も高い最適単語系列を選択する。
(第2の実施の形態)
第2の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図7に示すように、系列候補生成部211に禁止部214が接続されている点である。禁止部214は、禁止形態素記憶部202に保存されている禁止形態素と一致する形態素がシステム辞書記憶部201に保存されている場合、系列候補生成部211がシステム辞書に登録されている禁止形態素と一致する形態素を参照することを禁止する設定をする。したがって、例えば「主記憶上の空間が」というテキストが系列候補生成部211に入力された場合、系列候補生成部211はシステム辞書に含まれる禁止形態素と一致する形態素「上の空(うわのそら)」及び「間(かん)」を参照せず、図8に示すように禁止形態素を予め含まないラティス構造51を生成する。図7に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。
第3の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図10に示すように、最適系列選択部312に禁止部314が接続されている点である。禁止部214は、禁止形態素記憶部202に保存されている禁止形態素と一致する形態素がシステム辞書記憶部201に保存されている場合、最適系列選択部312が禁止形態素を含む単語系列候補を最適単語系列として選択することを禁止する設定をする。図10に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。
第4の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図12に示すように、CPU100dが誤範囲指定部120及び禁止形態素追加部121をさらに含む点である。ここで、例えば入力テキスト「主記憶上の空間が」に対して、最適系列選択部112が「主(しゅ)記憶(きおく)上の空(うわのそら)間(かん)が」を最適単語系列として誤選択したとする。この場合、誤範囲指定部120はシステム利用者から誤選択された最適単語系列のうち好ましくない読みが付された誤読形態素の指定を受け付ける。例えば文字列「上の空(うわのそら)間(かん)」が指定された場合、誤範囲指定部120は文字列「上の空(うわのそら)間(かん)」を形態素「上の空(うわのそら)」と形態素「間(かん)」に分割し、それぞれを誤読形態素と定義する。禁止形態素追加部121は誤読形態素を禁止形態素記憶部202に禁止形態素として追加保存する。図12に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。
第5の実施の形態に係る言語処理システムが図1に示す言語処理システムと異なるのは、図15に示すように、CPU100eが読み入力部122、対比抽出部123、及び禁止形態素追加部121をさらに含む点である。ここで、入力テキスト「主記憶上の空間が」に対して、最適系列選択部112が「主(しゅ)記憶(きおく)上の空(うわのそら)間(かん)が」を最適単語系列として誤選択したとする。この場合、読み入力部122はシステム利用者から入力テキスト「主記憶上の空間が」の正しい読み「しゅきおくじょうのくうかんが」の入力を受け付ける。対比抽出部123は誤選択された最適単語系列の読みと、正しい読みとを対比し、誤選択された最適単語系列の読みで正しい読みと異なる差異部「うわのそら」を抽出する。禁止形態素追加部121は、差異部「うわのそら」が読みに付された誤読形態素「上の空(うわのそら)」を禁止形態素記憶部202に禁止形態素として保存する。図15に示す言語処理システムのその他の構成要素は図1と同様であるので、説明は省略する。
上記のように、本発明の実施の形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。例えば、図15に示す読み入力部122はシステム利用者から入力テキストの正しい読みの入力を受け付けると説明した。これに対し、読み入力部122はシステム利用者から入力テキストの一部で正しい読みが付された形態素の入力を受け付けることとしてもよい。例えば最適系列選択部112が「主(しゅ)記憶(きおく)上の空(うわのそら)間(かん)が」を最適単語系列として誤選択した場合、読み入力部122は正しい読みが付された形態素「空間(くうかん)」の入力を受け付け、対比抽出部123が形態素「空間(くうかん)」に違反する形態素「上の空(うわのそら)」及び「間(かん)が」を抽出してもよい。
100a, 100b, 100c, 100d, 100e…CPU
111, 211…系列候補生成部
112, 312…最適系列選択部
114, 214, 314…禁止部
120…誤範囲指定部
121…禁止形態素追加部
122…読み入力部
123…対比抽出部
201…システム辞書記憶部
202…禁止形態素記憶部
203…ラティス構造記憶部
204…最適系列記憶部
205…読み記憶部
Claims (5)
- 使用禁止形態素を保存する禁止形態素記憶部と、
べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部と、
前記禁止形態素記憶部から前記使用禁止形態素を読み出し、前記複数の単語系列候補から前記使用禁止形態素を含むものを除外し、前記複数の単語系列候補の中で前記複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部
とを備えることを特徴とする言語処理システム。 - 使用禁止形態素を保存する禁止形態素記憶部と、
前記禁止形態素記憶部に保存された前記使用禁止形態素を読み出し、前記使用禁止形態素の使用を禁止して、べた書きのテキストからそれぞれ複数の形態素で分かち書きにされた複数の単語系列候補を生成する系列候補生成部と、
前記複数の単語系列候補の中で前記複数の形態素間の連接可能性が最も高い最適単語系列を選択する最適系列選択部
とを備えることを特徴とする言語処理システム。 - 前記最適単語系列のうち、前記テキストの正しい読みと異なる読みが付された誤読形態素の指定を受け付ける誤範囲指定部を更に備えることを特徴とする請求項1又は2に記載の言語処理システム。
- 前記最適単語系列の読みと前記テキストの正しい読みとを対比し、前記最適単語系列から前記正しい読みと異なる読みが付された誤読形態素を抽出する対比抽出部を更に備えることを特徴とする請求項1又は2に記載の言語処理システム。
- 前記誤読形態素を前記禁止形態素記憶部に前記禁止形態素として追加保存する禁止形態素追加部を更に備えることを特徴とする請求項3又は4に記載の言語処理システム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005242492A JP2007058509A (ja) | 2005-08-24 | 2005-08-24 | 言語処理システム |
CN2006101256010A CN1920812B (zh) | 2005-08-24 | 2006-08-24 | 语言处理系统 |
US11/508,841 US7917352B2 (en) | 2005-08-24 | 2006-08-24 | Language processing system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005242492A JP2007058509A (ja) | 2005-08-24 | 2005-08-24 | 言語処理システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007058509A true JP2007058509A (ja) | 2007-03-08 |
Family
ID=37778538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005242492A Abandoned JP2007058509A (ja) | 2005-08-24 | 2005-08-24 | 言語処理システム |
Country Status (3)
Country | Link |
---|---|
US (1) | US7917352B2 (ja) |
JP (1) | JP2007058509A (ja) |
CN (1) | CN1920812B (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014092838A (ja) * | 2012-11-01 | 2014-05-19 | Nec Corp | 形態素解析装置、形態素解析プログラム、及び、形態素解析方法 |
JP2015191317A (ja) * | 2014-03-27 | 2015-11-02 | Kddi株式会社 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
JP2015194801A (ja) * | 2014-03-31 | 2015-11-05 | Kddi株式会社 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5239863B2 (ja) * | 2006-09-07 | 2013-07-17 | 日本電気株式会社 | 自然言語処理システムおよび辞書登録システム |
US8103503B2 (en) * | 2007-11-01 | 2012-01-24 | Microsoft Corporation | Speech recognition for determining if a user has correctly read a target sentence string |
US20130151251A1 (en) * | 2011-12-12 | 2013-06-13 | Advanced Micro Devices, Inc. | Automatic dialog replacement by real-time analytic processing |
JP2014021136A (ja) * | 2012-07-12 | 2014-02-03 | Yahoo Japan Corp | 音声合成システム |
US8831953B2 (en) | 2013-01-16 | 2014-09-09 | Vikas Vanjani | Systems and methods for filtering objectionable content |
WO2015134579A1 (en) | 2014-03-04 | 2015-09-11 | Interactive Intelligence Group, Inc. | System and method to correct for packet loss in asr systems |
US10083169B1 (en) * | 2015-08-28 | 2018-09-25 | Google Llc | Topic-based sequence modeling neural networks |
US9705618B1 (en) * | 2015-12-18 | 2017-07-11 | Intel Corporation | Systems, methods and devices for public announcements |
US10572586B2 (en) * | 2018-02-27 | 2020-02-25 | International Business Machines Corporation | Technique for automatically splitting words |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61264472A (ja) * | 1985-05-20 | 1986-11-22 | Toshiba Corp | 文書作成装置 |
JPH0567072A (ja) * | 1991-09-09 | 1993-03-19 | Canon Inc | 文字処理装置 |
JPH08185197A (ja) * | 1994-12-28 | 1996-07-16 | Fujitsu Ltd | 日本語解析装置、及び日本語テキスト音声合成装置 |
JP2000194389A (ja) * | 1998-12-25 | 2000-07-14 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4829423A (en) * | 1983-01-28 | 1989-05-09 | Texas Instruments Incorporated | Menu-based natural language understanding system |
US5146405A (en) * | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
JPH05165486A (ja) | 1991-12-18 | 1993-07-02 | Oki Electric Ind Co Ltd | テキスト音声変換装置 |
US5828991A (en) * | 1995-06-30 | 1998-10-27 | The Research Foundation Of The State University Of New York | Sentence reconstruction using word ambiguity resolution |
US6182028B1 (en) * | 1997-11-07 | 2001-01-30 | Motorola, Inc. | Method, device and system for part-of-speech disambiguation |
US6098042A (en) * | 1998-01-30 | 2000-08-01 | International Business Machines Corporation | Homograph filter for speech synthesis system |
US6640006B2 (en) * | 1998-02-13 | 2003-10-28 | Microsoft Corporation | Word segmentation in chinese text |
US6076060A (en) * | 1998-05-01 | 2000-06-13 | Compaq Computer Corporation | Computer method and apparatus for translating text to sound |
US6078885A (en) * | 1998-05-08 | 2000-06-20 | At&T Corp | Verbal, fully automatic dictionary updates by end-users of speech synthesis and recognition systems |
US6185530B1 (en) * | 1998-08-14 | 2001-02-06 | International Business Machines Corporation | Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system |
US6233553B1 (en) * | 1998-09-04 | 2001-05-15 | Matsushita Electric Industrial Co., Ltd. | Method and system for automatically determining phonetic transcriptions associated with spelled words |
US6587822B2 (en) * | 1998-10-06 | 2003-07-01 | Lucent Technologies Inc. | Web-based platform for interactive voice response (IVR) |
US6233718B1 (en) * | 1998-10-19 | 2001-05-15 | Dolby Laboratories Licensing Corporation | Avoiding forbidden data patterns in coded audio data |
US6731802B1 (en) * | 2000-01-14 | 2004-05-04 | Microsoft Corporation | Lattice and method for identifying and normalizing orthographic variations in Japanese text |
US7280964B2 (en) * | 2000-04-21 | 2007-10-09 | Lessac Technologies, Inc. | Method of recognizing spoken language with recognition of language color |
US7124080B2 (en) * | 2001-11-13 | 2006-10-17 | Microsoft Corporation | Method and apparatus for adapting a class entity dictionary used with language models |
US7496498B2 (en) * | 2003-03-24 | 2009-02-24 | Microsoft Corporation | Front-end architecture for a multi-lingual text-to-speech system |
US7580827B1 (en) * | 2003-12-31 | 2009-08-25 | Google Inc. | Semantic unit recognition |
US7437290B2 (en) * | 2004-10-28 | 2008-10-14 | Microsoft Corporation | Automatic censorship of audio data for broadcast |
-
2005
- 2005-08-24 JP JP2005242492A patent/JP2007058509A/ja not_active Abandoned
-
2006
- 2006-08-24 CN CN2006101256010A patent/CN1920812B/zh not_active Expired - Fee Related
- 2006-08-24 US US11/508,841 patent/US7917352B2/en not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61264472A (ja) * | 1985-05-20 | 1986-11-22 | Toshiba Corp | 文書作成装置 |
JPH0567072A (ja) * | 1991-09-09 | 1993-03-19 | Canon Inc | 文字処理装置 |
JPH08185197A (ja) * | 1994-12-28 | 1996-07-16 | Fujitsu Ltd | 日本語解析装置、及び日本語テキスト音声合成装置 |
JP2000194389A (ja) * | 1998-12-25 | 2000-07-14 | Matsushita Electric Ind Co Ltd | 情報処理装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014092838A (ja) * | 2012-11-01 | 2014-05-19 | Nec Corp | 形態素解析装置、形態素解析プログラム、及び、形態素解析方法 |
JP2015191317A (ja) * | 2014-03-27 | 2015-11-02 | Kddi株式会社 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
JP2015194801A (ja) * | 2014-03-31 | 2015-11-05 | Kddi株式会社 | 辞書装置、形態素解析装置、データ構造ならびに形態素解析の方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US7917352B2 (en) | 2011-03-29 |
CN1920812A (zh) | 2007-02-28 |
US20070055496A1 (en) | 2007-03-08 |
CN1920812B (zh) | 2011-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4058071B2 (ja) | 用例翻訳装置、用例翻訳方法および用例翻訳プログラム | |
KR101265263B1 (ko) | 발음 기호를 이용한 문자열 매칭 방법 및 시스템과 그방법을 기록한 컴퓨터 판독 가능한 기록매체 | |
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
US7917352B2 (en) | Language processing system | |
JP5172682B2 (ja) | 音素のnグラムを使用した単語および名前の生成 | |
US20070100619A1 (en) | Key usage and text marking in the context of a combined predictive text and speech recognition system | |
JP2007094086A (ja) | 入力装置、入力方法および入力プログラム | |
JP4502615B2 (ja) | 類似文検索装置、類似文検索方法、およびプログラム | |
JP4859101B2 (ja) | テキストに付与する発音情報の編集を支援するシステム | |
JP2001229180A (ja) | コンテンツ検索装置 | |
JP5342760B2 (ja) | 訳語学習のためのデータを作成する装置、方法、およびプログラム | |
JP2013069228A (ja) | 情報処理装置、情報処理方法およびプログラム | |
JP5248121B2 (ja) | 愛称を推定する装置、方法およびプログラム | |
JP2002221981A (ja) | 音声合成装置および音声合成方法 | |
JP6619932B2 (ja) | 形態素解析装置およびプログラム | |
JP6168422B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP4304146B2 (ja) | 辞書登録装置、辞書登録方法および辞書登録プログラム | |
WO2024189934A1 (ja) | 情報処理システム、情報処理装置、情報処理方法、およびプログラム | |
JP2001109740A (ja) | 中国語文書作成装置及び中国語文書作成方法 | |
JP4765274B2 (ja) | 音声合成装置及び音声合成方法 | |
JP2019008477A (ja) | 判別プログラム、判別装置及び判別方法 | |
JP2006098552A (ja) | 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法 | |
JP2012027729A (ja) | 検索装置、検索方法及びプログラム | |
JP5742454B2 (ja) | 入力支援プログラム、入力支援装置、及び入力支援方法 | |
JP2004294639A (ja) | 音声合成用テキスト解析装置および音声合成装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080716 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110927 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120327 |
|
A762 | Written abandonment of application |
Free format text: JAPANESE INTERMEDIATE CODE: A762 Effective date: 20120412 |