JP4446313B2 - 音声処理用の辞書に登録するべき新規語句を検索する技術 - Google Patents
音声処理用の辞書に登録するべき新規語句を検索する技術 Download PDFInfo
- Publication number
- JP4446313B2 JP4446313B2 JP2006338454A JP2006338454A JP4446313B2 JP 4446313 B2 JP4446313 B2 JP 4446313B2 JP 2006338454 A JP2006338454 A JP 2006338454A JP 2006338454 A JP2006338454 A JP 2006338454A JP 4446313 B2 JP4446313 B2 JP 4446313B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- word
- words
- combination
- division
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Description
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
このように、語句結合部220によれば、本来ひと続きの語句とするべきだが複数の語句に分割されている語句群を1つの語句群として判断することができる。
15 分割候補データ
60 分割装置
100 分割候補生成部
110 合計算出部
120 検索部
130 分割学習部
200 情報量算出部
210 メモリ
220 語句結合部
230 語句分割部
600 分割部
610 記憶部
800 情報処理装置
Claims (8)
- 入力されるテキストを複数の語句に分割する分割装置が有する辞書に新たに登録すべき語句である新規語句を検索するシステムであって、
学習用テキストを前記分割装置に入力して語句に分割させることにより、それぞれが前記学習用テキストの分割結果として互いに組合せの異なる語句を含む複数の分割候補のそれぞれを、分割結果の確信度に対応付けて生成する分割候補生成部と、
語句毎に、当該語句を含むそれぞれの前記分割候補に対応する前記確信度を合計することにより、当該語句が前記新規語句であることの尤度を算出する合計算出部と、
少なくとも何れか1つの前記分割候補に含まれる語句の組合せのうち、その組合せに属する語句によって前記学習用テキスト全体を表記できる範囲内で、その組合せに属する各語句が対応する前記尤度に応じた頻度で前記学習用テキストに出現するとみなした場合の語句の情報エントロピーを最小化する組合せを検索して、前記新規語句を含む語句の組合せとして出力する検索部と
を備えるシステム。 - 前記検索部は、
それぞれの語句が当該語句に対応する前記尤度に応じた頻度で前記学習用テキストに出現するとみなした場合の当該語句の情報量を算出する情報量算出部と、
少なくとも何れか1つの前記分割候補に含まれる語句のうち、第1語句について算出した第1の前記情報量よりも、前記第1語句を示す文字列を含む第2語句の情報量である第2の前記情報量が小さいことを条件に、前記新規語句を含む語句の組合せから前記第1語句を除外して前記第2語句を追加する語句結合部と、
少なくとも何れか1つの前記分割候補に含まれる語句のうち、第3語句について算出した第3の前記情報量、および、第4語句について算出した第4の前記情報量の合計が、第3語句を示す文字列および第4語句を示す文字列を連結した第5語句について算出した第5の前記情報量よりも小さいことを条件に、前記新規語句を含む語句の組合せから前記第5語句を除外して前記第3語句および前記第4語句を追加する語句分割部と
を有する請求項1に記載のシステム。 - 前記検索部は、前記新規語句を含む語句の組合せから除外または追加するべき語句が、少なくとも何れか1つの前記分割候補に含まれる語句の中から検索されなくなるまで、前記語句結合部および前記語句分割部による処理を交互に繰り返させ、除外または追加するべき語句が検索されなくなったことを条件に、前記新規語句を含む語句の組合せを出力する請求項2に記載のシステム。
- 前記情報量算出部は、各語句について算出した情報量をメモリに記憶し、さらに、
前記語句結合部により前記第1語句が除外されて前記第2語句が追加されたことを条件に、前記第2語句の尤度を、前記第1語句の尤度および前記第2語句の尤度の合計であるとみなして、前記第2語句の情報量を算出して、メモリに記憶している前記第2の情報量を更新し、さらに、
前記語句分割部により第5語句が除外され前記第3語句および前記第4語句が追加されたことを条件に、前記第3語句の尤度を、前記第3語句の尤度および前記第5語句の尤度の合計であるとみなし、前記第4語句の尤度を、前記第4語句の尤度および前記第5語句の尤度の合計であるとみなして、前記第3語句および前記第4語句の情報量を算出して、メモリに記憶している前記第3および前記第4の情報量を更新し、
前記語句結合部および前記語句分割部は、メモリに記憶された、更新された前記情報量を用いて、語句を追加または除外するべきか否かを判断する
請求項3に記載のシステム。 - 前記分割装置は、語句毎に、当該語句と連続して表記される他のそれぞれの語句について、当該語句と当該他の語句とが連続して表記される頻度を示す指標値を記憶している記憶部を有し、当該指標値に基づいて複数の前記分割候補を生成するものであり、
前記検索部により検索された、前記新規語句を含む語句の組合せに含まれる語句について、当該語句が前記記憶部に既に記憶されている場合には当該語句に対応する前記指標値を増加させ、当該語句が前記記憶部に記憶されていない場合には当該語句を前記記憶部に新たに登録する分割学習部を更に備える請求項1又は2に記載のシステム。 - 前記検索部は、少なくとも何れか1つの前記分割候補に含まれる語句の組合せのうち、前記情報エントロピーの値と、その組合せに属する語句の数に応じて増加する予め定められた指標の指標値との合計を最小化する語句の組合せを検索する
請求項1又は2に記載のシステム。 - 入力されるテキストを複数の語句に分割する分割装置が有する辞書に新たに登録すべき語句である新規語句を検索する方法であって、
学習用テキストを前記分割装置に入力して語句に分割させることにより、それぞれが前記学習用テキストの分割結果として互いに組合せの異なる語句を含む複数の分割候補のそれぞれを、分割結果の確信度に対応付けて生成することと、
語句毎に、当該語句を含むそれぞれの分割候補に対応する前記確信度を合計することにより、当該語句が前記新規語句であることの尤度を算出することと、
少なくとも何れか1つの前記分割候補に含まれる語句の組合せのうち、その組合せに属する語句によって前記学習用テキスト全体を表記できる範囲内で、その組合せに属する各語句が対応する前記尤度に応じた頻度で前記学習用テキストに出現するとみなした場合の語句の情報エントロピーを最小化する組合せを検索して、前記新規語句を含む語句の組合せとして出力することと、
を備える方法。 - 入力されるテキストを複数の語句に分割する分割装置が有する辞書に新たに登録すべき語句である新規語句を検索するシステムとして、情報処理装置を機能させるプログラムであって、
前記情報処理装置を、
学習用テキストを前記分割装置に入力して語句に分割させることにより、それぞれが前記学習用テキストの分割結果として互いに組合せの異なる語句を含む複数の分割候補のそれぞれを、分割結果の確信度に対応付けて生成する分割候補生成部と、
語句毎に、当該語句を含むそれぞれの分割候補に対応する前記確信度を合計することにより、当該語句が前記新規語句であることの尤度を算出する合計算出部と、
少なくとも何れか1つの前記分割候補に含まれる語句の組合せのうち、その組合せに属する語句によって前記学習用テキスト全体を表記できる範囲内で、その組合せに属する各語句が対応する前記尤度に応じた頻度で前記学習用テキストに出現するとみなした場合の語句の情報エントロピーを最小化する組合せを検索して、前記新規語句を含む語句の組合せとして出力する検索部と
して機能させるプログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006338454A JP4446313B2 (ja) | 2006-12-15 | 2006-12-15 | 音声処理用の辞書に登録するべき新規語句を検索する技術 |
US11/956,574 US8140332B2 (en) | 2006-12-15 | 2007-12-14 | Technique for searching out new words that should be registered in dictionary for speech processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006338454A JP4446313B2 (ja) | 2006-12-15 | 2006-12-15 | 音声処理用の辞書に登録するべき新規語句を検索する技術 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008151926A JP2008151926A (ja) | 2008-07-03 |
JP4446313B2 true JP4446313B2 (ja) | 2010-04-07 |
Family
ID=39585190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006338454A Expired - Fee Related JP4446313B2 (ja) | 2006-12-15 | 2006-12-15 | 音声処理用の辞書に登録するべき新規語句を検索する技術 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8140332B2 (ja) |
JP (1) | JP4446313B2 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101454826A (zh) * | 2006-05-31 | 2009-06-10 | 日本电气株式会社 | 语音识别词典/语言模型制作系统、方法、程序,以及语音识别系统 |
JP4985689B2 (ja) * | 2009-03-30 | 2012-07-25 | ブラザー工業株式会社 | 印刷装置 |
US9275640B2 (en) * | 2009-11-24 | 2016-03-01 | Nexidia Inc. | Augmented characterization for speech recognition |
US8965751B2 (en) * | 2010-11-01 | 2015-02-24 | Microsoft Corporation | Providing multi-lingual translation for third party content feed applications |
JP2013072974A (ja) * | 2011-09-27 | 2013-04-22 | Toshiba Corp | 音声認識装置、方法及びプログラム |
US20150220632A1 (en) * | 2012-09-27 | 2015-08-06 | Nec Corporation | Dictionary creation device for monitoring text information, dictionary creation method for monitoring text information, and dictionary creation program for monitoring text information |
CN103020022B (zh) * | 2012-11-20 | 2016-01-27 | 北京航空航天大学 | 一种基于改进信息熵特征的中文未登录词识别系统及方法 |
CN103593427A (zh) * | 2013-11-07 | 2014-02-19 | 清华大学 | 新词搜索方法及系统 |
CN105095322A (zh) * | 2014-05-23 | 2015-11-25 | 富士通株式会社 | 人名单元词典扩充方法、人名语言识别方法和装置 |
KR102413693B1 (ko) * | 2015-07-23 | 2022-06-27 | 삼성전자주식회사 | 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법 |
US10140983B2 (en) * | 2015-08-28 | 2018-11-27 | International Business Machines Corporation | Building of n-gram language model for automatic speech recognition (ASR) |
CN106815195A (zh) * | 2015-11-27 | 2017-06-09 | 方正国际软件(北京)有限公司 | 一种分词方法及装置、检索方法及装置 |
CN107092588B (zh) * | 2016-02-18 | 2022-09-09 | 腾讯科技(深圳)有限公司 | 一种文本信息处理方法、装置和系统 |
JP6722483B2 (ja) * | 2016-03-23 | 2020-07-15 | クラリオン株式会社 | サーバ装置、情報システム、車載装置 |
CN107391504B (zh) * | 2016-05-16 | 2021-01-29 | 华为技术有限公司 | 新词识别方法与装置 |
US9594741B1 (en) * | 2016-06-12 | 2017-03-14 | Apple Inc. | Learning new words |
CN108073566B (zh) * | 2016-11-16 | 2022-01-18 | 北京搜狗科技发展有限公司 | 分词方法和装置、用于分词的装置 |
US9959272B1 (en) * | 2017-07-21 | 2018-05-01 | Memsource a.s. | Automatic classification and translation of written segments |
US10607604B2 (en) * | 2017-10-27 | 2020-03-31 | International Business Machines Corporation | Method for re-aligning corpus and improving the consistency |
US11003854B2 (en) * | 2018-10-30 | 2021-05-11 | International Business Machines Corporation | Adjusting an operation of a system based on a modified lexical analysis model for a document |
US11074317B2 (en) | 2018-11-07 | 2021-07-27 | Samsung Electronics Co., Ltd. | System and method for cached convolution calculation |
CN111597297A (zh) * | 2019-02-21 | 2020-08-28 | 北京京东尚科信息技术有限公司 | 物品召回方法、系统、电子设备及可读存储介质 |
CN110069780B (zh) * | 2019-04-19 | 2021-11-19 | 中译语通科技股份有限公司 | 一种基于特定领域文本的情感词识别方法 |
CN110969009B (zh) * | 2019-12-03 | 2023-10-13 | 哈尔滨工程大学 | 一种汉语自然语言文本的词语切分方法 |
CN111476025B (zh) * | 2020-02-28 | 2021-01-08 | 开普云信息科技股份有限公司 | 一种面向政府领域新词自动发现的实现方法、分析模型及其系统 |
US11222165B1 (en) * | 2020-08-18 | 2022-01-11 | International Business Machines Corporation | Sliding window to detect entities in corpus using natural language processing |
CN112185390B (zh) * | 2020-09-27 | 2023-10-03 | 中国商用飞机有限责任公司北京民用飞机技术研究中心 | 机上信息辅助方法及装置 |
EP4044179B1 (en) * | 2020-09-27 | 2024-11-13 | Comac Beijing Aircraft Technology Research Institute | On-board information assisting system and method |
CN112966501B (zh) * | 2021-02-22 | 2023-04-11 | 广州寄锦教育科技有限公司 | 一种新词发现方法、系统、终端及介质 |
JP7632110B2 (ja) | 2021-06-18 | 2025-02-19 | トヨタ自動車株式会社 | パターン更新装置、パターン更新方法、及びパターン更新プログラム |
JP2023101113A (ja) * | 2022-01-07 | 2023-07-20 | オムロン株式会社 | 文字入力装置、文字入力方法、および、文字入力プログラム |
CN114970525B (zh) * | 2022-06-14 | 2023-06-27 | 城云科技(中国)有限公司 | 一种文本同事件识别方法、装置及可读存储介质 |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01234975A (ja) * | 1988-03-11 | 1989-09-20 | Internatl Business Mach Corp <Ibm> | 日本語文章分割装置 |
US5867812A (en) * | 1992-08-14 | 1999-02-02 | Fujitsu Limited | Registration apparatus for compound-word dictionary |
JP2741575B2 (ja) * | 1994-09-22 | 1998-04-22 | 日本アイ・ビー・エム株式会社 | 文字認識文字補完方法及びコンピュータ・システム |
CN1193779A (zh) * | 1997-03-13 | 1998-09-23 | 国际商业机器公司 | 中文语句分词方法及其在中文查错系统中的应用 |
JPH1153384A (ja) * | 1997-08-05 | 1999-02-26 | Mitsubishi Electric Corp | キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体 |
JP3836607B2 (ja) | 1998-09-02 | 2006-10-25 | 日本放送協会 | 音声認識のための統計的言語モデル作成装置 |
WO2000033211A2 (en) * | 1998-11-30 | 2000-06-08 | Koninklijke Philips Electronics N.V. | Automatic segmentation of a text |
US6363342B2 (en) * | 1998-12-18 | 2002-03-26 | Matsushita Electric Industrial Co., Ltd. | System for developing word-pronunciation pairs |
WO2000062193A1 (en) * | 1999-04-08 | 2000-10-19 | Kent Ridge Digital Labs | System for chinese tokenization and named entity recognition |
US6626960B1 (en) * | 1999-09-01 | 2003-09-30 | International Business Machines Corporation | Method, system, and program for generating a table to determine boundaries between characters |
US7050977B1 (en) * | 1999-11-12 | 2006-05-23 | Phoenix Solutions, Inc. | Speech-enabled server for internet website and method |
US6678409B1 (en) * | 2000-01-14 | 2004-01-13 | Microsoft Corporation | Parameterized word segmentation of unsegmented text |
US6772120B1 (en) * | 2000-11-21 | 2004-08-03 | Hewlett-Packard Development Company, L.P. | Computer method and apparatus for segmenting text streams |
US6973427B2 (en) * | 2000-12-26 | 2005-12-06 | Microsoft Corporation | Method for adding phonetic descriptions to a speech recognition lexicon |
US7610189B2 (en) * | 2001-10-18 | 2009-10-27 | Nuance Communications, Inc. | Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal |
US7124080B2 (en) * | 2001-11-13 | 2006-10-17 | Microsoft Corporation | Method and apparatus for adapting a class entity dictionary used with language models |
US7092883B1 (en) * | 2002-03-29 | 2006-08-15 | At&T | Generating confidence scores from word lattices |
US7107207B2 (en) * | 2002-06-19 | 2006-09-12 | Microsoft Corporation | Training machine learning by sequential conditional generalized iterative scaling |
US7158930B2 (en) * | 2002-08-15 | 2007-01-02 | Microsoft Corporation | Method and apparatus for expanding dictionaries during parsing |
JP4226942B2 (ja) | 2003-04-07 | 2009-02-18 | 日本電信電話株式会社 | アクセント位置推定方法、装置およびプログラム |
US7555428B1 (en) * | 2003-08-21 | 2009-06-30 | Google Inc. | System and method for identifying compounds through iterative analysis |
US7447627B2 (en) * | 2003-10-23 | 2008-11-04 | Microsoft Corporation | Compound word breaker and spell checker |
US7421386B2 (en) * | 2003-10-23 | 2008-09-02 | Microsoft Corporation | Full-form lexicon with tagged data and methods of constructing and using the same |
US7533019B1 (en) * | 2003-12-23 | 2009-05-12 | At&T Intellectual Property Ii, L.P. | System and method for unsupervised and active learning for automatic speech recognition |
US7627567B2 (en) * | 2004-04-14 | 2009-12-01 | Microsoft Corporation | Segmentation of strings into structured records |
US7464024B2 (en) * | 2004-04-16 | 2008-12-09 | International Business Machines Corporation | Chinese character-based parser |
US7783476B2 (en) * | 2004-05-05 | 2010-08-24 | Microsoft Corporation | Word extraction method and system for use in word-breaking using statistical information |
JP4758758B2 (ja) | 2005-12-26 | 2011-08-31 | 日本放送協会 | 辞書作成装置および辞書作成プログラム |
-
2006
- 2006-12-15 JP JP2006338454A patent/JP4446313B2/ja not_active Expired - Fee Related
-
2007
- 2007-12-14 US US11/956,574 patent/US8140332B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20080162118A1 (en) | 2008-07-03 |
JP2008151926A (ja) | 2008-07-03 |
US8140332B2 (en) | 2012-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4446313B2 (ja) | 音声処理用の辞書に登録するべき新規語句を検索する技術 | |
US8065149B2 (en) | Unsupervised lexicon acquisition from speech and text | |
CN110033760B (zh) | 语音识别的建模方法、装置及设备 | |
CN109887497B (zh) | 语音识别的建模方法、装置及设备 | |
CN108492820B (zh) | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 | |
Schuster et al. | Japanese and korean voice search | |
Toselli et al. | HMM word graph based keyword spotting in handwritten document images | |
CN108268447B (zh) | 一种藏文命名实体的标注方法 | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
US6311152B1 (en) | System for chinese tokenization and named entity recognition | |
US8751235B2 (en) | Annotating phonemes and accents for text-to-speech system | |
US9223779B2 (en) | Text segmentation with multiple granularity levels | |
WO2020001458A1 (zh) | 语音识别方法、装置及系统 | |
CN102725790B (zh) | 识别词典制作装置及声音识别装置 | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US8954333B2 (en) | Apparatus, method, and computer program product for processing input speech | |
CN105404621B (zh) | 一种用于盲人读取汉字的方法及系统 | |
CN107451115B (zh) | 端到端的汉语韵律层级结构预测模型的构建方法及系统 | |
CN117935785A (zh) | 用于在端到端模型中跨语言语音识别的基于音素的场境化 | |
CN101432801A (zh) | 语音识别词典制作支持系统、语音识别词典制作支持方法以及语音识别词典制作支持用程序 | |
CN104239289B (zh) | 音节划分方法和音节划分设备 | |
JP2004280574A (ja) | 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体 | |
KR20230009564A (ko) | 앙상블 스코어를 이용한 학습 데이터 교정 방법 및 그 장치 | |
CN114548075A (zh) | 文本处理方法、文本处理装置、存储介质与电子设备 | |
CN113362809B (zh) | 语音识别方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090430 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20090430 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20090820 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090901 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091006 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100105 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20100106 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100112 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130129 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |