JP4961755B2 - 単語アライメント装置、単語アライメント方法、単語アライメントプログラム - Google Patents
単語アライメント装置、単語アライメント方法、単語アライメントプログラム Download PDFInfo
- Publication number
- JP4961755B2 JP4961755B2 JP2006014468A JP2006014468A JP4961755B2 JP 4961755 B2 JP4961755 B2 JP 4961755B2 JP 2006014468 A JP2006014468 A JP 2006014468A JP 2006014468 A JP2006014468 A JP 2006014468A JP 4961755 B2 JP4961755 B2 JP 4961755B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- alignment
- language
- words
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
アライメント算出手段は、単語対訳辞書を参照して第1言語と第2言語の単語間の意味上の類似度を求める。
アライメント算出手段は、さらに、コーパスの統計情報を参照して第1言語および第2言語の単語間の相関度を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する。
相関度Ass(c,j)は、次式により算出される。
最適化手段は、アライメント算出手段により求められた類似度および相関度の少なくとも一方の値を重み付き2部グラフマッチングによりアライメントを最適化する。
最適化手段は、最大最小重みマッチングにより単語間のアライメントの最適化を図る。
単語抽出手段は、例文および訳文を形態素解析し、例文および訳文から単語を抽出する。
単語アライメント装置はさらに、最適化された単語間のアライメントを記憶する記憶手段を含む。
単語アライメント装置において、アライメントすべき単語は、予め例文対訳辞書に格納された例文と当該例文の訳文を用いることができる。例文対訳辞書に含まれる例文と訳文の単語アライメントを実施し、そのアライメントを記憶しておくことで、新たな未登録の例文が入力されたとき、単語対訳辞書を利用して、自動的に訳文を生成する学習機能を与えることが可能になる。
(a)辞書類似度SimD:例文CSの任意の単語c、単語対訳辞書の中にcの訳語の集合をDTcとする。訳文JSの任意の単語jに対して、もし、j∈DTc、ならばSimD(c,j)=1とする。言い換えれば、例文の単語cの訳語が単語対訳辞書にあれば、SimDは「1」であり、存在しなければSimDは「0」である。
(b)形状類似度SimM:例文CSのSim(c,j)≠1の各単語cについて、訳文JSのSim(w,j)≠1の任意の単語に対して、次の数式(1)で信用度を計算する。ここで、例文は中国語、訳文は日本語の場合(或いは、例文は日本語、訳文は中国語の場合)、訳文JSに日本語の漢字を含み、かつ対応している中国語の簡体字があれば、その漢字を中国語の簡体字に変換してから、SimM(c,j)を計算する。勿論、中国語の漢字を日本語の漢字に変換してから、SimM(c,j)を計算してもよい。また,繁体字の中国語に対しても同じ方法で処理する。
相澤彰子、影浦峡、“著者キーワード中での共起に基づく専門用語間の関連度計算法”,信学論(D-I), Vol.J83-D-I, No.11, pp.1154-1162, 2000.
H. Schütze, “Ambiguity Resolution in Language Learning: Computational and Cognitive Models . California “, PhD thesis, Stanford University, Department of Linguistics, 1995.
小嶋秀樹・古郡廷治 : 単語の意味的な類似度の計算, 電子情報通信学会 技術研究報告, AI92-100, pp.81-88, 1993.
小嶋秀樹・伊藤昭 : 文脈依存的に単語間の意味距離を計算する一手法, 情報処理学会論文誌,Vol.38,No.3,pp.481-489, 1997.
例文CSのSim(c,j)≠1の各単語cについて、訳文JSのSim(w,j)≠1の任意の単語jに対して、単語と訳語間の相関度Assを計算する。相関度Assは、例えば、X2相関度(ガオの2乗方法)、Dice(ダイス)係数相関度、相互情報量、T-scoreなどを使用することができる。勿論、他の公開された任意の相関度を使用してもよい。
104:出力部 106:前処理部
108:例文対訳辞書 110:コーパス前処理部
112:単語対訳辞書 114:類似度計算部
116:コーパスインデックス表 118:相関度計算部
120:2部グラフベースアライメント部
130:入力装置 132:表示装置
134:主記憶装置 136:記憶装置
138:CPU
Claims (23)
- 第1言語の例文と当該例文の対訳である第2言語の訳文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置であって、
例文および訳文から少なくともそれぞれの単語を抽出する単語抽出手段と、
第1言語および第2言語の単語間の形状の類似度の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出するアライメント算出手段と、
2部グラフマッチングにより前記アライメントの最適化を図る最適化手段と、
を有する単語アライメント装置。 - アライメント算出手段は、さらに、第1言語と第2言語の単語間の意味上の類似度、および品詞の類似度の少なくとも一方の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する、請求項1に記載の単語アライメント装置。
- アライメント算出手段は、単語対訳辞書を参照して第1言語と第2言語の単語間の意味上の類似度を求める、請求項2に記載の単語アライメント装置。
- アライメント算出手段は、さらに、コーパスの統計情報を参照して第1言語および第2言語の単語間の相関度を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する、請求項1から3のいずれか1項に記載の単語アライメント装置。
- 最適化手段は、アライメント算出手段により求められた類似度および相関度の少なくとも一方の値を重み付き2部グラフマッチングによりアライメントを最適化する、請求項4又は5に記載の単語アライメント装置。
- 最適化手段は、最大最小重みマッチングにより単語間のアライメントの最適化を図る、請求項6に記載の単語アライメント装置。
- 最適化手段は、単語間の類似度および/または相関度の少なくとも一方の値が一定の閾値よりも高い場合には、それらの単語間のアライメントを固定し、残りの単語間のアライメントの最適化を行う、請求項4ないし7のいずれか1つに記載の単語アライメント装置。
- 前記単語抽出手段は、例文および訳文を形態素解析し、例文および訳文から単語を抽出する、請求項1から8のいずれか1項に記載の単語アライメント装置。
- 例文とその対訳は例文対訳辞書に格納されている、請求項1から9のいずれか1項に記載の単語アライメント装置。
- 単語アライメント装置はさらに、最適化された単語間のアライメントを記憶する記憶手段を含む、請求項1から10のいずれか1項に記載の単語アライメント装置。
- 第1言語の例文と当該例文の対訳である第2言語の訳文のそれぞれの単語間のアライメントをCPUが行う単語アライメント方法であって、
例文および訳文から少なくともそれぞれの単語をCPUが抽出する第1のステップと、
第1言語および第2言語の単語間の形状の類似度の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントをCPUが算出する第2のステップと、
2部グラフマッチングにより前記アライメントの最適化をCPUが図る第3のステップと、
を有する単語アライメント方法。 - 第2のステップは、さらに、第1言語と第2言語の単語間の意味上の類似度、および品詞の類似度の少なくとも一方の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する、請求項12に記載の単語アライメント方法。
- 第2のステップは、単語対訳辞書を参照して第1言語と第2言語の単語間の意味上の類似度を求める、請求項13に記載の単語アライメント方法。
- 第2のステップは、さらに、コーパスの統計情報を参照して第1言語および第2言語の単語間の相関度を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する、請求項12から14のいずれか1項に記載の単語アライメント方法。
- 第3のステップは、第2のステップにより求められた少なくとも類似度および相関度の一方の値を重み付き2部グラフマッチングによりアライメントを最適化する、請求項15又は16に記載の単語アライメント方法。
- 第3のステップは、最大最小重みマッチングにより単語間のアライメントを求める、請求項17に記載の単語アライメント方法。
- 第3のステップは、単語間の類似度および/または相関度の少なくとも一方の値が一定の閾値よりも高い場合には、それらの単語間のアライメントを固定し、残りの単語間のアライメントの最適化を行う、請求項15から18のいずれか1項に記載の単語アライメント方法。
- 第1のステップは、例文対訳辞書に格納された例文とその訳文を抽出する、請求項12から19のいずれか1項に記載の単語アライメント方法。
- 第1のステップは、例文および訳文を形態素解析し、単語を抽出する、請求項12から20のいずれか1項に記載の単語アライメント方法。
- 最適化された単語間のアライメントを格納する第4のステップを含む、請求項12から21のいずれか1項に記載の単語アライメント方法。
- 第1言語の例文と当該例文の対訳である第2言語の訳文のそれぞれの単語間のアライメントをCPUに実行させるための単語アライメントプログラムであって、
前記CPUに、
例文および訳文から少なくともそれぞれの単語を抽出する第1のステップと、
第1言語および第2言語の単語間の形状の類似度の値を求め、求められた値に基づき第1言語および第2言語の単語間のアライメントを算出する第2のステップと、
2部グラフマッチングにより前記アライメントの最適化を図る第3のステップと、
を実行させるための単語アライメントプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006014468A JP4961755B2 (ja) | 2006-01-23 | 2006-01-23 | 単語アライメント装置、単語アライメント方法、単語アライメントプログラム |
US11/492,951 US8069027B2 (en) | 2006-01-23 | 2006-07-26 | Word alignment apparatus, method, and program product, and example sentence bilingual dictionary |
CNA2006101514671A CN101008943A (zh) | 2006-01-23 | 2006-09-08 | 词语对齐设备、方法、程序产品和例句双语词典 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006014468A JP4961755B2 (ja) | 2006-01-23 | 2006-01-23 | 単語アライメント装置、単語アライメント方法、単語アライメントプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007199793A JP2007199793A (ja) | 2007-08-09 |
JP4961755B2 true JP4961755B2 (ja) | 2012-06-27 |
Family
ID=38286590
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006014468A Expired - Fee Related JP4961755B2 (ja) | 2006-01-23 | 2006-01-23 | 単語アライメント装置、単語アライメント方法、単語アライメントプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8069027B2 (ja) |
JP (1) | JP4961755B2 (ja) |
CN (1) | CN101008943A (ja) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5280642B2 (ja) * | 2007-04-23 | 2013-09-04 | 株式会社船井電機新応用技術研究所 | 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法 |
JP2008305167A (ja) * | 2007-06-07 | 2008-12-18 | Toshiba Corp | 原言語文を目的言語文に機械翻訳する装置、方法およびプログラム |
JP4939347B2 (ja) * | 2007-09-05 | 2012-05-23 | 日本放送協会 | 対訳表現アラインメント装置およびそのプログラム |
JP2009205357A (ja) * | 2008-02-27 | 2009-09-10 | Toshiba Corp | 中国語の品詞を判定する装置、方法およびプログラム |
JP5341375B2 (ja) * | 2008-03-14 | 2013-11-13 | 日本放送協会 | 対訳表現処理装置およびプログラム |
JP5386855B2 (ja) * | 2008-05-30 | 2014-01-15 | 富士ゼロックス株式会社 | 翻訳メモリ翻訳装置および翻訳プログラム |
CN101630313A (zh) * | 2008-07-18 | 2010-01-20 | 富士施乐株式会社 | 单词对齐装置、例句对译词典及单词对齐方法 |
US8812304B2 (en) * | 2008-08-12 | 2014-08-19 | Abbyy Infopoisk Llc | Method and system for downloading additional search results into electronic dictionaries |
US8631044B2 (en) * | 2008-12-12 | 2014-01-14 | The Trustees Of Columbia University In The City Of New York | Machine optimization devices, methods, and systems |
JP5298833B2 (ja) * | 2008-12-23 | 2013-09-25 | 富士ゼロックス株式会社 | 翻訳装置及び翻訳プログラム |
US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
US8463806B2 (en) | 2009-01-30 | 2013-06-11 | Lexisnexis | Methods and systems for creating and using an adaptive thesaurus |
US8280718B2 (en) * | 2009-03-16 | 2012-10-02 | Xerox Corporation | Method to preserve the place of parentheses and tags in statistical machine translation systems |
JP5257189B2 (ja) * | 2009-03-25 | 2013-08-07 | 富士通株式会社 | 検索結果出力プログラム、検索結果出力装置、および検索結果出力方法 |
JP5391867B2 (ja) * | 2009-06-26 | 2014-01-15 | 富士ゼロックス株式会社 | 翻訳装置及び翻訳プログラム |
TWI409646B (zh) * | 2009-10-14 | 2013-09-21 | Inst Information Industry | 詞彙翻譯系統、詞彙翻譯方式以及電腦可讀寫儲存媒體 |
EP4318463A3 (en) | 2009-12-23 | 2024-02-28 | Google LLC | Multi-modal input on an electronic device |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
CN102193936B (zh) * | 2010-03-09 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 一种数据分类的方法及装置 |
JP5555542B2 (ja) * | 2010-05-20 | 2014-07-23 | 日本電信電話株式会社 | 自動単語対応付け装置とその方法とプログラム |
CN102375839A (zh) * | 2010-08-17 | 2012-03-14 | 富士通株式会社 | 从候选数据集获取目标数据集的方法和装置以及翻译机器 |
CN102411583B (zh) * | 2010-09-20 | 2013-09-18 | 阿里巴巴集团控股有限公司 | 一种文本匹配方法及装置 |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
JP5747508B2 (ja) * | 2011-01-05 | 2015-07-15 | 富士ゼロックス株式会社 | 対訳情報検索装置、翻訳装置及びプログラム |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
JP5697202B2 (ja) * | 2011-03-08 | 2015-04-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 用語の対応を見出す方法、プログラム及びシステム |
CN102193915B (zh) * | 2011-06-03 | 2012-11-28 | 南京大学 | 一种计算机中译英翻译中基于分词网的词对齐融合方法 |
US8719003B1 (en) * | 2011-06-24 | 2014-05-06 | Google Inc. | Translation access |
JP2013073282A (ja) * | 2011-09-26 | 2013-04-22 | Fuji Xerox Co Ltd | 情報処理装置およびプログラム |
KR101449551B1 (ko) * | 2011-10-19 | 2014-10-14 | 한국전자통신연구원 | 유사문장 검색 장치 및 방법, 유사문장 검색 방법을 실행시키기 위한 프로그램이 기록된 기록매체 |
US8909516B2 (en) * | 2011-10-27 | 2014-12-09 | Microsoft Corporation | Functionality for normalizing linguistic items |
CN103425638A (zh) * | 2013-08-30 | 2013-12-04 | 清华大学 | 一种词语对齐方法及装置 |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
CN104699778B (zh) * | 2015-03-10 | 2017-09-01 | 东南大学 | 一种基于机器学习的跨语言分类结构匹配方法 |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
US9990361B2 (en) * | 2015-10-08 | 2018-06-05 | Facebook, Inc. | Language independent representations |
US10586168B2 (en) | 2015-10-08 | 2020-03-10 | Facebook, Inc. | Deep translations |
CN105677621B (zh) * | 2015-12-30 | 2018-08-17 | 语联网(武汉)信息技术有限公司 | 翻译错误的定位方法和装置 |
CN105786803B (zh) * | 2016-02-22 | 2018-12-18 | 广东小天才科技有限公司 | 翻译方法及翻译装置 |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
CN108345590B (zh) * | 2017-12-28 | 2022-05-31 | 北京搜狗科技发展有限公司 | 一种翻译方法、装置、电子设备以及存储介质 |
JP7247460B2 (ja) * | 2018-03-13 | 2023-03-29 | 富士通株式会社 | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム |
US11144735B2 (en) * | 2019-04-09 | 2021-10-12 | International Business Machines Corporation | Semantic concept scorer based on an ensemble of language translation models for question answer system |
JP7332486B2 (ja) * | 2020-01-08 | 2023-08-23 | 株式会社東芝 | 記号列変換装置および記号列変換方法 |
CN117131241B (zh) * | 2023-02-09 | 2024-05-24 | 荣耀终端有限公司 | 搜索对象推荐方法、电子设备及计算机可读存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3282789B2 (ja) | 1996-11-08 | 2002-05-20 | 日本電信電話株式会社 | 訳語対抽出装置 |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
JP4035111B2 (ja) | 2004-03-10 | 2008-01-16 | 日本放送協会 | 対訳語抽出装置、及び対訳語抽出プログラム |
US7200550B2 (en) * | 2004-11-04 | 2007-04-03 | Microsoft Corporation | Projecting dependencies to generate target language dependency structure |
-
2006
- 2006-01-23 JP JP2006014468A patent/JP4961755B2/ja not_active Expired - Fee Related
- 2006-07-26 US US11/492,951 patent/US8069027B2/en not_active Expired - Fee Related
- 2006-09-08 CN CNA2006101514671A patent/CN101008943A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2007199793A (ja) | 2007-08-09 |
CN101008943A (zh) | 2007-08-01 |
US20070174040A1 (en) | 2007-07-26 |
US8069027B2 (en) | 2011-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4961755B2 (ja) | 単語アライメント装置、単語アライメント方法、単語アライメントプログラム | |
Jiang et al. | Natural language processing and its applications in machine translation: a diachronic review | |
JP4404211B2 (ja) | マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム | |
KR101266361B1 (ko) | 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법 | |
Woodsend et al. | Text rewriting improves semantic role labeling | |
KR100918338B1 (ko) | 복수 언어의 대역 텍스트 입력에 의한 제 3 언어 텍스트 생성 방법, 장치 및 프로그램을 저장한 기록 매체 | |
Prabhakar et al. | Machine transliteration and transliterated text retrieval: a survey | |
Elsherif et al. | Perspectives of arabic machine translation | |
JP2020106880A (ja) | 情報処理装置、モデル作成方法及びプログラム | |
Lyons | A review of Thai–English machine translation | |
Lefever et al. | Identifying cognates in English-Dutch and French-Dutch by means of orthographic information and cross-lingual word embeddings | |
Saloot et al. | Toward tweets normalization using maximum entropy | |
JP5439776B2 (ja) | 単語アライメント装置及び単語アライメントプログラム | |
Gamal et al. | Survey of arabic machine translation, methodologies, progress, and challenges | |
CN111814433B (zh) | 一种维吾尔语实体识别的方法、装置和电子设备 | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
Rana et al. | Example based machine translation using fuzzy logic from English to Hindi | |
Malik et al. | Qualitative Analysis of Contemporary Urdu Machine Translation Systems. | |
Musaev et al. | Text processing technology in Uzbek speech to sign language translation systems | |
Joshi et al. | Empirical analysis of sentence embedding techniques for answer retrieval in marathi question answering | |
Vico et al. | Larth: Dataset and Machine Translation for Etruscan | |
Shaalan et al. | Automatic rule induction in Arabic to English machine translation framework | |
Wang et al. | Semantic Alignment of Malicious Question Based on Contrastive Semantic Networks and Data Augmentation | |
Rutkowski | Spelling Error Correction in Polish Texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081225 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110628 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110823 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120228 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120312 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150406 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |