JP5097802B2 - ローマ字変換を用いる日本語自動推薦システムおよび方法 - Google Patents
ローマ字変換を用いる日本語自動推薦システムおよび方法 Download PDFInfo
- Publication number
- JP5097802B2 JP5097802B2 JP2010141508A JP2010141508A JP5097802B2 JP 5097802 B2 JP5097802 B2 JP 5097802B2 JP 2010141508 A JP2010141508 A JP 2010141508A JP 2010141508 A JP2010141508 A JP 2010141508A JP 5097802 B2 JP5097802 B2 JP 5097802B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- japanese
- hiragana
- kanji
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title claims description 66
- 238000000034 method Methods 0.000 title claims description 43
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- WZSDNEJJUSYNSG-UHFFFAOYSA-N azocan-1-yl-(3,4,5-trimethoxyphenyl)methanone Chemical compound COC1=C(OC)C(OC)=CC(C(=O)N2CCCCCCC2)=C1 WZSDNEJJUSYNSG-UHFFFAOYSA-N 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/232—Orthographic correction, e.g. spell checking or vowelisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
- G06F40/56—Natural language generation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
長音:ハロワーク(誤字)、ハロ-ワ-ク(誤字)、ハローワーク(正解)
中点:ピートローズ(誤字)、ピート・ローズ(正解)
半濁音:オリゴン(誤字)、オリコン(正解)
促音:ビクカメラ(誤字)ビックカメラ(正解)
原型:花よりだんごファイナル(誤字)花より男子ファイナル(正解)
101:誤字判断部
102:漢字−ひらがな変換部
103:ローマ字変換部
104:類似語検索部
105:類似語推薦部
106:正解単語選択部
Claims (25)
- 日本語のひらがな形態またはカタカナ形態で表現される単語の発音をローマ字に変換するローマ字変換部と、
前記変換されたローマ字に基づいて前記単語に対する類似語を検索する類似語検索部と、
を含み、
前記類似語検索部は、前記ローマ字に変換された単語の類似度点数に基づいて前記単語に対する類似語を検索し、
前記類似度点数は、前記単語の長さに応じる入力頻度、前記単語が長音、中点、促音、または濁音を含むか否かによる編集距離、または前記単語の原型状態の比較程度のうちの少なくとも1つに基づいて決定されることを特徴とする日本語自動推薦システム。 - 前記類似語検索部は、前記単語が漢字である場合、ローマ字に変換された形態の比較結果、ひらがなに変換された形態の比較結果および漢字本来の形態の比較結果に基づいて類似度点数を決めることを特徴とする請求項1に記載の日本語自動推薦システム。
- 前記検索された類似語を前記ひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換して推薦する類似語推薦部をさらに含むことを特徴とする請求項1に記載の日本語自動推薦システム。
- 前記類似語推薦部は、(1)ローマ字に変換された状態の類似度とローマ字に変換されない状態の類似度との差が予め設定した基準を超える場合、または(2)前記単語が前記推薦される類似語よりもさらに多く用いられる場合に、前記類似語を推薦しないことを特徴とする請求項3に記載の日本語自動推薦システム。
- 前記類似語推薦部は、前記検索された類似語を前記単語の日本語形態と異なる形態に変換して推薦することを特徴とする請求項3に記載の日本語自動推薦システム。
- 入力された単語を分析して前記単語が誤字であるか否かを判断する誤字判断部をさらに含み、
前記ローマ字変換部は、前記入力された単語が誤字である場合、前記単語をローマ字に変換することを特徴とする請求項1に記載の日本語自動推薦システム。 - 前記誤字判断部は、前記単語が予め設定された誤字データに含まれるか否か、前記単語の入力頻度または文書出現の頻度が予め設定された基準頻度よりも低いか否か、または前記単語が形態素に分離するか否かに基づいて、前記単語が誤字であるか否かを判断することを特徴とする請求項6に記載の日本語自動推薦システム。
- 前記単語が誤字である場合、類似度点数または単語の入力頻度による編集距離に基づいて、前記検索された類似語のうちの前記単語に対する正解単語を選択する正解単語選択部をさらに含むことを特徴とする請求項6に記載の日本語自動推薦システム。
- 入力された単語が漢字である場合、トークン分割学習データを用いて前記単語をトークン別に分割し、漢字−ひらがな変換学習データを用いて前記分割されたトークンに対応するひらがなに変換する漢字−ひらがな変換部をさらに含むことを特徴とする請求項1に記載の日本語自動推薦システム。
- 前記トークン分割学習データは、前記漢字の形態素トークン別に分離するコーパスを用いて隠れマルコフモデル基盤の分かち書き学習によって決められることを特徴とする請求項9に記載の日本語自動推薦システム。
- 前記漢字−ひらがな変換学習データは、漢字の形態素トークン別に分離するコーパスに基づく学習によって決められるバイグラム辞書およびユニグラム辞書を含み、
前記バイグラム辞書は、トークンとの間の頻度数で構築され、
前記ユニグラム辞書は、トークンとひらがなとの間の頻度数で構築されることを特徴とする請求項9に記載の日本語自動推薦システム。 - 前記漢字−ひらがな変換部は、前記分割されたトークンに対してバイグラム辞書を検索して最大の確率を示すトークンを選択し、前記選択されたトークンに対してユニグラム辞書に対応するひらがなに変換することを特徴とする請求項11に記載の日本語自動推薦システム。
- コンピュータにより実行されるステップが、
日本語のひらがな形態またはカタカナ形態で表現される単語の発音をローマ字変換部でローマ字に変換するステップと、
前記変換されたローマ字に基づいて前記単語に対する類似語を類似語検索部で検索するステップと、
を含み、
前記単語に対する類似語を類似語検索部で検索するステップは、前記ローマ字に変換された単語の類似度点数に基づいて前記単語に対する類似語を検索し、
前記類似度点数は、前記単語の長さに応じる入力頻度、前記単語が長音、促音、または濁音を含むか否かによる編集距離、または前記単語の原型状態の比較程度のうちの少なくとも1つに基づいて決定されることを特徴とする日本語自動推薦方法。 - 前記単語に対する類似語を類似語検索部で検索するステップは、前記単語が漢字である場合、ローマ字に変換された形態の比較結果、ひらがなに変換された形態の比較結果および漢字本来の形態の比較結果に基づいて類似度点数を決めることを特徴とする請求項13に記載の日本語自動推薦方法。
- コンピュータにより実行されるステップが、
前記検索された類似語を類似語推薦部で前記ひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換して推薦するステップをさらに含むことを特徴とする請求項13に記載の日本語自動推薦方法。 - 前記検索された類似語を類似語推薦部で前記ひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換して推薦するステップは、(1)ローマ字に変換された状態の類似度とローマ字に変換されない状態の類似度との差が予め設定した基準を超える場合、または(2)前記単語が前記推薦される類似語よりもさらに多く用いられる場合に、前記類似語を推薦しないことを特徴とする請求項15に記載の日本語自動推薦方法。
- 前記検索された類似語を類似語推薦部で前記ひらがな、カタカナ、または漢字のうちのいずれか1つの日本語形態に変換して推薦するステップは、前記検索された類似語を前記単語の日本語形態と異なる形態に変換して推薦することを特徴とする請求項15に記載の日本語自動推薦方法。
- コンピュータにより実行されるステップが、
誤字判断部で、入力された単語を分析して前記単語が誤字であるか否かを判断するステップをさらに含み、
前記単語の発音をローマ字に変換するステップは、前記入力された単語が誤字である場合、前記単語をローマ字に変換することを特徴とする請求項13に記載の日本語自動推薦方法。 - 前記誤字判断部で単語が誤字であるか否かを判断するステップは、前記単語が予め設定された誤字データに含まれるか否か、前記単語の入力頻度または文書出現の頻度が予め設定された基準頻度よりも低いか否か、または前記単語が形態素に分離するか否かに基づいて、前記単語が誤字であるか否かを判断することを特徴とする請求項18に記載の日本語自動推薦方法。
- コンピュータにより実行されるステップが、
前記単語が誤字である場合、類似度点数または単語の入力頻度による編集距離に基づいて、前記検索された類似語のうちの前記単語に対する正解単語を正解単語選択部で選択するステップをさらに含むことを特徴とする請求項18に記載の日本語自動推薦方法。 - コンピュータにより実行されるステップが、
入力された単語が漢字である場合、漢字−ひらがな変換部で、トークン分割学習データを用いて前記単語をトークン別に分割し、漢字−ひらがな変換学習データを用いて前記分割されたトークンに対応するひらがなに変換するステップをさらに含むことを特徴とする請求項13に記載の日本語自動推薦方法。 - 前記トークン分割学習データは、前記漢字の形態素トークン別に分離するコーパスを用いて、隠れマルコフモデル基盤の分かち書き学習によって決められることを特徴とする請求項21に記載の日本語自動推薦方法。
- 前記漢字−ひらがな変換学習データは、漢字の形態素トークン別に分離するコーパスに基づく学習によって決定されたバイグラム辞書およびユニグラム辞書を含み、
前記バイグラム辞書は、トークンとの間の頻度数で構築され、
前記ユニグラム辞書は、トークンとひらがなとの間の頻度数で構築されることを特徴とする請求項21に記載の日本語自動推薦方法。 - 前記分割されたトークンに対応するひらがなに変換するステップは、
前記分割されたトークンに対し、バイグラム辞書を検索して最大の確率を表すトークンを選択するステップと、
前記選択されたトークンに対し、ユニグラム辞書に対応するひらがなに変換するステップと、
を含むことを特徴とする請求項21に記載の日本語自動推薦方法。 - コンピュータに、請求項13〜24のいずれか一項に記載の方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2009-0056609 | 2009-06-24 | ||
KR1020090056609A KR101086550B1 (ko) | 2009-06-24 | 2009-06-24 | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011008784A JP2011008784A (ja) | 2011-01-13 |
JP5097802B2 true JP5097802B2 (ja) | 2012-12-12 |
Family
ID=43511696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010141508A Active JP5097802B2 (ja) | 2009-06-24 | 2010-06-22 | ローマ字変換を用いる日本語自動推薦システムおよび方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5097802B2 (ja) |
KR (1) | KR101086550B1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11087210B2 (en) * | 2017-08-18 | 2021-08-10 | MyFitnessPal, Inc. | Context and domain sensitive spelling correction in a database |
US11017771B2 (en) * | 2019-01-18 | 2021-05-25 | Adobe Inc. | Voice command matching during testing of voice-assisted application prototypes for languages with non-phonetic alphabets |
DE102019007797B4 (de) | 2019-01-18 | 2023-11-30 | Adobe Inc. | Abgleichen von Stimmbefehlen während des Testens von stimmunterstützten App-Prototypen für Sprachen mit nichtphonetischen Alphabeten |
CN110047488B (zh) * | 2019-03-01 | 2022-04-12 | 北京彩云环太平洋科技有限公司 | 语音翻译方法、装置、设备及控制设备 |
US11250221B2 (en) | 2019-03-14 | 2022-02-15 | Sap Se | Learning system for contextual interpretation of Japanese words |
JP7626451B2 (ja) * | 2021-09-09 | 2025-02-07 | Lineヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2515726B2 (ja) * | 1985-07-10 | 1996-07-10 | 株式会社日立製作所 | 情報検索方法及び装置 |
JP2791106B2 (ja) * | 1989-06-14 | 1998-08-27 | 株式会社日立製作所 | 文字列検索装置 |
JPH10198676A (ja) * | 1997-01-13 | 1998-07-31 | Matsushita Electric Ind Co Ltd | 日本語形態素解析装置及び日本語形態素解析方法 |
AUPR824601A0 (en) * | 2001-10-15 | 2001-11-08 | Silverbrook Research Pty. Ltd. | Methods and system (npw004) |
JP5466376B2 (ja) * | 2008-04-28 | 2014-04-09 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報処理装置、姓名識別方法、情報処理システム、およびプログラム |
-
2009
- 2009-06-24 KR KR1020090056609A patent/KR101086550B1/ko active IP Right Grant
-
2010
- 2010-06-22 JP JP2010141508A patent/JP5097802B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011008784A (ja) | 2011-01-13 |
KR101086550B1 (ko) | 2011-11-23 |
KR20100138194A (ko) | 2010-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107305768B (zh) | 语音交互中的易错字校准方法 | |
CN107729313B (zh) | 基于深度神经网络的多音字读音的判别方法和装置 | |
KR101435265B1 (ko) | 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법 | |
US8364470B2 (en) | Text analysis method for finding acronyms | |
US7424675B2 (en) | Language input architecture for converting one text form to another text form with tolerance to spelling typographical and conversion errors | |
US7165019B1 (en) | Language input architecture for converting one text form to another text form with modeless entry | |
CN105404621B (zh) | 一种用于盲人读取汉字的方法及系统 | |
CN107291684B (zh) | 语言文本的分词方法和系统 | |
WO2009035863A2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
JP5097802B2 (ja) | ローマ字変換を用いる日本語自動推薦システムおよび方法 | |
US20070179779A1 (en) | Language information translating device and method | |
KR102552811B1 (ko) | 클라우드 기반 문법 교정 서비스 제공 시스템 | |
Reffle et al. | Unsupervised profiling of OCRed historical documents | |
JP2017004127A (ja) | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 | |
CN115545013A (zh) | 用于对话场景的音似纠错方法及装置 | |
KR101941692B1 (ko) | 한국어 개체명 인식방법 및 장치 | |
US20060241936A1 (en) | Pronunciation specifying apparatus, pronunciation specifying method and recording medium | |
US8977538B2 (en) | Constructing and analyzing a word graph | |
CN106294310A (zh) | 一种藏语声调预测方法及系统 | |
CN115169328A (zh) | 一种高准确性的中文拼写检查方法、系统及介质 | |
JPWO2009041661A1 (ja) | 情報処理装置、及びプログラム | |
JP5169602B2 (ja) | 形態素解析装置、形態素解析方法及びコンピュータプログラム | |
JP2006053866A (ja) | カタカナ文字列の表記ゆれの検出方法 | |
KR101461062B1 (ko) | 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120904 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5097802 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150928 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |