JP2018055670A - 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム - Google Patents
類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム Download PDFInfo
- Publication number
- JP2018055670A JP2018055670A JP2017096570A JP2017096570A JP2018055670A JP 2018055670 A JP2018055670 A JP 2018055670A JP 2017096570 A JP2017096570 A JP 2017096570A JP 2017096570 A JP2017096570 A JP 2017096570A JP 2018055670 A JP2018055670 A JP 2018055670A
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- database
- sentences
- context
- phrases
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000013519 translation Methods 0.000 claims description 188
- 230000001419 dependent effect Effects 0.000 claims description 71
- 238000011156 evaluation Methods 0.000 claims description 64
- 230000014509 gene expression Effects 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 230000014616 translation Effects 0.000 description 173
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000003860 storage Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 239000000470 constituent Substances 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000007423 decrease Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
上記のように、機械翻訳の性能向上には、翻訳に利用可能な例文が多いほど好ましく、文節置き換えを用いた類似文生成による、少量の対訳コーパスをベースとした文章量の自動拡大が要望されている。この文節置き換えを用いた類似文の生成の際、置き換え対象となる表現(語句)を含む類似候補文の取捨選択において、置き換えの良否が文脈に依存する場合が存在する。
図1は、本開示の実施の形態1における類似文生成装置の構成の一例を示すブロック図である。図1に示す類似文生成装置1は、置き換え対象文(原文)から類似文を生成する。類似文生成装置1は、置き換え対象文入力部10、置き換え候補抽出部11、文脈依存率照合部12、文脈依存性判定部13、言語モデル照合部14、置き換え判定部15、置き換え結果出力部16、置き換え候補辞書21、文脈依存率辞書22、及び言語モデルデータベース23を備える。
図6は、本開示の実施の形態2における類似文生成システムの構成の一例を示すブロック図である。図6に示す類似文生成システムは、類似文生成装置1aと、翻訳装置2とを備える。
2 翻訳装置
10、10a 置き換え対象文入力部
11 置き換え候補抽出部
12 文脈依存率照合部
13 文脈依存性判定部
14 言語モデル照合部
15 置き換え判定部
16 置き換え結果出力部
17 データ更新部
21 置き換え候補辞書
22 文脈依存率辞書
23 言語モデルデータベース
31 対訳コーパス生成部
32 翻訳モデル生成部
33 被翻訳文入力部
34 機械翻訳部
35 翻訳結果文出力部
36 翻訳結果評価部
37 フィードバックデータ生成部
Claims (11)
- 原文から類似文を生成する方法であって、
第1文を入力し、
前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、
前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、
前記算出された出現頻度が閾値以上であるか判定し、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、
方法。 - 前記第1文は第1言語で記述され、
前記第1文は対訳コーパスに含まれ、前記対訳コーパスは第1言語で記述された文と第2言語で記述された対訳文との対を複数含み、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として前記対訳コーパスに追加する、
請求項1記載の方法。 - 前記第3データベースは、N−gram言語モデルのデータベースを含み、
前記文脈依存値に応じて、前記N−gram言語モデルのNをi(正の整数)に決定し、
前記第3データベースを照合することにより、前記第2語句を含むi−gramの出現頻度を求め、
前記第2語句を含むi−gramの出現頻度に基づいて、前記一以上の第2文を前記第1文の類似文として採用するか否かを判定する、
請求項1又は2記載の方法。 - 前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成し、
前記翻訳結果文を評価し、
前記翻訳結果文の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成する、
請求項1〜3のいずれかに記載の方法。 - 前記第1データベース、前記第2データベース及び前記第3データベースのうち少なくとも一つを、前記フィードバック情報を用いて更新する、
請求項4記載の方法。 - 前記フィードバック情報が文脈依存性を有する前記第2語句を含む場合、前記第2データベース及び前記第3データベースを更新する、
請求項4記載の方法。 - 前記フィードバック情報が新しい文表現を含む場合、前記文表現に応じて前記第2データベースの文脈依存値を変化させる、
請求項4記載の方法。 - 前記フィードバック情報が新しい文表現を含む場合、前記文表現を含むように前記第3データベースを更新する、
請求項4記載の方法。 - 原文から類似文を生成する装置として、コンピュータを機能させるためのプログラムであって、
前記コンピュータに、
第1文を入力し、
前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出し、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出し、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出し、
前記一以上の第3語句について、第3データベースにおける出現頻度を算出し、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、
前記算出された出現頻度が閾値以上であるか判定し、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する、
処理を実行させるプログラム。 - 原文から類似文を生成する装置であって、
第1文を入力される入力部と、
前記第1文を構成する複数の語句のうち第1語句と同じ意味を持つ一以上の第2語句を第1データベースから抽出する第2語句抽出部と、前記第1データベースは語句と前記第1データベースに含まれた語句の類義語とを対応づけ、
第2データベースに基づいて得られた前記一以上の第2語句に対応する文脈依存値に基づいてN−gram値を算出する算出部と、前記第2データベースは語句と前記第2データベースに含まれた語句に対応する前記文脈依存値とを対応づけ、前記文脈依存値は、前記第2データベースに含まれた語句が示す意味が文脈に依存する程度を示し、
前記第1文において前記第1語句が前記一以上の第2語句に置き換えられた一以上の第2文において、前記N−gram値に相当する数の前記第2語句を含んだ連続する一以上の第3語句を抽出する第3語句抽出部と、
前記一以上の第3語句について、第3データベースにおける出現頻度を算出する算出部と、前記第3データベースは語句と前記第3データベースに含まれる語句の前記第3データベースにおける出現頻度とを対応づけ、
前記算出された出現頻度が閾値以上であるか判定する判定部と、
前記算出された出現頻度が前記閾値以上であると判定された場合は、前記一以上の第2文を前記第1文の類似文として採用し、外部の機器に出力する出力部とを備える、
装置。 - 原文から類似文を生成するシステムであって、
請求項10記載の装置と、
前記装置により前記第1文の類似文として採用すると判定された前記一以上の第2文と、前記一以上の第2文を生成した前記第1文を第2言語で翻訳した翻訳文とを基に生成された翻訳モデルを用いて、所定の翻訳対象文を翻訳して翻訳結果文を作成する翻訳部と、
前記翻訳部により作成された前記翻訳結果文を評価する評価部と、
前記評価部の評価結果に基づいて、前記翻訳対象文の言語及び/又は前記翻訳結果文の言語に関する言語情報と、前記言語情報に対する評価情報とを含むフィードバック情報を生成する生成部とを備える、
システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710674166.5A CN107870901B (zh) | 2016-09-27 | 2017-08-09 | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 |
US15/697,489 US10303761B2 (en) | 2016-09-27 | 2017-09-07 | Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016187711 | 2016-09-27 | ||
JP2016187711 | 2016-09-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018055670A true JP2018055670A (ja) | 2018-04-05 |
JP6817556B2 JP6817556B2 (ja) | 2021-01-20 |
Family
ID=61836781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017096570A Active JP6817556B2 (ja) | 2016-09-27 | 2017-05-15 | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6817556B2 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108984493A (zh) * | 2018-07-19 | 2018-12-11 | 中国联合网络通信集团有限公司 | 一种中文文章查重方法和系统 |
JP2020035019A (ja) * | 2018-08-27 | 2020-03-05 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2020126360A (ja) * | 2019-02-01 | 2020-08-20 | 日本放送協会 | 学習データ拡張装置、学習装置、翻訳装置、およびプログラム |
JP2021515322A (ja) * | 2018-05-10 | 2021-06-17 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム |
WO2021176698A1 (ja) * | 2020-03-06 | 2021-09-10 | 富士通株式会社 | 機械学習データ生成プログラム、機械学習プログラム、機械学習データ生成方法、及び抽出装置 |
CN117407242A (zh) * | 2023-10-10 | 2024-01-16 | 浙江大学 | 基于大语言模型的低成本、零样本的在线日志解析方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02301869A (ja) * | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
JP2015118498A (ja) * | 2013-12-18 | 2015-06-25 | Kddi株式会社 | 同一意図の類似文を作成するプログラム、装置及び方法 |
JP2017016384A (ja) * | 2015-07-01 | 2017-01-19 | 日本放送協会 | 混合係数パラメータ学習装置、混合生起確率算出装置、及び、これらのプログラム |
-
2017
- 2017-05-15 JP JP2017096570A patent/JP6817556B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02301869A (ja) * | 1989-05-17 | 1990-12-13 | Hitachi Ltd | 自然言語処理システム保守支援方式 |
US5311429A (en) * | 1989-05-17 | 1994-05-10 | Hitachi, Ltd. | Maintenance support method and apparatus for natural language processing system |
JP2015118498A (ja) * | 2013-12-18 | 2015-06-25 | Kddi株式会社 | 同一意図の類似文を作成するプログラム、装置及び方法 |
JP2017016384A (ja) * | 2015-07-01 | 2017-01-19 | 日本放送協会 | 混合係数パラメータ学習装置、混合生起確率算出装置、及び、これらのプログラム |
Non-Patent Citations (3)
Title |
---|
宮部真衣,吉野孝: "翻訳リペア支援のためのWeb日本語Nグラムを用いた類義語フィルタリング", 情報処理学会研究報告, vol. 第2008巻,第114号, JPN6020041666, 20 November 2008 (2008-11-20), pages 85 - 90, ISSN: 0004380611 * |
山内真樹,外3名: "自動コーパス生成とフィードバックによる少量コーパスからの統計機械翻訳", 2016年度 人工知能学会全国大会(第30回)論文集[CD−ROM], JPN6020041665, 6 June 2016 (2016-06-06), ISSN: 0004380610 * |
市村哲,外2名: "類語提示機能を備えた翻訳リペアシステムにおけるWebNグラムの活用", 情報処理学会論文誌 論文誌ジャーナル[CD−ROM], vol. 第53巻,第12号, JPN6020041668, 15 December 2012 (2012-12-15), pages 2762 - 2772, ISSN: 0004380612 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021515322A (ja) * | 2018-05-10 | 2021-06-17 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム |
JP7179273B2 (ja) | 2018-05-10 | 2022-11-29 | ▲騰▼▲訊▼科技(深▲セン▼)有限公司 | 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム |
US11900069B2 (en) | 2018-05-10 | 2024-02-13 | Tencent Technology (Shenzhen) Company Limited | Translation model training method, sentence translation method, device, and storage medium |
CN108984493A (zh) * | 2018-07-19 | 2018-12-11 | 中国联合网络通信集团有限公司 | 一种中文文章查重方法和系统 |
CN108984493B (zh) * | 2018-07-19 | 2022-04-29 | 中国联合网络通信集团有限公司 | 一种中文文章查重方法和系统 |
JP2020035019A (ja) * | 2018-08-27 | 2020-03-05 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP7155758B2 (ja) | 2018-08-27 | 2022-10-19 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及びプログラム |
JP2020126360A (ja) * | 2019-02-01 | 2020-08-20 | 日本放送協会 | 学習データ拡張装置、学習装置、翻訳装置、およびプログラム |
JP7329929B2 (ja) | 2019-02-01 | 2023-08-21 | 日本放送協会 | 学習データ拡張装置、学習装置、翻訳装置、およびプログラム |
WO2021176698A1 (ja) * | 2020-03-06 | 2021-09-10 | 富士通株式会社 | 機械学習データ生成プログラム、機械学習プログラム、機械学習データ生成方法、及び抽出装置 |
CN117407242A (zh) * | 2023-10-10 | 2024-01-16 | 浙江大学 | 基于大语言模型的低成本、零样本的在线日志解析方法 |
CN117407242B (zh) * | 2023-10-10 | 2024-04-05 | 浙江大学 | 基于大语言模型的低成本、零样本的在线日志解析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP6817556B2 (ja) | 2021-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107870901B (zh) | 从翻译源原文生成相似文的方法、记录介质、装置以及系统 | |
US10108607B2 (en) | Method and device for machine translation | |
JP6817556B2 (ja) | 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム | |
CN107038158B (zh) | 对译语料库制作方法、装置、记录介质以及机器翻译系统 | |
CN110543644A (zh) | 包含术语翻译的机器翻译方法、装置与电子设备 | |
US20070021956A1 (en) | Method and apparatus for generating ideographic representations of letter based names | |
US20110184723A1 (en) | Phonetic suggestion engine | |
KR20160008480A (ko) | 명칭을 강인하게 태깅하는 방법 및 시스템 | |
US20180173694A1 (en) | Methods and computer systems for named entity verification, named entity verification model training, and phrase expansion | |
Ramisch et al. | mwetoolkit: A framework for multiword expression identification. | |
US10394961B2 (en) | Foreign language sentence creation support apparatus, method, and program | |
RU2579873C2 (ru) | Разрешение семантической неоднозначности при помощи семантического классификатора | |
Prabhakar et al. | Machine transliteration and transliterated text retrieval: a survey | |
KR101962113B1 (ko) | 자연어 문장을 확장하는 장치와 상기 자연어 문장을 확장하는 방법 | |
US10055404B2 (en) | Translation apparatus | |
CN116306594A (zh) | 一种医学ocr识别纠错方法 | |
US20240062009A1 (en) | Method and device for segmenting word based on cross-language data augmentation, and storage medium | |
US11842152B2 (en) | Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program | |
US20050273316A1 (en) | Apparatus and method for translating Japanese into Chinese and computer program product | |
US20230143110A1 (en) | System and metohd of performing data training on morpheme processing rules | |
JP5298834B2 (ja) | 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置 | |
Torunoglu-Selamet et al. | Exploring spelling correction approaches for turkish | |
JP6564709B2 (ja) | 文書き換え装置、方法、及びプログラム | |
Sreeram et al. | A Novel Approach for Effective Recognition of the Code-Switched Data on Monolingual Language Model. | |
Luekhong et al. | Pooja: similarity-based bilingual word alignment framework for SMT |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20201030 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201124 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201209 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6817556 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |