JP6781905B1 - 情報処理装置、自然言語処理システム、制御方法、および制御プログラム - Google Patents
情報処理装置、自然言語処理システム、制御方法、および制御プログラム Download PDFInfo
- Publication number
- JP6781905B1 JP6781905B1 JP2019137509A JP2019137509A JP6781905B1 JP 6781905 B1 JP6781905 B1 JP 6781905B1 JP 2019137509 A JP2019137509 A JP 2019137509A JP 2019137509 A JP2019137509 A JP 2019137509A JP 6781905 B1 JP6781905 B1 JP 6781905B1
- Authority
- JP
- Japan
- Prior art keywords
- character
- language
- characters
- languages
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
【課題】コードポイントを参照するだけでは言語を特定不能な文字であっても、言語を推定可能な情報処理装置を提供する。【解決手段】情報処理装置(サーバ)は、複数の言語で共通して使用される第1の文字を取得する取得部と、前記複数の言語のうちの1つの言語でのみ使用される第2の文字に基づいて、前記第1の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定部とを備える。推定部は、前記第1の文字の前後に位置する複数の文字から構成される文字列の中において、前記第2の文字が前記第1の文字の周辺に1つ以上存在する場合、前記第1の文字の言語は、前記第2の文字の言語と同一であると推定する。【選択図】図1
Description
本開示は、情報処理装置等に関する。
下記特許文献1は、共通文字コードにより表現された文字列を、適切なフォントを用いて表示することができる文字処理装置に関する技術を開示している。
上記特許文献1に記載の文字処理装置は、上記文字列を適切なフォントで表示できるに過ぎない。
本開示の一態様は、例えば、文書の処理精度を高められる情報処理装置等を実現することを目的とする。
本開示の一態様に係る情報処理装置は、例えば、複数の言語で共通して使用される第1の文字を取得する取得部と、前記複数の言語のうちの1つの言語でのみ使用される第2の文字に基づいて、前記第1の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定部とを備え、前記推定部は、前記第1の文字の前後に位置する複数の文字から構成される文字列の中において、前記第2の文字が前記第1の文字の周辺に1つ以上存在する場合、前記第1の文字の言語は、前記第2の文字の言語と同一であると推定してよい。
本開示の一態様に係る情報処理装置の制御方法は、例えば、複数の言語で共通して使用される第1の文字を取得する取得工程と、前記複数の言語のうちの1つの言語でのみ使用される第2の文字に基づいて、前記第1の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定工程とを含み、前記推定工程においては、前記第1の文字の前後に位置する複数の文字から構成される文字列の中において、前記第2の文字が前記第1の文字の周辺に1つ以上存在する場合、前記第1の文字の言語は、前記第2の文字の言語と同一であると推定してよい。
本開示の一態様に係る制御プログラムは、例えば、情報処理装置に、複数の言語で共通して使用される第1の文字を取得する取得機能と、前記複数の言語のうちの1つの言語でのみ使用される第2の文字に基づいて、前記第1の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定機能とを実現させ、前記推定機能は、前記第1の文字の前後に位置する複数の文字から構成される文字列の中において、前記第2の文字が前記第1の文字の周辺に1つ以上存在する場合、前記第1の文字の言語は、前記第2の文字の言語と同一であると推定してよい。
図1〜図4に基づいて、本開示の一態様を説明する。なお、図面については、同一又は同等の要素には同一の符号を付し、重複する説明は省略する。
(サーバ100の概要)
図1は、サーバ100の要部構成の一例を示すブロック図である。最初に、サーバ100の概要を説明する。
図1は、サーバ100の要部構成の一例を示すブロック図である。最初に、サーバ100の概要を説明する。
サーバ100は、例えば、自然言語で記載された複数の文書(以下では「母集団」と称する)を処理可能な情報処理装置であってよい。母集団に含まれる各文書は、例えば、複数の言語(例えば、日本語・中国語・韓国語・英語など)でそれぞれ記載されている。また、複数の言語でそれぞれ記載された複数の文章が、各文書に混在する場合がある。
上記複数の文章は、例えば、符号化文字集合の1つであるユニコード(Unicode)に則って符号化された文字をそれぞれ含んでいる。ここで、ユニコードでは、言語ごとに文字を分類した文字集合を識別可能なコードポイント(識別情報)が、各文字に割り当てられている。したがって、当該コードポイントから文字が属する文字集合を一意に特定できる場合、サーバ100は、当該特定された文字集合から当該文字の言語を特定できる。
しかし、例えば「CJK統合漢字」と呼ばれる特殊な漢字(以下では「特殊漢字」と称する)は、中国語・日本語・韓国語のいずれの言語に属する漢字であるかを、サーバ100は特定できない。特殊漢字は、2つ以上の言語で共通して使用される漢字であることから、中国語・日本語・韓国語にそれぞれ対応する複数の文字集合のうち、少なくとも2つの文字集合で共通するコードポイントが割り当てられており、いずれの文字集合に属するかが一意に特定できないからである。そして、サーバ100が処理すべき文書に言語不明の文字が含まれている場合、当該処理の精度が劣化するおそれが考えられる。
そこで、サーバ100は、例えば、複数の言語(例えば、中国語・日本語・韓国語)で共通して使用される第1の文字(例えば、特殊漢字)を取得し、そのうちの1つの言語でのみ使用される第2の文字(例えば、ひらがな)に基づいて、第1の文字が複数の言語のいずれの言語に属する文字かを推定する。ここで、サーバ100は、例えば、上記第1の文字の前後に位置する複数の文字から構成される文字列の中において、第2の文字が当該第1の文字の周辺に1つ以上存在する場合、当該第1の文字の言語は、当該第2の文字の言語と同一であると推定する。
これにより、サーバ100は、コードポイントを参照するだけでは言語を特定不可能な文字(例えば、CJK統合漢字のような特殊漢字)であっても、当該言語を推定できる。したがって、サーバ100は、例えば、母集団に含まれる各文書の処理精度を高めることができる。
(サーバ100の構成)
図1に例示されるように、サーバ100は、制御部110、記憶部120、および通信部130を備えてよい。
図1に例示されるように、サーバ100は、制御部110、記憶部120、および通信部130を備えてよい。
制御部110は、サーバ100の各種機能を統括的に制御する機能を持ち、例えば、CPU(Central Processing Unit)などのプロセッサによって実現されてよい。制御部110は、特定部101、取得部102、判定部103、推定部104、出力部105、および選択部106を含んでよい。そして、制御部110は、サーバ100の外部から得られた操作情報に基づいて各部を機能させてよい。なお、制御部110は、文書に含まれるすべての文字の言語が特定されたか否かを判定してよい。
特定部101は、例えば、文字に付与されたコードポイント(識別情報)を参照し、当該文字が使用される言語を特定する。
具体的には、特定部101は、例えば、記憶部120に格納された母集団から文書を1つ取り出す。このとき、特定部101は、当該文書に含まれる文字を、ユニコードで符号化してよい。そして、特定部101は、当該文書に含まれる複数の文字にそれぞれ割り当てられたコードポイントを先頭から順次参照し、1つの文字集合(言語に固有の文字集合)に属する固有文字に対して言語情報(言語を識別可能な情報)を付与してよい。
ここで、固有文字(第2の文字)は、例えば、コードポイントから文字集合が一意に特定可能な文字である。例えば、固有文字は、「ひらがな」(コードポイント:U+3041〜U+309F)、「カタカナ」(U+30A0〜U+30FF)などの日本語に固有の文字集合(第2の文字集合)に属する文字、もしくは、「働」(U+50CD)、「畑」(U+7551)、「込」(U+8FBC)、「峠」(U+5CE0)などの日本語にのみ存在する漢字、または、中国語にのみ存在する漢字(例えば、コードポイントがU+4E1A、U+6003、U+83EE、U+6030となる漢字)である。
これにより、サーバ100は、コードポイントから一意に言語を特定できる文字に、言語情報を付与できる。したがって、サーバ100は、例えば、当該言語情報を参照するだけで各文字の言語を取得できる。
取得部102は、複数の言語で共通して使用される特殊漢字(第1の文字)を取得してよい。すなわち、取得部102は、例えば、複数の文書に含まれる1つの文書から、複数の言語に対応する共通文字集合(第1の文字集合、例えば、「中国語の漢字」、「日本語の漢字」などのCJK統合漢字を含む文字集合)に属する特殊漢字を取得してよい。また、取得部102は、複数の言語にそれぞれ対応する複数の文字集合においてコードポイントが共通することにより、当該複数の言語に分類可能な文字(例えば、CJK統合漢字)を、特殊漢字として取得してよい。
上記CJK統合漢字の例として、「丙」(コードポイント:U+4E19)、「急」(U+6025)、「華」(U+83EF)、「怯」(U+602F)などが挙げられる。これらの漢字には、中国語の漢字に対応する文字集合と、日本語の漢字に対応する文字集合とに共通するコードポイントが割り当てられている。
言い換えれば、例えば、「日本語の漢字」(第1の文字集合)は「中国語の漢字」(他の文字集合)と複数の言語に対応した共通部分を有し、CJK統合漢字などの特殊漢字(第1の文字)は、当該共通部分に属することにより、当該複数の言語のうちのいずれの言語でも使用され得る文字である。なお、中国常用漢字は約2500字あり、日本の常用漢字は2136字ある。そのうち、約1683字(日本語常用漢字の約79%)が特殊漢字に相当する。
判定部103は、特殊漢字の前後に位置する複数の文字から構成される文字列の中において、固有文字が特殊漢字の周辺に1つ以上存在するか否かを判定してよい。ここで、特殊漢字の周辺は、例えば、当該特殊漢字を中心とする前後N文字(Nは任意の整数であってよい)のうち、前方(文字の並びの順方向)に存在する1〜N文字と、後方(文字の並びの逆方向)に存在する1〜N文字との少なくとも一方または組み合わせであってよい。
具体的に、判定部103は、文書の先頭から文字を走査し、特定部101によって言語情報が付与されなかった文字を、特殊漢字として認識してよい。そして、判定部103は、当該特殊漢字の前後N文字に存在する複数の文字を上記文字列として抽出し、当該文字列に含まれる固有文字の文字数を数えてよい。
例えば、N=6として、判定部103が「今日は晴れです」という文字列に対して上記判定を実行する場合を説明する。この場合、判定部103は、「晴」(コードポイント:U+6674)というCJK統合漢字に言語情報が付与されていないことを認識する。次に、判定部103は、「晴」を中心として前後3文字(前方に存在するN/2文字と、後方に存在するN/2文字との組み合わせ)に存在する「今日は」および「れです」を取り出す。ここで、「は」および「れです」は、それぞれ日本語に固有の文字集合(ひらがな)に属する固有文字であるため、判定部103は、「晴」という特殊漢字を含む文字列「今日は晴れです」に、固有文字が1つ以上(この場合は4つ)含まれていると判定する。
なお、判定部103が上記文字数を数えるとき、英数字・記号を数える対象から外してよい。英数字・記号は、中国語・日本語・韓国語などのアジア言語においても使用される文字であり、特殊漢字の言語推定の精度向上に寄与しない場合が多いからである。このように、英数字・記号をスキップして数えることにより、サーバ100は、当該言語推定の精度を向上させることができる。
推定部104は、複数の言語のうちの1つの言語でのみ使用される固有文字に基づいて、特殊漢字が当該複数の言語(例えば、中国語・日本語・韓国語)のいずれの言語に属する文字かを推定してよい。このとき、推定部104は、判定部103によって上記文字列に固有文字が1つ以上含まれていると判定された場合、当該特殊漢字の言語は、当該固有文字の言語と同一であると推定してよい。
前述した例によれば、判定部103は、「晴」という特殊漢字を含む文字列「今日は晴れです」に対して、固有文字が1つ以上含まれていると判定する。そのため、推定部104は、「晴」という文字の言語が「は」および「れです」という固有文字の言語(日本語)と同一(すなわち、「日本語の漢字」)であると推定してよい。
このとき、推定部104は、推定した言語を示す言語情報を特殊漢字に付与してよい。これにより、サーバ100は、特殊漢字の言語を特定できる。したがって、サーバ100は、例えば、母集団に含まれる各文書の処理精度を高めることができる
なお、上記文字列に固有文字が1つも含まれない場合、推定部104は、上記特殊漢字の言語を出現可能性の高い言語としてよい。例えば、当該特殊漢字の前後N文字がすべて漢字である場合、推定部104は、例えば、当該特殊漢字の言語を中国語とする。
あるいは、推定部104は、文字列に含まれる文字の総数に対して固有文字(または特殊漢字)が占める割合から、上記特殊漢字の言語を推定してもよい。例えば、「今日は晴れです」という7文字の文字列において、「晴」を中心とする前後3文字には、4つの固有文字が含まれている。そのため、推定部104は、上記割合を0.571(=4÷7)と計算する。そして、推定部104は、当該割合が所定のしきい値(例えば、0.5)を超過している場合、当該特殊漢字の言語は、当該固有文字の言語と同一であると推定してよい。
または、特殊漢字の前後N文字に存在する複数の文字が文字列として抽出された場合、推定部104は、例えば、当該特殊漢字の左右に存在する1文字目(すなわち、特殊漢字に隣接する2つの文字)が漢字か否かを判定する。
同様に、推定部104は、2文字目、3文字目…N文字目が漢字か否かを判定する。推定部104は、例えば、当該判定の過程で漢字が連続して出現するほど、当該特殊漢字が中国語である確率を上げていく。そして、当該確率が所定のしきい値(例えば、0.5)を超過した場合、当該特殊漢字の言語は、中国語であると推定してよい。すなわち、推定部104は、前記複数の言語で共通して使用される文字が前記文字列において連続するほど、前記第1の文字が前記複数の言語に含まれる1つの言語に属する確率を上げる。
これにより、サーバ100は、特殊漢字の言語を精度よく推定できる。したがって、サーバ100は、例えば、母集団に含まれる各文書の処理精度を高めることができる。
出力部105は、特殊漢字の言語が推定された後、文書に含まれる全ての文字の文字数に対して、当該言語に属する文字の文字数が占める数に基づく数値を出力してよい。
例えば、1つの文書に中国語・日本語・韓国語・英語の文章が混在する場合を考える。この場合、出力部105は、特定部101および推定部104によって付与された言語情報を参照し、各言語の文字数を数える。そして、出力部105は、文書に含まれるすべての文字の言語に対して、日本語が占める割合(例えば、50%など)を、上記数値として出力してよい。同様に、出力部105は、中国語が占める割合、韓国語が占める割合、英語が占める割合をそれぞれ出力してよい。なお、上記数値は文字数であってもよい。
これにより、サーバ100は、例えば、各文書に含まれる言語の割合を計算できる。したがって、サーバ100は、例えば、ある文書をレビュアに査読させる場合(図2を参照して後述する)、最も高い割合を占める言語に習熟したレビュアに当該文書の査読を割り当てることができ、査読の効率を高めることができる。
このとき、出力部105は、上記数値を所定の値と比較した結果に応じて、文書の言語を特定してよい。または、出力部105は、上記割合が最も高かった言語を当該文書の言語として特定してもよい。あるいは、出力部105は、各言語に対して事前に定められた所定のしきい値と当該割合とを比較し、当該割合が当該所定のしきい値を超過した言語を、当該文書の言語として特定してもよい。このとき、複数の言語(例えば、日本語・英語)が特定される場合があるため、出力部105は、当該文書は当該複数の言語が混在した文書と特定してよい。
すなわち、サーバ100は、例えば、前記複数の言語でそれぞれ記載された複数の文章が、前記第1の文字を含む文書に混在するとき、前記第1の文字の言語が推定された後、所定の言語で使用される文字が文書に含まれる数に基づく数値から、前記文書の言語を特定する出力部をさらに備えてよい。したがって、サーバ100は、例えば、ある文書をレビュアに査読させる場合、特定された言語に習熟したレビュアに当該文書の査読を割り当てることができ、査読の効率を高めることができる。
選択部106は、複数の自然言語処理アルゴリズムのうち、出力部105によって特定された言語に対応する自然言語処理アルゴリズムを選択してよい。ここで、複数の自然言語処理アルゴリズムは、例えば、英語、中国語、日本語、韓国語など、複数の言語にそれぞれ対応するように、各言語の処理に特化したアルゴリズムであってよい。
選択部106は、例えば、ある文書が日本語で記載されていると特定された場合、日本語に特化した自然言語処理アルゴリズムを選択し、サーバ100は、当該自然言語処理アルゴリズムを用いて当該文書を処理してよい。したがって、サーバ100は、例えば、母集団に含まれる各文書の処理精度をさらに高めることができる。
なお、制御部110に含まれる各部は、例えば、サーバ100が実行する処理の目的等に応じて、任意に組み替えられてよい。例えば、制御部110に含まれる各部の一部または全部を含む場合も含まない場合も、適宜設計可能な実施形態の変形例としてすべて本開示の範囲に含まれる。
記憶部120は、任意の情報を格納可能な記憶機器であり、例えば、ハードディスク、SSD(Silicon State Drive)、半導体メモリ、DVDなどで構成されてよい。
通信部130は、例えば、ユーザ端末210(図2参照)と任意のデータを送受信してよい。なお、通信部130は、例えば、所定の通信方式にしたがうネットワークを介して外部と通信可能なハードウェアであってよい。外部の機器との通信を実現する本質的な機能を備えていればよく、通信回線、通信方式、通信媒体などは限定されない。
(自然言語処理システム200の構成)
図2は、自然言語処理システム200の一例を模式的に示す模式図である。自然言語処理システム200は、例えば、サーバ100と、ユーザ端末210とを含んでよい。
図2は、自然言語処理システム200の一例を模式的に示す模式図である。自然言語処理システム200は、例えば、サーバ100と、ユーザ端末210とを含んでよい。
ユーザ端末210は、レビュアがサーバ100によって処理される文書を査読するための端末である。ユーザ端末210は、サーバ100と通信可能に接続されたコンピュータでありさえすればよく、例えば、デスクトップパソコン、スマートフォン、タブレット端末などであってよい。
サーバ100は、母集団に含まれる複数の文書(言語特定されていてもよいし、されていなくともよい)をランダムに抽出し、当該複数の文書をユーザ端末210に送信してよい。そして、ユーザ端末210は、例えば、上記レビュアに文書を1つずつ提示する。
レビュアは、例えば、提示された文書を所定の基準に則って査読し、当該査読した結果(例えば、当該文書が、ある事象に関係するか否かを示す識別結果)をユーザ端末210に入力する。そして、当該ユーザ端末210は、当該査読した結果をサーバ100に送信してよい。
サーバ100は、上記査読した結果に基づいて母集団に含まれる複数の文書にそれぞれスコアを付ける。このとき、サーバ100は、例えば、上記所定の基準に合致する文書ほど大きいスコアが付くように、当該複数の文書にスコアを付ける。そして、サーバ100は、当該スコアにしたがって当該複数の文書を降順に並べ替えてよい。
これにより、自然言語処理システム200は、例えば、ユーザ端末210に上記複数の文書を一覧可能に表示させたとき、上記所定の基準に合致する文書ほど目立つ位置に表示させることができる。したがって、自然言語処理システム200は、母集団に含まれる他の文書(例えば、上記査読した文書とは異なる文書)をレビュアに査読させるとき、(例えば、スコアの高い順に査読させることによって)効率よく査読させることができる。
(サーバ100が実行する処理)
図3は、サーバ100が実行する処理の一例を示すフローチャートである。まず、特定部101は、文書に含まれるすべての文字をユニコードで符号化する(S301)。次に、特定部101は、コードポイントから言語を特定できる固有文字に言語情報を付与し(S302)、制御部110が、当該文書に含まれるすべての文字の言語が特定されたか否かを判定する(S303)。
図3は、サーバ100が実行する処理の一例を示すフローチャートである。まず、特定部101は、文書に含まれるすべての文字をユニコードで符号化する(S301)。次に、特定部101は、コードポイントから言語を特定できる固有文字に言語情報を付与し(S302)、制御部110が、当該文書に含まれるすべての文字の言語が特定されたか否かを判定する(S303)。
特定されたと判定された場合(S303においてYES)、出力部105は、各文字に付与された言語情報を参照し、各言語の文字数を数える(S304)。最後に、出力部105は、例えば、数えた文字数を言語ごとに出力する(S305)。すなわち、出力部105は、所定の言語で使用される文字が文書に含まれる数に基づく数値を出力する。
特定されていないと判定された場合(S303においてNO)、制御部110は、言語判定処理を実行する(S306)。
図4は、サーバ100が実行する言語判定処理の一例を示すフローチャートである。まず、判定部103は、当該特殊漢字の前後N文字に存在する複数の文字を上記文字列として取り出し、当該文字列に含まれる固有文字の文字数を数えてよい。
次に、判定部103は、言語が特定されていない特殊漢字を中心として、前後N文字を文字列として抽出する(S401)。このとき、判定部103は、例えば、抽出した文字列に含まれる固有文字の文字数を数えてよい。そして、判定部103は、当該前後N文字のなかに言語が特定された文字(固有文字)が1つ以上含まれているか否かを判定する(S402)。
含まれていると判定された場合(S402においてYES)、推定部104は、上記中心とした文字に上記言語と同じ言語情報を付与する(S403)。そして、推定部104は、推定した言語を示す言語情報を特殊漢字に付与する。
含まれていないと判定された場合(S402においてNO)、推定部104は、例えば、上記中心とした文字に出現確率の高い言語情報を付与する(S404)。例えば、推定部104は、上記特殊漢字の言語を中国語と推定してよい。
(サーバ100が奏する効果)
サーバ100は、コードポイントを参照するだけでは言語を特定不可能な文字(例えば、CJK統合漢字のような特殊漢字)であっても、当該言語を推定できる。したがって、サーバ100は、例えば、母集団に含まれる各文書の処理精度を高めることができる。
サーバ100は、コードポイントを参照するだけでは言語を特定不可能な文字(例えば、CJK統合漢字のような特殊漢字)であっても、当該言語を推定できる。したがって、サーバ100は、例えば、母集団に含まれる各文書の処理精度を高めることができる。
(付記事項)
本開示の一態様は、上述した実施の形態及び変形例に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。
本開示の一態様は、上述した実施の形態及び変形例に限定されるものではなく変形可能であり、上記の構成は、実質的に同一の構成、同一の作用効果を奏する構成又は同一の目的を達成することができる構成で置き換えることができる。
(ソフトウェアによる実現例)
サーバ100が備えた制御ブロック(特に、制御部110に含まれる各部)は、CPU(Central Processing Unit)などのコントローラ(プロセッサ)を用いてソフトウェアによって実現してもよい。すなわち、サーバ100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、当該制御プログラム、および各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本開示の一態様に係る目的の一例が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本開示の一態様は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
サーバ100が備えた制御ブロック(特に、制御部110に含まれる各部)は、CPU(Central Processing Unit)などのコントローラ(プロセッサ)を用いてソフトウェアによって実現してもよい。すなわち、サーバ100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、当該制御プログラム、および各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、当該制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本開示の一態様に係る目的の一例が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本開示の一態様は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
なお、上記制御プログラムは、任意のプログラミング言語で実装できる。例えば、当該制御プログラムは、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、当該制御プログラムによって実現される各機能を実現する各部を備えた情報処理端末(例えば、スマートフォン、パーソナルコンピュータ)と、上記各機能とは異なる残りの機能を実現する各部を備えたサーバも、本開示の範疇に入る。
100:サーバ(情報処理装置)、101:特定部、102:取得部、103:判定部、104:推定部、105:出力部、106:選択部、110:制御部、120:記憶部、130:通信部、200:自然言語処理システム、210:ユーザ端末
Claims (10)
- 複数の言語で共通して使用される第1の文字を取得する取得部と、
前記複数の言語のうちの1つの言語でのみ使用される第2の文字に基づいて、前記第1の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定部とを備え、
前記推定部は、前記第1の文字の前後に位置する複数の文字から構成される文字列の中において、前記第2の文字が前記第1の文字の周辺に1つ以上存在する場合、前記第1の文字の言語は、前記第2の文字の言語と同一であると推定する情報処理装置。 - 前記取得部は、CJK統合漢字を前記第1の文字として取得し、
前記推定部は、前記第1の文字が、中国語、日本語、および韓国語のいずれの言語に属する漢字かを推定する請求項1に記載の情報処理装置。 - 前記第1の文字の言語が推定された後、文書に含まれる全ての文字の文字数に対して、前記言語に属する文字の文字数が占める数に基づく数値を出力する出力部をさらに備えた請求項1または2に記載の情報処理装置。
- 前記出力部は、前記数値を所定の値と比較した結果に応じて、前記文書の言語を特定する請求項3に記載の情報処理装置。
- 複数の自然言語処理アルゴリズムのうち、前記特定された言語に対応する自然言語処理アルゴリズムを選択する選択部をさらに備えた請求項4に記載の情報処理装置。
- 前記推定部は、前記推定した言語を示す言語情報を、前記第1の文字に付与する請求項1から5のいずれか一項に記載の情報処理装置。
- 前記取得部は、前記複数の言語にそれぞれ対応する複数の文字集合において識別情報が共通することにより、前記複数の言語に分類可能な文字を、前記第1の文字として取得する請求項1から6に記載の情報処理装置。
- 請求項1から7のいずれか一項に記載の情報処理装置と、
前記情報処理装置によって処理される文書を査読するレビュアが用いるユーザ端末とを含む自然言語処理システム。 - 複数の言語で共通して使用される第1の文字を取得する取得工程と、
前記複数の言語のうちの1つの言語でのみ使用される第2の文字に基づいて、前記第1の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定工程とを含み、
前記推定工程においては、前記第1の文字の前後に位置する複数の文字から構成される文字列の中において、前記第2の文字が前記第1の文字の周辺に1つ以上存在する場合、前記第1の文字の言語は、前記第2の文字の言語と同一であると推定する情報処理装置の制御方法。 - 情報処理装置に、
複数の言語で共通して使用される第1の文字を取得する取得機能と、
前記複数の言語のうちの1つの言語でのみ使用される第2の文字に基づいて、前記第1の文字が前記複数の言語のいずれの言語に属する文字かを推定する推定機能とを実現し、
前記推定機能は、前記第1の文字の前後に位置する複数の文字から構成される文字列の中において、前記第2の文字が前記第1の文字の周辺に1つ以上存在する場合、前記第1の文字の言語は、前記第2の文字の言語と同一であると推定する制御プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019137509A JP6781905B1 (ja) | 2019-07-26 | 2019-07-26 | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム |
US16/934,241 US11461548B2 (en) | 2019-07-26 | 2020-07-21 | Device and method for identifying language of character strings in a text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019137509A JP6781905B1 (ja) | 2019-07-26 | 2019-07-26 | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020155307A Division JP2021022386A (ja) | 2020-09-16 | 2020-09-16 | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6781905B1 true JP6781905B1 (ja) | 2020-11-11 |
JP2021022092A JP2021022092A (ja) | 2021-02-18 |
Family
ID=73043460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019137509A Expired - Fee Related JP6781905B1 (ja) | 2019-07-26 | 2019-07-26 | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11461548B2 (ja) |
JP (1) | JP6781905B1 (ja) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6157905A (en) * | 1997-12-11 | 2000-12-05 | Microsoft Corporation | Identifying language and character set of data representing text |
JP4812421B2 (ja) | 2005-12-22 | 2011-11-09 | オリンパスイメージング株式会社 | 文字処理装置、文字処理プログラム、文字処理方法 |
US8539349B1 (en) * | 2006-10-31 | 2013-09-17 | Hewlett-Packard Development Company, L.P. | Methods and systems for splitting a chinese character sequence into word segments |
WO2009028555A1 (ja) * | 2007-08-30 | 2009-03-05 | Nec Corporation | 電子機器、文字列の表示方法、複数文字列のソート方法、および文字列表示/ソートプログラム |
JP5379155B2 (ja) * | 2007-12-06 | 2013-12-25 | グーグル・インコーポレーテッド | Cjk名前検出 |
EP2724261A4 (en) * | 2011-06-24 | 2015-07-29 | Google Inc | DETECTION OF INITIAL LANGUAGES FOR SEARCH QUESTIONS |
US9330070B2 (en) * | 2013-03-11 | 2016-05-03 | Microsoft Technology Licensing, Llc | Detection and reconstruction of east asian layout features in a fixed format document |
JP6618246B2 (ja) * | 2014-09-30 | 2019-12-11 | キヤノン株式会社 | 情報処理装置、表示方法、及びコンピュータプログラム |
US9372848B2 (en) * | 2014-10-17 | 2016-06-21 | Machine Zone, Inc. | Systems and methods for language detection |
US10826857B2 (en) * | 2017-10-20 | 2020-11-03 | Sap Se | Message processing for cloud computing applications |
-
2019
- 2019-07-26 JP JP2019137509A patent/JP6781905B1/ja not_active Expired - Fee Related
-
2020
- 2020-07-21 US US16/934,241 patent/US11461548B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2021022092A (ja) | 2021-02-18 |
US11461548B2 (en) | 2022-10-04 |
US20210027017A1 (en) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992596B (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
WO2022156066A1 (zh) | 文字识别方法、装置、电子设备及存储介质 | |
CN108959257B (zh) | 一种自然语言解析方法、装置、服务器及存储介质 | |
US20190205743A1 (en) | System and method for detangling of interleaved conversations in communication platforms | |
JP6514305B1 (ja) | 認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラム | |
CN103780453A (zh) | 多层聊天检测和分类 | |
US20190026355A1 (en) | Information processing device and information processing method | |
EP2889786A1 (en) | Multimedia information retrieval method and electronic device | |
US20230177251A1 (en) | Method, device, and system for analyzing unstructured document | |
US12118770B2 (en) | Image recognition method and apparatus, electronic device and readable storage medium | |
JP7493937B2 (ja) | 文書における見出しのシーケンスの識別方法、プログラム及びシステム | |
CN114757214B (zh) | 用于优化翻译模型的样本语料的选取方法、相关装置 | |
WO2019080419A1 (zh) | 标准知识库的构建方法、电子装置及存储介质 | |
JP5952441B2 (ja) | 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体 | |
JP6781905B1 (ja) | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム | |
JP2021022386A (ja) | 情報処理装置、自然言語処理システム、制御方法、および制御プログラム | |
US9008428B2 (en) | Efficient verification or disambiguation of character recognition results | |
CN110929530B (zh) | 一种多语言垃圾文本的识别方法、装置和计算设备 | |
US11609957B2 (en) | Document processing device, method of controlling document processing device, and non-transitory computer-readable recording medium containing control program | |
CN116362292A (zh) | 文本分类模型训练方法及装置、文本分类方法及装置 | |
CN111726653B (zh) | 视频管理方法及设备、电子设备和介质 | |
CN114265560A (zh) | 一种亿级合规指标业务数据的自规范存储系统 | |
US10546061B2 (en) | Predicting terms by using model chunks | |
JP7357030B2 (ja) | 通信端末、プログラム、及び表示方法 | |
JP6269953B2 (ja) | 単語分割装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190726 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200818 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200916 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6781905 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |