JP4979637B2 - 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム - Google Patents
複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム Download PDFInfo
- Publication number
- JP4979637B2 JP4979637B2 JP2008149909A JP2008149909A JP4979637B2 JP 4979637 B2 JP4979637 B2 JP 4979637B2 JP 2008149909 A JP2008149909 A JP 2008149909A JP 2008149909 A JP2008149909 A JP 2008149909A JP 4979637 B2 JP4979637 B2 JP 4979637B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- compound
- similarity
- compound word
- unknown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する複数の形態素間の区切り位置を記憶する学習データ記憶部と、
前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するベクトル処理部と、
前記ベクトル処理部にてベクトル化した、前記学習データ記憶部に記憶されていない未知語のベクトルと前記学習データ記憶部に記憶されている複数の既知語のベクトルとを用いて、前記未知語と前記既知語それぞれとの類似度を計算する類似度計算部と、
前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が複合語であるか否かの推定を行う推定部と、
を備え、
前記推定部は、前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれの類似度を比較することにより、前記未知語の形態素間の区切り位置を推定する複合語区切り推定装置。
前記ベクトル処理部は、前記語をベクトル化する際に前記重み付け値を用いる(1)に記載の複合語区切り推定装置。
コンピュータが、
予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する形態素間の区切り位置を記憶する学習データに記憶されていない未知語および前記学習データに記憶されている複数の既知語について、前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するステップと、
前記未知語のベクトルと前記既知語のベクトルそれぞれとの類似度を計算するステップと、
前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が前記複合語であるか否かの推定を行うステップと、
前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれを比較することにより、前記未知語の形態素間の区切り位置を推定するステップと、
を実行する複合語区切り推定方法。
コンピュータに、
予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する形態素間の区切り位置を記憶する学習データに記憶されていない未知語および前記学習データに記憶されている複数の既知語について、前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するステップと、
前記未知語のベクトルと前記既知語のベクトルそれぞれとの類似度を計算するステップと、
前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が前記複合語であるか否かの推定を行うステップと、
前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれを比較することにより、前記未知語の形態素間の区切り位置を推定するステップと、
を実行させる複合語区切り推定プログラム。
(システムの概要)
図1は、本発明の第1実施形態の複合語区切り推定装置100(以下、「装置100」という)を示す概略図である。図1に示すように、装置100は、形態素解析部110、複合語区切り推定部210、辞書DB120、および学習データ記憶部として学習データDB220を備える。装置100は、外部のパーソナルコンピュータ(PC)からインターネットやイントラネットに代表されるネットワーク等の通信回線を介して、文字列を示すデータを受信し、翻訳等の処理を行い、処理後のデータをそのPC等へ返送するようになっている。
図2は、本発明の第1実施形態の形態素解析部110の機能構成を示す図である。形態素解析部110は、文字列受信部111、単語分割部112、および解析結果生成部113を有する。文字列受信部111は、通信部を介して外部から受信した文字列を受け付ける。単語分割部112は、文字列受信部111によって受け付けた文字列を形態素解析する。解析結果生成部113は、単語分割部112にて形態素解析された結果に基づいて、文字列の解析結果を生成する。
図4は、学習データDB220の学習データテーブルの一例を示す図である。学習データテーブルは、学習データである語の複合語情報を格納している。学習データは、語、語形成クラス、および区切りクラス等が関連付けられて構成されている。なお、ここに示した項目は例示であり、その他の項目を有してもよい。学習データテーブルに記録されている語は、既に述べたように既知語であるが、別の言い方をすると、既知語は語形成クラス、および語が複合語である場合には、区切りクラスも判明している語である。
図5は、複合語区切り推定処理のフローチャートである。対象語受信部211が、未知語を受信すると処理が開始する。
S1:複合語区切り推定部210は、未知語と複数の既知語それぞれとの類似度を計算し、その結果を既知語の語形成クラスに基づいて分類し、クラス毎に類似度を集計することで、未知語と「ma−p」および未知語と「ma−s」の類似度を算出する。
S2:複合語区切り推定部210は、未知語が「ma−p」または「ma−s」のいずれのクラスに属するか判断を行う。
S3:複合語区切り推定部210は、ステップS1にて未知語が複合語であると判断されると、未知語の区切りクラスを推定し、未知語の分割を行う。
ステップS2にて、複合語区切り推定部210が、未知語が単語であると判断する、または、複合語である未知語を分割すると処理は終了する。以下に、ステップS1およびS3の処理について詳細に説明する。
S11:対象語受信部211は、形態素解析部110から未知語を取得する。
S12:ベクトル処理部212は、未知語が含む文字それぞれの特徴量を用いて、未知語をベクトル化する。それにより、語の特徴を特徴量で数値化することができ、語間の類似度を定量的に求めることができる。
S14:類似度計算部213は、未知語と複数の既知語それぞれとの類似度をステップS12およびS13にて求めたそれぞれのベクトルを用いて計算する。本実施形態において、類似度には、語が含む文字それぞれの特徴量として文字の出現頻度を用いてベクトル化した、未知語のベクトルと既知語のベクトルとのコサイン(余弦)をとって類似度とするコサイン類似度を用いる。
S16:ステップS15において、未知語と複数の既知語それぞれとの類似度を計算し終わったと判断されると、類似度に基づいて未知語が「ma−p」または「ma−s」のいずれの語形成クラスに属するかクラス推定を行う。
以上のように未知語と既知語の類似度はコサイン類似度を用いて求めることができるが、編集距離ベースにて類似度を求めることもできる。以下に、編集距離(レーベンシュタイン距離)ベースを用いた場合の類似度の求め方について説明する。
(1)
kittenのkをsに置換し、sittenに変形する。
(2)
sittenのeをiに置換し、sittinに変形する。
(3)
sittinにgを挿入して、sittingを取得する。
次に、第1実施形態との相違を中心に、第2実施形態を説明する。第1の実施形態と異なる点は、語をベクトル化する際に、接辞ルールを適用する点である。以下に、接辞ルールを適用した場合の語のベクトル化について説明する。接辞ルールは、学習データDB220に接辞ルールテーブルとして格納される。
図10は、本発明の各実施形態に係る複合語区切り推定装置100のハードウェア構成を示す図である。以下は、コンピュータを典型とする情報処理装置として全般的な構成を説明するが、専用機や組み込み型装置の場合、その環境に応じて必要最小限な構成を選択できることはいうまでもない。
110 形態素解析部
111 文字列受信部
112 単語分割部
113 解析結果生成部
120 辞書DB
210 複合語区切り推定部
211 対象語受信部
212 ベクトル処理部
213 類似度計算部
214 クラス推定部
215 推定結果生成部
220 学習データDB
Claims (8)
- 複合語の区切り位置を推定する複合語区切り推定装置であって、
予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する複数の形態素間の区切り位置を記憶する学習データ記憶部と、
前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するベクトル処理部と、
前記ベクトル処理部にてベクトル化した、前記学習データ記憶部に記憶されていない未知語のベクトルと前記学習データ記憶部に記憶されている複数の既知語のベクトルとを用いて、前記未知語と前記既知語それぞれとの類似度を計算する類似度計算部と、
前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が複合語であるか否かの推定を行う推定部と、
を備え、
前記推定部は、前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれの類似度を比較することにより、前記未知語の形態素間の区切り位置を推定する複合語区切り推定装置。 - 学習データ記憶部は、接辞であることを表す重み付け値を、前記接辞に対して記憶し、
前記ベクトル処理部は、前記語をベクトル化する際に前記重み付け値を用いる請求項1に記載の複合語区切り推定装置。 - 文書から前記未知語を切り出す形態素解析部を備えた請求項1または2のいずれかに記載の複合語区切り推定装置。
- 前記類似度に、コサイン類似度を用いる請求項1から3のいずれかに記載の複合語区切り推定装置。
- 前記特徴量は、前記語が含む文字それぞれの出現頻度である請求項1から4のいずれかに記載の複合語区切り推定装置。
- 前記学習データ記憶部に記憶されている情報は、k最近傍法により生成される請求項1から5のいずれかに記載の複合語区切り推定装置。
- 複合語の区切り位置を推定する複合語区切り推定方法であって、
コンピュータが、
予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する形態素間の区切り位置を記憶する学習データに記憶されていない未知語および前記学習データに記憶されている複数の既知語について、前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するステップと、
前記未知語のベクトルと前記既知語のベクトルそれぞれとの類似度を計算するステップと、
前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が前記複合語であるか否かの推定を行うステップと、
前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれを比較することにより、前記未知語の形態素間の区切り位置を推定するステップと、
を実行する複合語区切り推定方法。 - 複合語の区切り位置を推定する複合語区切り推定プログラムであって、
コンピュータに、
予め、複数の語について、前記語が複数の形態素で構成される複合語であるか否かの情報、および前記複合語である場合には前記複合語を構成する形態素間の区切り位置を記憶する学習データに記憶されていない未知語および前記学習データに記憶されている複数の既知語について、前記語が含む文字それぞれの特徴量を用いて、前記語をベクトル化するステップと、
前記未知語のベクトルと前記既知語のベクトルそれぞれとの類似度を計算するステップと、
前記類似度を、前記複合語である前記既知語との類似度および前記複合語でない前記既知語との類似度に分類し、それぞれを比較することにより、前記未知語が前記複合語であるか否かの推定を行うステップと、
前記未知語のベクトルと前記複合語である既知語のベクトルそれぞれとの前記類似度を、前記複合語である既知語の形態素間の区切り位置を条件として分類し、それぞれを比較することにより、前記未知語の形態素間の区切り位置を推定するステップと、
を実行させる複合語区切り推定プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008149909A JP4979637B2 (ja) | 2008-06-06 | 2008-06-06 | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008149909A JP4979637B2 (ja) | 2008-06-06 | 2008-06-06 | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009295052A JP2009295052A (ja) | 2009-12-17 |
JP4979637B2 true JP4979637B2 (ja) | 2012-07-18 |
Family
ID=41543154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008149909A Active JP4979637B2 (ja) | 2008-06-06 | 2008-06-06 | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4979637B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102479191B (zh) * | 2010-11-22 | 2014-03-26 | 阿里巴巴集团控股有限公司 | 提供多粒度分词结果的方法及其装置 |
CN103425691B (zh) | 2012-05-22 | 2016-12-14 | 阿里巴巴集团控股有限公司 | 一种搜索方法和系统 |
JP6232774B2 (ja) * | 2013-06-26 | 2017-11-22 | 日本電気株式会社 | 形態素解析装置、形態素解析方法、及び、形態素解析プログラム |
CN105095322A (zh) * | 2014-05-23 | 2015-11-25 | 富士通株式会社 | 人名单元词典扩充方法、人名语言识别方法和装置 |
US11222253B2 (en) | 2016-11-03 | 2022-01-11 | Salesforce.Com, Inc. | Deep neural network model for processing data through multiple linguistic task hierarchies |
JP2021157667A (ja) * | 2020-03-27 | 2021-10-07 | 富士通株式会社 | 更新支援装置、更新支援方法及び更新支援プログラム |
KR102625347B1 (ko) * | 2021-11-10 | 2024-01-15 | 동의대학교 산학협력단 | 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02158873A (ja) * | 1988-12-12 | 1990-06-19 | Ricoh Co Ltd | キーワード・マッチング装置 |
JPH06274547A (ja) * | 1993-03-22 | 1994-09-30 | Nippon Telegr & Teleph Corp <Ntt> | 複合語認識装置 |
-
2008
- 2008-06-06 JP JP2008149909A patent/JP4979637B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2009295052A (ja) | 2009-12-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singh et al. | A systematic review of text stemming techniques | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
Quispe et al. | Using virtual edges to improve the discriminability of co-occurrence text networks | |
JP5216063B2 (ja) | 未登録語のカテゴリを決定する方法と装置 | |
US11113470B2 (en) | Preserving and processing ambiguity in natural language | |
JP4979637B2 (ja) | 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム | |
WO2017177809A1 (zh) | 语言文本的分词方法和系统 | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
JP6767042B2 (ja) | シナリオパッセージ分類器、シナリオ分類器、及びそのためのコンピュータプログラム | |
KR20130056207A (ko) | 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램 | |
JP2009514076A (ja) | テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム | |
Atia et al. | Increasing the accuracy of opinion mining in Arabic | |
Zhang et al. | Multilingual sentence categorization and novelty mining | |
US12190621B2 (en) | Generating weighted contextual themes to guide unsupervised keyphrase relevance models | |
US20200401767A1 (en) | Summary evaluation device, method, program, and storage medium | |
Nehar et al. | Rational kernels for Arabic root extraction and text classification | |
US20240281606A1 (en) | Linguistic analysis of seed documents and peer groups | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
US20110106849A1 (en) | New case generation device, new case generation method, and new case generation program | |
JP2006215717A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP3925418B2 (ja) | トピック境界決定装置及びプログラム | |
JP2006227823A (ja) | 情報処理装置及びその制御方法 | |
JP4985096B2 (ja) | 文書解析システム、および文書解析方法、並びにコンピュータ・プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120309 |
|
TRDD | Decision of grant or rejection written | ||
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120321 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120417 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150427 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4979637 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |