JP2024128597A - Similar document search device, similar document search method and program - Google Patents
Similar document search device, similar document search method and program Download PDFInfo
- Publication number
- JP2024128597A JP2024128597A JP2023037638A JP2023037638A JP2024128597A JP 2024128597 A JP2024128597 A JP 2024128597A JP 2023037638 A JP2023037638 A JP 2023037638A JP 2023037638 A JP2023037638 A JP 2023037638A JP 2024128597 A JP2024128597 A JP 2024128597A
- Authority
- JP
- Japan
- Prior art keywords
- documents
- similar
- document
- search
- advance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、文書の類似度に基づいて文書を検索する類似文書検索装置、類似文書検索方法およびプログラムに関するものである。 The present invention relates to a similar document search device, a similar document search method, and a program for searching documents based on their similarity.
従来、コンピュータによる自然言語処理の一つとして、データベースに記憶された文書の中から入力文書に類似する文書を検索する検索処理が知られている(例えば、特許文献1を参照)。また、検索対象の文書中から、出現頻度ベースなどの特定のアルゴリズムによって文書を特徴づけるキーワードを抽出し、ユーザが入力したワードとキーワードの言語空間におけるベクトル同士のなす角度の近さを表現するコサイン類似度等を算出して、関連性の高い文書を出力する技術が知られている。 A conventional method of natural language processing using a computer is a search process that searches documents stored in a database for documents similar to an input document (see, for example, Patent Document 1). There is also known a technique that extracts keywords that characterize documents from the documents to be searched using a specific algorithm, such as based on frequency of occurrence, and calculates cosine similarity, which expresses the closeness of the angle between vectors in the language space of the word and keyword entered by the user, to output documents with high relevance.
しかし、ある文書群Aを検索したい場合において、入力条件(上記のワードと同等)と文書群Aとの類似性が著しく低いときには、検索精度が落ちるおそれがある。すなわち、上記のワードに類似するキーワードを文書群Aが多く保有しない場合には、従来の検索方法によるベクトルを使った類似度計算が有効でない可能性がある。 However, when searching a certain document group A, if the similarity between the input conditions (equivalent to the above words) and document group A is extremely low, search accuracy may decrease. In other words, if document group A does not contain many keywords similar to the above words, the similarity calculation using vectors according to the conventional search method may not be effective.
例えば、建設分野の文書の中から、塩害対策の文書群Aを検索して出力させるために、検索語(ワード)を「構造:S(鉄骨)造」かつ「沿岸からの距離300m以内」に設定した場合を考える。この場合、「沿岸からの距離300m以内」は自然言語処理上、塩害対策をあまり要求されない「沿岸からの距離3000m以内」等とほぼ同じように扱われる蓋然性が高いことから、塩害対策以外の文書群まで出力される可能性が高い。このように、検索語に含まれる数値の持つ意味合いが考慮されないと、検索精度が低下するおそれがある。 For example, consider the case where the search terms (words) are set to "Structure: Steel (S) construction" and "Within 300m distance from the coast" to search and output document group A on salt damage countermeasures from among documents in the construction sector. In this case, there is a high probability that "Within 300m distance from the coast" will be treated in natural language processing in roughly the same way as "Within 3000m distance from the coast," which does not require much salt damage countermeasures, and therefore there is a high possibility that document groups other than those related to salt damage countermeasures will be output. In this way, if the meaning of the numbers contained in the search terms is not taken into consideration, there is a risk of a decrease in search accuracy.
本発明は、上記に鑑みてなされたものであって、検索精度を向上することができる類似文書検索装置、類似文書検索方法およびプログラムを提供することを目的とする。 The present invention has been made in consideration of the above, and aims to provide a similar document search device, a similar document search method, and a program that can improve search accuracy.
上記した課題を解決し、目的を達成するために、本発明に係る類似文書検索装置は、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えることを特徴とする。 In order to solve the above problems and achieve the object, the similar document search device of the present invention is a device that searches for similar documents, which are documents similar to related documents, which are documents related to an input search term, from among multiple documents that have been registered in advance, and is characterized by having a related document extraction unit that extracts the related documents that are pre-linked to the search term based on a predetermined rule base, based on the input search term, and a similar document search unit that calculates the similarity between the extracted related documents and each document registered in advance, and searches for the similar documents based on the calculated similarity.
また、本発明に係る類似文書検索方法は、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する方法であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出するステップと、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索するステップとを有することを特徴とする。 The similar document search method according to the present invention is a method for searching for similar documents, which are documents similar to related documents, which are documents related to an input search term, from among a plurality of pre-registered documents, and is characterized by having a step of extracting the related documents that are pre-linked to the search term based on a predetermined rule base, based on the input search term, and a step of calculating the similarity between the extracted related documents and each pre-registered document, and searching for the similar documents based on the calculated similarity.
また、本発明に係るプログラムは、上述した類似文書検索方法をコンピュータに実行させることを特徴とする。 The program according to the present invention is characterized in that it causes a computer to execute the similar document search method described above.
本発明に係る類似文書検索装置によれば、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えるので、検索精度を向上することができるという効果を奏する。 The similar document search device according to the present invention is a device that searches for similar documents, which are documents similar to related documents, which are documents related to an input search term, from among multiple documents that have been registered in advance, and includes a related document extraction unit that extracts the related documents that are linked to the input search term in advance using a predetermined rule base, based on the input search term, and a similar document search unit that calculates the similarity between the extracted related documents and each document that has been registered in advance, and searches for the similar documents based on the calculated similarity, thereby achieving the effect of improving search accuracy.
また、本発明に係る類似文書検索方法によれば、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する方法であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出するステップと、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索するステップとを有するので、検索精度を向上することができるという効果を奏する。 The similar document search method according to the present invention is a method for searching for similar documents, which are documents similar to related documents, which are documents related to an input search term, from among multiple documents registered in advance, and includes the steps of extracting the related documents that are linked to the search term in advance on a predetermined rule basis based on the input search term, calculating the similarity between the extracted related documents and each document registered in advance, and searching for the similar documents based on the calculated similarity, thereby achieving the effect of improving search accuracy.
以下に、本発明に係る類似文書検索装置、類似文書検索方法およびプログラムの実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。 Below, embodiments of a similar document search device, a similar document search method, and a program according to the present invention will be described in detail with reference to the drawings. Note that the present invention is not limited to these embodiments.
図1に示すように、本発明の実施の形態に係る類似文書検索装置10は、入力部12と、関連文書抽出部14と、類似文書検索部16と、出力部18と、記憶部20とを備える。
As shown in FIG. 1, a similar document search device 10 according to an embodiment of the present invention includes an input unit 12, a related document extraction unit 14, a similar document search unit 16, an
入力部12は、類似文書の検索においてキーとなる検索語の入力を受け付けるものであり、例えば、入力インターフェース用のキーボードおよびディスプレイ画面等に設けられる入力欄などにより構成される。検索語は、一定の意味を有する語句や、長さ等の単位を含む数値などの字句を想定している。例えば、建設事業分野の場合には、検索語として、案件情報(建設地・延床・面積・構造など)、性能情報(沿岸部・軟弱地盤・特殊構造など)、仕上情報(壁:石・屋根:防水など)のいずれか一つ以上を用いることができる。検索語は、キーワードとして予め複数の選択肢を設けておき、入力部12においていずれかを選択して入力可能なようにしてもよい。また、複数の検索語を入力して、AND検索やOR検索が可能なようにしてもよい。例えば、「構造:S(鉄骨)造」、「沿岸からの距離300m以内」の二つを検索語として入力してもよい。 The input unit 12 accepts input of search terms that are used as keys in searching for similar documents, and is composed of, for example, a keyboard for an input interface and an input field provided on a display screen. The search terms are assumed to be words with a certain meaning or words such as numbers including units such as length. For example, in the case of the construction business field, the search terms may be one or more of project information (construction site, total floor area, area, structure, etc.), performance information (coastal area, soft ground, special structure, etc.), and finishing information (wall: stone, roof: waterproof, etc.). A number of options may be provided as keywords for the search terms, and one of them may be selected and input in the input unit 12. In addition, multiple search terms may be input to enable AND searches or OR searches. For example, the two search terms "structure: steel (steel) construction" and "within 300 m distance from the coast" may be input.
関連文書抽出部14は、入力部12に入力された検索語に基づいて、所定のルールベースで予め紐付けられている関連文書を記憶部20から抽出する。関連文書およびルールベースは、記憶部20に記憶されている。ルールベースには、検索語と、この検索語に関連する関連文書の情報(例えば、文書のタイトルなど)が予め紐付けて登録されている。これにより、字句形式の検索語と文書形式の関連文書とが対応付けられる。ルールベースは、過去の多数のデータから、検索語と文書を分析して、検索語と文書の関連性をルール化して設定することができる。この関連性は、例えば、過去に入力された検索語の使用頻度および類似文書の閲覧頻度から算出された重み付け値などに基づいて設定してもよいし、予め人の手によって設定してもよい。検索語が建設案件の断片的な情報であった場合には、頻出した不具合事例が記載された文書を関連文書としてもよい。例えば、上記の例では、検索語が「構造:S(鉄骨)造」かつ「沿岸からの距離300m以内」の場合、「塩害対策の文書」が関連文書となるように紐付けてもよい。
The related document extraction unit 14 extracts related documents from the
類似文書検索部16は、関連文書抽出部14により抽出した関連文書を入力文書とし、この入力文書と記憶部20に記憶されている検索対象の各文書との類似度を自然言語処理により算出し、算出した類似度に基づいて、関連文書と類似度の高い類似文書を検索する。類似度は、例えば、関連文書および検索対象の各文書のそれぞれを形態素に分割し、それぞれに共通して出現する単語の数をカウントすることにより算出する方法や、上記の特許文献1に記載されているベクトル空間法などの公知の類似文書検索技術を用いることができる。
The similar document search unit 16 uses the related documents extracted by the related document extraction unit 14 as input documents, calculates the similarity between this input document and each document to be searched stored in the
出力部18は、類似文書検索部16により検索された類似文書についての情報を類似文書検索結果として出力するものであり、例えば、類似文書の文字列を表示するディスプレイやプリンタなどで構成される。類似文書検索結果として、例えば、類似文書のタイトルなどを出力することができる。
The
記憶部20は、類似文書検索部16による検索の対象となる複数の文書と、複数の関連文書と、ルールベースを記憶するものであり、例えば、データベースやメモリなどにより構成される。記憶部20に記憶される文書および関連文書は、電子書籍、電子ファイル、ウェブページ等のテキスト形式のデータを含む電子媒体の電子文書である。この電子文書は、少なくとも本文とタイトルを有する。電子文書は、建設事業分野などで使用される各種法令、社内標準、施工マニュアル、Tips集、べからず集等の電子文書であってもよい。
The
なお、上記の類似文書検索装置10のハードウェアの例は、CPU、RAM、ROM、ハードディスク、通信インターフェース等を備えたコンピュータである。上記の各機能を実現するプログラムをRAMまたはROMに格納しておき、CPUによってこのプログラムを実行することによって、類似文書検索を行うことができる。このようなプログラムも本発明の範囲に含まれる。 An example of the hardware of the similar document search device 10 is a computer equipped with a CPU, RAM, ROM, a hard disk, a communication interface, etc. Similar document search can be performed by storing a program that realizes each of the above functions in the RAM or ROM and executing this program by the CPU. Such programs are also included in the scope of the present invention.
次に、本発明の実施の形態に係る類似文書検索方法について説明する。この類似文書検索方法は、例えば、上記の類似文書検索装置10の各部が、図2に示したステップS1~S4の処理を行うことにより実行される。 Next, a similar document search method according to an embodiment of the present invention will be described. This similar document search method is executed, for example, by each unit of the similar document search device 10 performing the processes of steps S1 to S4 shown in FIG. 2.
まず、ステップS1において、入力部12に検索語を入力する。次のステップS2において、関連文書抽出部14が検索語およびルールベースに基づいて、検索語と予め紐付けられている関連文書を抽出する。次のステップS3において、類似文書検索部16が関連文書と記憶部20に記憶されている各文書の類似度を算出する。次のステップS4において、算出した類似度に基づいて類似文書を検索し、検索結果を出力部18から出力する。
First, in step S1, a search term is input to the input unit 12. In the next step S2, the related document extraction unit 14 extracts related documents that are pre-linked to the search term based on the search term and the rule base. In the next step S3, the similar document search unit 16 calculates the similarity between the related document and each document stored in the
図3は、本実施の形態による検索例を示した概念図である。この図に示すように、入力する検索語として、例えば、案件情報(建設地・延床・面積・構造など)、性能情報(沿岸部・軟弱地盤・特殊構造など)、仕上情報(壁:石・屋根:防水など)のいずれか一つ以上の情報を入力すると、設定したルールベースに基づいて、検索語に紐付けられた関連文書(不具合事例を記載した文書)が記憶部20から抽出される。その後、抽出した関連文書と、記憶部20に記憶されている各文書との間で自然言語処理(類似文書検索)が行われ、関連文書と類似性の高い類似文書のタイトルが出力される。図の例では、類似文書としてTips集、施工マニュアル、べからず集が出力された場合を示している。
Figure 3 is a conceptual diagram showing a search example according to this embodiment. As shown in this figure, when one or more pieces of information are input as search terms, such as project information (construction site, total floor area, area, structure, etc.), performance information (coastal area, soft ground, special structure, etc.), and finishing information (wall: stone, roof: waterproof, etc.), related documents (documents describing defect cases) linked to the search terms are extracted from the
このように、本実施の形態によれば、入力した検索語を媒介用の関連文書に疑似的に変換してから、自然言語処理によって関連文書と各文書との間で類似文書検索を行うことで、関連性の高い類似文書を出力する。このようにすれば、検索語に関連するキーワードを各文書が多く保有しないような場合であっても、高精度に検索を行える。したがって、上記の従来の方法に比べて検索精度を向上することができる。 In this way, according to this embodiment, the input search term is pseudo-converted into an intermediary related document, and then a similar document search is performed between the related documents and each document using natural language processing, thereby outputting highly related similar documents. In this way, even if each document does not have many keywords related to the search term, a highly accurate search can be performed. Therefore, the search accuracy can be improved compared to the conventional method described above.
特に、本実施の形態によれば、自然言語処理では扱いにくい検索語中の数値の持つ意味合いを、関連文書に置き換えることにより自然言語処理しやすくなる。例えば、上記の例では、検索語の「沿岸からの距離300m以内」は「沿岸からの距離3000m以内」であったとしても自然言語処理上はほぼ同じように扱われる蓋然性が高い。しかし、「沿岸からの距離300m以内」を塩害対策の関連文書に置き換えることにより、「300m以内」が「塩害」と関係があるという意味付けが可能となる。これにより、最終的に検索される類似文書と検索語とを、「塩害」というワードで関連付けることができる。 In particular, according to this embodiment, the meaning of the numerical values in the search term, which is difficult to handle in natural language processing, is replaced with related documents, making natural language processing easier. For example, in the above example, the search term "within 300 m of the coast" is likely to be treated almost the same in natural language processing as "within 3000 m of the coast". However, by replacing "within 300 m of the coast" with related documents on salt damage countermeasures, it is possible to give the meaning that "within 300 m" is related to "salt damage". This makes it possible to associate the similar documents ultimately found with the search term through the word "salt damage".
以上説明したように、本発明に係る類似文書検索装置によれば、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する装置であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えるので、検索精度を向上することができる。 As described above, the similar document search device of the present invention is a device that searches for similar documents, which are documents similar to related documents that are documents related to an input search term, from among multiple pre-registered documents, and includes a related document extraction unit that extracts the related documents that are pre-linked to the search term based on a predetermined rule base based on the input search term, and a similar document search unit that calculates the similarity between the extracted related documents and each pre-registered document and searches for the similar documents based on the calculated similarity, thereby improving search accuracy.
また、本発明に係る類似文書検索方法によれば、入力する検索語に関連した文書である関連文書に類似した文書である類似文書を、予め登録されている複数の文書の中から検索する方法であって、入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出するステップと、抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索するステップとを有するので、検索精度を向上することができる。 The similar document search method according to the present invention is a method for searching for similar documents, which are documents similar to related documents that are documents related to an input search term, from among multiple documents registered in advance, and includes the steps of extracting the related documents that are linked to the search term in advance on a predetermined rule basis based on the input search term, calculating the similarity between the extracted related documents and each document registered in advance, and searching for the similar documents based on the calculated similarity, thereby improving search accuracy.
以上のように、本発明に係る類似文書検索装置、類似文書検索方法およびプログラムは、文書の類似度に基づいて文書を検索するのに有用であり、特に、検索精度を向上するのに適している。 As described above, the similar document search device, similar document search method, and program of the present invention are useful for searching documents based on document similarity, and are particularly suitable for improving search accuracy.
10 類似文書検索装置
12 入力部
14 関連文書抽出部
16 類似文書検索部
18 出力部
20 記憶部
10 Similar document search device 12 Input unit 14 Related document extraction unit 16 Similar
Claims (3)
入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出する関連文書抽出部と、
抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索する類似文書検索部とを備えることを特徴とする類似文書検索装置。 A device for searching for similar documents, which are documents similar to related documents, which are documents related to an input search term, from among a plurality of documents registered in advance, comprising:
a related document extraction unit that extracts the related documents that are linked to the input search term in advance according to a predetermined rule base, based on the input search term;
A similar document search device comprising a similar document search unit that calculates the similarity between the extracted related documents and each document registered in advance, and searches for the similar documents based on the calculated similarity.
入力された前記検索語に基づいて、所定のルールベースで前記検索語と予め紐付けられている前記関連文書を抽出するステップと、
抽出した前記関連文書と、予め登録されている各文書の類似度を算出し、算出した類似度に基づいて前記類似文書を検索するステップとを有することを特徴とする類似文書検索方法。 A method for searching for similar documents, which are documents similar to related documents, which are documents related to an input search term, from among a plurality of documents registered in advance, comprising the steps of:
extracting the related documents that are linked to the input search term in advance based on a predetermined rule base;
A similar document search method comprising the steps of: calculating a similarity between the extracted related documents and each document registered in advance; and searching for the similar documents based on the calculated similarity.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023037638A JP2024128597A (en) | 2023-03-10 | 2023-03-10 | Similar document search device, similar document search method and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023037638A JP2024128597A (en) | 2023-03-10 | 2023-03-10 | Similar document search device, similar document search method and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024128597A true JP2024128597A (en) | 2024-09-24 |
Family
ID=92839784
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023037638A Pending JP2024128597A (en) | 2023-03-10 | 2023-03-10 | Similar document search device, similar document search method and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024128597A (en) |
-
2023
- 2023-03-10 JP JP2023037638A patent/JP2024128597A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Manjari et al. | Extractive Text Summarization from Web pages using Selenium and TF-IDF algorithm | |
JP3270783B2 (en) | Multiple document search methods | |
JP5316158B2 (en) | Information processing apparatus, full-text search method, full-text search program, and recording medium | |
US20070179930A1 (en) | Method for ranking and sorting electronic documents in a search result list based on relevance | |
CN107844493B (en) | File association method and system | |
KR100847376B1 (en) | Retrieval Method and Device Using Automatic Query Extraction | |
Krishnaveni et al. | Automatic text summarization by local scoring and ranking for improving coherence | |
JP3584848B2 (en) | Document processing device, item search device, and item search method | |
WO2007113585A1 (en) | Methods and systems of indexing and retrieving documents | |
JP4969209B2 (en) | Search system | |
CN116595122A (en) | Method, device and equipment for searching computer field document in question-answering system | |
Islam et al. | Query expansion for Bangla search engine pipilika | |
JP2012104051A (en) | Document index creating device | |
Bama et al. | A mathematical approach for mining web content outliers using term frequency ranking | |
EP1346296B1 (en) | Lossy index compression | |
JPH0773197A (en) | Different notation dictionary creation support device | |
Kaczmarek | Interactive query expansion with the use of clustering-by-directions algorithm | |
JP2024128597A (en) | Similar document search device, similar document search method and program | |
JP3558267B2 (en) | Document search device | |
JP2000207404A (en) | Document search method and apparatus, and recording medium | |
JP4024906B2 (en) | Tagged document search system | |
Zheng et al. | An improved focused crawler based on text keyword extraction | |
CN116126893B (en) | Data association retrieval method and device and related equipment | |
US20160314125A1 (en) | Predictive Coding System and Method | |
Jia et al. | University of Otago at INEX 2010 |