[go: up one dir, main page]

JP2024172025A - Information processing device, information processing method, and program - Google Patents

Information processing device, information processing method, and program Download PDF

Info

Publication number
JP2024172025A
JP2024172025A JP2023089438A JP2023089438A JP2024172025A JP 2024172025 A JP2024172025 A JP 2024172025A JP 2023089438 A JP2023089438 A JP 2023089438A JP 2023089438 A JP2023089438 A JP 2023089438A JP 2024172025 A JP2024172025 A JP 2024172025A
Authority
JP
Japan
Prior art keywords
information processing
electronic document
character string
line
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023089438A
Other languages
Japanese (ja)
Inventor
重樹 上坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2023089438A priority Critical patent/JP2024172025A/en
Publication of JP2024172025A publication Critical patent/JP2024172025A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Figure 2024172025000001

【課題】ユーザによる電子文書データの分類に要する手間を低減することのできる情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】情報処理装置は、電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された対象文字列と所定の文字列とを比較した比較の結果に基づいて電子文書の分類先候補を出力する処理を行う処理部を備える。処理部は、抜き出した行に空白が含まれる場合には行から空白を削除して対象文字列を生成する。
【選択図】図2

Figure 2024172025000001

An information processing apparatus, an information processing method, and a program are provided that can reduce the effort required for a user to classify electronic document data.
The information processing device includes a processing unit that performs processing to generate a target string based on lines extracted line by line from an electronic document, compares the generated target string with a predetermined string, and outputs a candidate classification destination for the electronic document based on a comparison result. If the extracted line contains spaces, the processing unit deletes the spaces from the line to generate the target string.
[Selected figure] Figure 2

Description

この発明は、情報処理装置、情報処理方法及びプログラムに関する。 This invention relates to an information processing device, an information processing method, and a program.

従来、画像から文字を認識して、分類項目を取得する技術が知られている(特許文献1)。また、特許文献2には、文書の画像データから認識された文字列から元の文書でなされていた強調表示を適切に読み取る技術が開示されている。 Conventionally, technology is known that recognizes characters from an image and obtains classification items (Patent Document 1). In addition, Patent Document 2 discloses technology that appropriately reads highlighting that was made in the original document from character strings recognized from the image data of the document.

一方、多くの取引が電子文書により行われるようになってきている。電子文書は、ネットワークを介して迅速にやり取りされる。電子文書としては、PDF(Portable Document Format)が幅広く利用されている。 On the other hand, many transactions are now being conducted using electronic documents. Electronic documents are quickly exchanged over networks. PDF (Portable Document Format) is widely used as a format for electronic documents.

特開2008-176625号公報JP 2008-176625 A 特開2017-126270号公報JP 2017-126270 A

ネットワークを介して受信された電子文書のデータは、担当者が分類して処理、保管する。しかしながら、電子文書の分量が増えるのに従って、分類作業に要する担当者の手間も大きくなっているという課題がある。 The data of electronic documents received via the network is classified, processed, and stored by the person in charge. However, as the volume of electronic documents increases, the amount of work required by the person in charge for classification also increases, which is an issue.

この発明の目的は、担当者による電子文書データの分類に要する手間を低減することのできる情報処理装置、情報処理方法及びプログラムを提供することにある。 The object of the present invention is to provide an information processing device, information processing method, and program that can reduce the effort required for a person in charge to classify electronic document data.

上記目的を達成するため、本発明は、
電子文書から検出する内容を記憶する記憶部と、
電子文書に含まれる文字を抜き出して順番に並べたテキストから前記内容に応じた文字列を検出し、前記文字列に対応する分類を出力する処理を行う処理部と、
を備える情報処理装置である。
In order to achieve the above object, the present invention provides
a storage unit that stores the content detected from the electronic document;
a processing unit that performs a process of detecting a character string corresponding to the content from a text obtained by extracting and arranging characters included in an electronic document in order, and outputting a classification corresponding to the character string;
The information processing device includes:

本発明に従うと、担当者による電子文書データの分類に要する手間を低減することができるという効果がある。 The present invention has the advantage of reducing the effort required for personnel to classify electronic document data.

本実施形態の情報処理装置の機能構成を示すブロック図である。1 is a block diagram showing a functional configuration of an information processing apparatus according to an embodiment of the present invention; 情報処理装置における文書分類の流れについて説明する図である。FIG. 1 is a diagram illustrating a flow of document classification in an information processing device. 分類定義データを説明する図である。FIG. 2 is a diagram illustrating classification definition data. 電子帳簿書類の先頭付近の例を示す図である。FIG. 13 is a diagram showing an example of the beginning portion of an electronic ledger document. 監視制御処理の制御手順を示すフローチャートである。4 is a flowchart showing a control procedure of a monitoring control process. 登録ツールにより実行される文書分類制御処理の制御手順を示すフローチャートである。13 is a flowchart showing a control procedure of a document classification control process executed by a registration tool.

以下、本発明の実施の形態を図面に基づいて説明する。
図1は、本実施形態の情報処理装置1の機能構成を示すブロック図である。
Hereinafter, an embodiment of the present invention will be described with reference to the drawings.
FIG. 1 is a block diagram showing the functional configuration of an information processing device 1 according to the present embodiment.

情報処理装置1は、通常のPC(Personal Computer)であってもよい。情報処理装置1は、CPU11(Central Processing Unit)(制御部)と、RAM12(Random Access Memory)と、記憶部13と、表示部14と、操作受付部15と、通信部16などを備える。 The information processing device 1 may be a normal PC (Personal Computer). The information processing device 1 includes a CPU 11 (Central Processing Unit) (control unit), a RAM 12 (Random Access Memory), a storage unit 13, a display unit 14, an operation reception unit 15, a communication unit 16, etc.

CPU11は、演算処理を行うプロセッサである。CPU11は、単一であってもよいし、複数のものが並列に動作、又は用途などに応じて各々独立に動作するのであってもよい。CPU11は、汎用プロセッサだけではなく、マイコン又はASIC(Application Specific Integrated Circuit)などであってもよい。CPU11は、処理部として情報処理装置1が取得した電子文書を分類して保管する。 The CPU 11 is a processor that performs arithmetic processing. There may be a single CPU 11, or multiple CPUs operating in parallel, or each operating independently depending on the application. The CPU 11 may be not only a general-purpose processor, but also a microcomputer or an ASIC (Application Specific Integrated Circuit). The CPU 11, as a processing unit, classifies and stores electronic documents acquired by the information processing device 1.

RAM12は、CPU11に作業用のメモリ空間を提供し、一時データを記憶する。 RAM 12 provides working memory space for CPU 11 and stores temporary data.

記憶部13は、不揮発性メモリを含む。不揮発性メモリは、例えば、フラッシュメモリやHDD(Hard Disk Drive)などである。不揮発性メモリには、各種プログラム及び設定データなどが記憶される。また、記憶部13は、文書データベース134を記憶している。各種プログラムには、メールソフト131と、後述の監視ツール及び登録ツールを含む文書分類のためのプログラム132とが含まれる。設定データには、電子文書から検出して当該電子文書の分類に利用する内容を定義した分類定義データ135が含まれる。ダウンロードデータ133は、外部から取得されてダウンロードフォルダ(又はディレクトリ)に記憶されたデータである。このデータには、例えば、受信した電子メールに添付されたデータ、及びHTTPにより外部のWebサイトなどからダウンロードされたデータなどが含まれる。なお、ダウンロードフォルダの名称は、他のものであってもよい。 The storage unit 13 includes a non-volatile memory. The non-volatile memory is, for example, a flash memory or a hard disk drive (HDD). Various programs and setting data are stored in the non-volatile memory. The storage unit 13 also stores a document database 134. The various programs include an email software 131 and a program 132 for document classification including a monitoring tool and a registration tool described below. The setting data includes classification definition data 135 that defines the contents to be detected from an electronic document and used to classify the electronic document. The download data 133 is data acquired from outside and stored in a download folder (or directory). This data includes, for example, data attached to a received email and data downloaded from an external website or the like via HTTP. The download folder may have a different name.

表示部14は、デジタル表示画面を有し、CPU11の制御に基づいて種々の情報をデジタル表示画面に表示する。デジタル表示画面は、例えば、液晶ディスプレイ(LCD)又は有機EL(Electro-Luminescent)ディスプレイなどである。 The display unit 14 has a digital display screen and displays various information on the digital display screen based on the control of the CPU 11. The digital display screen is, for example, a liquid crystal display (LCD) or an organic EL (Electro-Luminescent) display.

操作受付部15は、ユーザなどの外部からの入力操作を受け付ける。操作受付部15は、受け付けられた入力操作に応じた操作信号をCPU11へ出力する。操作受付部15は、例えば、キーボード及びポインティングデバイスなどを含み得る。ポインティングデバイスには、マウスが含まれていてもよい。また、操作受付部15は、デジタル表示画面に重なって位置するタッチパネルを有していてもよい。
なお、情報処理装置1は、表示部14及び操作受付部15を有していなくてもよい。これらは、周辺機器として、USB(Universal Serial Bus)端子又はPS/2端子などの接続端子を介して情報処理装置1に外付けされていてもよい。あるいは、これらは外部機器であって、通信部16を介して情報処理装置1と通信接続されてもよい。
The operation reception unit 15 receives an input operation from an external source such as a user. The operation reception unit 15 outputs an operation signal corresponding to the received input operation to the CPU 11. The operation reception unit 15 may include, for example, a keyboard and a pointing device. The pointing device may include a mouse. The operation reception unit 15 may also have a touch panel that is positioned so as to overlap the digital display screen.
The information processing device 1 does not necessarily have to have the display unit 14 and the operation reception unit 15. These may be externally attached to the information processing device 1 as peripheral devices via a connection terminal such as a USB (Universal Serial Bus) terminal or a PS/2 terminal. Alternatively, these may be external devices and communicatively connected to the information processing device 1 via the communication unit 16.

通信部16は、外部機器との通信を所定の規約(プロトコル)に従って制御する。所定の規約には、例えば、LAN(Local Area Network)におけるTCP/IPなどが含まれ得る。通信部16は、ブルートゥース(登録商標)やWiFiなどの無線通信を制御するためのネットワークカードを有していてもよい。通信部16は、各々の通信規約に従って、外部機器と通信が可能であってもよい。外部機器には、上記のように表示部14及び操作受付部15の構成が含まれていてもよい。
本実施形態のコンピュータは、少なくともCPU11とRAM12とを含み、記憶部13及び通信部16などを含み得る。また、本実施形態の情報処理装置1の全体がコンピュータに対応してもよい。
The communication unit 16 controls communication with an external device according to a predetermined protocol. The predetermined protocol may include, for example, TCP/IP in a LAN (Local Area Network). The communication unit 16 may have a network card for controlling wireless communication such as Bluetooth (registered trademark) or WiFi. The communication unit 16 may be capable of communicating with an external device according to each communication protocol. The external device may include the configuration of the display unit 14 and the operation reception unit 15 as described above.
The computer of this embodiment includes at least a CPU 11 and a RAM 12, and may also include a storage unit 13 and a communication unit 16. Furthermore, the entire information processing device 1 of this embodiment may correspond to a computer.

次に、本実施形態の情報処理装置1による文書分類処理について説明する。
図2は、情報処理装置1における文書分類の流れについて説明する図である。
Next, a document classification process performed by the information processing device 1 of this embodiment will be described.
FIG. 2 is a diagram illustrating a flow of document classification in the information processing device 1. As shown in FIG.

情報処理装置1では、電子帳簿に係る電子文書データが分類されて文書データベース134に登録される。分類対象とされる電子文書のフォーマットは、PDFファイルである。電子文書が特定のフォルダ又はディレクトリ(予め定められた位置)、例えば、ダウンロードフォルダに格納、記憶されると、監視ツールが電子文書の追加を検出する。すなわち、監視ツールは、常駐プログラムであってもよい。監視ツールは、電子文書の追加を検出すると、登録ツールを起動させる。 In the information processing device 1, electronic document data related to the electronic ledger is classified and registered in the document database 134. The format of the electronic document to be classified is a PDF file. When the electronic document is stored or saved in a specific folder or directory (a predetermined location), for example, a download folder, the monitoring tool detects the addition of the electronic document. In other words, the monitoring tool may be a resident program. When the monitoring tool detects the addition of an electronic document, it launches the registration tool.

登録ツールは、追加されたPDFファイルを解析する。登録ツールは、PDFファイル(電子文書)からテキスト(表示される文字;数字、記号及び標識などを含む)を1行分ずつ順番に抜き出したテキストデータを対象文字列として取得する。PDFファイルがタグ付きデータの場合には、登録ツールは、このPDFファイルを構造解析して、表示内容のテキストを全文抜き出す。登録ツールは、テキスト内で改行を指示する位置を特定して、当該位置を区切りとして、1行分のテキスト(行)ごとに分割する。登録ツールは、行に分割する際に、改行を示す制御コードやタグを削除してもよい。また、登録ツールは、全文を抜き出す際、又は行に分割する際に、対象文字列内で表示上の改行とは関係のないデータ上の改行を削除又は無視してもよい。さらに、登録ツールは、このときに抜き出したテキストに対応するタグデータからフォントサイズ、フォント種別及びフォントカラーなどの表示設定を特定してもよい。登録ツールは、抜き出された各行のテキスト(対象文字列)をそれぞれ分類定義データ135と比較して、分類定義データ135により定義されている検出内容であるキーワード(所定の文字列)を検索する。登録ツールは、検出された内容(文字列)に応じて分類先候補を抽出して、表示部14により候補を表示(出力)させる。この候補に対して操作受付部15が選択に係る入力操作を受け付けると、入力操作に応じて分類先が決定されて、PDFファイルが分類情報とともに文書データベース134に登録される。 The registration tool analyzes the added PDF file. The registration tool obtains text data obtained by extracting text (displayed characters, including numbers, symbols, signs, etc.) from the PDF file (electronic document) one line at a time as the target character string. If the PDF file is tagged data, the registration tool performs structural analysis on the PDF file to extract the entire text of the displayed content. The registration tool identifies positions that indicate line breaks in the text and divides the text into one line (line) at the positions. When dividing into lines, the registration tool may delete control codes or tags that indicate line breaks. In addition, when extracting the entire text or dividing into lines, the registration tool may delete or ignore line breaks in data that are not related to line breaks in the display in the target character string. Furthermore, the registration tool may identify display settings such as font size, font type, and font color from tag data corresponding to the text extracted at this time. The registration tool compares the extracted text (target character string) of each line with the classification definition data 135, and searches for a keyword (predetermined character string) that is the detection content defined by the classification definition data 135. The registration tool extracts classification destination candidates according to the detected content (character string), and displays (outputs) the candidates on the display unit 14. When the operation reception unit 15 receives an input operation related to selection from among these candidates, the classification destination is determined according to the input operation, and the PDF file is registered in the document database 134 together with the classification information.

なお、ダウンロードフォルダには、登録すべき電子文書データ以外のファイルが記憶され得る。PDF形式以外のファイルが追加された場合には、監視ツールは、登録ツールを起動させない。PDF形式のファイルが追加されて登録ツールが起動された場合でも、ユーザは、このファイルを登録しない選択操作を行うことができる。この場合には、PDFファイルは、そのままダウンロードフォルダに残され、他の任意の用途などに用いられ得る。 Note that files other than the electronic document data to be registered may be stored in the download folder. If a file other than a PDF format is added, the monitoring tool will not start the registration tool. Even if a PDF format file is added and the registration tool is started, the user can select not to register this file. In this case, the PDF file is left in the download folder as is and can be used for any other purpose.

また、監視ツールは、ダウンロードフォルダ以外の設定されたフォルダ(設定位置)に追加される新規ファイルを監視するのであってもよい。電子帳簿に係るPDFファイルが他のファイルとは異なる専用フォルダに一時記憶されることで、分類が必要なファイルが記憶された場合にのみ登録ツールが起動される。 The monitoring tool may also monitor new files that are added to a set folder (set location) other than the download folder. PDF files related to electronic ledgers are temporarily stored in a dedicated folder that is different from other files, so that the registration tool is launched only when a file that requires classification is stored.

また、PDFファイルは、テキスト部分を含めて表示内容が全て画像データである場合がある。この場合には、登録ツールは、電子帳簿データではないと判断してもよい。あるいは、登録ツールは、周知の文字認識技術を利用して、画像からテキストを読み取ってもよい。この場合、登録ツールは、テキストの内容とともに、各文字のフォントサイズ、フォント種別及びフォントカラーなどを読み取ってもよい。 In addition, the entire display content of a PDF file, including the text portion, may be image data. In this case, the registration tool may determine that it is not electronic ledger data. Alternatively, the registration tool may use well-known character recognition technology to read text from the image. In this case, the registration tool may read the font size, font type, and font color of each character along with the text content.

図3は、分類定義データ135を説明する図である。
図3(a)に示すように、分類項目(キー)には、電子文書の表題に応じた文書種別が含まれ得る。「見積書」、「請求書」、「注文書」などは、表題(タイトル)がそのまま電子文書の分書種別(キー)に係る分類種別を表す文字列(キーワード)であり得る。表題は、文書の先頭にあることが多いので、文書の先頭付近で優先的にこれらの文字列が検索されてもよい。あるいは、文書の先頭の行から予め定められた行数、例えば、1行目から3行目までの3行だけで、これらの文字列が検索されてもよい。また、上記のように構造解析により表示設定が取得されている場合には、特定の表示設定、例えば、フォントサイズが他の部分よりも大きい行で優先的に又は選択的に文字列を検索してもよい。
FIG. 3 is a diagram for explaining the classification definition data 135. As shown in FIG.
As shown in FIG. 3A, the classification items (keys) may include document types according to the titles of electronic documents. Titles such as "quotation", "invoice", and "order form" may be character strings (keywords) that directly indicate classification types related to the document division types (keys) of electronic documents. Since titles are often located at the beginning of a document, these character strings may be searched for preferentially near the beginning of the document. Alternatively, these character strings may be searched for in a predetermined number of lines from the beginning of the document, for example, only three lines from the first line to the third line. In addition, when the display settings are acquired by structural analysis as described above, character strings may be searched for preferentially or selectively in a specific display setting, for example, in a line with a larger font size than other parts.

また、このような表題では、しばしば各文字の間にスペース(空白。全角半角、数を問わない。また、タブなどによるもの、タグによって空白両脇の文字の位置が別個に指定されたものなども含まれる)が挿入されている。登録ツールは、抽出したテキスト(全文まとめて又は行ごと)からこのスペースを削除して、検出内容が検索される対象の文字列(対象文字列)を特定(生成)する。テキスト内にスペースがない場合には、行のテキストがそのまま対象文字列とされればよい。テキストが一行ごとに区分されることで、対象文字列では、複数の行の文字が不必要につながらない。 Furthermore, such titles often have spaces (blank spaces, full-width or half-width, any number of spaces; also includes spaces created by tabs or spaces where the positions of characters on either side of the spaces are specified separately by tags) inserted between each character. The registration tool removes these spaces from the extracted text (all at once or line by line) to identify (generate) the target string in which the detection content will be searched for (target string). If there are no spaces in the text, the text of the line can be used as is as the target string. By dividing the text into lines, characters from multiple lines are not unnecessarily joined together in the target string.

「注文書」及び「発注書」は、異なる表題であるが、文書としては同種のものである。したがって、ここでは、分類定義データ135においてカンマにより区切られて同一行に記載されることで、同一分類とされる。 Although "purchase order" and "purchase order" have different titles, they are the same type of document. Therefore, in this case, they are listed on the same line, separated by a comma, in the classification definition data 135, and are therefore classified as being in the same category.

図3(b)に示すように、分類は、また、書類の自社(団体)からの宛先又は自社(団体)への発送元など取引先種別に応じてなされ得る。すなわち、取引先種別を分類項目(キー)として、宛先又は発送元を表す法人の名称が分類のキーワードであってもよい。宛先は、文書の上部にあることが多いが、先頭には限られない。情報処理装置1(登録ツール)は、抽出したテキストから宛先に含まれることの多い法人の種別を含む文字列(キーワード)を検出する。法人の種別は、例えば、株式会社、有限会社、合名会社、合資会社、相互会社、合同会社などであり、しばしば「(株)」などのように括弧付きで省略表記され得る。登録ツールは、これらの文字列の候補を正規表現により予め設定しておくことで、宛先の候補を検索する。また、宛先候補の文字列と同一行内の「御中」、「様」、「送付先」、「送付元」などは、通常、取引先の名称ではない。したがって、これらは、法人の種別の候補を表す文字列から除外する用語(除外ワード)、又は候補の先頭又は末尾を示す用語として予め設定され得る。ユーザは、予め設定されていない法人の種別を分類定義データ135に追加設定することができてもよい。 As shown in FIG. 3B, classification may also be performed according to the type of business partner, such as the destination from the company (organization) of the document or the sender to the company (organization). That is, the business partner type may be the classification item (key), and the name of the corporation representing the destination or sender may be the classification keyword. The destination is often located at the top of the document, but is not limited to the beginning. The information processing device 1 (registration tool) detects a character string (keyword) including the type of corporation that is often included in the destination from the extracted text. The type of corporation is, for example, a joint stock company, a limited liability company, a limited partnership company, a mutual company, a limited liability company, etc., and may often be abbreviated in parentheses such as "(stock)". The registration tool searches for destination candidates by setting these character string candidates in advance using regular expressions. In addition, "Dear", "Mr.", "Destination", "Sender", etc. in the same line as the character string of the destination candidate are not usually the name of the business partner. Therefore, these may be set in advance as terms (exclusion words) to be excluded from the character string representing the candidate type of corporation, or as terms indicating the beginning or end of the candidate. The user may be able to add a corporate type that has not been pre-defined to the classification definition data 135.

取引先の法人が営利会社などではないことが多い場合には、図3(c)に示すように、「法人」が含まれる名称を検出対象の法人の種別とする設定がなされてもよい。この場合の法人の種別には、例えば、社団法人、財団法人、NPO法人(非営利活動法人)、学校法人、医療法人、独立行政法人、社会福祉法人などが含まれ得る。 In cases where a business partner is often not a profit-making company, as shown in FIG. 3(c), a setting may be made in which names containing "corporation" are set as the type of corporation to be detected. In this case, the types of corporations may include, for example, incorporated associations, incorporated foundations, non-profit organizations (NPOs), school corporations, medical corporations, independent administrative organizations, and social welfare corporations.

更に、図3(d)に示すように、法律又は経理などと関係が強い場合には、例えば、弁護士法人、税理士法人、弁理士法人、司法書士法人、行政書士法人、及び法律事務所、法務事務所、会計事務所、税理士事務所、司法書士事務所、行政書士事務所などを検索可能な正規表現を分類定義データ135に設定することができる。また、情報処理装置1は、図3(b)~図3(d)の設定を全て有し、ユーザが必要なもののみが選択的に利用されてもよい。その他、日本国外との取引が多い場合などには、例えば、LLC, Co. Ltd., Inc.,などが分類定義データ135に設定されてもよい。 Furthermore, as shown in FIG. 3(d), in cases where there is a strong relationship to law or accounting, for example, a regular expression capable of searching for law firms, tax accountant firms, patent attorney firms, judicial scrivener firms, administrative scrivener firms, law offices, legal offices, accounting offices, tax accountant offices, judicial scrivener offices, administrative scrivener offices, etc. can be set in the classification definition data 135. In addition, the information processing device 1 may have all the settings in FIG. 3(b) to FIG. 3(d), and only those necessary for the user may be selectively used. In addition, in cases where there is a lot of business with countries outside Japan, for example, LLC, Co. Ltd., Inc., etc. may be set in the classification definition data 135.

このような正規表現を用いた文字列の検索では、取引先だけではなく、自社(団体)の法人名などが併せて検出されやすい。登録ツールは、選択から除外する自社、仲介業者や金融機関などを除外対象として、除外対象をまとめた除外リストを保持していてもよい検出された法人のうち、除外リストに含まれる除外対象は、分類種別の候補としての優先順位が下げられる。あるいは、除外対象は、完全に分類種別の候補から除外されてもよい。反対に、一度分類先候補から分類として選択された法人名は、分類リストに登録されて、次回以降に優先的に分類先候補として表示部14により表示され得る。なお、対象文字列内に除外対象と優先的な分類先候補とが同時に含まれる場合には、この対象文字列が分類先候補を記載する行のテキストではないと判断されてもよい。この場合には、キーワードの有無にかかわらず、除外対象が含まれる対象文字列全体が分類先候補の検出対象から除外されてもよい。あるいは、対象文字列内で検出された分類先候補の用語のみが出力されてもよいし、上記のように優先度が低下された対象文字列が分類先文字列とされてもよい。 In a search for a string using such a regular expression, not only the business partner but also the company name of the company (organization) is likely to be detected. The registration tool may hold an exclusion list that compiles the excluded targets, such as the company itself, intermediaries, and financial institutions to be excluded from selection. Among the detected corporations, the excluded targets included in the exclusion list are lowered in priority as candidates for the classification type. Alternatively, the excluded targets may be completely excluded from the candidates for the classification type. Conversely, a corporate name once selected as a classification from the classification destination candidates may be registered in the classification list and displayed by the display unit 14 as a classification destination candidate with priority from the next time onwards. Note that if the target string contains both an excluded target and a prioritized classification destination candidate at the same time, it may be determined that the target string is not the text of a line that describes the classification destination candidate. In this case, regardless of the presence or absence of a keyword, the entire target string containing the excluded target may be excluded from the detection target for the classification destination candidate. Alternatively, only the terms of the classification destination candidate detected in the target string may be output, or the target string with the lowered priority as described above may be set as the classification destination string.

特に長い法人名では、複数行に跨って宛先名が記載される場合があり得る。例えば、上記検索された語のみがある行に記載され残りの固有名称が別の行にある場合には、登録ツールは、検索された語を含む行の前後の行を統合することができる。また、例えば、分類リストに登録済の法人名の一部との合致が検出された場合には、登録ツールは、当該合致部分を含む行を前後の行と統合して再度分類リストなどと比較してもよい。上記のように改行を示す制御コードやタグが予め除去されていない場合には、削除される複数行を統合する場合にこれらが除去されてもよい。 In particular, with long corporate names, the destination name may be written across multiple lines. For example, if only the searched word is written on one line and the remaining proper name is on another line, the registration tool can merge the lines before and after the line containing the searched word. Also, for example, if a match with part of a corporate name already registered in a classification list is detected, the registration tool may merge the line containing the matching portion with the lines before and after it and compare it again with the classification list, etc. If the control codes or tags indicating line breaks have not been removed in advance as described above, they may be removed when merging the multiple lines to be deleted.

同一の文字列が複数回検出された場合には、当該文字列が一回のみ候補として出力されればよい。検出されたある文字列を内包する文字列が別個に検出された場合には、いずれか一方のみが候補として出力されてもよい。一方が登録リストに含まれている場合には、文字列の長短にかかわらず登録されている文字列が優先的に出力されてもよい。検出された文字列のいずれも登録リストに含まれていない場合には、長い方又は短い方のいずれが優先的に出力されるかが予め設定されていてもよい。 If the same string is detected multiple times, the string may be output as a candidate only once. If separate strings that contain a detected string are detected, only one of them may be output as a candidate. If one of them is included in the registration list, the registered string may be output preferentially regardless of its length. If none of the detected strings are included in the registration list, it may be preset as to whether the longer or shorter string will be output preferentially.

図4は、電子帳簿書類の先頭付近の例を示す図である。
上記のように、スペースを含む「請 求 書」との記載から文書種別の候補として「請求書」が検出される。また、取引先種別として、「株式会社AAA御中」及び「BBB株式会社」が検出される。このうち、「御中」は、上記除外ワードとして削除され得る。株式会社AAA及びBBB株式会社のうちいずれかが自社である場合には、除外リストに従って自社名が除外されて、他方が分類の候補とされる。反対に、いずれか一方が分類リストに登録済の場合には、登録済の法人名が上位の分類先候補とされる。複数の分類先候補がある場合には、当該複数の分類先候補が並列に表示部14により表示されて、これらがいずれもユーザにより選択可能とされればよい。分類先候補が1つの場合には、ユーザは、単純に候補を承認することができる。
FIG. 4 is a diagram showing an example of the beginning portion of an electronic bookkeeping document.
As described above, from the description "invoice" including a space, "invoice" is detected as a candidate document type. In addition, "To AAA Co., Ltd." and "BBB Co., Ltd." are detected as business partner types. Of these, "To" can be deleted as the above-mentioned excluded word. If either AAA Co., Ltd. or BBB Co., Ltd. is the company, the company name is excluded according to the exclusion list, and the other is made a candidate for classification. Conversely, if either one is already registered in the classification list, the registered corporate name is made a higher-ranked classification candidate. If there are multiple classification candidates, the multiple classification candidates may be displayed in parallel by the display unit 14, and any of them may be selected by the user. If there is only one classification candidate, the user can simply approve the candidate.

データベースでは、複数のキーについてそれぞれ分類種別が定められ得る。上記のように、文書種別と取引先種別のいずれについても選択及び登録操作が可能である。選択のための表示及び入力操作は、複数のキーについて並列に行われてもよいし、順番に一つずつ行われてもよい。 In the database, a classification type can be defined for each of multiple keys. As described above, selection and registration operations are possible for both document types and business partner types. The display and input operations for selection may be performed in parallel for multiple keys, or may be performed one by one in sequence.

図5は、本実施形態の情報処理装置1で監視ツールにより実行される監視制御処理のCPU11による制御手順を示すフローチャートである。この監視制御処理は、例えば、情報処理装置1の起動時に自動で起動され、又はユーザの入力操作などにより任意のタイミングで起動され得る。一度起動された監視制御処理は、別途割込み処理などにより終了命令がなされるまで繰り返し継続的に実行される。 Figure 5 is a flowchart showing the control procedure by the CPU 11 of the monitoring control process executed by the monitoring tool in the information processing device 1 of this embodiment. This monitoring control process can be started automatically when the information processing device 1 is started, or can be started at any timing by a user's input operation, etc. Once started, the monitoring control process is repeatedly and continuously executed until an end command is issued by a separate interrupt process, etc.

CPU11は、監視対象のフォルダのファイルリストを取得する(S1)。上記のように、監視対象のフォルダは、「ダウンロードフォルダ」であってもよい。CPU11は、ファイルリストを前回の処理S1で取得したファイルリストと比較する(S2)。 The CPU 11 acquires a file list of a folder to be monitored (S1). As described above, the folder to be monitored may be a "download folder." The CPU 11 compares the file list with the file list acquired in the previous process S1 (S2).

CPU11は、監視の結果、前回のファイルリストに対して追加されたファイルがあるか否かを判別する(S3)。なお、CPU11は、追加ファイルだけではなく、同名で更新されたファイルを併せて検出してもよい。追加ファイルがないと判別された場合には(S3;NO)、CPU11の処理は、処理S1に戻る。 The CPU 11 determines whether or not any files have been added to the previous file list as a result of the monitoring (S3). The CPU 11 may detect not only added files, but also updated files with the same name. If it is determined that no added files have been added (S3; NO), the CPU 11 returns to process S1.

追加ファイルがあると判別された場合には(S3;YES)、CPU11は、追加ファイルはPDF形式であるか否かを判別する(S4)。追加ファイルがPDF形式ではないと判別された場合には(S4;NO)、CPU11の処理は、処理S1に戻る。追加ファイルがPDF形式であると判別された場合には(S4;YES)、CPU11は、登録ツールによる文書分類制御処理を呼び出して実行する(S5)。それから、CPU11の処理は、処理S1に戻る。 If it is determined that there is an additional file (S3; YES), the CPU 11 determines whether the additional file is in PDF format (S4). If it is determined that the additional file is not in PDF format (S4; NO), the processing of the CPU 11 returns to processing S1. If it is determined that the additional file is in PDF format (S4; YES), the CPU 11 calls and executes document classification control processing by the registration tool (S5). Then, the processing of the CPU 11 returns to processing S1.

なお、処理S1に戻る前に、所定の待機時間が設定されてもよい。あるいは、CPU11は、対象フォルダに対する操作が検出されるまで、処理S1を実行せずに待機してもよい。 A predetermined waiting time may be set before returning to process S1. Alternatively, the CPU 11 may wait without executing process S1 until an operation on the target folder is detected.

図6は、情報処理装置1で登録ツールにより実行される文書分類制御処理のCPU11による制御手順を示すフローチャートである。 Figure 6 is a flowchart showing the control procedure by the CPU 11 of the document classification control process executed by the registration tool in the information processing device 1.

CPU11は、対象フォルダの文書データを取得する(S51)。CPU11は、文書データからテキストデータを全文抽出する。CPU11は、全文テキストデータにおける改行位置を特定し、上から順に一行分ずつ抜き出した行データを得る(S52)。CPU11は、抽出した各行のデータにおけるスペース(インデント、タブ、タグ指定なども含む)を削除して対象文字列を生成する(S53)。 The CPU 11 acquires the document data of the target folder (S51). The CPU 11 extracts the entire text data from the document data. The CPU 11 identifies the line break positions in the entire text data, and obtains line data by extracting one line at a time from the top (S52). The CPU 11 deletes spaces (including indents, tabs, tag designations, etc.) from each extracted line of data to generate the target character string (S53).

CPU11は、分類定義データ135を参照して、一行分のテキストデータに含まれるキーワードをそれぞれ検索する(S54)。上記のように、CPU11は、キーワードの検索対象とする行を先頭の予め定められた行に限定してもよい。あるいは、CPU11は、キーワードを検索する対象とする行を、各行の文字サイズに基づいて(例えば、最大の文字サイズの行を)選択してもよい。CPU11は、キーワードに対応する分類先候補を設定する(S55)。分類先候補は、例えば、単純にキーワードを含む一行のテキストから除外ワードを削除したものであってもよい。また、分類定義データ135において、キーワードと異なる分類が設定されている場合には、設定されている分類名が分類先候補とされる。 The CPU 11 refers to the classification definition data 135 and searches for keywords contained in each line of text data (S54). As described above, the CPU 11 may limit the lines to be searched for keywords to a predetermined first line. Alternatively, the CPU 11 may select the lines to be searched for keywords based on the character size of each line (e.g., the line with the largest character size). The CPU 11 sets a classification destination candidate corresponding to the keyword (S55). The classification destination candidate may be, for example, simply a line of text containing the keyword with the excluded word deleted. Furthermore, if a classification different from the keyword is set in the classification definition data 135, the set classification name is set as the classification destination candidate.

CPU11は、設定した分類先候補を表示部14により一覧表示させる(S56)。CPU11は、一覧表示の際に、分類先候補が複数ある場合に、自社名のような除外リストに含まれる除外対象を含む分類先候補を除外リストに含まれる除外対象を含まない分類先候補よりも下に表示させるなどして、表示の優先度を下げてもよい。CPU11は、操作受付部15への入力操作を待ち受け、分類の選択操作を受け付ける。CPU11は、選択操作に応じて分類を確定する(S57)。なお、表示された候補内に適切な分類が含まれていない場合や、候補名が不正確な場合などには、ユーザは、適切な分類の名称を操作受付部15により直接入力することができる。CPU11は、入力された名称を新たな分類として設定し、分類リストに追加登録する。 The CPU 11 causes the display unit 14 to display a list of the set classification destination candidates (S56). When displaying the list, if there are multiple classification destination candidates, the CPU 11 may lower the display priority by displaying classification destination candidates that include an excluded item included in the exclusion list, such as the company's name, below classification destination candidates that do not include an excluded item included in the exclusion list. The CPU 11 waits for an input operation to the operation reception unit 15 and receives a classification selection operation. The CPU 11 confirms the classification in response to the selection operation (S57). Note that if an appropriate classification is not included in the displayed candidates or if the candidate name is inaccurate, the user can directly input the name of an appropriate classification through the operation reception unit 15. The CPU 11 sets the input name as a new classification and adds it to the classification list.

CPU11は、文書データが分類されてデータベースに登録される対象のファイル、すなわち電子帳簿データであるか否かを判別する(S58)。分類、登録対象のファイルではないと判別された場合には(S58;NO)、CPU11は、文書分類制御処理を終了して、処理を監視制御処理に戻す。 The CPU 11 determines whether the document data is a file to be classified and registered in a database, i.e., electronic ledger data (S58). If it is determined that the file is not a file to be classified and registered (S58; NO), the CPU 11 ends the document classification control process and returns the process to the monitoring control process.

文書データが分類、登録対象のファイルであると判別された場合には(S58;YES)、CPU11は、文書データに分類情報を付加する(S59)。CPU11は、文書データをデータベースに登録する(S60)。CPU11は、登録済の文書ファイルのデータを対象フォルダ(ダウンロードフォルダ)から削除する(S61)。CPU11は、文書分類制御処理を終了して、処理を監視制御処理に戻す。
この文書分類制御処理のうち少なくとも処理S52、S54、S55は、本実施形態の情報処理方法を構成し、本実施形態のプログラム132における処理手段をなす。
If the document data is determined to be a file to be classified and registered (S58; YES), the CPU 11 adds classification information to the document data (S59). The CPU 11 registers the document data in a database (S60). The CPU 11 deletes the registered document file data from the target folder (download folder) (S61). The CPU 11 ends the document classification control process and returns the process to the monitoring control process.
At least steps S52, S54, and S55 of this document classification control process constitute the information processing method of this embodiment, and form processing means in the program 132 of this embodiment.

以上のように、本実施形態の情報処理装置1は、CPU11を備える。CPU11は、電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された対象文字列と所定の文字列(キーワード)とを比較した比較の結果に基づいて電子文書の分類先候補を出力する処理を行う。CPU11は、抜き出した行に空白が含まれる場合には当該行から空白を削除して対象文字列を生成する。
このように、情報処理装置1は、同種の電子文書が複数、特に多数ある場合に、容易に分類先候補を特定してユーザに示すことができる。特に、分類に使われる文書タイトルなどは、しばしばスペースやタブなどの空白を挟む。これを除外して文字列の検索を行うことで、情報処理装置1は、容易に検出漏れを低減して分類先候補を検出、出力することができる。したがって、ユーザは、容易に電子文書を分類して管理し、以後により容易に当該電子文書を呼び出すことが可能になる。
As described above, the information processing device 1 of this embodiment includes the CPU 11. The CPU 11 performs a process of generating a target character string based on lines extracted from an electronic document, comparing the generated target character string with a predetermined character string (keyword), and outputting a candidate classification destination for the electronic document based on the result of the comparison. If the extracted line contains a space, the CPU 11 deletes the space from the line to generate the target character string.
In this way, when there are multiple, especially a large number, electronic documents of the same type, the information processing device 1 can easily identify and show the user possible classification destinations. In particular, document titles used for classification often contain blank spaces such as spaces and tabs. By excluding these spaces when searching for character strings, the information processing device 1 can easily reduce missed detections and detect and output possible classification destinations. This allows the user to easily classify and manage electronic documents, and to more easily call up the electronic documents in the future.

また、CPU11は、電子文書の先頭の行から予め定められた行数だけ、前記処理を行ってもよい。
分類種別に用いられ得る文書種別を表す文書名や、取引先種別を表す宛先又は書類の作成元などは、文書の先頭付近に記載されていることが多い。したがって、情報処理装置1は、処理を行う行数を先頭から特定の行数に絞ることで、処理が簡易化される。また、他の行から不要な検索結果を得ないので、不要な分類先候補が増えず、ユーザの選択が容易になる。
Furthermore, the CPU 11 may perform the above process for a predetermined number of lines starting from the top line of the electronic document.
Document names that indicate document types that can be used for classification types, destinations that indicate business partner types, or document creators are often written near the beginning of a document. Therefore, the information processing device 1 simplifies processing by limiting the number of lines to be processed to a specific number of lines from the beginning. In addition, unnecessary search results are not obtained from other lines, so unnecessary classification candidates are not increased, making it easier for the user to select.

また、CPU11は、除外対象が前記対象文字列に含まれる場合に、対象文字列の出力の優先度を下げてもよい。自社名など、分類対象ではないが分類先候補として検出されやすい文字列がある。このような文字列を除外対象として予め除外リストなどに登録しておくことで、情報処理装置1は、不要な分類先候補を選択しづらくすることができる。 The CPU 11 may also lower the output priority of a target string when the target string contains an object to be excluded. There are strings, such as a company's name, that are not objects to be classified but are likely to be detected as possible classification destinations. By registering such strings as objects to be excluded in an exclusion list in advance, the information processing device 1 can make it difficult to select unnecessary classification destination candidates.

また、CPU11は、電子文書が予め定められた位置(フォルダなど)に記憶された場合に、当該電子文書に対する処理を行う。すなわち、情報処理装置1は、ダウンロードフォルダなど特定のフォルダに追加された電子文書に対して自動的に分類及びデータベースへの登録に係る処理を開始する。したがって、いちいちユーザが登録処理を起動する必要がなく、ユーザの処理の手間が軽減される。 In addition, when an electronic document is stored in a predetermined location (such as a folder), the CPU 11 performs processing on the electronic document. That is, the information processing device 1 automatically starts processing related to classification and registration in a database for electronic documents added to a specific folder such as a download folder. Therefore, the user does not need to start the registration process each time, reducing the user's processing effort.

また、上記特定のフォルダは、電子メールに添付された文書がデフォルトで格納される設定位置であってもよい。これにより、情報処理装置1は、電子メールに添付されて送られた電子文書も容易に分類してデータベースに登録することができる。したがって、ユーザの手間がより軽減される。 The specific folder may also be a default location where documents attached to e-mails are stored. This allows the information processing device 1 to easily classify and register in the database electronic documents sent as e-mail attachments. This further reduces the user's workload.

また、電子文書は、電子帳簿に係る書類であってもよい。近年、会計処理が電子処理に移行して、電子帳簿に係る処理が増大している。これに伴い、注文書、見積書、請求書などの決まった電子文書が多数電子的にやり取りされる。情報処理装置1によれば、このような電子文書の分類及び管理の手間が大いに低減される。 The electronic document may also be a document related to an electronic ledger. In recent years, accounting processing has shifted to electronic processing, and processing related to electronic ledger is increasing. As a result, a large number of fixed electronic documents such as purchase orders, quotations, and invoices are exchanged electronically. The information processing device 1 greatly reduces the effort required to classify and manage such electronic documents.

CPU11は、先に電子文書からテキストの内容全文を抜き出した後、全文中の改行の指定位置に基づいて行を各々決定してもよい。文書データによって、改行位置がテキストの逐次抽出では分かりづらい場合もあるので、全文データから改行位置を特定していくことで、改行位置の誤認定などをより確実に避けることができる。 The CPU 11 may first extract the entire text content from the electronic document, and then determine each line based on the specified line break position within the entire text. Depending on the document data, the line break position may be difficult to determine by sequentially extracting the text, so by identifying the line break position from the entire text data, it is possible to more reliably avoid erroneous determination of the line break position.

CPU11は、1行ごとにテキストデータを抜き出して対象文字列を生成するときに、文字サイズが最大である文字が含まれる行を抜き出してもよい。上記のように文書の構造解析を行う場合には、各テキストの文字サイズを特定することができる。文書名などは、タイトルとして最も大きいフォントサイズで記載されていることが多い。したがって、情報処理装置1は、このような行を選択的に抜き出して対象文字列を生成することで、容易に適切な分類先候補を得ることができる。 When extracting text data line by line to generate a target character string, the CPU 11 may extract the line containing the character with the largest character size. When performing a structural analysis of a document as described above, the character size of each piece of text can be identified. Document names and the like are often written in the largest font size as titles. Therefore, the information processing device 1 can easily obtain appropriate classification candidates by selectively extracting such lines to generate a target character string.

また、情報処理装置1は、表示部14と、操作受付部15と、を備える。CPU11は、分類先候補を表示部14により表示させる。CPU11は、操作受付部15が受け付けた入力操作に応じた分類先に電子文書を分類する。
したがって、ユーザは容易に分類先を適切に決定することができる。
The information processing device 1 also includes a display unit 14 and an operation reception unit 15. The CPU 11 displays classification destination candidates on the display unit 14. The CPU 11 classifies the electronic document into a classification destination according to an input operation received by the operation reception unit 15.
Therefore, the user can easily determine an appropriate classification destination.

また、本実施形態の情報処理方法は、電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された対象文字列と所定の文字列(キーワード)とを比較した比較の結果に基づいて電子文書の分類先候補を出力する処理を行う。この処理では、抜き出した行に空白が含まれる場合には当該行から空白を削除して対象文字列を生成する。
この情報処理方法によれば、同種の電子文書が複数、特に多数ある場合に、CPU11が電子文書から余分な空白を削除して適切に検索の対象文字列を設定し、機械的かつ容易に分類先候補を特定してユーザに示すことができる。したがって、ユーザは、容易に電子文書を分類して管理し、以後により容易に当該電子文書を呼び出すことが可能になる。
In addition, the information processing method of this embodiment performs a process of generating a target string based on lines extracted from an electronic document, comparing the generated target string with a predetermined string (keyword), and outputting a candidate classification destination for the electronic document based on the result of the comparison. In this process, if the extracted line contains a space, the space is deleted from the line to generate the target string.
According to this information processing method, when there are multiple, particularly many, electronic documents of the same type, the CPU 11 can delete unnecessary spaces from the electronic documents, appropriately set the search target character string, and automatically and easily identify and show the classification candidates to the user. Therefore, the user can easily classify and manage the electronic documents, and can later more easily call up the electronic documents.

また、本実施形態のプログラム132をコンピュータにインストールして実行可能とすることで、ユーザは容易かつ、より正確に多くの同種の電子文書を仕分けして管理することができる。よって、ユーザの手間が大いに低減される。 In addition, by installing the program 132 of this embodiment on a computer and making it executable, the user can easily and more accurately sort and manage many similar electronic documents. This greatly reduces the user's workload.

なお、本発明は、上記実施の形態に限られるものではなく、様々な変更が可能である。
例えば、上記実施の形態では、同一分類に含まれる複数の文字列がカンマで区切られて登録されていたが、これに限られない。例えば、スペース又はタブなどにより区切られてもよい。あるいは、検出対象の文字列が全て別個に登録されてもよい。この場合に、文字列と分類とが異なる場合には、当該文字列と分類とが対応付けられて記憶されてもよい。
The present invention is not limited to the above-described embodiment, but may be modified in various ways.
For example, in the above embodiment, multiple character strings included in the same classification are registered separated by commas, but this is not limited to this. For example, they may be separated by spaces or tabs. Alternatively, all character strings to be detected may be registered separately. In this case, if a character string and a classification are different, the character string and the classification may be stored in association with each other.

また、上記実施の形態では、電子文書の分類項目(キー)として文書種別及び取引先種別を考慮したが、分類項目は、これらに限られない。例えば、取引日時、取引金額、商品(サービス)などが分類項目とされてもよい。 In addition, in the above embodiment, the document type and the customer type are considered as classification items (keys) of electronic documents, but the classification items are not limited to these. For example, the transaction date and time, transaction amount, product (service), etc. may be used as classification items.

また、上記では、正規表現を用いて検出する文字列を表したが、正規表現を用いなくてもよい。検出対象の全パターンが網羅されてもよい。また、上記のように、正規表現は、取引先の偏りなどに応じて「会社」、「法人」、「事務所」及び英語表現などのうち一部が選択可能であってもよい。あるいは、初めから全ての正規表現に基づく文字列が検索されてもよい。ただし、選択対象の候補の数が多くなると、自身で直接入力する手間に比して、候補から選択する手間が大きくなり得る。したがって、あまり余計な候補が多く選択されないように正規表現が選択されるのが好ましい。 In the above, the character strings to be detected are expressed using regular expressions, but regular expressions do not have to be used. All patterns to be detected may be covered. As described above, the regular expressions may be selectable from among "company", "corporation", "office", and English expressions depending on the bias of business partners. Alternatively, character strings based on all regular expressions may be searched for from the beginning. However, if there are a large number of candidates to select from, the effort of selecting from the candidates may be greater than the effort of directly entering the candidates. Therefore, it is preferable to select regular expressions so that too many unnecessary candidates are not selected.

また、上記では、電子メールの添付ファイル及びネットワークを介したダウンロードデータを例に挙げて説明したが、これらに限られない。例えば、電子文書ファイルは、USBメモリなどの可搬型記録媒体などにより取得されてもよい。また、外部から取得した書類に加えて又は代えて、自身で作成して外部へ送付する電子文書ファイルも分類の対象とされ得る。 In addition, although the above description has been given using examples of email attachments and data downloaded via a network, the present invention is not limited to these. For example, electronic document files may be acquired from portable recording media such as USB memory. Furthermore, in addition to or instead of documents acquired from outside, electronic document files that are created by the user and sent to outside parties may also be subject to classification.

また、上記では、電子帳簿に係る電子文書データが分類対象とされたが、これに限られない。定型的であって、文書に含まれるテキストの内容から分類が可能なものであれば、分類の対象とされてよい。また、電子文書がPDFであるものとして説明されたが、電子文書はこれに限られない。定型的な取引文書などとして用いられるフォーマットのものであれば、分類対象は、他の形式の電子文書であってもよい。また、電子文書から各行のテキストを抽出する処理は、全文抽出後に各文に分割されるものに限られない。逐次改行が検出されて、1行ずつ行のテキストが抽出されてもよい。 In the above, electronic document data related to electronic ledgers is the target of classification, but this is not limited to this. Any document that is typical and can be classified based on the content of the text contained in the document may be the target of classification. In addition, the electronic document has been described as being in PDF format, but the electronic document is not limited to this. The target of classification may be any other format of electronic document as long as it is in a format used as a typical transaction document, etc. In addition, the process of extracting each line of text from an electronic document is not limited to extracting the entire text and then dividing it into sentences. Line breaks may be detected sequentially and the text of each line may be extracted one by one.

また、上記では、PCなどの情報処理装置1が単独で文書の分類及び格納を行ったが、これに限られない。情報処理装置1は、分類に係る動作を他の装置に要求して、分類結果のみを取得してもよい。あるいは、情報処理装置1は、分類情報を含む電子文書データを外部のデータベースサーバなどに送信して、当該データベースサーバにより電子文書データを記憶させてもよい。また、データベース装置は、外付けの補助記憶装置、ネットワーク上の記憶装置、あるいはクラウドサーバなどであってもよい。 In the above, the information processing device 1 such as a PC classifies and stores documents on its own, but this is not limited to the above. The information processing device 1 may request an operation related to classification from another device and obtain only the classification results. Alternatively, the information processing device 1 may transmit electronic document data including classification information to an external database server or the like, and have the electronic document data stored by the database server. The database device may also be an external auxiliary storage device, a storage device on a network, or a cloud server.

また、以上の説明では、本発明の文書分類制御に係るプログラム132を記憶するコンピュータ読み取り可能な媒体としてHDD、フラッシュメモリなどの不揮発性メモリなどからなる記憶部13を例に挙げて説明したが、これらに限定されない。その他のコンピュータ読み取り可能な媒体として、MRAMなどの他の不揮発性メモリや、CD-ROM、DVDディスクなどの可搬型記録媒体を適用することが可能である。また、本発明に係るプログラムのデータを、通信回線を介して提供する媒体として、キャリアウェーブ(搬送波)も本発明に適用される。
その他、上記実施の形態で示した具体的な構成、処理動作の内容及び手順などは、本発明の趣旨を逸脱しない範囲において適宜変更可能である。本発明の範囲は、特許請求の範囲に記載した発明の範囲とその均等の範囲を含む。
In the above description, the storage unit 13 is exemplified by a non-volatile memory such as a HDD or flash memory as a computer-readable medium for storing the program 132 related to the document classification control of the present invention, but is not limited to these. As other computer-readable media, other non-volatile memories such as MRAM and portable recording media such as CD-ROMs and DVD disks can be applied. Furthermore, a carrier wave can be applied to the present invention as a medium for providing data of the program related to the present invention via a communication line.
In addition, the specific configurations, contents and procedures of the processing operations, etc. shown in the above embodiments can be modified as appropriate without departing from the spirit of the present invention. The scope of the present invention includes the scope of the invention described in the claims and its equivalents.

1 情報処理装置
11 CPU
12 RAM
13 記憶部
131 メールソフト
132 プログラム
133 ダウンロードデータ
134 文書データベース
135 分類定義データ
14 表示部
15 操作受付部
16 通信部
1 Information processing device 11 CPU
12 RAM
13 Storage unit 131 Email software 132 Program 133 Download data 134 Document database 135 Classification definition data 14 Display unit 15 Operation reception unit 16 Communication unit

Claims (11)

電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された前記対象文字列と所定の文字列とを比較した比較の結果に基づいて前記電子文書の分類先候補を出力する処理を行う処理部を備え、
前記処理部は、抜き出した前記行に空白が含まれる場合には当該行から空白を削除して前記対象文字列を生成する情報処理装置。
a processing unit that performs a process of generating a target character string based on a line extracted from an electronic document, comparing the generated target character string with a predetermined character string, and outputting a classification destination candidate for the electronic document based on a comparison result;
The processing unit is an information processing device in which, if the extracted line contains spaces, the processing unit deletes the spaces from the line to generate the target character string.
前記処理部は、電子文書の先頭の行から予め定められた行数だけ、前記処理を行う、請求項1記載の情報処理装置。 The information processing device according to claim 1, wherein the processing unit performs the processing for a predetermined number of lines starting from the first line of the electronic document. 前記処理部は、除外対象が前記対象文字列に含まれる場合に、前記対象文字列の前記出力の優先度を下げる、請求項1記載の情報処理装置。 The information processing device according to claim 1, wherein the processing unit lowers the priority of the output of the target string when the target to be excluded is included in the target string. 前記処理部は、前記電子文書が予め定められた位置に記憶された場合に、当該電子文書に対する前記処理を行う、請求項1記載の情報処理装置。 The information processing device according to claim 1, wherein the processing unit performs the processing on the electronic document when the electronic document is stored in a predetermined location. 前記位置は、電子メールに添付された文書が格納される設定位置である、請求項4記載の情報処理装置。 The information processing device according to claim 4, wherein the location is a preset location where a document attached to an e-mail is stored. 前記電子文書は、電子帳簿に係る書類である、請求項1記載の情報処理装置。 The information processing device according to claim 1, wherein the electronic document is a document related to an electronic ledger. 前記処理部は、前記電子文書から全文を抜き出して、前記全文中の改行の指定位置に基づいて前記行を各々決定する、請求項1記載の情報処理装置。 The information processing device according to claim 1, wherein the processing unit extracts an entire text from the electronic document and determines each of the lines based on a specified position of a line break in the entire text. 前記処理部は、前記対象文字列を生成するときに、文字サイズが最大である文字が含まれる行を抜き出す、請求項1記載の情報処理装置。 The information processing device according to claim 1, wherein the processing unit extracts a line containing a character with a maximum character size when generating the target character string. 表示部と、操作受付部と、を備え、
前記処理部は、
前記分類先候補を前記表示部により表示させ、
前記操作受付部が受け付けた入力操作に応じた分類先に前記電子文書を分類する
請求項1記載の情報処理装置。
A display unit and an operation receiving unit are provided,
The processing unit includes:
displaying the classification destination candidates on the display unit;
The information processing apparatus according to claim 1 , wherein the electronic document is sorted into a sorting destination according to an input operation accepted by the operation acceptance unit.
電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された前記対象文字列と所定の文字列とを比較した比較の結果に基づいて前記電子文書の分類先候補を出力する処理を行う情報処理方法であって、
抜き出した前記行に空白が含まれる場合には当該行から空白を削除して前記対象文字列を生成する
情報処理方法。
1. An information processing method for performing a process of generating a target character string based on lines extracted from an electronic document, comparing the generated target character string with a predetermined character string, and outputting a candidate classification destination for the electronic document based on a comparison result, comprising:
and if the extracted line contains spaces, deleting the spaces from the line to generate the target character string.
コンピュータに、
電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された前記対象文字列と所定の文字列とを比較した比較の結果に基づいて前記電子文書の分類先候補をかする処理を実行させ、
前記処理では、抜き出した前記行に空白が含まれる場合には当該行から空白を削除して前記対象文字列を生成する
プログラム。
On the computer,
generating a target character string based on the lines extracted from the electronic document, comparing the generated target character string with a predetermined character string, and selecting a classification destination candidate for the electronic document based on the result of the comparison;
In the process, if the extracted line contains spaces, the program deletes the spaces from the line to generate the target character string.
JP2023089438A 2023-05-31 2023-05-31 Information processing device, information processing method, and program Pending JP2024172025A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023089438A JP2024172025A (en) 2023-05-31 2023-05-31 Information processing device, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2023089438A JP2024172025A (en) 2023-05-31 2023-05-31 Information processing device, information processing method, and program

Publications (1)

Publication Number Publication Date
JP2024172025A true JP2024172025A (en) 2024-12-12

Family

ID=93798338

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023089438A Pending JP2024172025A (en) 2023-05-31 2023-05-31 Information processing device, information processing method, and program

Country Status (1)

Country Link
JP (1) JP2024172025A (en)

Similar Documents

Publication Publication Date Title
US10366123B1 (en) Template-free extraction of data from documents
US8244731B2 (en) Method and system for displaying and processing electronic file list
US9990424B2 (en) System for processing data received from various data sources
US10949662B2 (en) Image processing apparatus
CN109961069B (en) Image processing apparatus and storage medium
US11303769B2 (en) Image processing system that computerizes documents with notification of labeled items, control method thereof, and storage medium
US20130124515A1 (en) Method for document search and analysis
US12153624B2 (en) Method and system for ideogram character analysis
CN109960684A (en) Image processing device and storage medium
US11657367B2 (en) Workflow support apparatus, workflow support system, and non-transitory computer readable medium storing program
US20200342169A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
KR20090108943A (en) Method and device for extracting Internet mail attachment text
JP2024172025A (en) Information processing device, information processing method, and program
US9984084B2 (en) Information processing apparatus, method for controlling same, and storage medium
JP2021056722A (en) Information processing device and program
JP5550959B2 (en) Document processing system and program
US10990338B2 (en) Information processing system and non-transitory computer readable medium
JP7247568B2 (en) Program and input format setting method
US9483463B2 (en) Method and system for motif extraction in electronic documents
JP2001318941A (en) Information processor and its method
JP2002312401A (en) Electronic filing device, control method thereof, recording medium and program
JP6918457B2 (en) File management system and control method
US20240070377A1 (en) Information processing apparatus, information processing method, and storage medium
JP7480536B2 (en) Document processing device and program
US11914654B2 (en) Document management apparatus, document management system, and non-transitory computer readable medium storing program