[go: up one dir, main page]

JP2006252455A - File management device, file management method and file management program - Google Patents

File management device, file management method and file management program Download PDF

Info

Publication number
JP2006252455A
JP2006252455A JP2005071590A JP2005071590A JP2006252455A JP 2006252455 A JP2006252455 A JP 2006252455A JP 2005071590 A JP2005071590 A JP 2005071590A JP 2005071590 A JP2005071590 A JP 2005071590A JP 2006252455 A JP2006252455 A JP 2006252455A
Authority
JP
Japan
Prior art keywords
document
image
information
page
title
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005071590A
Other languages
Japanese (ja)
Inventor
Hirosuke Takada
浩祐 高田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Holdings Corp
Original Assignee
Fuji Photo Film Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Photo Film Co Ltd filed Critical Fuji Photo Film Co Ltd
Priority to JP2005071590A priority Critical patent/JP2006252455A/en
Publication of JP2006252455A publication Critical patent/JP2006252455A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To automatically provide images with file names, suitable for the contents of documents without the user having to sequentially specify the file names. <P>SOLUTION: A file name providing section 110c provides a document image Ik with a file name, in accordance with the page information extracted from the document image Ik. If the title information extracted from the document image Ik is "a complete works of literature" and page number information is "50" for instance, "the complete works of literature 50" is given as the file name of the document image Ik. The total number of pages may also be given at the same time. In the case of n=100, for instance, "the complete works of literature 50/100" is given as the file name of the document image Ik. The file name gives clear information as to which page of which document the scanned document is located. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明はファイル管理装置、ファイル管理方法及びファイル管理プログラムに係り、特にデジタル画像ファイルに変換された原稿の管理に関する。   The present invention relates to a file management apparatus, a file management method, and a file management program, and more particularly to management of a document converted into a digital image file.

従来、スキャナで複数枚の原稿を連続して読み取った場合、スキャナ画像を容易に管理できるようにする技術が様々開発されている。例えば、特許文献1によると、DB検索部が検索した部品情報に基づいてページ生成部がスキャン順を指定するページを提供し、当該ページでファイルに付与すべき部品情報等のファイル名情報が原稿の読み取り順に基づいて並び替えられると、テンプレート生成部がその並び替えたファイル名情報に基づいてリネーム用のジョブテンプレートを生成し、リネーム処理部がリネーム用のジョブテンプレートに従って原稿の読み取り順に生成される画像ファイルに指定されたファイル名を順次付与する。
特開2003−271614号公報
2. Description of the Related Art Conventionally, various techniques have been developed that allow a scanner image to be easily managed when a scanner reads a plurality of documents continuously. For example, according to Patent Document 1, a page generation unit provides a page for designating a scan order based on component information searched by a DB search unit, and file name information such as component information to be added to a file on the page is a document. Are rearranged based on the reading order, the template generation unit generates a renaming job template based on the rearranged file name information, and the renaming processing unit generates the original in the reading order according to the renaming job template. Sequentially assign the specified file names to the image files.
JP 2003-271614 A

特許文献1の技術では、ユーザがいちいち原稿の読み取り順にリネームすべきファイル名情報を指定していかなければならず面倒である。本発明はこのような問題点に鑑みてなされたもので、ユーザが逐一ファイル名を指定することなく、原稿の内容に適合したファイル名を自動で画像に付与することを目的とする。   In the technique of Patent Document 1, it is troublesome for the user to designate file name information to be renamed in the reading order of the original document. The present invention has been made in view of such problems, and an object of the present invention is to automatically assign a file name suitable for the content of an original to an image without the user specifying the file name one by one.

上記課題を解決するため、本願発明に係るファイル管理装置は、原稿の画像を取得する画像取得部と、原稿の画像を記憶する画像記憶部と、画像記憶部に記憶された原稿の画像から原稿の所属を示すページ情報を抽出するページ情報抽出部と、ページ情報抽出部の抽出したページ情報に従って原稿の画像のファイル名を付与するファイル名付与部と、を備える。   In order to solve the above problems, a file management apparatus according to the present invention includes an image acquisition unit that acquires an image of an original, an image storage that stores an image of the original, and an original from an image of the original stored in the image storage A page information extracting unit that extracts page information indicating the affiliation of the document, and a file name assigning unit that assigns a file name of the image of the document according to the page information extracted by the page information extracting unit.

この発明によると、抽出したページ情報が原稿の画像のファイル名に付与されるため、原稿のページ番号をファイル名から一目瞭然に把握でき、単純にファイル名に連番を付与してどの画像がどの原稿ページに対応するか分からなくなるのを防げる。また、ユーザがいちいち適切なファイル名を指定していく必要もない。   According to the present invention, since the extracted page information is added to the file name of the document image, the page number of the document can be easily understood from the file name, and a serial number is simply added to the file name to determine which image This prevents you from knowing whether or not it corresponds to a manuscript page. Also, there is no need for the user to specify an appropriate file name.

なお、ページ情報は、原稿のページ数を示す情報、原稿のタイトルを示す情報、原稿の作成者その他原稿の所属を識別するに足る何らかの情報又はこれらの一部又は全部を組み合わせた情報を含む。   The page information includes information indicating the number of pages of the document, information indicating the title of the document, document creator, other information sufficient to identify the affiliation of the document, or information combining a part or all of these.

ページ情報抽出部は原稿の画像中の余白に囲まれた文字列からページ情報を抽出するようにしてもよい。   The page information extraction unit may extract page information from a character string surrounded by margins in the document image.

通常、ページ情報は本文と分離して余白に囲まれていることが多いと考えられるため、効率的にページ情報を抽出できる。   Normally, it is considered that the page information is often separated from the text and surrounded by margins, so that the page information can be extracted efficiently.

このファイル管理装置は、或る原稿の画像から抽出されたページ情報の位置に関する情報であるページ位置情報を取得するページ位置情報取得部と、ページ位置情報を記憶するページ位置記憶部と、をさらに備え、ページ情報抽出部はページ位置情報を基準とした所定の領域内において他の原稿の画像からページ情報を抽出するようにしてもよい。   The file management apparatus further includes a page position information acquisition unit that acquires page position information that is information related to a position of page information extracted from an image of a document, and a page position storage unit that stores page position information. The page information extraction unit may extract page information from an image of another document in a predetermined area based on the page position information.

既に或る原稿の画像からページ情報が抽出されていれば、他の原稿の画像についても、ページ位置情報で示される位置と略同一位置にページ情報が存在すると考えられる。このため、画像の全領域についてページ情報を検索していくよりも効率的にページ情報を抽出することが可能である。   If page information has already been extracted from an image of a certain original, it is considered that the page information is also present at substantially the same position as the position indicated by the page position information for other original images. Therefore, it is possible to extract the page information more efficiently than searching the page information for the entire area of the image.

このファイル管理装置は、原稿の画像から原稿のタイトルを示すタイトル情報を抽出するタイトル情報抽出部をさらに備えていてもよい。   The file management apparatus may further include a title information extraction unit that extracts title information indicating the title of the document from the image of the document.

タイトル情報抽出部は原稿の画像中の余白に囲まれた文字列からタイトル情報を抽出してもよい。   The title information extraction unit may extract title information from a character string surrounded by margins in the document image.

通常、タイトル情報は、本文と分離して余白に囲まれていることが多いと考えられるため、効率的にページ情報を抽出できる。   Normally, it is considered that the title information is often surrounded by a blank space separated from the text, so that page information can be extracted efficiently.

このファイル管理装置は、原稿のタイトルの候補を登録するタイトル候補登録部をさらに備え、タイトル情報抽出部はタイトル候補登録部に登録された原稿のタイトルの候補と一致する文字列をタイトル情報として抽出するようにしてもよい。   The file management apparatus further includes a title candidate registration unit for registering document title candidates, and the title information extraction unit extracts character strings that match the document title candidates registered in the title candidate registration unit as title information. You may make it do.

原稿が社内文書のような定型的な内容を有する文書であった場合、予測できるタイトルを候補として予め登録しておけば、文字列からタイトル情報を効率的に抽出できる。   If the manuscript is a document having a typical content such as an in-house document, title information can be efficiently extracted from a character string if a predictable title is registered in advance as a candidate.

このファイル管理装置は、抽出された文字列の内タイトル情報にすべき所望の文字列を指定させるタイトル指定部をさらに備えてもよい。   The file management apparatus may further include a title designation unit that designates a desired character string to be used as title information in the extracted character string.

こうすると、抽出された文字列が複数種類あっても、その中からユーザがタイトル情報を任意に指定できる。   In this way, even if there are a plurality of types of extracted character strings, the user can arbitrarily specify title information from among them.

ファイル名付与部はタイトル情報に従って原稿の画像のファイル名を付与してもよい。   The file name assigning unit may assign the file name of the document image according to the title information.

抽出したタイトル情報が原稿の画像のファイル名に付与されるため、原稿のタイトルをファイル名から一目瞭然に把握できる。   Since the extracted title information is added to the file name of the document image, the title of the document can be easily understood from the file name.

このファイル管理装置は、タイトル情報に対応するフォルダを画像記憶部に作成するフォルダ作成部と、タイトル情報に対応するフォルダにタイトル情報の抽出された原稿の画像を格納するファイル管理部と、をさらに備えてもよい。   The file management apparatus further includes a folder creation unit that creates a folder corresponding to the title information in the image storage unit, and a file management unit that stores an image of the document from which the title information is extracted in the folder corresponding to the title information. You may prepare.

こうすると、画像をタイトルごとのフォルダで分類できる。   In this way, images can be classified by folder for each title.

ページ情報の形式を判断するページ形式判断部をさらに備え、ファイル管理部はページ情報の形式の共通する画像を共通のフォルダに格納してもよい。   A page format determination unit that determines the format of the page information may be further provided, and the file management unit may store images having a common page information format in a common folder.

こうすると、同じ形式のページ情報を有する画像同士が共通のフォルダに分類され、異なる形式の文書が同一のフォルダに混在してしまうのを可及的に防げる。   In this way, images having page information of the same format are classified into a common folder, and documents of different formats can be prevented from being mixed in the same folder as much as possible.

原稿の画像を取得するステップと、原稿の画像を記憶するステップと、記憶された原稿の画像から原稿のページ数を示すページ情報を抽出するステップと、抽出されたページ情報に従って原稿の画像のファイル名を付与するステップと、を含むファイル管理方法も本発明に含まれる。   A step of acquiring a document image, a step of storing the document image, a step of extracting page information indicating the number of pages of the document from the stored document image, and a file of the document image according to the extracted page information A file management method including the step of assigning a name is also included in the present invention.

原稿の画像を取得するステップと、原稿の画像を記憶するステップと、記憶された原稿の画像から原稿のページ数を示すページ情報を抽出するステップと、抽出されたページ情報に従って原稿の画像のファイル名を付与するステップと、をコンピュータに実行させるファイル管理プログラムも本発明に含まれる。   A step of acquiring a document image, a step of storing the document image, a step of extracting page information indicating the number of pages of the document from the stored document image, and a file of the document image according to the extracted page information A file management program that causes a computer to execute the step of assigning a name is also included in the present invention.

この発明によると、抽出したページ情報が原稿の画像のファイル名に付与されるため、原稿のページ番号をファイル名から一目瞭然に把握でき、単純にファイル名に連番を付与してどの画像がどの原稿ページに対応するか分からなくなるのを防げる。また、ユーザがいちいち適切なファイル名を指定していく必要もない。   According to the present invention, since the extracted page information is added to the file name of the document image, the page number of the document can be easily understood from the file name, and a serial number is simply added to the file name to determine which image This prevents you from knowing whether or not it corresponds to a manuscript page. Also, there is no need for the user to specify an appropriate file name.

以下、添付した図面を参照し本発明の好ましい実施の形態を説明する。   Hereinafter, preferred embodiments of the present invention will be described with reference to the accompanying drawings.

図1は本発明の好ましい実施形態に係るファイル管理装置10の機能ブロック図である。このファイル管理装置10は、タッチパネル付きモニタ106と、インターネットなどのネットワークを介して必要な情報を送受信することが可能な通信回線インターフェース108を備える。ファイル管理装置10には、スキャナなどで構成された画像取得装置200とデータ通信するためのUSBインターフェース206も設けられている。タッチパネル付きモニタ106には、画像の一覧や各種操作ボタンが表示される。   FIG. 1 is a functional block diagram of a file management apparatus 10 according to a preferred embodiment of the present invention. The file management apparatus 10 includes a monitor 106 with a touch panel and a communication line interface 108 capable of transmitting and receiving necessary information via a network such as the Internet. The file management apparatus 10 is also provided with a USB interface 206 for data communication with the image acquisition apparatus 200 configured by a scanner or the like. On the monitor 106 with a touch panel, a list of images and various operation buttons are displayed.

また、ファイル管理装置10は、ファイル管理装置10の全体の制御を行う中央処理装置(CPU)110と、CPU110を動作させるプログラム等が書き込まれているROM及びCPU110が処理を実行する際の作業領域となるRAMから構成されるシステムメモリ112と、タッチパネル付きモニタ106に表示する情報を出力する表示コントローラ114と、タッチパネル付きモニタ106に加えられた押圧で各種情報の入力を受け付ける入力コントローラ116とを備える。   The file management apparatus 10 includes a central processing unit (CPU) 110 that performs overall control of the file management apparatus 10, a ROM in which a program for operating the CPU 110 is written, and a work area when the CPU 110 executes processing. A system memory 112 configured by a RAM, a display controller 114 that outputs information to be displayed on the monitor 106 with a touch panel, and an input controller 116 that receives input of various types of information by pressing applied to the monitor 106 with a touch panel. .

また、ファイル管理装置10は、画像取得装置200からの画像などを一時的に格納するハードディスクユニット(HDD)118と、HDD118への情報の格納あるいはHDD118からの情報の読み出しを制御するHDDコントローラ119を備える。   In addition, the file management apparatus 10 includes a hard disk unit (HDD) 118 that temporarily stores an image from the image acquisition apparatus 200, and an HDD controller 119 that controls storage of information in the HDD 118 or reading of information from the HDD 118. Prepare.

画像取得装置200はラインCCDスキャナなどの各種スキャナで構成され、USBインターフェース206によりCPU110と接続されている。画像取得装置200は、図示しないマウント上にセットされた複数の原稿を連続的に1枚ずつスキャンして原稿を読み取り、画像ファイル(原稿画像)に変換する。原稿画像はHDD118に格納される。   The image acquisition apparatus 200 includes various scanners such as a line CCD scanner, and is connected to the CPU 110 via a USB interface 206. The image acquisition apparatus 200 continuously scans a plurality of documents set on a mount (not shown) one by one, reads the documents, and converts them into image files (document images). The document image is stored in the HDD 118.

なお、画像取得装置200をデジタルカメラやビデオカメラなどの各種撮像装置で構成してもよい。即ち、各種撮像装置により原稿を撮像し、撮像で得た画像ファイルを原稿画像としてHDD118に格納してもよい。   Note that the image acquisition device 200 may be configured by various imaging devices such as a digital camera and a video camera. That is, a document may be captured by various imaging devices, and an image file obtained by the imaging may be stored in the HDD 118 as a document image.

図2は、ファイル管理装置10の要部構成図である。CPU110は、処理単位(モジュール)として、スキャナ制御部110a、ページ情報抽出部110b、ファイル名付与部110c、ページ位置情報取得部110d、タイトル情報抽出部110e、タイトル候補登録部110f、フォルダ作成部110g、ファイル管理部110h、ページ形式判断部110iを有している。各処理単位は、プログラムとしてROMに記憶されている。これらの処理単位の機能は後述する。   FIG. 2 is a main part configuration diagram of the file management apparatus 10. The CPU 110 includes, as processing units (modules), a scanner control unit 110a, a page information extraction unit 110b, a file name assignment unit 110c, a page position information acquisition unit 110d, a title information extraction unit 110e, a title candidate registration unit 110f, and a folder creation unit 110g. A file management unit 110h and a page format determination unit 110i. Each processing unit is stored in the ROM as a program. The functions of these processing units will be described later.

システムメモリ112は、後述のページ位置情報を記憶する領域であるページ位置記憶部112aを有している。HDD118は原稿画像を記憶する画像記憶部の役割を果たす。   The system memory 112 includes a page position storage unit 112a that is an area for storing page position information described later. The HDD 118 serves as an image storage unit that stores document images.

以下、図3のフローチャートに従い、CPU110の実行する処理を説明する。   Hereinafter, processing executed by the CPU 110 will be described with reference to the flowchart of FIG.

S1では、スキャナ制御部110aは、画像取得装置200を制御し、原稿をスキャンさせ、原稿画像をHDD118に記憶する。原稿画像に濃淡調整等の各種画像処理を行った上でHDD118に記憶してもよい。なお、HDD118に記憶された画像にはスキャン順に連続した通し番号k(k=1,2,3・・,n。nはスキャンした原稿の総数)がファイル名として暫定的に付与される。以下、各原稿画像をIkで表し、k=1〜nについてステップS1〜15をループさせる。   In S <b> 1, the scanner control unit 110 a controls the image acquisition apparatus 200 to scan the document and store the document image in the HDD 118. The original image may be stored in the HDD 118 after various image processing such as density adjustment is performed. Note that serial numbers k (k = 1, 2, 3,..., N, where n is the total number of scanned documents) are provisionally assigned to the images stored in the HDD 118 as file names. Hereinafter, each original image is represented by Ik, and steps S1 to S15 are looped for k = 1 to n.

S2では、ファイル管理部110hは、ページ位置記憶部112aにページ位置情報(原稿画像においてページ情報の配置されている位置に関する情報。以下同じ。)が記憶されているか否かを判断する。ページ位置情報が記憶されている場合はS3に移行し、記憶されていない場合はS5に移行する。   In S2, the file management unit 110h determines whether or not page position information (information regarding the position where the page information is arranged in the document image; the same applies hereinafter) is stored in the page position storage unit 112a. If page position information is stored, the process proceeds to S3, and if not stored, the process proceeds to S5.

なお、ページ位置情報は、後述のS8又はS11で記憶される。このため、少なくとも最初の原稿画像についてS2が実行されても、ページ位置情報が記憶されていない状態であり、自動的にS5へ移行することになる。   The page position information is stored in S8 or S11 described later. For this reason, even if S2 is executed for at least the first original image, the page position information is not stored, and the process automatically proceeds to S5.

S3では、ページ情報抽出部110bは、記憶されたページ位置情報を基準とした所定の周辺領域内において、余白に囲まれた文字列を原稿画像Ikから抽出する。   In S3, the page information extraction unit 110b extracts a character string surrounded by margins from the document image Ik in a predetermined peripheral area based on the stored page position information.

例えば、図4に示すような原稿画像Ikがあり、原稿画像Ikの左下隅を原点OとしたXY平面座標における1対の対角点P0(X0,Y0)及びP1(X1,Y1)がページ位置情報としてページ位置記憶部112aに記憶されているとする。この場合、ページ情報抽出部112bは、対角点P0及びP1で規定される矩形領域R0内から文字列を抽出する。   For example, there is a document image Ik as shown in FIG. 4, and a pair of diagonal points P0 (X0, Y0) and P1 (X1, Y1) in the XY plane coordinates with the lower left corner of the document image Ik as the origin O is a page. Assume that it is stored in the page position storage unit 112a as position information. In this case, the page information extraction unit 112b extracts a character string from the rectangular area R0 defined by the diagonal points P0 and P1.

あるいは、XY平面座標における1対の対角点P2(X2,Y2)及びP3(X3,Y3)がページ位置情報としてページ位置記憶部112aに記憶されているとする。この場合、ページ情報抽出部112bは、対角点P2及びP3で規定される矩形領域R1内から文字列を抽出する。   Alternatively, it is assumed that a pair of diagonal points P2 (X2, Y2) and P3 (X3, Y3) in the XY plane coordinates are stored in the page position storage unit 112a as page position information. In this case, the page information extraction unit 112b extracts a character string from the rectangular area R1 defined by the diagonal points P2 and P3.

S4では、タイトル情報抽出部110eは、原稿画像Ikの領域R1から抽出された文字列にタイトル情報(原稿のタイトルを示す情報。ページ情報の一態様)が含まれているか否かを判断する。この判断は、例えば次のようにする。即ち、予めタイトル候補登録部110fによってHDD118に登録されている所定のタイトル文字列とマッチングする文字列が含まれている場合にタイトルが含まれていると判断する。あるいは、タイトル情報抽出部110eは、抽出された文字列をタッチパネルモニタ106に表示し、この文字列がタイトルであるか否かをタッチパネルモニタ106から指示入力させる。タイトルである旨の指示入力がされた場合はタイトルが含まれていると判断する。タイトルが含まれている場合はS8に移行し、タイトルが含まれていない場合はS5に移行する。   In S4, the title information extraction unit 110e determines whether or not title information (information indicating the title of the document; one aspect of page information) is included in the character string extracted from the region R1 of the document image Ik. This determination is performed as follows, for example. That is, when a character string matching a predetermined title character string registered in the HDD 118 by the title candidate registration unit 110f in advance is included, it is determined that the title is included. Alternatively, the title information extraction unit 110e displays the extracted character string on the touch panel monitor 106, and instructs the touch panel monitor 106 to input whether or not this character string is a title. If an instruction indicating that the title is input, it is determined that the title is included. If the title is included, the process proceeds to S8, and if the title is not included, the process proceeds to S5.

なお、タイトル候補登録部110fがタッチパネル106から任意に入力されたタイトル文字列をタイトル候補としてHDD118に登録できるようにしてもよい。タイトル文字列は、例えば「文学」、「医学」、「科学」、「ビジネス」などの包括的あるいは総称的な文字列、あるいは「短歌」や「詩」などといったさらに個別具体的な文字列を複数登録できるようにしておく。   Note that the title candidate registration unit 110f may register a title character string arbitrarily input from the touch panel 106 in the HDD 118 as a title candidate. For the title character string, for example, a comprehensive or generic character string such as “literature”, “medicine”, “science”, “business”, or an individual specific character string such as “tanka” or “poetry”. Allow multiple registrations.

そして、タイトル情報抽出部110eは、原稿画像Ikから抽出された文字列とマッチングする所定のタイトル文字列が複数ある場合、これをタイトル候補としてタッチパネルモニタ106に表示し、タイトル候補からいずれか一つのタイトル候補をタッチパネルモニタ106から指示入力させることでタイトル情報を確定してもよい。   Then, when there are a plurality of predetermined title character strings that match the character string extracted from the document image Ik, the title information extraction unit 110e displays these as title candidates on the touch panel monitor 106, and any one of the title candidates is displayed. The title information may be determined by inputting a title candidate from the touch panel monitor 106.

S5では、ページ情報抽出部112bは、原稿画像Ikの全領域の内余白に囲まれた領域から文字列を抽出する。例えば、図3の原稿画像Ikの場合、余白に囲まれた領域R0〜R5のすべてから文字列を抽出する。   In S5, the page information extraction unit 112b extracts a character string from the area surrounded by the inner margin of the entire area of the document image Ik. For example, in the case of the document image Ik in FIG. 3, character strings are extracted from all of the regions R0 to R5 surrounded by the margins.

S6では、タイトル情報抽出部110eは、原稿画像Ikから抽出された文字列にタイトル情報が含まれているか否かを判断する。この判断はS4と同様である。タイトル情報が含まれている場合はS7に移行し、タイトルが含まれていない場合はS10に移行する。   In S6, the title information extraction unit 110e determines whether title information is included in the character string extracted from the document image Ik. This determination is the same as in S4. If the title information is included, the process proceeds to S7, and if the title is not included, the process proceeds to S10.

S7では、フォルダ作成部110gは、原稿画像Ikから抽出されたタイトル情報に対応するフォルダ(例えばタイトル情報をフォルダ名として付与したフォルダ)をHDD118に作成する。ファイル管理部110hは、このフォルダにタイトル情報を抽出した原稿画像Ikを格納する。これにより、原稿画像から抽出されたタイトル情報ごとのフォルダによって原稿画像Ikを分類できる。   In S7, the folder creation unit 110g creates a folder corresponding to the title information extracted from the document image Ik (for example, a folder assigned title information as a folder name) in the HDD 118. The file management unit 110h stores the document image Ik obtained by extracting the title information in this folder. Thereby, the document image Ik can be classified by the folder for each title information extracted from the document image.

S8では、ページ位置情報取得部110dはページ位置情報を原稿画像Ikから取得してページ位置記憶部112aに記憶する。次に、ページ情報抽出部110bは、抽出された文字列にページ数情報(ページ数を示す情報。ページ情報の一態様)が含まれているか否かを判断する。この判断は、単なる数字とページ数とを区別するための判断を含んでおり、例えば、原稿画像Ikの四隅領域又は上下左右の周縁領域から検出された数字をページ数情報と判断する。あるいは、総ページ数と該当ページ数とが一体となった文字列が含まれている場合(例えば1/5など)、ページ数情報が含まれていると判断する。ページ数情報が含まれている場合はS14に移行し、ページ数情報が含まれていない場合はS9に移行する。   In S8, the page position information acquisition unit 110d acquires the page position information from the document image Ik and stores it in the page position storage unit 112a. Next, the page information extraction unit 110b determines whether or not the extracted character string includes page number information (information indicating the number of pages; one aspect of page information). This determination includes determination for simply distinguishing the number from the number of pages. For example, the numbers detected from the four corner areas or the upper, lower, left, and right peripheral areas of the document image Ik are determined as the page number information. Alternatively, when a character string in which the total page number and the corresponding page number are integrated (for example, 1/5), it is determined that page number information is included. If page number information is included, the process proceeds to S14. If page number information is not included, the process proceeds to S9.

S9では、ファイル名付与部110cは、原稿画像Ikから抽出されたタイトル、通し番号及びページ数が抽出できなかったことを示す文字又は記号を含んだ所定の文字列を原稿画像のファイル名として付与する。例えば、抽出されたタイトルが「文学大全集」、通し番号が「001」、ページ数が抽出できなかったことを示す文字又は記号が「?」とすると、ファイル名として「文学大全集001?」を原稿画像に付与する。   In S9, the file name assigning unit 110c assigns a predetermined character string including characters or symbols indicating that the title, serial number, and number of pages extracted from the document image Ik could not be extracted as the file name of the document image. . For example, if the extracted title is “Literature Collection”, the serial number is “001”, and the character or symbol indicating that the number of pages could not be extracted is “?”, The file name is “Literature Collection 001?”. It is added to the original image.

S10では、ページ情報抽出部110b原稿画像Ikから抽出された文字列にページ数情報が含まれているか否かを判断する。この判断はS8と同様である。   In S10, it is determined whether or not the page number information is included in the character string extracted from the page information extraction unit 110b original image Ik. This determination is similar to S8.

S11では、ページ位置情報取得部110dはページ位置情報を原稿画像Ikから取得してページ位置記憶部112aに記憶する。次に、ページ形式判断部110iは、原稿画像Ikから抽出されたページ情報の形式と他の原稿画像Ij(j≠k)から抽出されたページ情報の形式を、全ての他の原稿画像Ijについて比較する。   In S11, the page position information acquisition unit 110d acquires the page position information from the document image Ik and stores it in the page position storage unit 112a. Next, the page format determination unit 110i sets the format of page information extracted from the document image Ik and the format of page information extracted from another document image Ij (j ≠ k) for all other document images Ij. Compare.

S12では、ページ形式判断部110iは、上記比較の結果、原稿画像Ikから抽出されたページ情報と形式が共通する他の原稿画像Ij(j≠k)がHDD118に保存されているか否かを判断する。ページ情報の形式が共通するとは、例えば、ページ数やタイトルのフォント、サイズ、レイアウト、フォーマット等の特徴が共通することである。他の原稿画像Ijが保存されている場合はS13に移行し、保存されていない場合はS15に移行する。   In S12, the page format determination unit 110i determines whether another document image Ij (j ≠ k) having the same format as the page information extracted from the document image Ik is stored in the HDD 118 as a result of the comparison. To do. The common page information format means that, for example, features such as the number of pages, title font, size, layout, and format are common. If another document image Ij is stored, the process proceeds to S13, and if not stored, the process proceeds to S15.

S13では、ファイル管理部110hは、他の原稿画像Ijが複数でなく1つだけであるか否かを判断する。他の原稿画像Ijが1つだけである場合はS15に移行し、複数の場合はS14に移行する。   In S13, the file management unit 110h determines whether there is only one other document image Ij instead of a plurality of document images Ij. If there is only one other document image Ij, the process proceeds to S15, and if there are a plurality of other document images Ij, the process proceeds to S14.

S14では、ファイル名付与部110cは、原稿画像Ikから抽出されたページ情報に従って原稿画像Ikにファイル名を付与する。例えば、原稿画像Ikから抽出されたタイトル情報が「文学大全集」、ページ数情報が「50」だとすると、原稿画像Ikのファイル名として「文学大全集50」を付与する。なお、総ページ数も合わせて付与してもよい。例えばn=100とすると、原稿画像Ikのファイル名として「文学大全集50/100」を付与する。このファイル名から、スキャンした原稿がどの文書の何ページであるかが一目瞭然で分かる。   In S14, the file name assigning unit 110c assigns a file name to the document image Ik according to the page information extracted from the document image Ik. For example, if the title information extracted from the manuscript image Ik is “Literature University Complete Collection” and the page number information is “50”, “Literature University Complete Collection 50” is assigned as the file name of the manuscript image Ik. The total number of pages may also be given. For example, if n = 100, “literature complete works 50/100” is assigned as the file name of the document image Ik. From this file name, you can see at a glance how many pages of which document the scanned document is.

S15では、ファイル名付与部110cは、原稿画像Ikと他の原稿画像Ijのそれぞれについて新たに生成した連番をファイル名として付与し、所定のフォルダに格納する。連番の付与順は先に付与された通し番号順とする。これにより、タイトルの抽出されなかった原稿画像についても、連番を付与することができる。   In S15, the file name assigning unit 110c assigns a newly generated serial number for each of the document image Ik and the other document image Ij as a file name, and stores it in a predetermined folder. The sequential number assignment order is the order of serial numbers assigned previously. As a result, serial numbers can be assigned to document images from which titles have not been extracted.

なお、上述のステップS1〜15をCPU11に実行させる方法及びプログラムも本発明に含まれる。   In addition, the method and program which make CPU11 perform above-mentioned step S1-15 are also contained in this invention.

本発明の好ましい実施形態に係るファイル管理装置のブロック図1 is a block diagram of a file management apparatus according to a preferred embodiment of the present invention. ファイル管理装置の要部構成図Main part configuration diagram of file management device ファイル管理装置の実行する処理の流れを示すフローチャートFlow chart showing the flow of processing executed by the file management device 原稿の一例を示す図Figure showing an example of a document

符号の説明Explanation of symbols

110:CPU、112:システムメモリ、118:ハードディスクユニット 110: CPU, 112: System memory, 118: Hard disk unit

Claims (12)

原稿の画像を取得する画像取得部と、
前記原稿の画像を記憶する画像記憶部と、
前記画像記憶部に記憶された原稿の画像から前記原稿の所属を示すページ情報を抽出するページ情報抽出部と、
前記ページ情報抽出部の抽出したページ情報に従って前記原稿の画像のファイル名を付与するファイル名付与部と、
を備えるファイル管理装置。
An image acquisition unit for acquiring an image of the document;
An image storage unit for storing the image of the original;
A page information extraction unit that extracts page information indicating the affiliation of the document from an image of the document stored in the image storage unit;
A file name giving unit for giving a file name of the image of the document according to the page information extracted by the page information extracting unit;
A file management apparatus comprising:
前記ページ情報抽出部は前記原稿の画像中の余白に囲まれた文字列からページ情報を抽出する請求項1に記載のファイル管理装置。   The file management apparatus according to claim 1, wherein the page information extraction unit extracts page information from a character string surrounded by a margin in an image of the document. 或る原稿の画像から抽出されたページ情報の位置に関する情報であるページ位置情報を取得するページ位置情報取得部と、
前記ページ位置情報を記憶するページ位置記憶部と、
をさらに備え、
前記ページ情報抽出部は前記ページ位置情報を基準とした所定の領域内において他の原稿の画像からページ情報を抽出する請求項1又は2に記載のファイル管理装置。
A page position information acquisition unit that acquires page position information that is information related to the position of page information extracted from an image of a certain original;
A page position storage unit for storing the page position information;
Further comprising
The file management apparatus according to claim 1, wherein the page information extraction unit extracts page information from an image of another document within a predetermined area based on the page position information.
前記原稿の画像から前記原稿のタイトルを示すタイトル情報を抽出するタイトル情報抽出部をさらに備える請求項1〜3のいずれかに記載のファイル管理装置。   The file management apparatus according to claim 1, further comprising a title information extraction unit that extracts title information indicating a title of the document from the image of the document. 前記タイトル情報抽出部は前記原稿の画像中の余白に囲まれた文字列からタイトル情報を抽出する請求項4に記載のファイル管理装置。   The file management apparatus according to claim 4, wherein the title information extraction unit extracts title information from a character string surrounded by a margin in an image of the document. 原稿のタイトルの候補を登録するタイトル候補登録部をさらに備え、
前記タイトル情報抽出部は前記タイトル候補登録部に登録された原稿のタイトルの候補と一致する文字列をタイトル情報として抽出する請求項4又は5に記載のファイル管理装置。
A title candidate registration unit for registering candidate titles of the manuscript;
6. The file management apparatus according to claim 4, wherein the title information extraction unit extracts, as title information, a character string that matches a document title candidate registered in the title candidate registration unit.
前記抽出された文字列の内タイトル情報にすべき所望の文字列を指定させるタイトル指定部をさらに備える請求項6に記載のファイル管理装置。   The file management apparatus according to claim 6, further comprising a title designation unit that designates a desired character string to be used as title information in the extracted character string. 前記ファイル名付与部は前記タイトル情報に従って前記原稿の画像のファイル名を付与する請求項4〜7のいずれかに記載のファイル管理装置。   The file management apparatus according to claim 4, wherein the file name assigning unit assigns a file name of the image of the document according to the title information. 前記タイトル情報に対応するフォルダを前記画像記憶部に作成するフォルダ作成部と、
前記タイトル情報に対応するフォルダに前記タイトル情報の抽出された原稿の画像を格納するファイル管理部と、
をさらに備える請求項4〜8のいずれかに記載のファイル管理装置。
A folder creation unit that creates a folder corresponding to the title information in the image storage unit;
A file management unit for storing an image of the document from which the title information is extracted in a folder corresponding to the title information;
The file management apparatus according to claim 4, further comprising:
前記ページ情報の形式を判断するページ形式判断部をさらに備え、
前記ファイル管理部は前記ページ情報の形式の共通する画像を共通のフォルダに格納する請求項9に記載のファイル管理装置。
A page format determination unit for determining the format of the page information;
The file management apparatus according to claim 9, wherein the file management unit stores images having a common page information format in a common folder.
原稿の画像を取得するステップと、
前記原稿の画像を記憶するステップと、
前記記憶された原稿の画像から前記原稿のページ数を示すページ情報を抽出するステップと、
前記抽出されたページ情報に従って前記原稿の画像のファイル名を付与するステップと、
を含むファイル管理方法。
Obtaining a document image;
Storing an image of the document;
Extracting page information indicating the number of pages of the document from the stored document image;
Assigning a file name of the image of the document according to the extracted page information;
File management method including.
原稿の画像を取得するステップと、
前記原稿の画像を記憶するステップと、
前記記憶された原稿の画像から前記原稿のページ数を示すページ情報を抽出するステップと、
前記抽出されたページ情報に従って前記原稿の画像のファイル名を付与するステップと、
をコンピュータに実行させるファイル管理プログラム。
Obtaining a document image;
Storing an image of the document;
Extracting page information indicating the number of pages of the document from the stored document image;
Assigning a file name of the image of the document according to the extracted page information;
File management program that causes a computer to execute.
JP2005071590A 2005-03-14 2005-03-14 File management device, file management method and file management program Pending JP2006252455A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005071590A JP2006252455A (en) 2005-03-14 2005-03-14 File management device, file management method and file management program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005071590A JP2006252455A (en) 2005-03-14 2005-03-14 File management device, file management method and file management program

Publications (1)

Publication Number Publication Date
JP2006252455A true JP2006252455A (en) 2006-09-21

Family

ID=37092852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005071590A Pending JP2006252455A (en) 2005-03-14 2005-03-14 File management device, file management method and file management program

Country Status (1)

Country Link
JP (1) JP2006252455A (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090279116A1 (en) * 2008-05-09 2009-11-12 Sharp Kabushiki Kaisha Image data processing apparatus
JP2012247918A (en) * 2011-05-26 2012-12-13 Konica Minolta Business Technologies Inc File name creating device and file name creating program
JP2017068355A (en) * 2015-09-28 2017-04-06 シャープ株式会社 Image processing device and image processing method
JP2020150328A (en) * 2019-03-11 2020-09-17 富士ゼロックス株式会社 Information processing unit and program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090279116A1 (en) * 2008-05-09 2009-11-12 Sharp Kabushiki Kaisha Image data processing apparatus
JP2012247918A (en) * 2011-05-26 2012-12-13 Konica Minolta Business Technologies Inc File name creating device and file name creating program
JP2017068355A (en) * 2015-09-28 2017-04-06 シャープ株式会社 Image processing device and image processing method
JP2020150328A (en) * 2019-03-11 2020-09-17 富士ゼロックス株式会社 Information processing unit and program
CN111680534A (en) * 2019-03-11 2020-09-18 富士施乐株式会社 Information processing device, recording medium, and information processing method
JP7234705B2 (en) 2019-03-11 2023-03-08 富士フイルムビジネスイノベーション株式会社 Information processing device and program

Similar Documents

Publication Publication Date Title
US8107727B2 (en) Document processing apparatus, document processing method, and computer program product
JP2005004724A (en) Image processing apparatus, control method and program thereof
JP4237215B2 (en) Image reading system, server device, image reading device, and terminal device
US20090327945A1 (en) Work flow management apparatus and work flow management method
US11620844B2 (en) Image processing apparatus, control method of image processing apparatus, and storage medium
JP2020184276A (en) Image processing device, image processing method, and program
JP5742979B1 (en) Image processing apparatus, image reading apparatus, and program
US11243670B2 (en) Information processing system, information processing apparatus, information processing method and non-transitory computer readable medium
JP4809198B2 (en) Image processing device, article image selection method, program, and recording medium
CN111580758B (en) Image forming apparatus having a plurality of image forming units
JP2006252455A (en) File management device, file management method and file management program
JP6700705B2 (en) Distribution system, information processing method, and program
JP2010068347A (en) Image forming apparatus, image forming method and image forming program
JP2007325196A (en) Device and method for managing document
JP2007036406A (en) Image editing device
CN113378610A (en) Information processing apparatus and computer readable medium
JP2009140311A (en) Document processing apparatus and method
JP2013069008A (en) Electronic book generation device, electronic book display device, electronic book generation method, electronic book display method and program
JP7140507B2 (en) Information processing device that performs redaction processing, its control method, and program
JP6481204B2 (en) Information processing apparatus, processing method thereof, and program
JP5298484B2 (en) Document processing device
US20060136823A1 (en) Image processing device
US12355927B2 (en) Information processing apparatus and information processing method
JP2006333248A (en) Image processing apparatus, image processing method, program and storage medium
JP2008118489A (en) Facsimile distribution system and facsimile apparatus

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20070112