[go: up one dir, main page]

KR20000069633A - 파일 처리 방법, 데이터 처리 장치 및 기억 매체 - Google Patents

파일 처리 방법, 데이터 처리 장치 및 기억 매체 Download PDF

Info

Publication number
KR20000069633A
KR20000069633A KR1019997005642A KR19997005642A KR20000069633A KR 20000069633 A KR20000069633 A KR 20000069633A KR 1019997005642 A KR1019997005642 A KR 1019997005642A KR 19997005642 A KR19997005642 A KR 19997005642A KR 20000069633 A KR20000069633 A KR 20000069633A
Authority
KR
South Korea
Prior art keywords
data
compression
file
storage medium
sections
Prior art date
Application number
KR1019997005642A
Other languages
English (en)
Other versions
KR100495593B1 (ko
Inventor
마사히로 가따오까
다까시 쯔보꾸라
Original Assignee
아끼구사 나오유끼
후지쯔 가부시끼가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아끼구사 나오유끼, 후지쯔 가부시끼가이샤 filed Critical 아끼구사 나오유끼
Publication of KR20000069633A publication Critical patent/KR20000069633A/ko
Application granted granted Critical
Publication of KR100495593B1 publication Critical patent/KR100495593B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0674Disk device
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00007Time or data compression or expansion
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/12Formatting, e.g. arrangement of data block or words on the record carriers
    • G11B20/1217Formatting, e.g. arrangement of data block or words on the record carriers on discs
    • G11B20/1252Formatting, e.g. arrangement of data block or words on the record carriers on discs for discontinuous data, e.g. digital information signals, computer programme data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

파일 처리 방법은 제1 데이터 및 상기 제1 데이터의 인덱스에 관한 제2 데이터를 섹션들로 분할하고, 상기 섹션들을 압축하여 압축 파일을 얻으며, 압축 파일을 압축된 섹션들의 어드레스 정보와 함께 기억 매체 내에 저장한다. 데이터 처리 장치 및 기억 매체가 또한 개시된다.

Description

파일 처리 방법, 데이터 처리 장치 및 기억 매체{FILE PROCESSING METHOD, DATA PROCESSING DEVICE, AND STORAGE MEDIUM}
사전이나 백과 사전 등에 대한 정보를 저장하고 있는 종래의 CD-ROM에서는, 사전 파일이 사전 데이터 및 인덱스에 관한 데이터 (이하, 인덱스 데이터라 함)로 구성된다. 예를 들면, 백과 사전의 경우, 사전 데이터는, 단어의 의미를 설명하는 텍스트에 관한 데이터(이하, 텍스트 데이터라 함), 예를 들어 단어가 동물을 설명하다면 동물을 보여주는 화상에 관한 데이터(이하, 화상 데이터라 함), 예를 들어 단어가 새 등을 설명한다면 새의 음성을 들려주는 음성에 관한 데이터(이하, 음성 데이터라 함)를 포함한다. 한편, 인덱스는 사전 파일로부터 소정의 사전 데이터를 검색하기 위해 사용되며, 사전 데이터에 대해 제공된다. 인덱스는 또한 키워드라 불리기도 한다. 인덱스 데이터는 색인에 대한 포인터, 항목에 대한 포인터 등을 포함한다. 색인에 관한 데이터는 색인어를 포함한다. 또한, 상기 항목에 관한 데이터는 색인어, 코맨트 등을 포함한다.
종래에는, CD-ROM의 저장 용량이 비교적 크기 때문에, 텍스트 데이터와 인덱스 데이터가 압축되지 않은 상태로 CD-ROM에 저장되었다. 한편, 화상 데이터와 음성 데이터는, 특히 화상 데이터의 정보량이 크므로, 각각을 적절한 압축 기술에 따라 압축하여 CD-ROM에 저장하였다.
그러나, 사전이나 백과 사전 각각에 대해서 하나의 CD-ROM을 필요로 한다면, 사전 데이터를 이용하기가 어렵다. 이러한 이유 때문에, 다수의 사전이나 백과 사전 등에 대한 정보를 한장의 CD-ROM에 저장하는 것이 바람직하지만, 이 경우에는 사전 데이터를 압축하여도 저장될 정보량이 한장의 CD-ROM의 저장 용량을 초과할 가능성이 있다는 문제가 있다. 또한, CD-ROM 내에 저장될 사전 파일이 하나의 사전이나 백과 사전 등에 대한 것이더라도, 사전 파일의 정보량이 증가하면, 사전 데이터를 압축하여도 저장될 정보량이 한장의 CD-ROM의 저장 용량을 초과할 수 있다.
따라서, CD-ROM 내에 사전이나 백과 사전 등에 관한 정보를 저장할 때, 전체 사전 데이터를 압축하는 것은 물론, 인덱스 데이터를 포함한 전체 사전 파일을 압축해야 한다고 생각했다. 그러나, 비교적 간단한 기술에 의해서 효율적으로 전체 사전 파일을 압축하는 동시에, 압축 사전 파일을 단시간에 신장할 수 있는 방법이 제안되어 있지 않다. 사전이나 백과 사전 등의 경우에는, 특히 인덱스 데이터에 관한 정보량이 상당히 크다. 따라서, 압축된 사전 파일을 신장시킬 때 인덱스 데이터를 복원하는 과정을 실행하는데 장시간이 소요되고 소정의 인덱스 데이터와 사전 데이터의 억세스 시간이 길어져서, 사전 백과이나 사전 등의 편리성을 저하시킨다.
또한, 예를 들어 사전 데이터를 인덱스의 항목 단위로 또는 고정된 길이 단위로 압축할 때에도, 사전이나 백과 사전 등의 경우에 특히 인덱스 데이터에 관한 정보량이 커지기 때문에 사전 파일의 신장 처리를 실행하는데 상당한 시간이 소요되어, 사전이나 백과 사전 등의 편리성이 상당히 저하되게 된다. 예를 들면, 일본 공개 특허 공보평 9-26969호는 상기와 유사한 방법을 이용한 전화 번호 검색 시스템을 개시하고 있다. 그러나, 이러한 제안 방법은 인덱스 데이터를 압축하지 않는다. 전화 번호부의 경우, 인덱스 데이터에 관한 정보량이 사전 데이터에 대응하는 전화 번호, 성명, 제공된 명칭, 법인명 및 주소에 관한 정보에 비해서 작다. 따라서, 전화 디렉토리의 인덱스 데이터를 압축할 경우에조차 전체적으로 정보 압축 효과가 별로 크지 않다. 그러므로, 이러한 제안 방법을 사전이나 백과 사전 등에 대한 정보의 기억에 적용한다고 하더라도, 사전 파일의 정보 압축 효과가 그다지 향상되지 않는다.
〈발명이 이루고자 하는 기술적 과제〉
따라서, 종래에는 인덱스 데이터에 관한 정보량이, 사전이나 백과 사전 등과 같은 사전 데이터에 관한 정보량과 비교했을 때 상대적으로 큰 경우, 사전 파일을 효과적으로 압축하여 기억 매체 내에 저장하고, 비교적 간단한 처리에 의해서 단시간 내에 압축 사전 파일을 억세스하는 것이 불가능하였다.
본 발명은 통상 파일 처리 방법, 데이터 처리 장치 및 기억 매체에 관한 것으로, 특히 하나 또는 다수의 사전이나 백과 사전 등에 관한 사전 파일과 같은 파일을 압축하고, 압축된 파일을 기억 매체에 저장하며 상기 저장된 파일을 기억 매체로부터 판독하는 파일 처리 방법 및 데이터 처리 장치와, 압축 사전 파일과 같은 파일을 저장하는 기억 매체에 관한 것이다.
현재에는, 사전이나 백과 사전 등에 관한 정보를 미리 저장하고 있는 CD-ROM과 같은 기억 매체가 있다. 컴퓨터에서 이러한 CD-ROM의 억세스를 행할 때, 사전이나 백과 사전 등에 관한 정보를 판독하여 표시할 수 있다. 그 결과, 사전이나 백과 사전과 같은 대용량의 정보를 상당히 콤팩트한 하나의 CD-ROM에 저장할 수 있다. 또한, 컴퓨터를 사용하여 사전이나 백과 사전 등을 열어 필요한 정보를 얻는 대신, CD-ROM을 판독하여 필요한 정보를 얻을 수 있고, 이에 의해서 필요한 정보를 얻는데 소요되는 시간과 노력을 상당히 줄일 수 있다.
도 1은 파일 처리 방법의 한 실시예를 이용한 컴퓨터 시스템의 일반적인 구성을 도시한 시스템 블록도.
도 2는 CPU에 의해서 실행되는 압축 파라미터 계산 프로세스를 설명하기 위한 플로우챠트.
도 3은 압축 파라미터의 데이터 구조를 도시한 도면.
도 4는 CPU에 의해서 실행되는 데이터 압축 프로세스 및 어드레스 정보 계산 프로세스를 설명하기 위한 플로우챠트.
도 5는 CPU에 의해서 실행되는 압축 파일 합성 프로세스 및 압축 파일 저장 프로세스를 설명하기 위한 플로우챠트.
도 6은 압축 파일들의 합성을 설명하기 위한 플로우챠트.
도 7은 CPU에 의해서 실행되는 인덱스 판독 프로세스를 설명하기 위한 프로우챠트.
도 8은 CPU에 의해서 실행되는 데이터 신장 프로세스를 설명하기 위한 플로우챠트.
도 9는 CPU에 의해서 실행되는 텍스트 판독 프로세스를 설명하기 위한 플ㄹ우챠트
따라서, 본 발명의 한 목적은 인덱스 데이터에 관한 정보량이 사전이나 백과 사전 등의 경우와 같은 사전 데이터에 관한 정보량과 비교하여 클 경우, 사전 데이터를 효율적으로 압축하여 기억 매체에 저장하고, 비교적 간단한 처리에 의해서 단시간에 압축 사전 데이테을 억세스할 수 있는, 파일 처리 방법, 데이터 처리 장치 및 기억 매체를 제공하는 것이다.
본 발명의 다른 목적은 데이터 및 상기 데이터에 관한 인덱스 데이터를 다수의 섹션들로 분할하고 상기 섹션들을 압축하여 압축 파일을 얻는 압축 단계, 및 압축 파일을 압축 후의 섹션들의 어드레스 정보와 함께 기억 매체 내에 저장하는 단계를 포함하는 파일 처리 방법을 제공하는 것이다. 본 발명에 따라서, 인덱스, 각 항목에 대한 텍스트 등을 포함한 데이터로 이루어지는 사전 파일과 같은 파일을 효율적으로 압축하여 기억 매체 내에 저장할 수 있게 된다. 또한, 모든 섹션들에 대한 압축된 파일을 신장함으로써, 비교적 간단한 처리로 고속의 파일 검색을 수행할 수 있게 된다.
각각의 섹션이 고정된 길이를 가질 때, 압축 파일 내에 압축 전의 어드레스 정보를 포함할 필요가 없게 되어, 데이터 압축 효율이 향상되게 된다. 한편, 각 섹션이 가변 길이를 가지며, 상기 저장 단계가 압축 전의 어드레스 정보를 기억 매체 내에 더 저장하고 있다면, 섹션들을 데이터 타입과 섹션에 따라 적절한 길이로 설정함으로써 고속으로 데이터 신장을 행할 수 있다.
파일 처리 방법이 또한 기억 매체로부터 압축 파일을 판독하고 각각의 섹션에 대해서 신장하여 데이터 및 인덱스 데이터를 복원하는 복원 단계를 포함할 때, 고속의 데이터 억세스를 행하여 복원된 데이터 및 인덱스 데이터를 보조 기억 장치 내에 저장할 수 있는 보조 기억 장치를 사용함으로써 파일 검색 속도를 향상시킬 수 있다.
압축 단계가 각각의 섹션들에 대해서 데이터와 인덱스 데이터에 공통인 압축 알고리즘과 압축 파라미터를 사용하는 경우, 상기 공통의 압축 알고리즘과 압축 파라미터를 사용함으로써 데이터 압축 처리 및 데이터를 신장할 때 데이터 신장 처리를 간략화할 수 있다. 보다 상세하게는, 압축 알고리즘으로서 허프만 코드, 유니버셜 코드 등을 사용할 수 있다.
본 발명의 다른 목적은 다수의 섹션들 각각에 대해서, 압축 파일을 압축 후의 각각의 섹션들의 어드레스 정보와 함께 기억 매체로부터 판독하는 판독 단계 - 상기 압축 파일은 데이터 및 데이터에 관한 인덱스 정보를 다수의 섹션들로 분할하고 상기 섹션들을 압축함으로써 얻어짐-, 및 압축 파일을 신장하여 데이터와 인덱스 데이터 복원하는 단계를 포함하는 파일 처리 방법을 제공하는 것이다. 본 발명에 따르면, 모든 섹션에 대해서 압축된 사전 파일과 같은 압축 파일의 신장을 행함으로써, 비교적 간단한 처리에 의해 고속 파일 검색을 행할 수 있다.
본 발명의 또 다른 목적은 데이터 및 상기 데이터에 관한 인덱스 데이터를 다수의 섹션들로 분할하고, 상기 섹션들을 압축하여 압축 파일을 얻는 압축 수단, 및 상기 압축 파일을 압축 후의 섹션들에 관한 어드레스 정보와 함께 기억 매체 내에 저장하기 위한 저장 수단을 포함하는 데이터 처리 장치를 제공하는 것이다. 본 발명에 따르면, 인덱스, 각 항목에 관한 텍스트 등을 포함하는 데이터로 구성되는 파일을 효과적으로 압축하여 기억 매체 내에 저장할 수 있다. 또한, 모든 섹션에 대한 압축 파일을 신장함으로써, 비교적 간단한 처리에 의해서 고속으로 파일 검색을 행할 수 있다.
본 발명의 다른 목적은 압축 파일을 압축 후의 다수의 섹션 각각에 대한 어드레스 정보와 함께 기억 매체로부터 판독하기 위한 판독 수단 - 상기 압축 파일은 데이터 및 상기 데이터에 관한 인덱스 데이터를 상기 섹션들로 분할하여 상기 섹션을 압축함으로써 얻어짐 -, 및 상기 압축 파일을 신장하고 상기 데이터 및 상기 인덱스 데이터를 복원하기 위한 수단을 포함하는 데이터 처리 장치를 제공하는 것이다. 본 발명에 따르면, 모든 섹션에 대한 압축 파일의 신장을 실행함으로써, 비교적 간단한 처리에 의해서 고속의 파일 검색을 행할 수 있다.
본 발명의 또 다른 목적은 각각의 섹션에 대해서, 압축 파일을 압축 후의 다수의 섹션들 각각의 어드레스 정보와 함께 기억 매체로부터 판독하게 하는 판독 수단 - 상기 압축 파일은 데이터 및 상기 데이터에 관한 인덱스 데이터를 상기 섹션들로 분할하고 상기 섹션들을 압축함으로써 얻어짐 -, 및 컴퓨터가 압축 파일을 신장하여 데이터 및 인덱스 데이터를 복원하게 하는 복원 수단을 포함하는 컴퓨터가 판독가능한 정보를 저장하는 기억 매체를 제공하는 것이다. 본 발명에 따르면, 모든 섹션들에 대해서 압축 파일의 신장을 행함으로써, 비교적 간단한 처리에 의해서 고속의 파일 검색을 행할 수 있다.
본 발명의 또 다른 목적은 다수의 섹션들 각각에 대해서, 압축 후 상기 각각의 섹션의 어드레스 정보와 함께 저장되는 압축 파일을 포함하고, 상기 압축 파일은, 데이터 및 상기 데이터에 관한 인덱스 데이터를 상기 섹션들로 분할하여 상기 섹션들을 압축하여 얻어지며, 각각의 섹션의 데이터 및 인덱스 데이터에 공통인 압축 알고리즘 및 압축 파라미터를 사용하여 압축되는 압축 파일을 포함하는 컴퓨터로 판독가능한 정보를 저장하는 기억 매체를 제공하는 것이다. 본 발명에 따르면, 파일을 압축하여 기억 매체에 효과적으로 저장할 수 있다. 또한, 모든 섹션들에 대해 압축 파일을 신장함으로써 비교적 간단한 처리에 의해서 고속의 파일 검색을 행할 수 있다.
본 발명의 다른 목적은 사전 데이터 및 상기 사전 데이터에 관한 인덱스 데이터를 다수의 섹션들로 분할하고, 상기 섹션들을 압축하여 압축된 사전 파일을 얻기 위한 압축 과정, 및 상기 압축 사전 파일을 압축 후의 상기 섹션들의 어드레스 정보와 함께 상기 기억 매체 내에 저장하는 저장 과정을 컴퓨터가 실행하게 하는 프로그램을 포함하는 컴퓨터로 판독가능한 정보를 저장하는 기억 매체를 제공하는 것이다. 본 발명에 따르면, 비교적 간단한 과정를 실행함으로써 고속으로 파일을 검색할 수 있다.
본 발명의 다른 목적은 데이터 및 상기 데이터에 관한 인덱스 데이터를 다수의 섹션들로 분할하고 상기 섹션들을 압축함으로써 얻어진 압축된 데이터를 저장하는 압축 데이터 영역, 및 상기 섹션들의 압축 후에 어드레스 정보를 저장하는 어드레스 정보 영역, 및 압축을 위해 사용되는 압축 파라미터를 저장하는 압축 파라미터 영역을 포함하는 압축 파일을 저장하는 컴퓨터 판독가능한 기억 매체를 제공하는 것이다. 본 발명에 따르면, 비교적 간단한 프로세스를 행하여 파일을 검색하는 것이 가능해진다.
따라서, 본 발명에 따르면, 인덱스 데이터에 관한 정보량이, 사전, 백과 사전 등과 같은 사전 데이터에 관한 정보량과 비교했을 때 크더라도, 기억 매체 내에 사전 파일과 같은 파일을 효과적으로 압축하여 저장할 수 있고, 압축된 사전 파일과 같은 파일을 비교적 간단한 프로세스를 행하여 단시간에 억세스할 수 있다.
본 발명의 다른 목적 및 다른 특징들은 첨부된 도면을 참조하여 설명되는 다음의 상세한 설명으로부터 보다 명백해질 것이다.
본 발명에 따른 파일 처리 방법의 한 실시예 및 본 발명에 따른 데이터 처리 장치의 한 실시예를 설명할 것이다. 파일 처리 방법의 실시예 및 데이터 처리 장치의 실시예는 본 발명에 따른 기억 매체의 실시예를 이용한다. 기억 매체의 실시예에서는, CD-ROM에 본 발명을 적용하였다. 그러나, 본 발명은 CD-ROM과 다른 광학적 정보 기억 매체, 광자기 디스크와 같은 광자기 기억 매체, 플로피 디스크와 같은 자기 기억 매체 및 다양한 형태의 반도체 기억 장치에도 물론 동일하게 적용할 수 있다.
도 1은 파일 처리 방법의 한 실시예를 적용한 컴퓨터 시스템의 일반적인 수성을 도시한 블록도로서, 데이터 처리 장치의 실시예에 대응한다. 도 1의 컴퓨터 시스템은 통상 중앙 처리 장치(CPU)(1), 랜덤 억세스 메모리(RAM) 등으로 구성된 주 기억 장치(2), 하드 디스크 드라이브 등으로 구성된 보조 기억 장치(3), 키보드, 마우스 등으로 구성되는 입력 장치(4), 표시 장치(5), 및 CD-ROM 드라이브 등으로 구성되는 CD-ROM 입/출력 장치(6)를 포함하고 이들은 버스(9)에 연결되어 있다.
입력 장치(4)는 CPU(1)로 명령과 데이터를 입력하는데 사용된다. CPU(1)는 입력된 명령 및 데이터에 기초하여 보조 기억 장치(3) 내에 저장된 프로그램을 실행함으로써 사용자에 의해 요구되는 프로세스를 실행한다. 보조 기억 장치(3) 내에 저장된 프로그램은 미리 설치되어 있거나, 또는 CD-ROM 입/출력 장치(6) 내에 로드된 CD-ROM(6a)으로부터 로드될 수 있다. 주 기억 장치(2)는 CPU(1)에 의해 실행되는 연산 프로세스들의 중간 결과나, 동작에 사용되는 데이터 등을 일시적으로 저장하는데 사용된다. 표시 장치(5)는 CPU(1)에 의해 수행되는 프로세스의 결과, 및 사용자에게 명령 또는 데이터를 입력할 것을 제촉하는 메시지를 포함한다. 이것은 표시 장치(5) 대신 또는 표시 장치(5)에 더하여, CPU(1) 등에 의해서 실행되는 프로세스의 결과를 인쇄하는 (도시되지 않은) 프린터를 연결할 수 있다.
먼저, CD-ROM 입/출력 장치(6)로 로드되는 CD-ROM(6a) 내에 사전이나 백과 사전 등의 사전 파일을 저장하는 파일 저장 프로세스를 설명할 것이다. 파일 저장 프로세스는 압축 파라미터 연산 프로세스, 인덱스, 텍스트 등을 압축하기 위한 데이터 압축 프로세스, 어드레스 정보 계산 프로세스, 압축 파일 합성 프로세스 및 압축 파일 저장 프로세스를 포함한다. 본 실시예에서는, 편의상, CPU(1)에 의해 파일 저장 프로세스를 실행하는 프로그램이 CD-ROM(6a) 내에 저장되고, CPU(1)는 공지된 방법으로 CD-ROM(6a)으로부터 이러한 프로그램을 판독하여 이 프로그램을 보조 기억 장치(3) 안으로 로드한다고 가정한다. 또한, 편의상, 사전, 백과사전 등에 관한 사전 데이터는 (도시되지 않은) 호스트 장치로부터 전송되고, 버스(9)를 통해 보조 기억 장치(3)로 저장되거나 또는 CD-ROM 입/출력 장치(6)에 의해서 CD-ROM(6a)과는 다른 CD-ROM으로 판독되며, 버스(9)를 통해 보조 기억 장치(3) 내에 저장된다고 가정한다.
1a) 압축 파라미터 계산 프로세스
도 2는 도 1에 의해서 실행되는 압축 파라미터 계산 프로세스를 설명하기 위한 프로세스이다. 도 2에서, 단계 (S1)은 보조 기억 장치(3)를 억세스하여 사전 파일을 오픈한다. 단계 (S2)는 사전 데이터로부터 1 문자, 즉 16 비트 코드를 판독한다. 단계 (S3)은 CPU(1) 내의 출현 빈도 계수기의 사용에 의해서 판독된 16 비트 코드의 출현 빈도를 계수한다. 단계 (S4)는 사전 파일의 마지막 문자가 처리되었는지의 여부를 판정하고, 단계 (S4)에서의 판정 결과가 NO라면 프로세스는 단계 (S2)로 복귀한다.
한편, 단계 (S4)에서의 판정 결과가 YES라면, 단계 (S5)은 사전 파일을 닫는다. 단계 (S6)은 출현 빈도 순서에 따라 16-비트 코드들을 소트(sort)하고, 단계 (S7)은 예를 들어 출현 빈도 순서에 따라 1024 16-비트 코드들을 선택한다. 단계 (S8)은 남아있는 비선택 16-비트 코드를 8-비트 코드들로 분해하고, 8-비트 코드들의 출현 빈도를 계산한다. 단계 (S9)는 8-비트 코드의 출현 빈도를 대략 1/2로 설정함으로써 16-비트 코드의 출현 빈도에 관한 8-비트 코드의 출현 빈도를 보정한다.
단계 (S10)는 보조 기억 장치(3) 내에 압축 파라미터에 대한 압축 파라미터 저장 파일을 오픈한다. 단계 (S11)은 1024 16-비트 코드 및 그 출현 빈도를 압축 파라미터 저장 파일에 기입한다. 또한, 단계 (S12)는 256 8-비트 코드 및 그 출현 빈도를 압축 파라미터 저장 파일 내에 기입한다. 단계 (S13)은 압축 파라미터 저장 파일을 닫고 프로세스를 종료한다.
도 3은 압축 파라미터의 데이터 구조를 도시한 도면이다. 도 3에 도시된 바와 같이, 허프만 코드를 사용하여 압축하는 경우, 예를 들면, 압축 파라미터는 1024 종류의 16-비트 코드들 각각에 대한 256 출현 빈도들, 및 8-비트 코드들 각각에 대한 256 종류의 출현 빈도를 포함한다. 출현 빈도들은 허프만 트리를 발생하기 위해 사용되는 데이터가 된다. 유니버셜 코드를 사용하여 압축하는 경우, 압축 파라미터는 트라이 트리 및 상기 트라이 트리를 발생하는데 사용되는 등록된 기호 예와 그 참조 번호들와 같은 데이터를 포함한다.
1b) 데이터 압축 프로세스 및 어드레스 정보 계산 프로세스
도 4는 CPU(1)에 의해서 실행되는 데이터 압축 프로세스 및 어드레스 정보 계산 프로세스를 설명하기 위한 플로우챠트이다. 도 4에서, 단계 (S21)에서는, 8-비트 코드 및 16-비트 코드의 출현 빈도에 기초하여, 변환 테이블, 즉 본 실시예가 허프만 압축을 실행하기 때문에 허프만 트리를 작성한다. 단계 (S22)는 보조 기억 장치(3) 내에 사전 파일을 개방한다. 단계 (S23)는 보조 기억 장치(3)에서, 압축 데이터에 대한 압축 데이터 저장 파일 및 어드레스 정보에 대한 어드레스 정보 저장 파일을 오픈한다.
단계 (S24)는 사전 파일로부터 1 섹션을 판독한다. 이 섹션응 고정된 길이 또는 가변 길이를 가질 수 있지만, 본 실시예에서는 편의상 이 섹션이 고정된 길이를 갖는다고 가정한다. 이 섹션는 종종 블록으로서 참조된다. 단계 (S25)는 허프만 트리를 사용하여 1 섹션의 압축 데이터를 계산한다. 단계 (S26)은 끝에 종료 코드를 부가한다. 또한, 단계 (S27)은 압축 데이터 저장 파일 내에 압축 데이터를 기입한다.
단계 (S28)은 상술한 섹션이 저장되어 있는 어드레스에 대한 어드레스 정보를 계산한다. 예를 들면, 섹션이 고정된 길이를 가질 때, 어드레스 정보는 각각의 섹션에 대해 할당되어 있는 섹션 번호에 기초하여 계산된다. 단계 (S29)는 어드레스 저장 저장 파일 내에 어드레스 정보를 기입한다. 단계 (S30)은, 섹션 번호 및 최종 섹션에 부여된 최종 섹션 코드에 기초하여, 최종 섹션이 처리되었는지의 여부를 판정할 수 있다.
한편, 단계 (S30)에서의 판정 결과가 YES라면, 단계 (S31)은 압축 데이터에 대한 저장 파일을 닫고 어드레스 정보 저장 파일을 닫는다. 또한, 단계 (S32)는 사전 파일을 닫고 프로세스를 종료한다.
1c) 압축 파일 합성 프로세스 및 압축 파일 저장 프로세스
도 5는 CPU(1)에 의해서 실행되는 압축 파일 합성 프로세스 및 압축 파일 저장 프로세스를 설명하기 위한 플로우챠트이다. 도 5에서, 단계 (S41)은 보조 기억 장치(3) 내의 압축 파일을 오픈한다. 단계 (S42)는 보조 기억 장치(3) 내에 압축 파일을 오픈하고, 단계 (S43)은 압축 파라미터 저장 파일 내의 압축 파라미터를 압축 파일로 복사한다. 단계 (S44)는 압축 파라미터 저장 파일을 닫는다.
단계 (S45)는 보조 기억 장치(3) 내의 어드레스 저장 파일을 오픈하고, 단계 (S46)은 어드레스 정보 저장 파일 내의 어드레스 정보를 압축 파일로 복사한다. 단계 (S47)는 어드레스 정보 저장 파일을 닫는다. 더욱이, 단계 (S48)은 보조 기억 장치(3) 내의 압축 데이터 저장 파일을 오픈하고, 단계 (S49)은 압축 데이터 저장 파일 내의 압축 데이터를 압축 파일로 저장한다. 단계 (S50)은 압축 데이터 저장 파일을 닫는다. 단계 (S51)은 CD-ROM 입/출력 장치(6)에 의해서 CD-ROM(6a) 내에 압축 파일을 저장한다. 또한, 단계 (S52)는 압축 파일을 닫고 프로세스를 종료한다.
도 6은 상술한 1a) 압축 파라미터 계산 프로세스, 1b) 데이터 압축 프로세스 및 어드레스 정보 계산 프로세스, 1c) 압축 파일 합성 프로세스 및 압축 파일 저장 프로세스를 참조하여 압축 파일의 합성을 설명하기 위한 도면이다. 도 6에서, (a) 압축 파라미터를 도시한다. 본 실시예에서, 압축 파라미터는 허프만 코드를 사용하여 압축을 행하는데 사용된다. 도 6(b)에서는, 사전 파일을 섹션을 도시한다. 본 실시예에서, 각 섹션은 예를 들어 2 킬로바이트가 되며, 각 섹션은 사전 데이터와 인덱스 데이터로 구성되어 있다. 예를 들면, 백과 사전의 경우에는, 사전 데이터가 낱말의 의미를 설명하는 텍스트에 대한 텍스트 데이터, 예를 들어 낱말이 동물을 설명하고 있다면 동물을 도시한 화상에 대한 화상 데이터, 예를 들어 낱말이 새 등을 설명하고 있다면 새소리와 같은 음향 데이터를 포함한다. 한편, 인덱스는 사전 파일로부터 소정의 사전 데이터를 검색하는데 사용되고, 사전 데이터에 대해서 제공된다. 인덱스는 또한 키워드로서 참조된다. 인덱스 데이터는 헤딩에 관한 포인터, 항목에 관한 포인터 등을 포함한다. 헤딩에 관한 데이터는 헤드워드를 포함한다. 또한, 항목에 관한 데이터는 헤드워드, 코맨트 등을 포함한다.
도 6에서, (c)는 각 섹션이 고정 길이 또는 가변 길이를 갖는 상태에서의 압축 데이터를 도시한다. 또한, 도 6에서, (d)는 각 섹션에 대해 계산된 어드레스 정보를 나타내고, (e)는 어드레스 정보와 합축 데이터를 합성하고 압축된 파일에 헤드를 관리 정보를 부여하여 얻은 압축 파일을 도시한다. 관리 정보는 압축 파일을 검색할 때의 정보, 즉 사전 파일명, 사전 파일 형태, 및 사전 파일에 사용된 압축 형태를 포함한다.
그 다음, CD-ROM 입/출력 장치(6) 안으로 로드된 CD-ROM(6a) 내에 저장된압축 파일을 판독함으로써 소정의 데이터를 검색하는 파일 검색 프로세스를 설명할 것이다. 파일 검색 프로세스는 일반적으로 인덱스 판독 프로세스와 텍스트 판독 프로세스를 포함하며, 데이터 신장 프로세스를 호출함으로써 실행된다. 본 실시예에서는, 편의상 CPU(1)가 파일 검색 프로세스를 실행하게 하는 프로그램이 CD-ROM(6a) 내에 저장되고, CPU(1)는 공지된 방법에 의해서 CD-ROM(6a)으로부터 이 프로그램과 압축 파일을 판독하고, 이 판독된 프로그램과 압축 파일을 보조 기억 장치(3) 안으로 로드한다.
2a) 인덱스 판독 프로세스
도 7은 CPU(1)에 의해서 실행되는 인덱스 판독 프로세스를 설명하기 위한 플로우챠트이다. 도 7에서, 단계 (S61)은 입력 장치(4)를 통해 사용자에 의해서 입력된 인덱스 데이터에 기초하여, 최상위 인덱스의 어드레스 정보를 설정한다. 단계 (S62)는 신장 프로세스를 호출하고, 보조 기억 장치(3)에 저장되어 CPU(1)가 파일 검색 프로세스를 수행하게 하는 프로그램으로부터 신장 프로세스를 실행하기 위한 루틴을 판독하여, 압축 파일 내의 최상의 인덱스의 어드레스를 신장한다. 단계 (S63)은 인덱스 데이터에 기초하여, 최상위 인덱스의 어드레스, 즉 최상 인덱스 데이터의 헤드 문자를 획득한다. 단계 (S64)는 신장 프로세스를 호출하고, 압축 파일 내의 유효 인덱스의 어드레스를 신장한다. 단계 (S65)는 인덱스 데이터에 기초하여 다음 계층에서 최하위 인덱스의 어드레스를 획득한다. 단계 (S66)은 신장 프로세스를 호출하여 압축 파일 내에 상기 다음 계층의 최하위 인덱스의 어드레스를 신장한다. 단계 (S67)은 최하위 인덱스의 어드레스의 신장이 종료되었는지의 여부를 판정하고, 단계 (S67)에서의 판정 결과가 NO라면 단계 (S65)로 프로세스가 복귀된다. 한편, 단계 (S67)에서의 판정 결과가 YES라면, 프로세스가 종료된다.
2b) 데이터 신장 프로세스 :
도 18은 CPU(1)에 의해서 실행되는 데이터 신장 프로세스를 설명하기 우한 플로우챠트이다. 데이터 신장 프로세스는 인덱스 판독 프로세스 및 텍스트 판독 프로세스에 의해서 호출된다. 도 8에서, 단계 (S71)은 입력 장치(4)를 통해 사용자에 의해서 입력된 인덱스 데이터에 기초하여, 요구된 신장 어드레스, 데이터 크기 및 저장 영역을 보조 기억 장치(3) 내에 저장하여, 신장된 데이터 크기에 관한 보조 기억 장치(3) 내에 충분히 큰 저장 영역을 마련한다. 단계 (S72)는 CD-ROM(6a) 으로부터 판독되어 보조 기억 장치(3) 안으로 로드된 압축 파일이 오픈되었는지의 여부를 판정한다. 단계 (S72)에서의 판정 결과가 NO라면, 단계 (S73)은 보조 기억 장치(3) 내의 압축 파일을 오픈한다. 단계 (S74)는 압축 파일로부터 압축 파라미터를 판독하고, 압축 파라미터 내의 8-비트 코드의 출현 빈도, 압축 파라미터 내의 16-비트 코드 및 16-비트 코드의 출현 빈도를 판독한다. 단계 (S75)는 8-비트 코드의 출현 빈도와 16-비트 코드의 출현 빈도체 기초하여 허프만 트리를 작성하고, 후술하는 단계 (S76)으로 프로세스를 진행한다. 코드가 8-비트 코드인지 16-비트 코드인지를 판정하기 위한 판정 플래그는 허프만 트리의 리프(leaf)의 데이터에 부가된다.
단계 (S72)에서의 판정 결과가 YES이거나 단계 (S75) 이후에는, 단계 (S76)이 압축 파일로부터, 요구된 신장 어드레스에 대응하는 어드레스 정보를 판독한다. 단계 (S77)은 어드레스 정보에 기초하여, 압축 파일로부터 해당 압축 데이터의 섹션을 판독한다. 단계 (S78)은 허프만 트리를 사용하여 압축 데이터의 섹션을 신장한다. 단계 (S79)는 코드가 8-비트 코드인지 16-비트 코드인지를 가리키는 판정 플레그에 기초하여, 신장된 데이터를 상기 저장 영역에 복사한다. 또한, 단계 (S80)은 압축 파일에 대해서 요구된 데이터 크기의 신장이 완성되었는지의 여부를 판정한다.
단계 (S80)에서의 결과가 NO라면, 단계 (S81)은 압축 파일로부터 다음 섹션의 신장 어드레스에 대응하는 어드레스 정보를 판독한다. 단계 (S82)는 그 다음 섹션의 신장 어드레스에 대응하는 어드레스 정보에 기초하여, 압축 파일로부터 해당 압축 파일의 섹션을 판독하고, 프로세스를 단계 (S78)로 복귀시킨다. 한편, 단계 (S80)에서의 판정 결과가 YES라면 프로세스는 종료된다.
2c) 텍스트 판독 프로세스
도 9는 CPU(1)에 의해서 실행되는 텍스트 판독 프로세스를 설명하기 위한 플로우챠트이다. 도 9에서, 단계 (S91)은 입력 장치(4)를 통해 사용자에 의해 입력된 인덱스 데이터에 기초하여, 신장된 데이터 내에 인덱스와 일치하는 항목들을 계수한다. 단계 (S92)는 입력된 인덱스 데이터에 기초하여, 인덱스의 항목 포인터 값을 어드레스로 설정한다. 단계 (S93)은 신장 프로세스를 호출하고, 보조 기억 장치(3) 내에 저장되어 CPU(1)가 파일 검색 프로세스를 실행하게 하는 프로그램으로부터 신장 프로세스를 실행하기 위한 루틴을 판독하여, 압축 파일 내의 항목 포인터가 지적하는 텍스트, 즉 1 섹션에 해당하는 사전 데이터를 신장한다.
단계 (S94)는 항목 포인터에 의해서 지적된 사전 데이터가 종료되었는지의 여부를 판정한다, 단계 (S94)에서의 판정 결과가 NO라면, 단계 (S95)는 다음 1 섹션의 어드레스를 설정한다. 또한, 단계 (S96)은 신장 프로세스를 호출하여 압축 파일 내의 항목 포인터가 가리키는 다음 1 섹션에 해당하는 사전 데이터를 신장하고, 단계 (S94)로 복귀한다. 한편, 단계 (S94)에서의 판정 결과가 YES라면, 단계 (S97)은 입력된 인덱스 데이터에 기초하여, 모든 항목들에 대한 프로세스가 종료되었는지의 여부를 결정한다. 단계 (S97)에서의 판정 결과가 NO라면, 프로세스는 단계 (S92)로 복귀한다. 한편, 단계 (S97)에서의 판정 결과가 YES라면, 단계 (S98)은 모든 항목들에 대해서 신장된 사전 데이터를 표시 장치(5)에 표시하고, 프로세스를 종료한다.
단계 (S97) 이전, 단계 (S98)을 실행할 수 있다. 이 경우, 단계 (S98)은 각각의 항목에 대해서 사전 데이터가 신장될 때마다 각각의 항목들이 신장된 사전 데이터를 표시 장치(5)에 디스플레이한다.
상기 실시예에서는, 편의상 섹션이 고정된 길이를 갖는다고 가정한다. 이 경우, 데이터 압축 효과를 만족시킬 수 있고, 압축 파일 내의 섹션의 압축 전에 어드레스 정보를 저장할 필요없이 압축 파일로부터 어드레스 정보를 복원할 수 있다. 이는 섹션이 고정된 길이를 가지기 때문으로, 각각의 섹션에 대해서 섹션 번호가 부여되고, 이에 의해서 다른 섹션에 대한 각각의 섹션의 상대적인 위치를 계산할 수 있다.
한편, 섹션이 가변 길이를 가질 때는, 데이터 신장율을 신장시킬 수 있다. 이는 데이터와 섹션의 종류에 따라 섹션의 길이가 적절히 설정될 수 있기 때문으로, 이에 의해서 초과 데이터를 신장할 필요가 없게 된다. 섹션이 가변 길이를 갖는 경우, 섹션을 압축하기 전에 압축 파일 내에 어드레스를 저장할 필요가 있다. 따라서, 섹션은, 데이터 압축 효율 또는 데이터 신장율 중 어느 것에 우선 순위가 부여되느냐에 따라 고정 길이 또는 가변 길이를 가질 수 있다.
또한, 하나 이상의 사전 파일을 CD-ROM(6a) 내에 저장할 수 있다. 다수의 사전이나 백과 사전들에 관한 다수의 사전 파일들이 CD-ROM(6a) 내에 저장될 때, 도 6의 (e)에 도시된 관리 정보 내의 사전 파일명이나 사전 파일 타입을 사용하여, 검색할 사전을 특정화할 수 있다.
더욱이, 상기 실시예에서 데이터 압축을 위해 허프만 코드를 이용한다고 하더라도, 이용된 데이터 압축 기술이 각각의 섹션에 대해 공통의 압축 파라미터를 사용하는 압축 데이터를 공통으로 사용하여 사전 데이터를 효과적으로 압축할 수 있다면, 허프만 코드를 사용하는 기술과 다른, 유니버셜 코드와 같은 코딩 기술을 사용할 수도 있다. 또한, 데이터 압축 및 신장되는 데이터는 사전 데이터에 한정되지 않고, 인덱스와 데이터를 포함하는 데이터베이스의 데이터를 포함한다.
또한, 상기의 실시예에서는, 파일 검색 프로세스를 수행하기 위한 프로그램과 압축 파일을 보조 기억 장치(3)로 복사하여 파일 검색 프로세스를 실행한다. 그러나, 프로그램과 압축 파일을 보조 기억 장치(3)로 복사하는 대신, 프로그램과 압축 파일을 주 기억 장치(2)에서 전개하고, 상술한 것과 유사하게 프로세스를 실행할 수 있다.
상술한 실시예의 압축 알고리즘을 이용함으로써, 8 비트를 가진 허프만 코드를 사용하여 통상의 데이터 압축 프로세스와 비해서 데이터 압축 효율을 향상시킬 수 있다. 따라서, 보조 기억 장치(3)로서 사용되는 CD-ROM과 하드 디스크와 같은 기억 매체 내에 저장된 압축 파일의 영역을 감소시킬 수 있다. 이러한 압축 알고리즘에 의해서 데이터 압축 효율이 향상된다 하더라도 압축 파일을 신장하는데 필요한 처리 시간은 허프만 코드를 사용하는 통상의 데이터 압축 프로세스에 의해서 압축된 압축 파일을 신장하는데 소요되는 처리 시간과 근본적으로 차이가 있지는 않다.
파일 검색 프로세스를 실행하는데 소요되는 시간은 판독 유닛(장치)의 탐색 시간, 압축 파일을 판독하는데 걸리는 판독 시간, 및 신장 프로세스를 신장하는데 소요되는 시간으로 구성된다.
데이터 압축 효율이 상술한 압축 알고리즘에 의해 향상되기 때문에, 기억 매체 내에 저장된 축소된 압축 파일 영역은 파일 검색 프로세스의 탐색 시간을 감소시킬 수 있다. 따라서, 파일 검색 속도가 향상된다. 이러한 파임 검색 속도의 향상 효과는 하드웨어 성능이 향상됨에 따라 현저해진다.
또한, 본 발명은 이들 실시예에 한정되지 않으며, 본 발명의 기술 범위를 벗어나지 않는 범위 내에서 다양하게 변화 및 변형될 수 있다.

Claims (47)

  1. 파일 처리 방법에 있어서,
    데이터 및 상기 데이터에 관한 인덱스 데이터를 다수의 섹션들로 분할하고 상기 섹션들을 압축하여 압축 파일을 얻는 압축 단계; 및
    상기 압축 파일을 상기 압축 후의 상기 섹션의 어드레스 정보와 함께 기억 매체 내에 저장하는 저장 단계
    를 포함하는 파일 처리 방법.
  2. 제1항에 있어서, 상기 각각의 섹션은 고정된 길이를 갖는 파일 처리 방법.
  3. 제1항에 있어서, 상기 각각의 섹션은 가변 길이를 가지며, 상기 저장 단계는 압축 전의 어드레스 정보를 상기 기억 매체 내에 더 저장하는 파일 처리 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 압축 파일을 상기 기억 매체로부터 판독하고 상기 각각의 섹션을 신장하여, 상기 데이터 및 상기 인덱스 데이터를 복원하는 단계를 더 포함하는 파일 처리 방법.
  5. 제4항에 있어서, 상기 복원된 데이터와 인덱스 데이터를 보조 기억 장치 내에 저장하는 단계를 더 포함하는 파일 처리 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 압축 단계는 상기 각각의 섹션의 데이터와 인덱스 데이터에 공통인, 압축 알고리즘 및 압축 파라미터를 사용하는 파일 처리 방법.
  7. 제1항에 있어서, 상기 압축 단계는 상기 데이터 내에서 소정 개수의 제1 비트 코드들을 그 출현 빈도의 순서에 따라 선택하고, 남아있는 비선택 제1 비트 코드들을 제2 비트 코드들로 분해하고, 상기 제2 비트 코드들을 그 출현 빈도 순서에 따라 선택한 결과에 기초하여 변환 테이블을 작성하며, 상기 변환 테이블에 기초하여 데이터 압축을 행하는 파일 처리 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 데이터는 사전 데이터를 포함하는 파일 처리 방법.
  9. 파일 처리 방법에 있어서,
    다수의 섹션 각각에 대해서, 압축 파일을 압축 후의 각각의 섹션의 어드레스 정보와 함께 기록 매체로부터 판독하는 판독 단계 - 상기 압축 파일은 데이터 및 상기 데이터에 관한 인덱스 데이터를 섹션들로 분할하고 상기 섹션들을 압축함으로써 얻어짐 -; 및
    상기 압축 파일을 신장하며 상기 데이터 및 상기 인덱스 데이터를 복원하는 복원 단계
    를 포함하는 파일 처리 방법.
  10. 제9항에 있어서, 상기 복원된 데이터와 인덱스 데이터를 보조 기억 장치 내에 저장하는 단계를 더 포함하는 파일 처리 방법.
  11. 제9항 또는 제10항에 있어서, 상기 복원 단계는 데이터 내에서 소정 개수의 제1 비트 코드들을 그 출현 빈도 순서에 따라 선택하고, 남아있는 비선택된 제1 비트 코드들을 제2 비트 코드들로 분해하며, 상기 제2 비트 코드들을 그 출현 빈도 순서에 따라 선택한 결과에 기초하여 변환 테이블을 작성함으로써, 압축시 얻은 변환 테이블에 기초하여 데이터 신장을 행하는 파일 처리 방법.
  12. 제9항 내지 제11항 중 어느 한 항에 있어서, 상기 각각의 섹션은 고정된 길이를 갖는 파일 처리 방법.
  13. 제9항 내지 제11항 중 어느 한 항에 있어서, 상기 각각의 섹션은 가변 길이를 가지며, 압축 전의 어드레스 정보가 상기 기억 매체에 더 저장되는 파일 처리 방법.
  14. 제9항 내지 제13항 중 어느 한 항에 있어서, 상기 데이터는 사전 데이터를 포함하는 파일 처리 방법.
  15. 데이터 처리 장치에 있어서,
    데이터 및 상기 데이터에 관한 인덱스 데이터를 다수의 섹션들로 분할하고, 상기 섹션들을 압축하여 압축 파일을 얻기 위한 압축 수단; 및
    상기 압축 파일을 상기 압축 후의 상기 섹션들의 어드레스 정보와 함께 기억 매체 내에 저장하기 위한 저장 수단
    을 포함하는 데이터 처리 장치.
  16. 제15항에 있어서, 상기 각각의 섹션은 고정된 길이를 갖는 데이터 처리 장치.
  17. 제15항에 있어서, 상기 각각의 섹션은 가변 길이를 가지며, 상기 저장 수단은 상기 압축 전의 어드레스 정보를 상기 기억 매체 내에 더 저장하는 데이터 처리 장치.
  18. 제15항 내지 제17항 중 어느 한 항에 있어서, 상기 기억 매체로부터 상기 압축 파일을 판독하고 상기 각각의 섹션들을 신장하여, 상기 데이터 및 상기 인덱스 데이터를 복원하는 복원 수단을 더 포함하는 데이터 처리 장치.
  19. 제18항에 있어서, 상기 복원된 데이터와 인덱스 데이터를 보조 기억 장치 내에 저장하기 위한 수단을 더 포함하는 데이터 처리 장치.
  20. 제15항 내지 제19항 중 어느 한 항에 있어서, 상기 압축 수단은 상기 각각의 섹션들의 데이터 및 인덱스 데이터에 공통인, 압축 알고리즘 및 압축 파라미터를 사용하는 데이터 처리 장치.
  21. 제15항에 있어서, 상기 압축 수단은 데이터 내에서 소정 개수의 제1 비트 코드들을 그 출현 빈도 순서에 따라 선택하고, 남아있는 비선택 제1 비트 코드들을 제2 비트 코드들로 분해하며, 상기 제2 비트 코드들을 그 출현 빈도 순서에 따라 선택한 결과에 기초하여 변환 테이블을 작성하고, 상기 변환 테이블에 기초하여 데이터 압축을 행하는 데이터 처리 장치.
  22. 제15항 내지 제21항 중 어느 한 항에 있어서, 상기 데이터는 사전 데이터를 포함하는 데이터 처리 장치.
  23. 데이터 처리 장치에 있어서,
    다수의 섹션들 각각에 대하여, 압축 파일을 압축 후의 섹션들 각각의 어드레스 정보와 함께 기억 매체로부터 판독하기 위한 판독 수단 - 상기 압축 파일은 데이터 및 상기 데이터에 관한 인덱스 데이터를 상기 섹션들로 분할하여 상기 섹션을 압축함으로써 얻어짐 -; 및
    상기 압축 파일을 신장하여 상기 데이터 및 상기 인덱스 데이터를 복원하기 위한 복원 수단
    를 포함하는 데이터 처리 장치.
  24. 제23항에 있어서, 상기 복원된 데이터 및 인덱스 데이터를 보조 기억 장치 내에 저장하기 위한 수단을 더 포함하는 데이터 처리 장치.
  25. 제23항 또는 제24항에 있어서, 상기 복원 수단은 데이터 내에서 소정 개수의 제1 비트 코드들을 그 출현 빈도 순서에 따라 선택하고, 남아있는 비선택 제1 비트 코드들을 제2 비트 코드들로 분해하며, 상기 제2 비트 코드들을 그 출현 빈도 순서에 따라 선택한 결과에 기초하여 상기 변환 테이블을 작성함으로써, 압축시 얻은 변환 테이블에 기초하여 데이터 신장을 행하는 데이터 처리 장치.
  26. 제23항 내지 제25항 중 어느 한 항에 있어서, 상기 각각의 섹션은 고정된 길이를 갖는 데이터 처리 장치.
  27. 제23항 내지 제25항 중 어느 한 항에 있어서, 상기 각각의 섹션은 가변 길이를 가지며, 압축 전의 어드레스 정보가 상기 기억 매체 내에 더 저장되는 데이터 처리 장치.
  28. 제23항 내지 제27항 중 어느 한 항에 있어서, 상기 데이터는 사전 데이터를 포함하는 데이터 처리 장치.
  29. 컴퓨터로 판독가능한 정보를 저장하는 기억 매체에 있어서,
    컴퓨터가, 다수의 섹션들 각각에 대해서 압축 파일을 압축 후의 각각의 섹션의 어드레스 정보와 함께 기억 매체로부터 판독하게 하는 판독 수단 - 상기 압축 파일은 데이터 및 상기 데이터에 관한 인덱스 데이터를 상기 섹션들로 분할하고 상기 섹션들을 압축함으로써 얻어짐 -; 및
    상기 컴퓨터가 상기 압축 파일을 신장하여 상기 데이터 및 상기 인덱스 데이터를 복원하게 하는 복원 수단
    을 포함하는 기억 매체.
  30. 제29항에 있어서, 상기 컴퓨터가 상기 복원된 데이터와 인덱스 데이터를 보조 기억 장치 내에 저장하게 하는 수단을 더 포함하는 기억 매체.
  31. 제29항 또는 제30항에 있어서, 상기 각각의 섹션은 고정된 길이를 갖는 기억 매체.
  32. 제29항 또는 제30항에 있어서, 상기 각각의 섹션은 가변 길이를 가지며, 상기 판독 수단은 상기 컴퓨터가 압축 전의 어드레스 정보를 상기 기억 매체로부터 판독하게 하는 기억 매체.
  33. 제29항 내지 제32항 중 어느 한 항에 있어서, 상기 압축 파일은 상기 각각의 섹션의 데이터 및 인덱스 데이터에 공통인, 압축 알고리즘 및 압축 파라미터를 사용하여 압축되는 기억 매체.
  34. 제29항 내지 제33항 중 어느 한 항에 있어서, 상기 데이터는 사전 데이터를 포함하는 기억 매체.
  35. 컴퓨터로 판독가능한 정보를 저장하는 기억 매체에 있어서,
    다수의 섹션들 각각에 대해서 압축 후의 상기 각각의 섹션의 어드레스 정보와 함께 저장되는 압축 파일을 포함하고, 상기 압축 파일은 데이터 및 상기 데이터에 관한 인덱스 데이터를 상기 섹션들로 분할하고 상기 섹션들을 압축하여 얻어지며, 상기 각각의 섹션의 데이터 및 인덱스 데이터에 공통인 압축 알고리즘 및 압축 파라미터를 사용하여 압축되는 기억 매체.
  36. 제35항에 있어서, 상기 각각의 섹션은 고정된 길이를 갖는 기억 매체.
  37. 제35항에 있어서, 상기 각각의 섹션은 가변 길이를 가지며, 압축 전의 어드레스 정보를 더 저장하는 기억 매체.
  38. 제35항 내지 제37항 중 어느 한 항에 있어서, 상기 데이터는 사전 데이터를 포함하는 기억 매체.
  39. 컴퓨터로 판독가능한 정보를 저장하는 기억 매체에 있어서,
    사전 데이터 및 상기 사전 데이터에 관한 인덱스 데이터를 다수의 섹션들로 분할하고 상기 섹션들을 압축하여 압축 사전 파일을 얻는 압축 과정; 및
    상기 압축 사전 파일을 상기 압축 후의 상기 섹션들의 어드레스 정보와 함께 상기 기억 매체 내에 저장하는 저장 과정
    을 상기 컴퓨터가 실행하게 하는 프로그램을 포함하는 기억 매체.
  40. 제39항에 있어서, 상기 각각의 섹션은 고정된 길이를 갖는 기억 매체.
  41. 제39항에 있어서, 상기 각각의 섹션은 가변 길이를 가지며, 상기 저장 과정은 상기 기억 매체 내에 상기 압축 전의 어드레스 정보를 더 저장하는 기억 매체.
  42. 제39항 내지 제41항 중 어느 한 항에 있어서, 상기 압축 사전 파일은, 상기 각각의 섹션에 대해서 상기 사전 파일 및 인덱스 데이터에 공통인, 압축 알고리즘 및 압축 파라미터를 사용하여 압축되는 기억 매체.
  43. 제39항 내지 제42항 중 어느 한 항에 있어서,
    상기 섹션들 각각에 대해서 상기 기억 매체로부터 상기 압축 사전 파일을 판독하고 신장하여, 상기 사전 데이터 및 상기 인덱스 데이터를 복원하는 과정
    을 상기 컴퓨터가 실행하게 하는 프로그램을 더 저장하는 기억 매체.
  44. 제43항에 있어서
    상기 복원된 사전 데이터와 인덱스 데이터를 보조 기억 장치 내에 저장하는 과정을 상기 컴퓨터가 실행하게 하는 프로그램을 더 저장하는 기억 매체.
  45. 제39항에 있어서, 데이터 내에서 소정 개수의 제1 비트 코드들을 그 출현 빈도 순서에 따라 선택하고, 남아있는 비선택 제1 비트 코드들을 제2 비트 코드들로 분해하며, 상기 제2 비트 코드들을 그 출현 빈도 순서에 따라 선택한 결과에 기초하여 변환 테이블을 작성하고, 상기 변환 테이블에 기초하여 데이터 압축을 행하기 위한 과정을 상기 컴퓨터가 실행하게 하는 프로그램을 더 저장하는 기억 매체.
  46. 압축 파일을 저장한 컴퓨터 판독가능한 기억 매체에 있어서,
    데이터 및 상기 데이터에 관한 인덱스 데이터를 다수의 섹션들로 분할하고 상기 섹션들을 압축하여 얻은 압축 데이터를 저장하는 압축 데이터 영역;
    상기 섹션들의 압축 후의 어드레스 정보를 저장하는 어드레스 정보 영역; 및
    상기 압축을 위해 사용되는 압축 파라미터들을 저장하는 압축 파라미터 영역
    을 포함하는 기억 매체.
  47. 제46항에 있어서, 상기 압축 파라미터는 데이터 내에서 그 출현 빈도에 따라 선택되는 소정 개수의 제1 비트 코드들 및 상기 제1 비트 코드의 출현 빈도를 포함하고, 남아있는 비선택 제1 비트 코드를 그 출현 빈도 순서에 따라 분해하여 얻어지는 제2 비트 코드들 및 상기 제2 비트 코드의 출현 빈도를 포함하는 기억 매체.
KR10-1999-7005642A 1997-10-21 1998-10-20 파일 처리 방법, 데이터 처리 장치, 및 기억 매체 KR100495593B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP1997-288559 1997-10-21
JP28855997 1997-10-21
PCT/JP1998/004736 WO1999021092A1 (fr) 1997-10-21 1998-10-20 Procede de traitement de fichiers, dispositif de traitement de donnees et support de memorisation

Publications (2)

Publication Number Publication Date
KR20000069633A true KR20000069633A (ko) 2000-11-25
KR100495593B1 KR100495593B1 (ko) 2005-06-16

Family

ID=17731828

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-1999-7005642A KR100495593B1 (ko) 1997-10-21 1998-10-20 파일 처리 방법, 데이터 처리 장치, 및 기억 매체

Country Status (8)

Country Link
US (1) US6721753B1 (ko)
EP (1) EP0962865A4 (ko)
JP (1) JP3770919B2 (ko)
KR (1) KR100495593B1 (ko)
CN (2) CN1148657C (ko)
AU (1) AU740957B2 (ko)
CA (1) CA2275391C (ko)
WO (1) WO1999021092A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020008101A (ko) * 2001-12-12 2002-01-29 주식회사 애니콤소프트웨어 데이터의 비트 인덱스 압축방법
US8131952B2 (en) 2006-11-22 2012-03-06 Samsung Electronics Co., Ltd. Apparatus and method for efficient memory use in portable terminal

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2275391C (en) 1997-10-21 2005-12-06 Fujitsu Limited File processing method, data processing device, and storage medium
CN1167014C (zh) 1999-08-13 2004-09-15 富士通株式会社 文件处理方法和数据处理装置
JP2003006216A (ja) * 2001-06-26 2003-01-10 Sony Corp 情報処理装置および情報処理方法、記録媒体、プログラム、並びに電子出版用データ提供システム
WO2006123429A1 (ja) 2005-05-20 2006-11-23 Fujitsu Limited 情報検索方法、装置、プログラム、該プログラムを記録した記録媒体
US8843449B2 (en) 2009-06-16 2014-09-23 Bmc Software, Inc. Unobtrusive copies of actively used compressed indices
US8706727B2 (en) * 2009-06-19 2014-04-22 Sybase, Inc. Data compression for reducing storage requirements in a database system
US8694474B2 (en) * 2011-07-06 2014-04-08 Microsoft Corporation Block entropy encoding for word compression
JP2016170750A (ja) * 2015-03-16 2016-09-23 富士通株式会社 データ管理プログラム、情報処理装置およびデータ管理方法
WO2016199255A1 (ja) 2015-06-10 2016-12-15 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
US9946462B1 (en) * 2016-02-15 2018-04-17 Seagate Technology Llc Address mapping table compression
JP6794782B2 (ja) * 2016-11-02 2020-12-02 富士通株式会社 情報処理装置、情報処理プログラム、及び情報処理方法
CN107357854A (zh) * 2017-06-28 2017-11-17 光大环境科技(中国)有限公司 数据存储的方法、装置及计算机存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8828796D0 (en) * 1988-12-09 1989-01-18 British Telecomm Data compression
US5146221A (en) * 1989-01-13 1992-09-08 Stac, Inc. Data compression apparatus and method
US5333313A (en) * 1990-10-22 1994-07-26 Franklin Electronic Publishers, Incorporated Method and apparatus for compressing a dictionary database by partitioning a master dictionary database into a plurality of functional parts and applying an optimum compression technique to each part
JP2954749B2 (ja) * 1991-07-19 1999-09-27 富士通株式会社 データ圧縮方式
JP3332954B2 (ja) 1992-07-07 2002-10-07 オリンパス光学工業株式会社 急速変形圧電アクチュエータおよび急速変形圧電アクチュエータを用いた内視鏡
JPH0628150A (ja) 1992-07-08 1994-02-04 Funai Techno Syst Kk プログラム容量圧縮方法
US5442350A (en) 1992-10-29 1995-08-15 International Business Machines Corporation Method and means providing static dictionary structures for compressing character data and expanding compressed data
US5649183A (en) * 1992-12-08 1997-07-15 Microsoft Corporation Method for compressing full text indexes with document identifiers and location offsets
US5953723A (en) * 1993-04-02 1999-09-14 T.M. Patents, L.P. System and method for compressing inverted index files in document search/retrieval system
JP3051014B2 (ja) 1993-12-27 2000-06-12 ローム株式会社 データ記憶装置及びデータシステム
JPH08167852A (ja) * 1994-12-13 1996-06-25 Fujitsu Ltd データ圧縮方法及び装置
JPH08241325A (ja) 1995-03-03 1996-09-17 Matsushita Electric Ind Co Ltd 電子辞書及びその製造方法並びにインデックス圧縮・伸長装置
JPH08320648A (ja) * 1995-05-24 1996-12-03 Matsushita Electric Ind Co Ltd ナビゲーション装置
JPH0926969A (ja) 1995-07-10 1997-01-28 Hitachi Maxell Ltd 電話帳検索システム
JPH0926902A (ja) * 1995-07-12 1997-01-28 Fujikura Ltd ファイル圧縮並びに復元方法
JPH0969785A (ja) * 1995-08-30 1997-03-11 Toshiba Corp データ圧縮方法及びデータ圧縮装置
US6278992B1 (en) * 1997-03-19 2001-08-21 John Andrew Curtis Search engine using indexing method for storing and retrieving data
CA2275391C (en) 1997-10-21 2005-12-06 Fujitsu Limited File processing method, data processing device, and storage medium

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020008101A (ko) * 2001-12-12 2002-01-29 주식회사 애니콤소프트웨어 데이터의 비트 인덱스 압축방법
US8131952B2 (en) 2006-11-22 2012-03-06 Samsung Electronics Co., Ltd. Apparatus and method for efficient memory use in portable terminal

Also Published As

Publication number Publication date
CN1487448A (zh) 2004-04-07
EP0962865A4 (en) 2004-11-24
JP3770919B2 (ja) 2006-04-26
EP0962865A1 (en) 1999-12-08
KR100495593B1 (ko) 2005-06-16
CN1148657C (zh) 2004-05-05
US6721753B1 (en) 2004-04-13
AU9463998A (en) 1999-05-10
CA2275391A1 (en) 1999-04-29
AU740957B2 (en) 2001-11-15
CN100535889C (zh) 2009-09-02
WO1999021092A1 (fr) 1999-04-29
CA2275391C (en) 2005-12-06
CN1242846A (zh) 2000-01-26

Similar Documents

Publication Publication Date Title
KR100597513B1 (ko) 파일 처리 방법, 데이터 처리 장치 및 기억 매체
EP0293161B1 (en) Character processing system with spelling check function
US5748955A (en) Stream data compression system using dynamic connection groups
KR100495593B1 (ko) 파일 처리 방법, 데이터 처리 장치, 및 기억 매체
US5566329A (en) System and method for mutation of selected assignment operations on large data objects
JP2003058578A (ja) 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体
US20040225497A1 (en) Compressed yet quickly searchable digital textual data format
JP2000305822A (ja) データベース管理装置,データベースレコード抽出装置,データベース管理方法及びデータベースレコード抽出方法
CN118747293A (zh) 文档写作智能召回方法、装置及文档生成方法、装置
JPH10261969A (ja) データ圧縮方法および装置
JP3614765B2 (ja) 概念辞書拡張装置
US7505904B2 (en) Database construction apparatus and method
JP3898717B2 (ja) データ圧縮/復元装置およびデータ圧縮/復元方法
JP3019286B2 (ja) 文書検索装置
JP3099683B2 (ja) 情報検索装置
JP3708318B2 (ja) データ圧縮/復元装置およびデータ圧縮/復元方法
JP2001312517A (ja) インデクス生成装置及び文書検索装置
JPH11259487A (ja) 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
JP3325326B2 (ja) 電子ファイリング装置
JPH1166076A (ja) データ派生装置及び方法、並びに、データ派生プログラムを格納した記憶媒体
JPH1097542A (ja) 全文検索装置及び全文検索方法
JPH07319895A (ja) 文書検索装置及び文書検索方法
JPH08272814A (ja) 文字列検索装置
JPH11272702A (ja) 文字列自動分類装置およびその方法並びにその制御プログラムを記録した媒体
JP2005137015A (ja) データ圧縮/復元装置およびデータ圧縮/復元方法

Legal Events

Date Code Title Description
PA0105 International application

Patent event date: 19990621

Patent event code: PA01051R01D

Comment text: International Patent Application

PG1501 Laying open of application
A201 Request for examination
PA0201 Request for examination

Patent event code: PA02012R01D

Patent event date: 20021122

Comment text: Request for Examination of Application

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

Comment text: Notification of reason for refusal

Patent event date: 20041028

Patent event code: PE09021S01D

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

Patent event code: PE07011S01D

Comment text: Decision to Grant Registration

Patent event date: 20050511

GRNT Written decision to grant
PR0701 Registration of establishment

Comment text: Registration of Establishment

Patent event date: 20050607

Patent event code: PR07011E01D

PR1002 Payment of registration fee

Payment date: 20050608

End annual number: 3

Start annual number: 1

PG1601 Publication of registration
PR1001 Payment of annual fee

Payment date: 20080522

Start annual number: 4

End annual number: 4

PR1001 Payment of annual fee

Payment date: 20090525

Start annual number: 5

End annual number: 5

PR1001 Payment of annual fee

Payment date: 20100525

Start annual number: 6

End annual number: 6

PR1001 Payment of annual fee

Payment date: 20110527

Start annual number: 7

End annual number: 7

PR1001 Payment of annual fee

Payment date: 20120521

Start annual number: 8

End annual number: 8

FPAY Annual fee payment

Payment date: 20130524

Year of fee payment: 9

PR1001 Payment of annual fee

Payment date: 20130524

Start annual number: 9

End annual number: 9

FPAY Annual fee payment

Payment date: 20140530

Year of fee payment: 10

PR1001 Payment of annual fee

Payment date: 20140530

Start annual number: 10

End annual number: 10

FPAY Annual fee payment

Payment date: 20150515

Year of fee payment: 11

PR1001 Payment of annual fee

Payment date: 20150515

Start annual number: 11

End annual number: 11

LAPS Lapse due to unpaid annual fee
PC1903 Unpaid annual fee

Termination category: Default of registration fee

Termination date: 20170509