JP6550765B2 - 文字データ変換プログラム、文字データ変換装置および文字データ変換方法 - Google Patents
文字データ変換プログラム、文字データ変換装置および文字データ変換方法 Download PDFInfo
- Publication number
- JP6550765B2 JP6550765B2 JP2015014399A JP2015014399A JP6550765B2 JP 6550765 B2 JP6550765 B2 JP 6550765B2 JP 2015014399 A JP2015014399 A JP 2015014399A JP 2015014399 A JP2015014399 A JP 2015014399A JP 6550765 B2 JP6550765 B2 JP 6550765B2
- Authority
- JP
- Japan
- Prior art keywords
- tag
- code
- unit
- character data
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/146—Coding or compression of tree-structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
- G06F40/157—Transformation using dictionaries or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
まず、図1を参照して、実施例1に係る情報処理装置の圧縮処理について説明する。図1は、実施例1に係る情報処理装置の圧縮処理の流れの一例を示す図である。図1に示すように、ファイルF1は、圧縮対象のファイルであり、タグとタグ以外の地の文の文字列とが混在した文書である。
図2は、本実施例1に係る動的タグ辞書の一例を示す図である。図2に示される動的タグ辞書T0は、タグバッファT1とアドレステーブルT2とを含む。タグバッファT1は、タグの文字列を記憶する。アドレステーブルT2は、動的コードと、格納位置と、データ長とを対応付けて保持する。動的コードは、あらかじめ定められた固定長の圧縮符号であり、タグの文字列が登録された順に割り当てられるコードである。ここでは、動的コードは、16進数「F」で始まる固定長3バイトのコードである。格納位置は、タグバッファT1に格納されたタグの文字列の位置を示す。データ長は、タグバッファT1に格納されたタグの文字列の長さ(バイト長)を示す。
図3は、ビットフィルタの一例を示す図である。図3に示されるビットフィルタB0は、所定の文書の日本語一般単語のビットフィルタである。図3に示すように、ビットフィルタB0は、2グラムと、ビットマップと、ポインタと、単語文字列と、文字コード列長と、静的コードとを含んで対応付ける。
図4は、圧縮ファイルのブロック構成例を示す図である。図4に示すように、圧縮ファイルF2は、ヘッダ部と、圧縮データと、トレーラ部とを有する。トレーラ部は、動的タグ辞書T0の情報を記憶する。すなわち、トレーラ部は、圧縮処理が完了した後のタグバッファT1とアドレステーブルT2の情報を記憶する。動的タグ辞書T0の情報は、図2に示した動的タグ辞書の情報に対応する。ヘッダ部には、トレーラ部に格納された動的タグ辞書T0の情報へのポインタが格納される。情報処理装置は、後述する伸長処理において、ヘッダ部の動的タグ辞書T0へのポインタを利用し、動的タグ辞書T0を参照する。
図5は、本実施例1に係る情報処理装置の伸長処理の流れの一例を示す図である。図5では、伸長処理のワークエリアとして、メモリに記憶領域A1、記憶領域A2および記憶領域A3を設ける。情報処理装置は、記憶領域A2に、図4のトレーラ部に格納された動的タグ辞書T0の情報をロードする。また、情報処理装置は、圧縮ファイルF2を記憶領域A1にロードし、順次圧縮データを読み出す。情報処理装置は、読み出した圧縮データに応じた伸長処理を行う。情報処理装置は、伸長データを記憶領域A3に格納し、記憶領域A3に格納された伸長データに基づいて伸長ファイルF3を生成する。
図6は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。図6に示すように、この情報処理装置100は、圧縮部100aと、伸長部100bと、記憶部100cとを有する。
図8は、本実施例1に係る圧縮部の構成の一例を示す機能ブロック図である。図8に示すように、この圧縮部100aは、ファイルリード部101、タグ判定部102、タグ符号化部103、テキスト符号化部104、更新部105およびファイルライト部106を有する。
図9は、本実施例1に係る伸長部の構成の一例を示す機能ブロック図である。図9に示すように、この伸長部100bは、ファイルリード部110、タグコード判定部111、タグ伸長部112、テキスト伸長部113、更新部114およびファイルライト部115を有する。
次に、図9に示した伸長部100bの処理手順について、図11を参照して説明する。図11は、本実施例1に係る伸長部の処理手順を示すフローチャートである。
まず、図12を参照して、実施例2に係る情報処理装置の圧縮処理について説明する。図12は、実施例2に係る情報処理装置の圧縮処理の流れの一例を示す図である。実施例1と実施例2とが異なるところは、動的タグ辞書T0を動的タグ辞書T10に変更した点にある。
図13は、本実施例2に係る動的タグ辞書の一例を示す図である。図13に示される動的タグ辞書T10は、タグバッファT11とアドレステーブルT12とを含む。タグバッファT11は、タグの文字列を記憶する。アドレステーブルT12は、動的コードと、格納位置と、データ長と、タグ種別を対応付けて保持する。動的コードと、格納位置と、データ長とは、実施例1に係る動的タグ辞書T0と同様であるので、詳細な説明を省略する。タグ種別は、タグの種別である。一例として、タグ種別が「薬効」である場合には、「薬効」に対応する「67」が設定される。タグ種別が「副作用」である場合には、「副作用」に対応する「88」が設定される。「67」や「88」は、あらかじめタグ種別に対応するタグの部分と対応付けて記憶するようにすれば良い。
図14は、本実施例2に係る情報処理装置の検索処理の流れの一例を示す図である。図14では、情報処理装置が、圧縮された状態で、検索タグのタグ種別を有するタグで囲まれた地の文に、検索キーワードが存在するかどうかを判定する。圧縮された状態の圧縮ファイルには、F21、F22が存在し、それぞれの圧縮ファイルには、それぞれの動的タグ辞書T10が登録されている。
図15は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。図15に示すように、この情報処理装置200は、圧縮部200aと、検索部200bと、伸長部200cと、記憶部200dとを有する。
図16は、本実施例2に係る検索部の構成の一例を示す機能ブロック図である。図16に示すように、この検索部200bは、検索キー受付部201、検索キー位置検索部202、検索条件合致判定部203および検索結果出力部204を有する。
次に、図16に示した検索部200bの処理手順について、図17を参照して説明する。図17は、本実施例2に係る検索部の処理手順を示すフローチャートである。
まず、図18Aおよび図18Bを参照して、実施例3に係る情報処理装置の圧縮処理について説明する。図18Aおよび図18Bは、実施例3に係る情報処理装置の圧縮処理の流れの一例を示す図である。なお、動的タグ辞書10は、実施例2に係る動的タグ辞書と同じ内容である。ファイルF1は、実施例2の図12と同様に、圧縮対象のファイルであり、タグとタグ以外の地の文の文字列とが混在した文書である。
図19は、本実施例3に係る情報処理装置の検索処理の流れの一例を示す図である。図19では、情報処理装置200が、圧縮された状態で、検索タグのタグ種別を有するタグで囲まれた地の文に、検索キーワードが存在するかどうかを判定する。圧縮された状態の圧縮ファイルには、F21、F22が存在し、それぞれの圧縮ファイルには、それぞれの動的タグ辞書T10が登録されている。
以下、上述の実施形態における変形例の一部を説明する。下記の変形例のみでなく、本発明の本旨を逸脱しない範囲の設計変更は適宜行われうる。
図20は、実施例1〜3の情報処理装置のハードウェア構成を示す図である。図20の例が示すように、コンピュータ400は、各種演算処理を実行するCPU401と、ユーザからのデータ入力を受け付ける入力装置402と、モニタ403とを有する。また、コンピュータ400は、記憶媒体からプログラム等を読み取る媒体読取装置404と、他の装置と接続するためのインターフェース装置405と、他の装置と無線により接続するための無線通信装置406とを有する。また、コンピュータ400は、各種情報を一時記憶するRAM407と、ハードディスク装置408とを有する。また、各装置401〜408は、バス409に接続される。
100a、200a 圧縮部
100b、200c 伸長部
100c、200d 記憶部
101 ファイルリード部
102 タグ判定部
103 タグ符号化部
104 テキスト符号化部
105 更新部
106 ファイルライト部
110 ファイルリード部
111 タグコード判定部
112 タグ伸長部
113 テキスト伸長部
114 更新部
115 ファイルライト部
200b 検索部
201 検索キー受付部
202 検索キー位置検索部
203 検索条件合致判定部
204 検索結果出力部
Claims (6)
- コンピュータに、
可変部分があるタグを含む入力文字データから、タグ部分と地の文を識別し、
前記タグ部分に含まれるタグそれぞれをタグバッファに格納し、格納したタグバッファの位置とタグのデータ長とを含むタグ内容に対応した第1の種類の符号にそれぞれ変換し、
前記地の文を、少なくとも前記入力文字データにおいて前記タグにより区切られる単位で第2の種類の符号に変換し、
前記第1の種類の符号それぞれ、および、前記第2の種類の符号それぞれを、前記入力文字データにおけるそれぞれの符号の変換前のタグまたは文字列の位置関係を維持した状態で出力する
処理を行わせることを特徴とする文字データ変換プログラム。 - 前記第1の種類の符号に変換する処理は、前記タグ内容を、前記第1の種類の符号に対応させて所定の辞書に登録し、前記タグ内容に対応した第1の種類の符号に変換する
処理を行わせることを特徴とする請求項1に記載の文字データ変換プログラム。 - 前記第1の種類の符号に変換する処理は、前記タグ内容に加えて、検索時に前記第1の種類の符号の特定に用いるタグの属性に対応した種別属性情報を、前記第1の種類の符号に対応させて所定の辞書に登録し、前記タグ内容に対応した第1の種類の符号に変換する
処理を行わせることを特徴とする請求項1に記載の文字データ変換プログラム。 - 前記出力する処理は、前記地の文を符号化した前記第2の種類の符号に対し、それぞれの前記第2の種類の符号に対応する文字に付されたタグを変換した前記第1の種類の符号を付加して出力する
処理を行わせることを特徴とする請求項3に記載の文字データ変換プログラム。 - 可変部分があるタグを含む入力文字データから、タグ部分と地の文を識別する識別部と、
前記タグ部分に含まれるタグそれぞれをタグバッファに格納し、格納したタグバッファの位置とタグのデータ長とを含むタグ内容に対応した第1の種類の符号にそれぞれ変換する第1の変換部と、
前記地の文を、少なくとも前記入力文字データにおいて前記タグにより区切られる単位で第2の種類の符号に変換する第2の変換部と、
前記第1の種類の符号それぞれ、および、前記第2の種類の符号それぞれを、前記入力文字データにおけるそれぞれの符号の変換前のタグまたは文字列の位置関係を維持した状態で出力する出力部と、
を有することを特徴とする文字データ変換装置。 - コンピュータが、
可変部分があるタグを含む入力文字データから、タグ部分と地の文を識別し、
前記タグ部分に含まれるタグそれぞれをタグバッファに格納し、格納したタグバッファの位置とタグのデータ長とを含むタグ内容に対応した第1の種類の符号にそれぞれ変換し、
前記地の文を、少なくとも前記入力文字データにおいて前記タグにより区切られる単位で第2の種類の符号に変換し、
前記第1の種類の符号それぞれ、および、前記第2の種類の符号それぞれを、前記入力文字データにおけるそれぞれの符号の変換前のタグまたは文字列の位置関係を維持した状態で出力する
各処理を実行することを特徴とする文字データ変換方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015014399A JP6550765B2 (ja) | 2015-01-28 | 2015-01-28 | 文字データ変換プログラム、文字データ変換装置および文字データ変換方法 |
US15/005,125 US20160217111A1 (en) | 2015-01-28 | 2016-01-25 | Encoding device and encoding method |
EP16152927.6A EP3051429B1 (en) | 2015-01-28 | 2016-01-27 | Encoding device and encoding method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015014399A JP6550765B2 (ja) | 2015-01-28 | 2015-01-28 | 文字データ変換プログラム、文字データ変換装置および文字データ変換方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016139309A JP2016139309A (ja) | 2016-08-04 |
JP6550765B2 true JP6550765B2 (ja) | 2019-07-31 |
Family
ID=55237567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015014399A Active JP6550765B2 (ja) | 2015-01-28 | 2015-01-28 | 文字データ変換プログラム、文字データ変換装置および文字データ変換方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20160217111A1 (ja) |
EP (1) | EP3051429B1 (ja) |
JP (1) | JP6550765B2 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10503458B2 (en) * | 2016-07-28 | 2019-12-10 | Intelligent Waves Llc | System, method and computer program product for generating remote views in a virtual mobile device platform using efficient macroblock comparison during display encoding, including efficient detection of unchanged macroblocks |
JP6737117B2 (ja) * | 2016-10-07 | 2020-08-05 | 富士通株式会社 | 符号化データ検索プログラム、符号化データ検索方法および符号化データ検索装置 |
WO2018185921A1 (ja) * | 2017-04-06 | 2018-10-11 | 富士通株式会社 | インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法 |
JP7210130B2 (ja) | 2017-04-07 | 2023-01-23 | 富士通株式会社 | 符号化プログラム、符号化方法および符号化装置 |
US10977221B2 (en) * | 2017-10-20 | 2021-04-13 | Hewlett Packard Enterprise Development Lp | Encoding of data formatted in human-readable text according to schema into binary |
JP7159557B2 (ja) * | 2017-12-28 | 2022-10-25 | 富士通株式会社 | 動的辞書の生成プログラム、動的辞書の生成方法および復号化装置 |
JP7006462B2 (ja) * | 2018-04-02 | 2022-01-24 | 富士通株式会社 | データ生成プログラム、データ生成方法および情報処理装置 |
CN111698165B (zh) * | 2020-04-30 | 2023-12-26 | 新华三信息安全技术有限公司 | 一种报文传输方法、装置、设备及机器可读存储介质 |
CN113836866B (zh) * | 2021-06-04 | 2024-05-24 | 腾讯科技(深圳)有限公司 | 文本编码方法、装置、计算机可读介质及电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08255155A (ja) * | 1995-03-16 | 1996-10-01 | Fuji Xerox Co Ltd | 全文登録語検索装置および方法 |
JP4003854B2 (ja) * | 1998-09-28 | 2007-11-07 | 富士通株式会社 | データ圧縮装置及び復元装置並びにその方法 |
US6635088B1 (en) * | 1998-11-20 | 2003-10-21 | International Business Machines Corporation | Structured document and document type definition compression |
JP2001067348A (ja) * | 1999-06-21 | 2001-03-16 | Fujitsu Ltd | 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体 |
JP2002297568A (ja) * | 2001-03-29 | 2002-10-11 | Fujitsu Ltd | 構造化文書符号化装置及び記録媒体 |
US7089567B2 (en) * | 2001-04-09 | 2006-08-08 | International Business Machines Corporation | Efficient RPC mechanism using XML |
US20060085737A1 (en) * | 2004-10-18 | 2006-04-20 | Nokia Corporation | Adaptive compression scheme |
US20080077606A1 (en) * | 2006-09-26 | 2008-03-27 | Motorola, Inc. | Method and apparatus for facilitating efficient processing of extensible markup language documents |
-
2015
- 2015-01-28 JP JP2015014399A patent/JP6550765B2/ja active Active
-
2016
- 2016-01-25 US US15/005,125 patent/US20160217111A1/en not_active Abandoned
- 2016-01-27 EP EP16152927.6A patent/EP3051429B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016139309A (ja) | 2016-08-04 |
EP3051429B1 (en) | 2020-03-25 |
EP3051429A1 (en) | 2016-08-03 |
US20160217111A1 (en) | 2016-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6550765B2 (ja) | 文字データ変換プログラム、文字データ変換装置および文字データ変換方法 | |
US9425821B2 (en) | Converting device and converting method | |
JP6742692B2 (ja) | 符号化プログラムおよび伸長プログラム | |
US9496891B2 (en) | Compression device, compression method, decompression device, decompression method, and computer-readable recording medium | |
US9973206B2 (en) | Computer-readable recording medium, encoding device, encoding method, decoding device, and decoding method | |
US9479195B2 (en) | Non-transitory computer-readable recording medium, compression method, decompression method, compression device, and decompression device | |
JP2017073094A (ja) | 符号化プログラム、符号化装置、符号化方法、復号化プログラム、復号化装置および復号化方法 | |
JP6540308B2 (ja) | 符号化プログラム、符号化方法、符号化装置、復号化プログラム、復号化方法および復号化装置 | |
US9965448B2 (en) | Encoding method and information processing device | |
EP3193260A2 (en) | Encoding program, encoding method, encoding device, decoding program, decoding method, and decoding device | |
US20220277139A1 (en) | Computer-readable recording medium, encoding device, index generating device, search device, encoding method, index generating method, and search method | |
KR20180014124A (ko) | 정보 처리 장치 및 데이터 관리 방법 | |
US20150248432A1 (en) | Method and system | |
AU2019250125B2 (en) | Information processing apparatus, information processing method, and information processing program | |
JP5939259B2 (ja) | 照合制御プログラム、照合制御装置および照合制御方法 | |
JP6476618B2 (ja) | 伸長方法、伸長プログラムおよび伸長装置 | |
JP7006462B2 (ja) | データ生成プログラム、データ生成方法および情報処理装置 | |
US20160210304A1 (en) | Computer-readable recording medium, information processing apparatus, and conversion process method | |
JP6693549B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
KR20070054055A (ko) | 데이터 처리 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20171113 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180927 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20181106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190604 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190617 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6550765 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |