CN102567294A

CN102567294A - 文本数据处理方法和装置

Info

Publication number: CN102567294A
Application number: CN2010105865508A
Authority: CN
Inventors: 仇睿恒; 胡薇
Original assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University; Peking University Founder Group Co Ltd
Current assignee: BEIDA FANGZHENG TECHN INST Co Ltd BEIJING; Peking University; Peking University Founder Group Co Ltd
Priority date: 2010-12-09
Filing date: 2010-12-09
Publication date: 2012-07-11

Abstract

本发明提供一种文本数据处理方法，包括：读取待压缩文本数据的数据流；对于所述数据流中已指定压缩方法的语种数据流，以指定压缩方法或指定压缩工具进行压缩；对于所述数据流中未指定压缩方法的语种数据流，以默认压缩方法或默认压缩工具进行压缩；将经过压缩的各数据流按照其在所述待压缩文本数据的数据流中的先后顺序进行合并。相应地，提供一种文本数据处理装置。本发明基于语种类别，分别利用不同的压缩方法对各个语种数据流进行压缩，从而提高了包含多个语种的文本数据的压缩率。

Description

文本数据处理方法和装置

技术领域

本发明涉及文本数据处理技术领域，尤其涉及一种文本数据处理方法和装置。

背景技术

目前，存在许多文本数据压缩方法。但是，这些压缩方法通常都是仅针对某种特殊语种采用特定的压缩方法进行压缩，而对于包含多种语种的文本数据的压缩，目前尚缺乏有效的压缩方法。

在申请号为02819502.7的中国专利“字数据库压缩”中，提出了一种对不同语种的字数据库进行压缩的方法。在该方法中，按字母顺序对不同语种的字进行排序，并按照树状结构来排列字数据库中的字，在树状结构的节点中存储由两个或多个按字母顺序接连的字所共用的公共前缀，并将各个字的相应末尾都保存为相应节点的叶节点。但是，这种方法仅针对于利用字母排列的西方语言，而不适用于其它语言，比如中文、日文和韩文等亚洲语言。

在申请号为200710076577.0的中国专利“在手持学习终端上实现的联合搜索的方法”中，提出了一种采用通用的方法对所有语种文本进行压缩的方法。在该方法中，采用通用的Huffman压缩方法或者发明人提出的前缀长度加后缀的压缩方法对所有文本字符进行压缩，采用发明人提出的数值加数值表示的压缩方法对数字进行压缩。在发明人提出的前缀长度加后缀的压缩方法中，将当前词条与关键词条库中的上一词条共有的字符作为前缀，并利用前缀长度表示该前缀的长度，后缀则为该词条中的其余字符。虽然该专利提出了一种可适用于所有语种文本的压缩方法，但是由于不同语种之间的区别巨大，这种通用的压缩方法仍然很难保证取得较好的压缩率。

发明内容

为了解决以上问题，本发明提供一种文本数据处理方法和装置，以实现对包含多种语种的文本数据的高效率压缩。

为了实现以上目的，本发明提供的文本数据处理方法包括：读取待压缩文本数据的数据流；对于所述数据流中已指定压缩方法的语种数据流，以指定压缩方法或指定压缩工具进行压缩；对于所述数据流中未指定压缩方法的语种数据流，以默认压缩方法或默认压缩工具进行压缩；将经过压缩的各数据流按照其在所述待压缩文本数据的数据流中的先后顺序进行合并。

优选地，所述方法还包括以下步骤：根据指定压缩方法、该压缩方法所处理的语种数据流、和相应压缩工具在本地或网络上的位置，生成配置文件。

优选地，还包括以下步骤：根据已指定压缩方法的语种数据流、压缩该语种数据流的指定压缩方法、和相应压缩工具在本地或网络上的位置，生成配置文件。

优选地，对于任一种语种数据流，如果在配置文件中的指定压缩工具的位置无法找到指定压缩工具或者指定压缩方法不符合规范，则利用默认压缩方法或默认压缩工具对该语种数据流进行压缩。

优选地，根据不同语种的特点将所述数据流中的字符分成拉丁字符、扩展字符、数字字符和标点字符，其中，拉丁字符属于能够通过空格和标点将词分开的语种字符，扩展字符属于不能通过空格和标点将词分开的语种字符。

优选地，对于拉丁字符、扩展字符、数字字符和标点字符中的至少两种，采用相同的默认压缩方法或者分别采用不同的默认压缩方法。

优选地，对于拉丁字符和扩展字符，默认压缩方法包括以下步骤：对于拉丁字符，根据空格和标点将拉丁字符分成多个词，并统计各个词的出现频率，形成初步的字典；对于扩展字符，直接将每个字符提取出来，并统计每个字符的出现频率，形成所述初步的字典；对所述初步的字典中的词或字符按照出现频率进行排序，删除出现频率小于预定值的词或字符；对于所述初步的字典中剩余的词或字符分配编码，并按照字典编码法利用这些编码对语种为拉丁字符或扩展字符的数据流进行压缩。

优选地，对于属于拉丁字符的英语字符，指定PPM方法；和/或对于属于扩展字符的中文字符，指定LZSSCN压缩方法；和/或对于属于扩展字符的日语，指定HORI压缩方法。

相应地，本发明提供一种文本数据处理装置，包括：输入单元，其用于打开文本数据文件，建立该文件的文本数据的数据流；压缩单元，其用于读取通过输入单元输入的数据流，对于所述数据流中已指定压缩方法的语种数据流，以指定压缩方法或指定压缩工具进行压缩，对于所述数据流中未指定压缩方法的语种数据流，以默认压缩方法或默认压缩工具进行压缩；合并单元，其用于将经过压缩单元压缩的各数据流按照其在通过输入单元输入的数据流中的先后顺序进行合并；和配置单元，其用于根据为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置生成配置文件，使得压缩单元根据配置文件以指定压缩方法或指定压缩工具对已指定压缩方法的语种的数据流进行压缩。

优选地，所述装置还包括用户界面，以供用户输入为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置。

从以上技术方案可看出，本发明根据语种特征的不同将字符分类，用户可自由制定每个语种的压缩方法，通过调用用户指定的压缩方法来对指定语种数据流进行压缩，同时通过默认的压缩方法对未指定压缩方法的语种数据流进行压缩，从而提高了包含多个语种的文本数据的压缩率。

附图说明

图1是根据本发明实施例的文本数据压缩和合并步骤的示意图；

图2是根据本发明实施例的文本数据压缩装置的框图。

具体实施方式

本发明提供一种文本数据处理方法，包括以下步骤：

读取待压缩文本数据的数据流；

对于所述数据流中已指定压缩方法的语种数据流，以指定压缩方法或指定压缩工具进行压缩；对于所述数据流中未指定压缩方法的语种数据流，以默认压缩方法或默认压缩工具进行压缩；

将经过压缩的各数据流按照其在所述待压缩文本数据的数据流中的先后顺序进行合并。

优选地，在本发明的各实施例中，还包括以下步骤：

根据指定压缩方法、该压缩方法所处理的语种数据流、和相应压缩工具在本地或网络上的位置，生成配置文件。

优选地，在本发明的各实施例中，还包括以下步骤：

根据已指定压缩方法的语种数据流、压缩该语种数据流的指定压缩方法、和相应压缩工具在本地或网络上的位置，生成配置文件。

优选地，在本发明的各实施例中，对于任一种语种数据流，如果在配置文件中的指定压缩工具的位置无法找到指定压缩工具或者指定压缩方法不符合规范，则利用默认压缩方法或默认压缩工具对该语种数据流进行压缩。

优选地，在本发明的各实施例中，根据不同语种的特点将所述数据流中的字符分成拉丁字符、扩展字符、数字字符和标点字符，其中，拉丁字符属于能够通过空格和标点将词分开的语种字符，扩展字符属于不能通过空格和标点将词分开的语种字符。

优选地，在本发明的各实施例中，对于拉丁字符、扩展字符、数字字符和标点字符中的至少两种，采用相同的默认压缩方法或者分别采用不同的默认压缩方法。

优选地，在本发明的各实施例中，对于拉丁字符和扩展字符，默认压缩方法包括以下步骤：

对于拉丁字符，根据空格和标点将拉丁字符分成多个词，并统计各个词的出现频率，形成初步的字典；对于扩展字符，直接将每个字符提取出来，并统计每个字符的出现频率，形成所述初步的字典；

对所述初步的字典中的词或字符按照出现频率进行排序，删除出现频率小于预定值的词或字符；对于所述初步的字典中剩余的词或字符分配编码，并按照字典编码法利用这些编码对语种为拉丁字符或扩展字符的数据流进行压缩。

优选地，在本发明的各实施例中，

对于属于拉丁字符的英语字符，指定PPM方法；和/或

对于属于扩展字符的中文字符，指定LZSSCN压缩方法；和/或

对于属于扩展字符的日语，指定HORI压缩方法。

本发明还提供一种文本数据处理装置，包括：

输入单元，其用于打开文本数据文件，建立该文件的文本数据的数据流；

压缩单元，其用于读取通过输入单元输入的数据流，对于所述数据流中已指定压缩方法的语种数据流，以指定压缩方法或指定压缩工具进行压缩，对于所述数据流中未指定压缩方法的语种数据流，以默认压缩方法或默认压缩工具进行压缩；

合并单元，其用于将经过压缩单元压缩的各数据流按照其在通过输入单元输入的数据流中的先后顺序进行合并；和

配置单元，其用于根据为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置生成配置文件，使得压缩单元根据配置文件以指定压缩方法或指定压缩工具对已指定压缩方法的语种的数据流进行压缩。

优选地，在本发明的各实施例中，还包括用户界面，以供用户输入为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置。

以下，将结合附图和实施例对本发明进行详细描述。

在本发明的实施例中，根据不同语种的特点将文本数据流中的字符分成四大类，包括拉丁字符、扩展字符、数字字符和标点字符，其中，拉丁字符为可以通过空格和标点等分隔符容易将词语分开的语种，例如，英语及法语等欧洲语言，扩展字符为不能通过空格和标点等分隔符简单地将词语分开的语种，例如中文、韩文、日文等。

对于拉丁字符、扩展字符、数字字符和标点字符，可采用相同的默认压缩方法(例如，zip压缩方法)，也可分别采用不同的默认压缩方法。

例如，对于属于拉丁字符的英文和属于扩展字符的中文、日文，可采用以下默认压缩方法：

对于数字字符、标点字符以及其余的拉丁字符和扩展字符，可采用zip压缩方法或者其它公知或特定的压缩方法作为默认压缩方法。

当然，也可对所有拉丁字符和扩展字符均使用上述默认压缩方法。

在本实施例中，按照以下步骤进行文本数据压缩：

步骤1、根据指定压缩方法、该压缩方法所处理的语种数据流、和相应压缩工具在本地或网络上的位置，生成配置文件。

在该步骤中，可根据需要按照任意指定格式生成配置文件。在本实施例中，配置文件采用如下格式：

在以上格式中，对于每种压缩方法(compressMethod)，指定其名称(name)、处理的语言(language)以及其压缩工具所在的位置(place)。

以下为利用XML语言实现以上格式的配置文件的示例：

在以上配置文件中，每个<compressMethod></compressMethod>中为一种用户指定的压缩方法，其中包含压缩方法的名称(name)、处理的语种(language)及其压缩工具所在的位置(place)这三个元素。通过读取该配置文件，可以得知用户分别对英语、中文和日语三种语言指定了压缩方法：对于英语，用户指定采用PPM(部分匹配预测)压缩方法进行压缩，压缩工具位于可见位置的ppm.dll；对于中文，用户指定专门针对中文的文本压缩方法LZSSCN进行压缩(LZSS名称中的LZ是指Jacob Ziv和Abraham Lempel的名字缩写，LZSS名称中的SS是指Storer和Szymanski的名字缩写，CN是指Chinese，该算法为LZSS算法针对中文的改良)，压缩工具位于可见位置的lzsscn.dll；对于日语，用户指定采用专门针对日文的文本压缩方法HORI进行压缩(Hori是一个人名，他设计了一种日文压缩方法并以他的名字命名)，压缩工具位于可见位置的hori.dll。

这里，应当指出，以上格式的配置文件仅仅是示例性的，还可根据其它规范生成采用其它格式的配置文件。比如，配置文件的格式还可以是，为每个语种指定压缩方法和相应压缩工具所在的位置，即，每个<language></language>为一个语种，其中包含压缩方法(name)及其压缩工具所在的位置(place)这两个元素。

或者，还可以为用户提供对于每个语种可供选择的压缩方法以供用户从其中进行选择。

步骤2、读取待压缩文本的数据流，并对读取的数据流进行压缩。

图1中示出了本实施例中对不同类型的字符进行压缩的示意图。如图1所示，由于用户指定了英文、中文和日文的压缩方法，所以将文本数据分成六类：英文、中文、日文和除英文之外的拉丁字符、除中文和日文之外的扩展字符、数字字符和标点字符，其中，对于英文，调用位于ppm.dll的PPM方法进行压缩，对于中文，调用位于lzsscn.dll的LZSSCN方法进行压缩，对于日文，调用位于hori.dll的HROI方法进行压缩，对于其余的拉丁字符、扩展字符、数字字符和标点字符，采用默认压缩方法，即，zip压缩方法进行压缩。

这里，应当指出，对于任一种语种数据流，如果在配置文件中的指定压缩工具的位置无法找到指定压缩工具或者指定压缩方法不符合规范，则利用默认压缩方法或默认压缩工具对该语种数据流进行压缩。比如，当找不到lzsscn.dll时，则利用上述默认压缩方法对中文进行压缩。

步骤3、合并压缩的文本数据。

在该步骤中，将经过压缩的每个数据流按照其在待压缩文本数据的数据流中的先后顺序进行合并，从而得到图1所示的合并后的数据文件作为最终的压缩数据。

图2是根据本实施例的文本数据处理装置的框图。如图1所示，该压缩装置包括输入单元100、压缩单元200、合并单元300和配置单元500，其中，输入单元100用于打开文本数据文件，建立该文件的文本数据的数据流；压缩单元200用于读取通过输入单元100输入的数据流，对于所述数据流中已指定压缩方法的语种数据流，以指定压缩方法或指定压缩工具进行压缩，对于所述数据流中未指定压缩方法的语种数据流，以默认压缩方法或默认压缩工具进行压缩；合并单元300用于将经过压缩单元200压缩的各数据流按照其在通过输入单元100输入的数据流中的先后顺序进行合并；配置单元500用于根据为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置生成配置文件，使得压缩单元200根据配置文件以指定压缩方法或指定压缩工具对已指定压缩方法的语种的数据流进行压缩。

此外，根据本实施例的文本数据压缩装置还可包括用户界面500，以供用户输入为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置。

通过分别利用本实施例方法和zip压缩方法对多个包含中文等多个语种的文本数据进行压缩测试发现，本实施例方法与zip压缩方法相比，所得压缩率最多能有30％左右的提高。

以上已参照附图和实施例对本发明进行了详细描述，但是，应该理解，本发明并不限于以上所公开的具体实施例，任何本领域的技术人员在此基础之上容易想到的修改和变型都应包括在本发明的保护范围内。

Claims

1.一种文本数据处理方法，包括以下步骤：

读取待压缩文本数据的数据流；

2.根据权利要求1所述的方法，其特征在于，还包括以下步骤：

3.根据权利要求1或2所述的方法，其特征在于，还包括以下步骤：

4.根据权利要求2或3所述的方法，其特征在于，对于任一种语种数据流，如果在配置文件中的指定压缩工具的位置无法找到指定压缩工具或者指定压缩方法不符合规范，则利用默认压缩方法或默认压缩工具对该语种数据流进行压缩。

5.根据前述权利要求中任一项所述的方法，其特征在于，根据不同语种的特点将所述数据流中的字符分成拉丁字符、扩展字符、数字字符和标点字符，其中，拉丁字符属于能够通过空格和标点将词分开的语种字符，扩展字符属于不能通过空格和标点将词分开的语种字符。

6.根据权利要求5所述的方法，其特征在于，对于拉丁字符、扩展字符、数字字符和标点字符中的至少两种，采用相同的默认压缩方法或者分别采用不同的默认压缩方法。

7.根据权利要求5所述的方法，其特征在于，对于拉丁字符和扩展字符，默认压缩方法包括以下步骤：

8.根据权利要求5、6或7所述的方法，其特征在于，

对于属于拉丁字符的英语字符，指定PPM方法；和/或

对于属于扩展字符的中文字符，指定LZSSCN压缩方法；和/或

对于属于扩展字符的日语，指定HORI压缩方法。

9.一种文本数据处理装置，包括：

10.根据权利要求9所述的装置，其特征在于，还包括用户界面，以供用户输入为数据流语种指定的压缩方法和相应压缩工具在本地或网络上的位置。