CN103488617A

CN103488617A - 一种数据截取的方法和装置

Info

Publication number: CN103488617A
Application number: CN201210192127.9A
Authority: CN
Inventors: 何庆明; 刘李进
Original assignee: Beijing Feinno Communication Technology Co Ltd
Current assignee: Beijing Feinno Communication Technology Co Ltd
Priority date: 2012-06-11
Filing date: 2012-06-11
Publication date: 2014-01-01

Abstract

本发明公开了一种数据截取的方法和装置，能够达到对截取的数据解码后不会出现乱码，提高解码质量和用户体验的技术效果。本发明实施例提供的一种数据截取的方法包括：将需要截取的字符串转换为预定编码格式；判断转换后的字符串的长度是否大于截取长度，若否，提取所有转换后的字符串作为截取到的数据；若是，执行如下处理：将截取长度所对应的字节作为截取点字节，并根据所述预定编码格式，判断所述截取点字节是否位于后一个字符的开头字节之前；若是，从字符串的起始字节至所述截取点字节对转换后的字符串进行截取，作为截取到的数据；若否，利用所述截取点字节的前一字节更新截取点字节，直至判断出截取点字节位于后一个字符的开头字节之前。

Description

一种数据截取的方法和装置

技术领域

本发明涉及信息处理技术领域，特别涉及一种数据截取的方法和装置。

背景技术

在数据传输和存储的过程中，由于容量的限制等因素，在很多场景下，都需要对原数据进行截取处理。例如，在传输协议中，头信息一般会固定长度。如果头信息超过了这个固定长度，就需要对这个头信息进行截取。现有方案通常采用直接从原数据中截取固定长度数据的方式进行数据截取。

然而，现有的截取方案至少存在如下问题：

当信息中包含了采用统一码（UNICODE）编码的字符时，由于一个字符所对应的UNICODE编码字节个数不确定，则有极大的可能所截取的最后一个字节是代表一个字符的若干字节中的中间的某个字节，从而导致对截取到的数据解码时最后一个字符的位置出现乱码，降低了解码质量和用户体验。

发明内容

本发明提供的一种数据截取的方法和装置，以解决现有数据截取方案导致解码后最后一个字符为乱码，解码质量和用户体验较低的问题。

为达到上述目的，本发明实施例采用了如下技术方案：

本发明实施例提供的一种数据截取的方法包括：

将需要截取的字符串转换为预定编码格式；

判断转换后的字符串的长度是否大于截取长度，若否，提取所有转换后的字符串作为截取到的数据；若是，执行如下处理：

将截取长度所对应的字节作为截取点字节，并根据所述预定编码格式，判断所述截取点字节是否位于后一个字符的开头字节之前；

若是，从字符串的起始字节至所述截取点字节对转换后的字符串进行截取，作为截取到的数据；若否，利用所述截取点字节的前一字节更新截取点字节，直至判断出截取点字节位于后一个字符的开头字节之前。

本发明实施例提供的一种数据截取的装置包括：

格式转换单元，用于将需要截取的字符串转换为预定编码格式；

长度判断单元，用于判断转换后的字符串的长度是否大于截取长度；

第一截取单元，用于在长度判断单元判断出转换后的字符串的长度不大于截取长度时，提取所有转换后的字符串作为截取到的数据；

第二截取单元，用于在长度判断单元判断出转换后的字符串的长度大于截取长度时，将截取长度所对应的字节作为截取点字节，并根据所述预定编码格式，判断所述截取点字节是否位于后一个字符的开头字节之前，若是，从字符串的起始字节至所述截取点字节对转换后的字符串进行截取，作为截取到的数据；若否，利用所述截取点字节的前一字节更新截取点字节，直至判断出截取点字节位于后一个字符的开头字节之前。

本发明实施例的有益效果是：

本发明实施例通过在预定编码格式下，判断截取点字节是否位于后一字符的开头字节之前，并在截取长度内从位于后一字符开头字节之前的截取点字节执行数据的截取，确保了截取点不会出现在一个字符的多个字节的中间，能够达到对截取的数据解码后不会出现乱码，提高解码质量和用户体验的技术效果。

附图说明

图1为本发明实施例一提供的一种数据截取的方法流程图；

图2为本发明实施例二提供的判断截取点字节位置的方法流程图；

图3为本发明实施例三提供的一种数据截取的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明的技术构思主要在于每个字符都有对应的一个UNICODE表示，根据UNICODE编码和预定编码（如UTF-8编码）的对应关系，可以找出一个UNICODE字符的开头，如找出一个汉字的开头，该字符的开头之前，就是前面字符的结尾。这样的话，在截取时，通过只截取到前面字符结尾部分，即当前字符开头的前面，就不会出现截取到字符的中间字节导致对截取数据无法正常解码的问题，从而对字符的截取更精确，解码质量和用户体验更好。

本发明实施例一提供的一种数据截取的方法，参见图1，包括：

11：将需要截取的字符串转换为预定编码格式。

12：判断转换后的字符串的长度是否大于截取长度，若否，执行步骤13，若是，执行步骤14。

13：提取所有转换后的字符串作为截取到的数据，截取操作结束。

14：将截取长度所对应的字节作为截取点字节，并根据所述预定编码格式，判断所述截取点字节是否位于后一个字符的开头字节之前，若是，执行步骤15，若否，执行步骤16。其中，在“判断所述截取点字节是否位于后一个字符的开头字节之前”的步骤中，将截取点字节所归属的字符作为当前字符时，后一个字符是指在字符串中紧邻该当前字符且在当前字符之后的下一个字符。后一个字符可以包含一个或多个字节，当后一个字符包含一个字节（如字节1）时，上述开头字节即为这个字节（即字节1），当后一个字符包含多个字节（如字节1至字节3）时，上述开头字节即为这多个字节中的第一个字节（字节1）。

15：从字符串的起始字节至所述截取点字节对转换后的字符串进行截取，作为截取到的数据，截取操作结束。

16：利用所述截取点字节的前一字节更新截取点字节，对更新后的截取点字节重复上述步骤14中的判断操作，直至判断出截取点字节位于后一个字符的开头字节之前，截取操作才结束。其中，在“利用所述截取点字节的前一字节更新截取点字节”的步骤中，截取点字节的前一字节是指在字符串中紧邻截取点字节且在截取点字节之前的上一个字节，更新的方式可以为将当前截取点字节的前一字节作为更新后所使用的截取点字节。

注：对于本实施例中所描述的“前”“后”方向，一种示例的方式为将字符串的起始字节所在的位置视为前方，将字符串的结尾字节所在的位置视为后方。

上述预定编码格式可以为8比特统一码转换格式（8-bit UnicodeTransformation Format，UTF-8），UTF-8是一种针对统一码（Unicode）的可变长度字符编码，其用1到6个字节编码UNICODE字符，UTF-8的转换表参见下述表1，其中，符号X表示该比特位的数值既可能为0也可能为1。

表1

由上表可知，在每一行上，UNICODE编码在左框数值范围内的字符（如汉字），采用右框中的方式进行编码。1个字符可以由1至6个字节进行编码。

本实施例利用的UTF-8的编码方式的特点，通过判断截取点字节是否位于后一字符的开头字节之前，并在截取长度内从位于后一字符开头字节之前的截取点字节执行数据的截取的技术手段，实现对字符串的精确截取，达到对截取的数据解码后不会出现乱码，提高解码质量和用户体验的技术效果。

下面对本发明实施例二提供的数据截取的方法进行说明。本实施例主要以对汉字字符串进行按字节精确截取的场景为例进行说明。

21：判断需要截取的字符串是否为空，若为空，返回空字符串，若不为空，将需要截取的字符串转换为预定编码格式。

作为可选步骤，在本步骤中，首先对截取操作是否可执行进行判断，当字符串为空时，该截取操作无法执行，则快速进行响应，直接返回空字符串的信息，不再进行后续的转换等操作。只有在字符串不为空，截取操作可执行时，才继续进行下述的步骤22，从而使截取操作的反馈更加及时，效率更高。

在实现时，可以设置content参数和length参数，content表示需要截取的原始字符串，length表示截取长度，即需要从原始字符串中截取的字节长度。

22：将需要截取的字符串转换为预定编码格式。

本实施例采用的预定编码格式为UTF-8，并通过对UTF-8的编码格式进行分析，得出如下两点编码规律：

1）对符合UTF-8编码的字节，若该字节的最高位为“0”，则该字节为一个字符的开头，参见上述表1，其中第一行UTF-8编码字节的最高位为0；

2）若该字节的最高位不为“0”，则判断该字节的次高位是否为“1”，若是，则当前字节为一个汉字的开头字节，参见上述表1，其中第二至六行中，UTF-8高位编码字节的最高位和次高位均为1。

不满足上述两点条件的UTF-8编码字节则不是一个字符的开头字节。

本实施例采用的上述编码规律，不但能够准确区分出一个字符的开头字节，而且简单易行，能够加快数据截取的速度。

在实现时，可以设置buffer参数，根据UNICODE和UTF8对应关系，将content对应的原始字符串转换为UTF-8对应的字节数组，buffer表示转换后的字节数组。若content对应的原始字符串即为UTF-8下的字节数组，则可以省略步骤22中的转换操作。

23：判断转换后的字符串的长度是否大于截取长度，若否，执行步骤24，若是，执行步骤25。

在实现时，设置pos参数，用于表示所使用的截取点字节的位置，取buffer的长度（要截取的原始字符串的总长度）和length（所需截取的字节长度）的较小的值作为pos参数，判断buffer和length的大小，buffer大于length则执行步骤25，否则执行步骤24。

24：提取所有转换后的字符串作为截取到的数据，截取操作结束。

这时，获得buffer字节数组从0开始，长pos个字节的字符串并返回，截取操作执行完毕。

25：将截取长度所对应的字节作为截取点字节，并根据所述预定编码格式，判断所述截取点字节是否位于后一个字符的开头字节之前，若是，从字符串的起始字节至所述截取点字节对转换后的字符串进行截取，作为截取到的数据；若否，利用所述截取点字节的前一字节更新截取点字节，直至判断出截取点字节位于后一个字符的开头字节之前。

本实施例基于上述两点编码规律，参见图2，利用如下方式，判断所述截取点字节是否位于后一个字符的开头字节之前：

S1：判断截取点字节的后一字节的最高位是否为0，若是，执行步骤S2，若否，执行步骤S3；

S2：确认该截取点字节位于后一个字符的开头字节之前，操作结束。

这时，上述“从字符串的起始字节至所述截取点字节对转换后的字符串进行截取”还可以表述为：在执行数据截取时，从字符串的起始字节截取到最高位为0的上述截取点字节的后一字节的前面。

S3：判断截取点字节的后一字节的次高位是否为1，若该次高位为1，则确认该截取点字节位于后一个字符的开头字节之前，操作结束，这时，上述“从字符串的起始字节至所述截取点字节对转换后的字符串进行截取”还可以表述为：在执行数据截取时，从字符串的起始字节截取到最高位不为0但次高位为1的上述截取点字节的后一字节的前面；若该次高位不为1，则执行步骤S4。

S4：确认该截取点字节不位于后一个字符的开头字节之前，操作结束。在步骤S4执行之后，本实施例更新截取点字节，利用更新后的截取点字节重复上述步骤S1至S4，在确认截取点字节位于后一个字符的开头字节之前时，再执行对字符串的截取。

示例性的，步骤25中的操作可以表述如下：

起始时，截取长度所对应的字节为buffer的第pos个字节，将第pos个字节作为截取点字节，该截取点字节的后一字节为第pos+1个字节，则判断buffer的第pos+1个字节的最高位是否为0；

若是，则该截取点字节位于后一个字符的开头字节之前，获得buffer字节数组从0开始，长pos个字节的字符串并返回，即在执行数据截取时，从字符串的起始字节截取到最高位为0的上述截取点字节的后一字节的前面；

若否，则判断buffer的第pos+1个字节的次高位是否为0，若次高位为0，则pos自减1走循环，该循环即在pos的值更新（减1）后，重新判断截取点字节第pos个字节是否位于后一个字符的开头字节之前（执行上述步骤S1至S4），若否，则重复更新pos的操作直至判断出第pos个字节位于后一个字符的开头字节之前，再结束循环；若次高位不为0，则该截取点字节位于后一个字符的开头字节之前，获得buffer字节数组从0开始，长pos个字节的字符串并返回，即在执行数据截取时，从字符串的起始字节截取到最高位不为0但次高位为1的上述截取点字节的后一字节的前面。

由上所述，步骤21至25可以利用上述参数示例性描述如下：

1：设置content参数和length参数，content表示需要截取的原始字符串，length表示截取长度；

2：判断content是否为空，是则返回空字符串，否则执行步骤3；

3：根据UNICODE和UTF8对应关系，获取content的字符串在UTF-8下对应的字节数组为buffer；

4：取buffer的长度（要截取字节数组的总长度）和length（规定要截取的字节长度）的较小的值做为pos；

5：判断buffer的长度和length的大小，buffer大于length则执行步骤6，否则执行步骤8；

6：判断buffer的第pos+1个字节的最高位是否为0，是则执行步骤8，否则执行步骤7；

7：循环判断buffer的第pos+1个字节的第二高位是否为0，是则pos自减1走循环，返回至步骤6，否则执行步骤8；

8：获得buffer字节数组从0开始，长pos个字节的字符串并返回，截取操作执行完毕。

执行以上的步骤1至8，能够保证对字符串的截取做到最接近需要的长度，即在保证解码后不出现乱码的情况下，获取截取长度允许下的最大数据量，实现了精确地数据截取。

在采用上述方案对数据执行截取之后，若需要数据传输，可以将截取的字符串放入文件头中，传输至对端。对端接收到文件后，在解码过程中，需要按照UTF-8编码格式进行解码。

下面以一个具体的示例将现有方案与本实施例的方案进行对比，来验证本实施例的有益效果。

需要截取的字符串为带汉字的字符串A：“阁下莫非就是当年”

将字符串A转换为对应的UTF-8字节数组为：

11101001 10011000 10000001 11100100 10111000 10001011 11101000

10001110 10101011 11101001 10011101 10011110 11100101 10110000

10110001 11100110 10011000 10101111 11100101 10111101 10010011

11100101 10111001 10110100

本示例中仅允许截取10个字节，即截取长度length=10

现有方案截取后得到：

11101001 10011000 10000001 11100100 10111000 10001011 1110100010001110 10101011 11101001(共10个字节)

解码后对应的汉字：阁下莫?(结尾有乱码)

采用本实施例的方案截取后得到：

11101001 10011000 10000001 11100100 10111000 10001011 1110100010001110 10101011(共9个字节)

解码后对应的汉字：阁下莫

对于上述示例，本实施例截取操作包括：

1：设置content参数为“阁下莫非就是当年”，length参数为要截取的字节长度，数值为“10”。

2：参数content不为空，执行步骤3

3：获取content对应字符串UTF8对应的字节数组buffer为：

11101001 10011000 10000001 11100100 10111000 10001011 11101000

10001110 10101011 11101001 10011101 10011110 11100101 10110000

10110001 11100110 10011000 10101111 11100101 10111101 10010011

11100101 10111001 10110100

4：取buffer的长度（24）和length（10）的较小的值做为pos，则pos为10；

5：判断buffer的长度（24）和length值（10）的大小，buffer长度大于length值，执行步骤6；

6：判断buffer的第pos+1（11）个字节（10011101）的最高位是否为0。不为0，执行步骤7；

7：循环判断buffer的第pos+1（11）个字节（10011101）的第二高位（次高位）是否为0。是为0，则pos自减1走循环，执行步骤6，继续判断buffer的第pos+1（10）个字节（11101001）的第二高位是否为0；不为0，执行步骤8。

8：获得buffer字节数组从0开始，长pos个字节的字符串并返回，得到如下字节数组：

11101001 10011000 10000001 11100100 10111000 10001011 1110100010001110 10101011

解码后对应的字符串是：阁下莫

由上所述，本方案能够在保证解码后不出现乱码的情况下，获取截取长度允许下的最大数据量，实现了精确地数据截取，并且本方案只需外部输入截取长度即可自动实现数据截取，操作简单，计算量小。

本发明实施例三提供的一种数据截取的装置，参见图3，所述装置包括：

格式转换单元31，用于将需要截取的字符串转换为预定编码格式；

长度判断单元32，用于判断转换后的字符串的长度是否大于截取长度；

第一截取单元33，用于在长度判断单元32判断出转换后的字符串的长度不大于截取长度时，提取所有转换后的字符串作为截取到的数据；

第二截取单元34，用于在长度判断单元32判断出转换后的字符串的长度大于截取长度时，将截取长度所对应的字节作为截取点字节，并根据所述预定编码格式，判断所述截取点字节是否位于后一个字符的开头字节之前，若是，从字符串的起始字节至所述截取点字节对转换后的字符串进行截取，作为截取到的数据；若否，利用所述截取点字节的前一字节更新截取点字节，直至判断出截取点字节位于后一个字符的开头字节之前。

进一步的，所述格式转换单元31，用于将需要截取的字符串转换为8比特统一码转换格式（UTF-8）。

所述第二截取单元34利用如下方式，根据预定编码格式，判断所述截取点字节是否位于后一个字符的开头字节之前：判断截取点字节的后一字节的最高位是否为0，若是，则确认该截取点字节位于后一个字符的开头字节之前，若否，判断截取点字节的后一字节的次高位是否为1，若该次高位为1，则确认该截取点字节位于后一个字符的开头字节之前，若该次高位不为1，确认该截取点字节不位于后一个字符的开头字节之前。即本实施例中对符合UTF-8编码的字节，若该字节的最高位为“0”，则该字节为一个字符的开头；若该字节的最高位不为“0”，则判断该字节的次高位是否为“1”，若是，则当前字节为一个汉字的开头字节，否则，对不满足上述两点条件的UTF-8编码字节则确认其不是一个字符的开头字节。本实施例采用这种判决方式，不但能够准确区分出一个字符的开头字节，而且简单易行，能够加快数据截取的速度。

并且，上述装置还包括解码单元，用于对所述截取到的数据按照UTF-8编码格式进行解码。当数据截取操作和数据解码操作都在本地执行时，解码单元和上述格式转换单元、长度判断单元、第一截取单元和第二截取单元可以集成在一台设备中实现；可以理解，对于数据截取操作和数据解码操作在异地执行的场景，也可以将该解码单元单独分离出来，在数据解码端的设备上实现。

进一步的，所述装置还包括空字符串处理单元，用于判断需要截取的字符串是否为空，若为空，返回空字符串，若不为空，调用所述格式转换单元将需要截取的字符串转换为预定编码格式。

本发明装置实施例中各单元的具体工作方式可以参见本发明方法实施例中的相关内容。

由上所述，本发明实施例通过在预定编码格式下，判断截取点字节是否位于后一字符的开头字节之前，并在截取长度内从位于后一字符开头字节之前的截取点字节执行数据的截取，确保了截取点不会出现在一个字符的多个字节的中间，能够达到对截取的数据解码后不会出现乱码，提高解码质量和用户体验的技术效果。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种数据截取的方法，其特征在于，所述方法包括：

将需要截取的字符串转换为预定编码格式；

2.根据权利要求1所述的方法，其特征在于，

所述预定编码格式为8比特统一码转换格式UTF-8。

3.根据权利要求2所述的方法，其特征在于，利用如下方式，根据所述预定编码格式，判断所述截取点字节是否位于后一个字符的开头字节之前：

判断截取点字节的后一字节的最高位是否为0，若是，则确认该截取点字节位于后一个字符的开头字节之前，若否，判断截取点字节的后一字节的次高位是否为1，若该次高位为1，则确认该截取点字节位于后一个字符的开头字节之前，若该次高位不为1，确认该截取点字节不位于后一个字符的开头字节之前。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

对所述截取到的数据按照UTF-8编码格式进行解码。

5.根据权利要求1至3任一项所述的方法，其特征在于，在所述将需要截取的字符串转换为预定编码格式之前，所述方法还包括：

判断需要截取的字符串是否为空，若为空，返回空字符串，若不为空，将需要截取的字符串转换为预定编码格式。

6.一种数据截取的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，

所述格式转换单元，用于将需要截取的字符串转换为8比特统一码转换格式UTF-8。

8.根据权利要求7所述的装置，其特征在于，所述第二截取单元利用如下方式，根据所述预定编码格式，判断所述截取点字节是否位于后一个字符的开头字节之前：

9.根据权利要求6至8任一项所述的装置，其特征在于，所述装置还包括解码单元，用于对所述截取到的数据按照UTF-8编码格式进行解码。

10.根据权利要求6至8任一项所述的装置，其特征在于，所述装置还包括空字符串处理单元，用于判断需要截取的字符串是否为空，若为空，返回空字符串，若不为空，调用所述格式转换单元将需要截取的字符串转换为预定编码格式。