CN117176178B - 一种光电通信系统的数据处理方法 - Google Patents
一种光电通信系统的数据处理方法 Download PDFInfo
- Publication number
- CN117176178B CN117176178B CN202311451245.1A CN202311451245A CN117176178B CN 117176178 B CN117176178 B CN 117176178B CN 202311451245 A CN202311451245 A CN 202311451245A CN 117176178 B CN117176178 B CN 117176178B
- Authority
- CN
- China
- Prior art keywords
- value
- length
- character
- type
- initial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims abstract description 41
- 238000003672 processing method Methods 0.000 title abstract description 10
- 238000009825 accumulation Methods 0.000 claims abstract description 123
- 238000000034 method Methods 0.000 claims abstract description 40
- 238000005457 optimization Methods 0.000 claims abstract description 37
- 230000005693 optoelectronics Effects 0.000 claims abstract description 14
- 238000007906 compression Methods 0.000 claims abstract description 11
- 230000006835 compression Effects 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 6
- 238000013144 data compression Methods 0.000 abstract description 13
- 230000000694 effects Effects 0.000 abstract description 4
- 230000003247 decreasing effect Effects 0.000 abstract description 2
- 238000012216 screening Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 241000287196 Asthenes Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据压缩技术领域,具体涉及一种光电通信系统的数据处理方法。本发明获取光电通信系统中的待处理数据,然后获取分布累计表的长度区间,将区间中任一整数作为待测长度值,根据待测长度值和初始长度值的差异获取基础变量,根据每类字符在分布累计表长度中分配的比例和自身的频率获得偏差程度值,然后获取差异变量,进而获得待测长度值的优化程度值;基于RANS熵编码完成待处理数据的压缩。本发明实施例通过分析分布累计表长度变化后对编码长度增大和减小的对抗关系,对分布累计表长度值进行筛选,获取最优分布累计表长度值,从而达到提高数据压缩效率的效果。
Description
技术领域
本发明涉及数据压缩技术领域,具体涉及一种光电通信系统的数据处理方法。
背景技术
通信技术发展越来越成熟,光电通信系统的应用也越来越广泛。通过光信号进行传输的数字或模拟信号,能够达到较高的数据传输速率,然而,随着数据传输需求的增加,光电通信系统中需要传输的数据量也越来越大,因此需要对数据进行压缩处理。
分布累计表是实现RANS熵编码的关键部分之一,它记录了每个符号的累积分布情况,为计算符号的编码长度提供了基础数据。而现有技术在使用RANS熵编码进行数据压缩时,通常根据数据种类数确定分布累计表的大小,但是由于光电通信系统中的数据种类较多,并且各类数据出现的频率难以预测,所以通过数据种类数确定的分布累计表大小会使各类字符在分布累计表中所占长度比例与其在光电通信系统数据中的频率之间存在较大偏差,导致最终的数据压缩效率低下。
发明内容
为了解决通过数据种类数确定的分布累计表大小会使各类字符在分布累计表中所占长度比例与其在光电通信系统数据中的频率之间存在较大偏差,导致最终的数据压缩效率低下的技术问题,本发明的目的在于提供一种光电通信系统的数据处理方法,所采用的技术方案具体如下:
本发明提出了一种光电通信系统的数据处理方法,所述方法包括:
获取光电通信系统中的待处理数据;获取所述待处理数据的字符种类数、字符总数以及每类字符的字符频次;
根据所述字符种类数和每类字符的字符频次获得分布累计表的长度区间;根据所述字符种类数获得分布累计表的初始长度值;
以所述长度区间中任一整数分布累计表长度值作为待测长度值;根据所述待测长度值与所述初始长度值的差异获得基础变量;
根据所述初始长度值、所述字符总数和所述字符种类数获得初始偏差程度值;根据所述待测长度值、所述字符总数和所述字符种类数获得待测偏差程度值;根据所述初始偏差程度值和所述待测偏差程度值的差异以及所述字符种类数,获得差异变量;
根据所述基础变量和所述差异变量获得所述待测长度值的优化程度值;根据所述长度区间中所有分布累计表长度值的优化程度值获得最优分布累计表长度值;根据所述最优分布累计表长度值完成所述待处理数据的压缩。
进一步地,所述长度区间的获取方法包括:
将所述字符种类数作为所述长度区间的下限;
获取各类字符的字符频次的最大公因数,将所述字符总数与所述最大公因数的比值作为所述长度区间的上限;
根据所述长度区间的下限和上限获得所述分布累计表的所述长度区间。
进一步地,所述基础变量的公式模型包括:
其中,表示基础变量,/>表示待测长度值,/>表示初始长度值,/>表示以2为底的对数函数,/>表示向上取整函数。
进一步地,所述初始偏差程度值的获取方法包括:
根据每类字符的字符频次和所述字符总数获得每类字符的字符频率;
将所述初始长度值与每类字符的所述字符频率相乘的值作为每类字符的第一初始分配值;将所述第一初始分配值的小数部分作为第一小数,对所有的第一初始分配值进行四舍五入取整操作,获得第一最终分配值;
根据各类字符的第一最终分配值的和值与所述初始长度值的差异对每类字符的第一最终分配值进行长度调整操作,获得第一分配长度值;
将每类字符第一分配长度值与所述初始长度值的比值作为每类字符的第一长度比例值;以每类字符的第一长度比例值为底数,字符频率为指数,作为每类字符的初始贴切量;将各类字符的所述初始贴切量进行累乘获得初始贴切程度值;根据所述初始贴切程度值获得初始偏差程度值,所述初始贴切程度值和所述初始偏差程度值呈负相关。
进一步地,所述根据各类字符的第一最终分配值的和值与所述初始长度值的差异对每类字符的第一最终分配值进行长度调整操作,获得第一分配长度值,包括:
当各类字符的第一最终分配值的和值大于所述初始长度值时,将大于等于0.5的所有的第一小数中的最小值对应的第一最终分配值减1;当各类字符的第一最终分配值的和值小于所述初始长度值时,将小于0.5的所有的第一小数中的最大值对应的第一最终分配值加1;
直至各类字符的第一最终分配值的和值等于所述初始长度值时,结束长度调整操作,获得各类字符的第一分配长度值。
进一步地,所述待测偏差程度值的获取方法包括:
根据每类字符的字符频次和所述字符总数获得每类字符的字符频率;
将所述待测长度值与每类字符的所述字符频率相乘的值作为每类字符的第二初始分配值;将所述第二初始分配值的小数部分作为第二小数,对所有的第二初始分配值进行四舍五入取整操作,获得第二最终分配值;
根据各类字符的第二最终分配值的和值与所述待测长度值的差异对每类字符的第二最终分配值进行长度调整操作,获得第二分配长度值;
将每类字符的第二分配长度值与所述待测长度值的比值作为每类字符的第二长度比例值;以每类字符的第二长度比例值为底数,字符频率为指数,作为每类字符的待测贴切量;将各类字符的所述待测贴切量进行累乘获得待测贴切程度值;根据所述待测贴切程度值获得待测偏差程度值,所述待测贴切程度值和所述待测偏差程度值呈负相关。
进一步地,所述根据各类字符的第二最终分配值的和值与所述待测长度值的差异对每类字符的第二最终分配值进行长度调整操作,获得第二分配长度值,包括:
当各类字符的第二最终分配值的和值大于所述待测长度值时,将大于等于0.5的所有的第二小数中的最小值对应的第二最终分配值减1;当各类字符的第二最终分配值的和值小于所述待测长度值时,将小于0.5的所有的第二小数中的最大值对应的第二最终分配值加1;
直至各类字符的第二最终分配值的和值等于所述待测长度值时,结束长度调整操作,获得各类字符的第二分配长度值。
进一步地,所述差异变量的公式模型包括:
其中,表示差异变量,/>表示初始偏差程度值,/>表示待测偏差程度值,/>表示字符种类数,/>表示以2为底的对数函数。
进一步地,所述优化程度值的获取方法包括:
将所述基础变量的值与所述差异变量的值相加并进行负相关映射后作为所述优化程度值。
进一步地,所述根据所述最优分布累计表长度值完成所述待处理数据的压缩,包括:
根据所述最优分布累计表长度值获取最优分布累计表;
基于RANS熵编码根据所述最优分布累计表完成所述待处理数据的压缩。
本发明具有如下有益效果:
本发明的目的在于对分布累计表长度值的大小进行调整,获取最优的分布累计表长度值,进而提高数据压缩效率;首先获取光电通信系统中的待处理数据,然后获得字符种类数、字符总数以及每类字符的字符频次;然后可获取分布累计表的长度区间,通过对长度区间中的分布累计表长度值进行遍历,获取到长度区间中每一个分布累计表长度值,即待测长度值的优化程度值,进而选出最优分布累计表长度值;优化程度值主要从两个方面进行分析,其一是分析待测长度值与初始长度值之间的差异,获取基础变量,原因在于分布累计表长度值的变化会对数据的编码长度造成影响;进一步地,由于光电通信系统中的数据包含的字符种类数不定,且各类字符出现的频率难以预测,并且分布累计表长度值的变化也会影响到各类字符在分布累计表中所占长度比例与各类字符的频率之间的偏差大小,故分别获取待测长度值和初始长度值对应的偏差程度值,偏差程度值反映了在每个分布累计表长度值下各类字符所占的长度比例与其频率之间的贴切程度,然后通过待测长度值和初始长度值的偏差程度值之间的差异,获得差异变量;然后通过将基础变量和差异变量相结合,获得待测长度值相对于初始长度值的优化程度值;进而基于优化程度值选出最优分布累计表长度值,然后即可完成待处理数据的压缩。由于分布累计表长度值增大会导致数据编码长度增大,但是同时会使各类字符在分布累计表中所占比例与其在数据中的频率之间的偏差减小;故本发明通过分析二者之间的关系,将二者进行结合,从而选出最优分布累计表长度值,进而提高了数据的压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种光电通信系统的数据处理方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种光电通信系统的数据处理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种光电通信系统的数据处理方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种光电通信系统的数据处理方法的方法流程图,该方法包括以下步骤:
步骤S1:获取光电通信系统中的待处理数据;获取待处理数据的字符种类数、字符总数以及每类字符的字符频次。
光电通信系统的数据是指收集和记录光电通信系统中需要传输的数据,这些数据包括但不限于:数据帧、控制信息、应用数据、数据协议等,采集这些数据可以用于用户间的信息传递和网络通信,也可以帮助监测和维护系统的运行状态和性能。然而,随着光电通信系统中需要传输的数据量越来越大,故在光电通信系统传输的数据被传输前,需要对该数据进行压缩。通常使用范围非对称系数(Range Asymmetric Numeral Systems-RANS)熵编码对其进行压缩,而分布累计表是实现RANS熵编码的关键部分之一,它记录了每个符号的累积分布情况,为计算符号的编码长度提供了基础数据。
在本发明实施例中,通过分析由分布累计表长度变化造成的数据编码长度变化以及各类字符所占长度比例与其频率之间的偏差关系,将二者进行结合对分布累计表长度值进行评价,然后获取最优分布累计表长度值,进而提高压缩效率。
首先获取光电通信系统中的待处理数据,获取待处理数据的方法可以为利用传感技术或者读取存储器中的待处理数据。由于光电通信系统中的数据主要是各种字符,因此可对获取到的待处理数据进行处理,将其按照字典序排序,获取待处理数据的字符序列。
然后根据字符序列获取字符种类数、字符总数以及每类字符的字符频次,将字符种类数记为,字符总数记为/>,每类字符的字符频次记为/>。
至此,获取到了光电通信系统中的待处理数据以及待处理数据的字符种类数、字符总数以及每类字符的字符频次,可以完成后续的分析过程。
步骤S2:根据字符种类数和每类字符的字符频次获得分布累计表的长度区间;根据字符种类数获得分布累计表的初始长度值。
常规情况下,RANS熵编码直接通过字符种类数获得分布累计表的长度值,但是由于光电通信系统中数据分布杂乱,且各类字符的出现频率不一,因此常规情况下的分布累计表长度值会导致字符在分布累计表中分配的长度比例与字符本身在数据中出现的频率有较大偏差,造成编码长度高于信息熵的情况,影响最终的数据压缩效率。
所以本发明实施例通过设置分布累计表的长度区间,对长度区间中每一个分布累计表长度值进行遍历,分析长度区间中每个分布累计表长度值对于常规情况下的分布累计表长度值的优化程度值,进而选择最优的分布累计表长度值。
首先可根据步骤S1中获取到的字符种类数获得常规情况下的分布累计表长度值,记为初始长度值。初始长度值为以2为底,字符种类数作为指数,即/>。
然后基于字符种类数和每类字符的字符频次获取分布累计表长度区间。
优选地,本发明一个实施例中长度区间的获取方法包括:
由于分布累计表的设计目的是为了能够覆盖所有可能的字符组合,而每个字符的出现频率和组合情况都是不同的。因此,为了能够准确地反映每个字符的出现频率和其他字符的组合情况,分布累计表的长度至少应该等于字符种类数,所以,将字符种类数/>作为长度区间的下限。
然后计算能够满足字符频率的最小分布累计表长度值,对于一组既定数据,如果分布累计表长度值等于数据中包含的字符总数,那么该分布累计表长度值一定可以符合字符在原数据中的频率。但是在实际应用中,如果将分布累计表长度设置为数据中包含的字符总量,可能会导致分布累计表过于冗长,从而增加了编码的复杂度和存储空间的需求。所以在此基础上,在构建分布累计表时,需要确定一个合适的长度,以覆盖所有可能的字符组合。为了达到这个目标,本发明实施例中计算所有种类字符在数据中出现频次的最大公因数,记为,然后用数据中包含字符总数/>除以最大公因数/>,将该比值作为长度区间的上限,记为/>,即/>。故根据上限和下限即可获得长度区间,即/>。
至此,获取到了长度区间,即可完成后续遍历长度区间内每个分布累计表长度值进而分析出最优分布累计表长度值的操作。
步骤S3:以长度区间中任一整数分布累计表长度值作为待测长度值;根据待测长度值与初始长度值的差异获得基础变量。
获取步骤S2中的分布累计表的长度区间中所有整数分布累计表长度值,然后对其进行遍历,为了便于解释和说明,本发明实施例中以任一整数分布累计表长度值为例,将其作为待测长度值,通过对待测长度值进行后续的处理,说明本发明的整个过程。
分布累计表的长度值会对数据的编码长度产生影响,因此基于待测长度值和初始长度值的差异获得基础变量,基础变量可以初步表征出分布累计表长度区间中的分布累计表长度值相较于常规情况下,即初始长度值对编码长度的影响。
优选地,本发明一个实施例中基础变量的获取方法包括:
对待测长度值和初始长度值分别获取对应的编码基础长度并做差,获得基础变量,即可表征出待测长度值相比于常规情况下初始长度值对编码基础长度的影响。基础变量的公式模型为:
其中,表示待测长度值对应的基础变量,/>表示待测长度值,/>表示初始长度值,表示以2为底的对数函数,/>表示向上取整函数。
在基础变量的公式模型中,由于分布累计表长度值越大时,对应的基础编码长度会增加,那么最终的数据编码长度也会增加,因此当基础变量的值越小,说明此时的待测长度值越小,那么此时仅分析分布累计表长度值对基础编码长度的影响,进而对于最终的数据编码长度的影响时,基础变量的值越小越好,且该值为负数时更好。
至此,通过分析待测长度值与初始长度值的差异获得了评价待测长度值相较于初始长度值的优化程度的第一个指标,基础变量,可继续进行后续的分析。
步骤S4:根据初始长度值、字符总数和字符种类数获得初始偏差程度值;根据待测长度值、字符总数和字符种类数获得待测偏差程度值;根据初始偏差程度值和待测偏差程度值的差异以及字符种类数,获得差异变量。
由于分布累计表长度值也会影响到各类字符在分布累计表中分配的长度比例和字符在数据中的频率之间的偏差值,进而影响到最终数据的编码长度,影响压缩效率;因此可根据初始长度值、字符总数和字符种类数获得初始偏差程度值,待测长度值、字符总数和字符种类数获得待测偏差程度值,从而完成后续对待测长度值优化程度的评价。
优选地,本发明一个实施例中初始偏差程度值的获取方法包括:
由于需要分析各类字符所分配的长度比例与字符在数据中的频率之间的关系,故首先根据字符总数和每类字符的字符频次获得每类字符的字符频率;然后将初始长度值与每类字符的字符频率相乘,获得每类字符的第一初始分配值,该第一初始分配值可能存在小数,所以将第一初始分配值的小数部分作为第一小数;然后对所有的第一初始分配值进行四舍五入取整操作,获得第一最终分配值。
根据各类字符的第一最终分配值的和值与初始长度值的差异判断是否需要对各类字符的第一最终分配值进行长度调整操作,获得第一分配长度值。然后将每类字符第一分配长度值与初始长度值的比值作为每类字符所分配的第一长度比例值;由于第一长度比例值获取过程中进行了长度调整操作,因此每类字符的第一长度比例值和每类字符的频率之间的会有所差异,本发明实施例中根据每类字符的字符频率与第一长度比例值获得初始偏差程度值。初始偏差程度值的公式模型为:
其中,表示初始偏差程度值,/>表示第/>类字符的第一长度比例值,/>表示第类字符的字符频率,/>表示字符种类数,/>表示调参因子,避免分母为0,∏表示累乘符号。
在初始偏差程度值的公式模型中,将每类字符在待处理数据中的频率作为指数,每类字符在初始长度值中所分配的第一长度比例值作为底数,然后将每类字符对应的数值进行累乘,由于各类字符的第一长度比例值的和以及字符频率的和均为1,因此在以第一长度比例值为底数时,当每类字符的频率与第一长度比例值越接近时,那么每类字符的初始贴切量就越大,故累乘的值,初始贴切程度值就越大,说明了在此时的初始长度值下,每类字符的第一长度比例值和每类字符的频率之间的贴合程度就越高,该分布累计表长度值就越合适;所以初始偏差程度值/>就应该越小,因此对初始贴切程度值进行负相关映射完成逻辑关系矫正。需要说明的是,调参因子的大小取值在本发明实施例中为0.01,具体数值可根据实施场景进行调整,在此不做限定。
由于在上述过程中对各类字符的第一初始分配值进行四舍五入获取第一最终分配值后,可能会导致各类字符的第一最终分配值的和值不等于分布累计表的初始长度值,因此需要对每类字符的第一最终分配值进行长度调整操作。
优选地,本发明一个实施例中根据各类字符的第一最终分配值的和值与初始长度值的差异对每类字符的第一最终分配值进行长度调整操作,获得第一分配长度值,包括:
当各类字符的第一最终分配值的和值大于初始长度值时,将大于等于0.5的所有的第一小数中的最小值对应的第一最终分配值减1;当各类字符的第一最终分配值的和值小于初始长度值时,将小于0.5的所有的第一小数中的最大值对应的第一最终分配值加1;
重复该调整过程直至各类字符的第一最终分配值的和值等于初始长度值时,结束长度调整操作,获得各类字符第一分配长度值。
同理,优选地,本发明一个实施例中待测偏差程度值的获取方法包括:
将待测长度值与每类字符的字符频率相乘,获得每类字符的第二初始分配值,该第二初始分配值可能存在小数,所以将第二初始分配值的小数部分作为第二小数;然后对所有的第二初始分配值进行四舍五入取整操作,获得第二最终分配值。
根据各类字符的第二最终分配值的和值与待测长度值的差异判断是否需要对各类字符的第二最终分配值进行长度调整操作,获得第二分配长度值。然后将每类字符第二分配长度值与待测长度值的比值作为每类字符所分配的第二长度比例值;由于第二长度比例值获取过程中进行了长度调整操作,因此每类字符的第二长度比例值和每类字符的频率之间的会有所差异,本发明实施例中根据每类字符的字符频率与第二长度比例值获得待测偏差程度值。待测偏差程度值的公式模型为:
其中,表示待测偏差程度值,/>表示第/>类字符的第二长度比例值,/>表示第类字符的字符频率,/>表示字符种类数,/>表示调参因子,避免分母为0,∏表示累乘符号。
在待测偏差程度值的公式模型中,将每类字符在待处理数据中的频率作为指数,每类字符在待测长度值中所分配的第二长度比例值作为底数,然后将每类字符对应的数值进行累乘,由于各类字符的第二长度比例值的和以及字符频率的和均为1,因此在以第二长度比例值为底数时,当每类字符的频率与第二长度比例值越接近时,那么每类字符的待测贴切量就越大,故累乘的值,待测贴切程度值就越大,说明了在此时的待测长度值下,每类字符的第二长度比例值和每类字符的频率之间的贴合程度就越高,该分布累计表长度值就越合适;所以待测偏差程度值/>就应该越小,因此对待测贴切程度值进行负相关映射完成逻辑关系矫正。需要说明的是,调参因子的大小取值在本发明实施例中为0.01,具体数值可根据实施场景进行调整,在此不做限定。
同理,由于第二长度比例值获取过程中进行了长度调整操作。
故优选地,本发明一个实施例中根据各类字符的第二最终分配值的和值与待测长度值的差异对每类字符的第二最终分配值进行长度调整操作,获得第二分配长度值,包括:
当各类字符的第二最终分配值的和值大于待测长度值时,将大于等于0.5的所有的第二小数中的最小值对应的第二最终分配值减1;当各类字符的第二最终分配值的和值小于待测长度值时,将小于0.5的所有的第二小数中的最大值对应的第二最终分配值加1;
重复该调整过程直至各类字符的第二最终分配值的和值等于待测长度值时,结束长度调整操作,获得各类字符第二分配长度值。
在分别获得初始偏差程度值和待测偏差程度值后,根据二者的差异即可获得能够反映待测长度值相较于初始长度值的优化程度的另一指标,差异变量。
优选地,本发明一个实施例中差异变量的获取方法包括:
根据待测偏差程度值、初始偏差程度值以及字符种类数获得差异变量。差异变量的公式模型为:
其中,表示待测长度值对应的差异变量,/>表示初始偏差程度值,/>表示待测偏差程度值,/>表示字符种类数,/>表示以2为底的对数函数。
在差异变量的公式模型中,当根据待测偏差程度值和初始偏差程度值获取的差异值越小时,说明在当前待测长度值下,每类字符的长度比例值和每类字符的频率之间的贴合程度,比在初始长度值下每类字符的长度比例值和每类字符的频率之间的贴合程度好,然后再与字符种类数相乘获得差异变量。
至此,通过分析在分布累计表长度值下每类字符的长度比例值和每类字符的频率之间的偏差程度值,获得了待测长度值相较于初始长度值的优化程度的另一指标,差异变量,可在后续过程中将差异变量与基础变量进行结合,完成对待测长度值优化程度的评价。
步骤S5:根据基础变量和差异变量获得待测长度值的优化程度值;根据长度区间中所有分布累计表长度值的优化程度值获得最优分布累计表长度值;根据最优分布累计表长度值完成待处理数据的压缩。
将步骤S3中获得的基础变量和步骤S4中获得的差异变量进行结合,获得待测分布累计表长度的优化程度值。
优选地,本发明一个实施例中优化程度值的获取方法包括:
将待测长度值对应的基础变量的值与差异变量的值相加,相加后的值进行负相关映射,作为优化程度值。优化程度值的公式模型具体可以例如:
其中,表示待测长度值的优化程度值,/>表示待测长度值对应的差异变量,/>表示待测长度值对应的基础变量。
在优化程度值的公式模型中,由于分布累计表长度值的增加,会导致基础编码长度增加进而造成最终编码长度的增加,因此根据待测长度值与初始长度值的差异获取到的基础变量的值应该越小越好,且为负数时最好;同时分布累计表长度值的增加,也会导致每类字符的长度比例值和每类字符的频率之间的偏差程度值越小,那么根据待测长度值与初始长度值的偏差程度值的差异获取到的差异变量的值也是越小越好,且为负数时最好,因此在优化程度值的获取过程中,将基础变量的值和差异变量的值相加,并进行负相关映射完成逻辑关系矫正,获取优化程度值。
基于上述方法即可获得长度区间中所有分布累计表长度值的优化程度值,而越大的优化程度值说明分布累计表长度越好,故将所有优化程度值中最大的优化程度值对应的分布累计表长度值作为最优分布累计表长度值。
在获取到最优分布累计表长度值后,即可根据最优分布累计表长度值完成待处理数据的压缩。
优选地,本发明一个实施例中根据最优分布累计表长度完成待处理数据的压缩,包括:
由于本发明实施例中是对RANS熵编码算法中的分布累计表长度值进行改进,因此首先根据最优分布累计表长度值获取最优分布累计表;然后基于RANS熵编码根据最优分布累计表完成待处理数据的压缩。需要说明的是,RANS熵编码为本领域技术人员熟知的技术手段,在此不做赘述。
至此,本发明实施例通过分析分布累计表长度变化对最终数据压缩的影响,在保证分布累计表长度值较短的前提下,使得分布累计表中各类字符所分配的长度比例值与其在数据中的频率更加贴切,提高了数据的压缩效率。
综上所述,本发明实施例主要分析在基于RANS熵编码对光电通信系统中的数据进行压缩时,分布累计表长度的变化对最终数据压缩效率的影响,进而筛选出最优的分布累计表长度值,提高数据压缩效率。首先获取光电通信系统中的待处理数据,并将其转换为字符序列;由于常规情况下,RANS熵编码的分布累计表长度为以2为底,字符种类数作为指数,将其作为初始长度值;然后根据字符种类数和每类字符的字符频次获得分布累计表长度区间,遍历该区间内每个整数的分布累计表长度值,分析其对于初始长度值的优化程度值;将区间中任一整数分布累计表长度值作为待测长度值,优化程度值主要由两个方面获取,其一为根据待测长度值和初始长度值的差异获取的基础变量,基础变量表征了分布累计表长度值变化时对基础编码长度的影响;另一方面为分析每类字符在分布累计表长度中所分配的长度比例值和其在数据中的频率之间的偏差程度值,然后根据待测长度值的偏差程度值与初始长度值的偏差程度值之间的差异获得差异变量,差异变量可以反映出分布累计表长度值变化时对字符所分配的长度比例值和其频率之间的贴切程度的影响;然后将二者进行结合,即可获得待测长度值的优化程度值;然后将最大的优化程度值对应的分布累计表长度值作为最优分布累计表长度值,最后基于RANS熵编码根据最优分布累计表长度值完成光电系统中数据的压缩;本发明实施例通过分析分布累计表长度变化后对编码长度增大和减小的对抗关系,对分布累计表长度值进行筛选,获取最优分布累计表长度值,从而达到提高数据压缩效率的效果。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (8)
1.一种光电通信系统的数据处理方法,其特征在于,所述方法包括:
获取光电通信系统中的待处理数据;获取所述待处理数据的字符种类数、字符总数以及每类字符的字符频次;
根据所述字符种类数和每类字符的字符频次获得分布累计表的长度区间;根据所述字符种类数获得分布累计表的初始长度值;
以所述长度区间中任一整数分布累计表长度值作为待测长度值;根据所述待测长度值与所述初始长度值的差异获得基础变量;
根据所述初始长度值、所述字符总数和所述字符种类数获得初始偏差程度值;根据所述待测长度值、所述字符总数和所述字符种类数获得待测偏差程度值;根据所述初始偏差程度值和所述待测偏差程度值的差异以及所述字符种类数,获得差异变量;
根据所述基础变量和所述差异变量获得所述待测长度值的优化程度值;根据所述长度区间中所有分布累计表长度值的优化程度值获得最优分布累计表长度值;根据所述最优分布累计表长度值完成所述待处理数据的压缩;
所述初始偏差程度值的获取方法包括:
根据每类字符的字符频次和所述字符总数获得每类字符的字符频率;
将所述初始长度值与每类字符的所述字符频率相乘的值作为每类字符的第一初始分配值;将所述第一初始分配值的小数部分作为第一小数,对所有的第一初始分配值进行四舍五入取整操作,获得第一最终分配值;
根据各类字符的第一最终分配值的和值与所述初始长度值的差异对每类字符的第一最终分配值进行长度调整操作,获得第一分配长度值;
将每类字符第一分配长度值与所述初始长度值的比值作为每类字符的第一长度比例值;以每类字符的第一长度比例值为底数,字符频率为指数,作为每类字符的初始贴切量;将各类字符的所述初始贴切量进行累乘获得初始贴切程度值;根据所述初始贴切程度值获得初始偏差程度值,所述初始贴切程度值和所述初始偏差程度值呈负相关;
所述待测偏差程度值的获取方法包括:
根据每类字符的字符频次和所述字符总数获得每类字符的字符频率;
将所述待测长度值与每类字符的所述字符频率相乘的值作为每类字符的第二初始分配值;将所述第二初始分配值的小数部分作为第二小数,对所有的第二初始分配值进行四舍五入取整操作,获得第二最终分配值;
根据各类字符的第二最终分配值的和值与所述待测长度值的差异对每类字符的第二最终分配值进行长度调整操作,获得第二分配长度值;
将每类字符的第二分配长度值与所述待测长度值的比值作为每类字符的第二长度比例值;以每类字符的第二长度比例值为底数,字符频率为指数,作为每类字符的待测贴切量;将各类字符的所述待测贴切量进行累乘获得待测贴切程度值;根据所述待测贴切程度值获得待测偏差程度值,所述待测贴切程度值和所述待测偏差程度值呈负相关。
2.根据权利要求1所述的一种光电通信系统的数据处理方法,其特征在于,所述长度区间的获取方法包括:
将所述字符种类数作为所述长度区间的下限;
获取各类字符的字符频次的最大公因数,将所述字符总数与所述最大公因数的比值作为所述长度区间的上限;
根据所述长度区间的下限和上限获得所述分布累计表的所述长度区间。
3.根据权利要求1所述的一种光电通信系统的数据处理方法,其特征在于,所述基础变量的公式模型包括:
其中,表示基础变量,/>表示待测长度值,/>表示初始长度值,/>表示以2为底的对数函数,/>表示向上取整函数。
4.根据权利要求1所述的一种光电通信系统的数据处理方法,其特征在于,所述根据各类字符的第一最终分配值的和值与所述初始长度值的差异对每类字符的第一最终分配值进行长度调整操作,获得第一分配长度值,包括:
当各类字符的第一最终分配值的和值大于所述初始长度值时,将大于等于0.5的所有的第一小数中的最小值对应的第一最终分配值减1;当各类字符的第一最终分配值的和值小于所述初始长度值时,将小于0.5的所有的第一小数中的最大值对应的第一最终分配值加1;
直至各类字符的第一最终分配值的和值等于所述初始长度值时,结束长度调整操作,获得各类字符的第一分配长度值。
5.根据权利要求1所述的一种光电通信系统的数据处理方法,其特征在于,所述根据各类字符的第二最终分配值的和值与所述待测长度值的差异对每类字符的第二最终分配值进行长度调整操作,获得第二分配长度值,包括:
当各类字符的第二最终分配值的和值大于所述待测长度值时,将大于等于0.5的所有的第二小数中的最小值对应的第二最终分配值减1;当各类字符的第二最终分配值的和值小于所述待测长度值时,将小于0.5的所有的第二小数中的最大值对应的第二最终分配值加1;
直至各类字符的第二最终分配值的和值等于所述待测长度值时,结束长度调整操作,获得各类字符的第二分配长度值。
6.根据权利要求1所述的一种光电通信系统的数据处理方法,其特征在于,所述差异变量的公式模型包括:
其中,表示差异变量,/>表示初始偏差程度值,/>表示待测偏差程度值,/>表示字符种类数,/>表示以2为底的对数函数。
7.根据权利要求1所述的一种光电通信系统的数据处理方法,其特征在于,所述优化程度值的获取方法包括:
将所述基础变量的值与所述差异变量的值相加并进行负相关映射后作为所述优化程度值。
8.根据权利要求1所述的一种光电通信系统的数据处理方法,其特征在于,所述根据所述最优分布累计表长度值完成所述待处理数据的压缩,包括:
根据所述最优分布累计表长度值获取最优分布累计表;
基于RANS熵编码根据所述最优分布累计表完成所述待处理数据的压缩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311451245.1A CN117176178B (zh) | 2023-11-03 | 2023-11-03 | 一种光电通信系统的数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311451245.1A CN117176178B (zh) | 2023-11-03 | 2023-11-03 | 一种光电通信系统的数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117176178A CN117176178A (zh) | 2023-12-05 |
CN117176178B true CN117176178B (zh) | 2024-04-12 |
Family
ID=88939891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311451245.1A Active CN117176178B (zh) | 2023-11-03 | 2023-11-03 | 一种光电通信系统的数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117176178B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03230258A (ja) * | 1990-02-06 | 1991-10-14 | Matsushita Electric Ind Co Ltd | 中国語連続漢字変換装置 |
CN101686102A (zh) * | 2008-09-27 | 2010-03-31 | 上海瑞高信息技术有限公司 | 移动多媒体广播的数据压缩 |
CN114520659A (zh) * | 2022-02-21 | 2022-05-20 | 上海大学 | 结合rANS和LZ4编码的数据无损压缩、解码方法 |
CN116319069A (zh) * | 2023-05-11 | 2023-06-23 | 山东德源电力科技股份有限公司 | 基于hplc双模载波通信的存储器数据加密方法 |
CN116915258A (zh) * | 2023-09-12 | 2023-10-20 | 湖南省湘辉人力资源服务有限公司 | 一种企业薪酬管理方法及系统 |
CN116961675A (zh) * | 2023-09-20 | 2023-10-27 | 长春医学高等专科学校(长春职工医科大学长春市医学情报所) | 一种医疗护理数据智能处理方法 |
-
2023
- 2023-11-03 CN CN202311451245.1A patent/CN117176178B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03230258A (ja) * | 1990-02-06 | 1991-10-14 | Matsushita Electric Ind Co Ltd | 中国語連続漢字変換装置 |
CN101686102A (zh) * | 2008-09-27 | 2010-03-31 | 上海瑞高信息技术有限公司 | 移动多媒体广播的数据压缩 |
CN114520659A (zh) * | 2022-02-21 | 2022-05-20 | 上海大学 | 结合rANS和LZ4编码的数据无损压缩、解码方法 |
CN116319069A (zh) * | 2023-05-11 | 2023-06-23 | 山东德源电力科技股份有限公司 | 基于hplc双模载波通信的存储器数据加密方法 |
CN116915258A (zh) * | 2023-09-12 | 2023-10-20 | 湖南省湘辉人力资源服务有限公司 | 一种企业薪酬管理方法及系统 |
CN116961675A (zh) * | 2023-09-20 | 2023-10-27 | 长春医学高等专科学校(长春职工医科大学长春市医学情报所) | 一种医疗护理数据智能处理方法 |
Non-Patent Citations (1)
Title |
---|
多普勒频率数据质量评估方法研究;董凯;胡绍林;;导航定位学报(第01期);第21-24页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117176178A (zh) | 2023-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116828070B (zh) | 一种智慧电网数据优化传输方法 | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN116582133B (zh) | 一种变压器生产过程数据智能管理系统 | |
CN116915259B (zh) | 基于物联网的仓配数据优化储存方法及系统 | |
CN117692012B (zh) | 一种智能睡袋温度数据远程监测传输方法 | |
CN116760908B (zh) | 基于数字孪生的农业信息优化管理方法及系统 | |
CN118134539B (zh) | 基于智慧厨房多源数据融合的用户行为预测方法 | |
CN117278054B (zh) | 一种智慧电网监控数据存储方法及系统 | |
CN117608499B (zh) | 一种基于物联网的智慧交通数据优化存储方法 | |
CN118051187A (zh) | 一种交易处理系统中的数据存储方法及系统 | |
CN115987294A (zh) | 一种物联网的多维数据处理方法 | |
CN117176178B (zh) | 一种光电通信系统的数据处理方法 | |
CN116089777A (zh) | 一种基于信息智能匹配的新能源智能结算方法及系统 | |
CN118796914B (zh) | 基于常数近似的工业时序数据再表征方法、设备及介质 | |
CN117155402B (zh) | 基于rpa技术的公卫健康智能体检服务系统 | |
CN116934487B (zh) | 一种金融清算数据优化存储方法及系统 | |
CN117040542B (zh) | 一种智能综合配电箱能耗数据处理方法 | |
CN117312613B (zh) | 基于云计算的订单数据智能管理方法及系统 | |
CN117785818A (zh) | 一种气相色谱仪数据优化存储方法及系统 | |
CN115833843A (zh) | 一种车辆运行监控数据存储优化方法及管理平台 | |
CN117171399B (zh) | 基于云平台的新能源数据优化存储方法 | |
CN118590072B (zh) | 一种智慧农业信息管理系统 | |
CN119155117B (zh) | 一种基于互联网的信息平台数据安全传输方法及系统 | |
CN117767960B (zh) | 一种传感器数据优化采集存储方法 | |
CN117093666B (zh) | 一种用于沉浸式企业办公系统的数据存储方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |