[go: up one dir, main page]

CN117648681B - 一种ofd版式电子文档隐藏信息提取嵌入方法 - Google Patents

一种ofd版式电子文档隐藏信息提取嵌入方法 Download PDF

Info

Publication number
CN117648681B
CN117648681B CN202410123051.7A CN202410123051A CN117648681B CN 117648681 B CN117648681 B CN 117648681B CN 202410123051 A CN202410123051 A CN 202410123051A CN 117648681 B CN117648681 B CN 117648681B
Authority
CN
China
Prior art keywords
chinese character
chinese
stroke
characters
initial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410123051.7A
Other languages
English (en)
Other versions
CN117648681A (zh
Inventor
杨瑞钦
范红达
陆猛
朱静宇
赵云
庄玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dianju Information Technology Co ltd
Original Assignee
Beijing Dianju Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dianju Information Technology Co ltd filed Critical Beijing Dianju Information Technology Co ltd
Priority to CN202410123051.7A priority Critical patent/CN117648681B/zh
Publication of CN117648681A publication Critical patent/CN117648681A/zh
Application granted granted Critical
Publication of CN117648681B publication Critical patent/CN117648681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及文档信息处理技术领域,具体涉及一种OFD版式电子文档隐藏信息提取嵌入方法,该方法包括:获取OFD版式电子文档;结合OCR算法提取隐写载体文本,并获取汉字初始分组;对汉字初始分组汉字与汉字成词的字频特征构建字频共现粘连度;构建汉字笔画对照矩阵;获取各汉字的汉字笔画矩阵以及笔形顺序序列;对汉字初始分组各汉字与其他汉字之间的差异特征进行分析,获取汉字笔法隐写嵌入评价因子;完成各段落的分组;结合各汉字的汉字笔法隐写嵌入评价因子完成隐藏信息的嵌入。本发明旨在解决因汉字分组不均造成的汉字隐写嵌入不均和易被检测的缺陷,从而提高隐藏信息的嵌入质量。

Description

一种OFD版式电子文档隐藏信息提取嵌入方法
技术领域
本申请涉及文档信息提取技术领域,具体涉及一种OFD版式电子文档隐藏信息提取嵌入方法。
背景技术
OFD(Open Fixed-layout Document)是一种用于存储办公文档的电子文档标准,是一种根据OFD标准创建的文档,支持多媒体、数字签名,并且有多平台系统兼容的优点。文本隐写术是将隐藏信息嵌入文本中的信息隐藏技术,在信息安全、版权保护和文本隐写溯源等领域有广泛应用。
基于汉字微变形的隐写术具备技术实现简单、视觉不可察觉和中文文本适应性的优点,其利用汉字笔画上微小的变化嵌入隐藏信息,不仅具有良好的隐蔽性和鲁棒性,而且能够保持文本的可读性和语音完整性。但是该算法也存在一定的问题,在隐写嵌入过程中,汉字分组的大小将影响文本嵌入率和提取难度。传统的汉字分组往往采用均匀分组和随机分组,均匀分组直接将文本分成相等大小的汉字块而容易导致汉字的局部异常,使隐藏信息集中在单个分组内;随机分组增加隐写嵌入和提取的难度,此外还可能导致文本的不自然性增加。
发明内容
为了解决上述技术问题,本发明提供一种OFD版式电子文档隐藏信息提取嵌入方法,以解决现有的问题。
本发明的一种OFD版式电子文档隐藏信息提取嵌入方法采用如下技术方案:
本发明一个实施例提供了一种OFD版式电子文档隐藏信息提取嵌入方法,该方法包括以下步骤:
获取OFD版式电子文档;采用OCR算法提取OFD版式电子文档各句子序列组成隐写载体文本;将隐写载体文本中同一句子的汉字作为汉字初始分组;根据各汉字在文本和段落中的分布获取汉字字频表;
对于载体文本中的各汉字初始分组;根据汉字初始分组各汉字在汉字字频表中的字频特征获取汉字初始分组各汉字的字频联合系数;根据汉字初始分组各汉字与其余汉字组成词的概率结合各汉字的字频联合系数获取汉字初始分组中各汉字的字频共现粘连度;根据隐写载体文本中所有汉字的笔画特征构建汉字笔画对照矩阵;根据汉字初始分组各汉字的笔画特征结合汉字笔画对照矩阵获取各汉字的汉字笔画矩阵以及笔形顺序序列;根据汉字初始分组各汉字的汉字笔画矩阵以及字频共现粘连度获取汉字初始分组各汉字的汉字笔画双端区分度;
根据汉字初始分组各汉字与其他汉字之间的笔画矩阵、笔形顺序序列的差异特征结合汉字笔画双端区分度获取汉字初始分组各汉字的汉字笔法隐写嵌入评价因子;根据隐写载体文本各段落中汉字的汉字笔法隐写嵌入评价因子分布特征完成各段落的分组;
结合各汉字的汉字笔法隐写嵌入评价因子完成隐藏信息的嵌入。
优选的,所述根据各汉字在文本和段落中的分布获取汉字字频表,具体包括:
对于隐写文本中的各汉字;
将各汉字在其段落出现的概率作为各汉字的段概率;将各汉字在全文出现的概率作为各汉字的文概率;
将所有汉字的段概率和文概率组成的表保存为汉字字频表。
优选的,所述根据汉字初始分组中各汉字在汉字字频表中的字频特征获取汉字初始分组中各汉字的字频联合系数,具体为:
获取各汉字在汉字字频表中的段概率和文概率;预设第一权重调节因子和第二权重调节因子;计算各汉字所述段概率与所述第一权重调节因子的乘积;计算各汉字所述文概率与所述第二权重调节因子相乘的结果;将所述乘积与所述结果的和值作为各汉字的字频联合系数。
优选的,所述根据汉字初始分组中各汉字与其余汉字组成词的概率结合各汉字的字频联合系数获取汉字初始分组中各汉字的字频共现粘连度,具体为:
预设词的长度记为,其中,词的长度为词包含的汉字个数;第k个汉字初始分组第i个汉字的字频共现粘连度的字频共现粘连度/>,表达式为:
式中,表示第k个汉字初始分组第i个汉字的字频联合系数,/>、/>分别表示第k个汉字初始分组中第i个汉字、第i-1个汉字、第i-n-1个汉字,表示计数函数。
优选的,所述根据隐写载体文本中所有汉字的笔画特征构建汉字笔画对照矩阵,具体为:
获取隐写载体文本中出现概率高的前种笔画;对各笔画从1开始进行编号;将所述笔画以及对应编号作为汉字笔画对照矩阵的各元素,其中/>为预设值。
优选的,所述根据汉字初始分组各汉字的笔画特征结合汉字笔画对照矩阵获取各汉字的汉字笔画矩阵以及笔形顺序序列,具体为:
获取汉字初始分组各汉字的笔画集合以及笔画序列;
若汉字对照矩阵各元素出现在所述笔画集合中,则标记对应元素位置为1,否则为0;将标记结果作为各汉字的汉字笔画矩阵;
将各汉字的笔画序列各元素对应汉字笔画对照矩阵中的编号作为各汉字的笔形顺序序列的各元素。
优选的,所述根据汉字初始分组各汉字的汉字笔画矩阵以及字频共现粘连度获取汉字初始分组各汉字的汉字笔画双端区分度,具体步骤包括:
对于汉字初始分组中的各汉字;
计算各汉字的汉字笔画矩阵的F范数;计算各汉字前后汉字的汉字笔画矩阵的和值;计算以2为底数,各汉字的字频共现粘连度的归一化值为真数的对数函数值;计算所述对数函数值与所述和值的F范数的乘积;将所述F范数与所述乘积的比值作为汉字初始分组各汉字的汉字笔画双端区分度。
优选的,所述根据汉字初始分组各汉字与其他汉字之间的笔画矩阵、笔形顺序序列的差异特征结合汉字笔画双端区分度获取汉字初始分组各汉字的汉字笔法隐写嵌入评价因子,具体步骤包括:
针对第k个汉字初始分组中第i个汉字;
第k个汉字初始分组中第i个汉字的笔法惩罚因子,表达式为:
式中,表示第k个汉字初始分组内汉字的个数,/>、/>分别表示在隐写载体文本中第k个汉字初始分组中第j个、第i个汉字的笔形顺序序列,/>表示DTW距离,/>分别表示在隐写载体文本中第k个汉字初始分组中第j个、第i个汉字的笔画矩阵,表示矩阵的L1范数;
将所述笔法惩罚因子作为以自然常数为底数的指数函数的指数;计算所述指数函数与所述汉字的汉字笔画双端区分度的乘积;获取所述汉字的笔形顺序序列的长度;计算以2为底数,所述长度与1的和值为真数的对数函数值;将所述乘积与所述对数函数值的比值作为所述汉字的汉字笔法隐写嵌入评价因子。
优选的,所述根据隐写载体文本各段落中汉字的汉字笔法隐写嵌入评价因子分布特征获取各段落的分组大小,具体为:
对于隐写载体文本的各段落;
将各汉字的汉字笔法隐写嵌入评价因子的相反数作为以自然常数为底数的指数函数的指数;将各段落所有汉字所述指数函数的和值作为各段落的分组因子;预设分组调节因子;将所述分组因子向下取整的值与所述分组调节因子之中的最大值作为各段落的分组大小。
优选的,所述结合各汉字的汉字笔法隐写嵌入评价因子完成隐藏信息的嵌入,具体包括:
针对分组后的各汉字组;
获取各汉字组中汉字笔法隐写嵌入评价因子最大的汉字,按照隐写字库对所述汉字进行微变形操作完成隐藏信息的嵌入。
本发明至少具有如下有益效果:
本发明主要通过构建汉字笔画矩阵得到汉字笔画双端区分度,衡量在隐写载体文本中的汉字复杂度,为了对汉字组成成分相同而字义不同的汉字进行区分构建汉字笔形顺序序列,对汉字笔画矩阵和笔形顺序序列分析得到汉字笔法隐写嵌入评价因子,最终决定段落内汉字分组的大小。与传统的均匀分组和随机分组相比,解决了因汉字分组不均造成的汉字隐写嵌入不均和易被检测的缺陷,通过汉字笔画矩阵和笔形顺序序列衡量汉字的笔法信息,由此构建段落汉字分组的大小,使得隐写信息均匀嵌入到隐写载体文本中,在提高嵌入率的同时,提高嵌入算法的鲁棒性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明提供的一种OFD版式电子文档隐藏信息提取嵌入方法的流程图;
图2为汉字笔画对照矩阵示意图;
图3为分组大小的获取流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种OFD版式电子文档隐藏信息提取嵌入方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种OFD版式电子文档隐藏信息提取嵌入方法的具体方案。
本发明一个实施例提供的一种OFD版式电子文档隐藏信息提取嵌入方法。
具体的,提供了如下的一种OFD版式电子文档隐藏信息提取嵌入方法,请参阅图1,该方法包括以下步骤:
步骤S001:获取OFD版式电子文档作为隐写载体文本,进行汉字数据提取。
首先获取需要隐写的文本信息,本实施例采用OCR(Optical CharacterRecognition)算法对文本数据进行文字提取,由于OCR算法为公知技术,本实施例不再赘述。通过向OCR算法中输入OFD版式电子文档,输出对应的汉字序列,得到待隐写文本汉字数据,为了简化描述,本实施例统称为隐写载体文本。
由于隐写载体文本通常含有很多汉字,得到的文本汉字序列长度较长,不利于对汉字隐写进行分析。因此根据隐写载体文本中原始的段落和句子划分,用表示隐写载体文本中第k个句子的第i个汉字,将句子划分的汉字分组称为汉字初始分组。
至此,得到隐写载体文本以及汉字初始分组。
步骤S002:根据隐写载体文本中汉字的频率与汉字之间的关联度得到字频共现粘连度,为了衡量汉字隐写信息的可行性构建汉字笔画矩阵,根据汉字的笔画矩阵和字频共现粘连度得到汉字笔画双端区分度,同时结合汉字的笔画顺序构建笔形顺序序列,针对当前初始分组内的汉字信息得到汉字笔法隐写嵌入评价因子,最终得到当前段落自适应汉字分组大小。
通常汉字字形是由各种特定的点和线的最小结构单位组成,每个汉字可以分为部件、笔画和笔形三个层次在二维空间排列组合而成,通过调整汉字的笔画和结构,使得汉字的细微变化而赋予汉字特殊的意义,由此实现汉字的隐写。基于汉字微变形的隐写术通过改变汉字的微小笔画对汉字进行区分,不同字形笔画差异组成的汉字对应不同的信息,因此实现汉字文本隐藏信息传递的目的。而汉字分组将严重影响隐藏信息的嵌入率和隐写效果,由此需要对汉字分组进行自适应调整。
在文本隐写术中,将隐写信息嵌入文本的过程中,汉字分组的大小直接决定隐写系统的性能和可靠性。合适的汉字分组有利于让隐藏信息均匀嵌入到各个分组中,提高隐藏信息的嵌入率,由于隐藏信息被分散到全文中,提高了隐藏信息被发现的难度和算法鲁棒性,能够提高隐写效率。由此需要根据隐写载体文本中的汉字信息,对汉字的分组进行自适应调整。
统计信息得到隐写载体文本全文的汉字字频表B,即统计得到每个汉字的出现的字频,能够得到对应第i个汉字的段概率和文概率,其中段概率和文概率分别表示当前汉字在本段中和本文中出现的概率。
虽然汉字是一个独立的个体,但是每个汉字不是单独存在的,汉字之间往往存在着语义关联性,而汉字之间的关联性往往通过词语或成语的形式体现出来。由此结合每个汉字出现的概率和汉字之间的关联性能够得到当前汉字的字频共现粘连度,表达式为:
式中,表示第k个汉字初始分组中第i个汉字的字频共现粘连度,/>表示第k个汉字初始分组中第i个汉字的字频联合系数,/>表示词的长度,/>、/>分别表示第k个汉字初始分组中第i个汉字、第i-1个汉字,第i-n-1个汉字,表示计数函数,/>、/>分别表示第k个汉字初始分组第i个汉字在汉字字频表中的段概率、文概率,/>、/>分别表示第一、第二权重调节因子。需要说明的是,词语的长度用汉字的个数来衡量,一般为2、3、4,本实施例设置/>,根据经验设置,实施者可根据实际情况自行设定。
进一步需要说明的是,表示第k个汉字初始分组中第/>到第/>个汉字顺序组合出现的次数,其中当/>时则取当前汉字初始分组能取到的范围,对i=1时设定值为0。
字频共现粘连度反映了当前汉字在文中出现的字频和汉字成词的关联情况。若在初始分组内当前汉字关联较为紧密时,汉字组合出现概率较大,即的值较大,此外该汉字在文中出现的概率大时得到字频联合系数的值较大,最终使得当前汉字的字频共现粘连度的值较大。相反,若当前汉字相对独立且在全文中出现的概率较低时,最终得到当前汉字的字频共现粘连度的值较小。
由于汉字之间存在关联的情况,若对汉字关联较为紧密和出现率较大的汉字进行隐写时相对容易被发现,而对于文中相对独立和出现概率较低的汉字是隐藏信息的最好隐写载体。字频共现粘连度通过分析汉字之间的关联和单个汉字字频的关系,得到汉字在语义上的隐写的可行性,而这样可能筛选出汉字可能存在隐写难度较大的可能,比如如果通过字频共现粘连度筛选出的汉字为“一”,由于笔画简单,如果对其隐写时同样容易被发现。
汉字与汉字之间存在汉字的关联关系,而针对单个汉字是由若干个汉字笔画共同组成的,不同汉字由于笔画不同对汉字隐写信息的难度是不同的,当汉字笔画越复杂表明该汉字越容易隐写信息并且不容易被检测到。根据《GB13000.1字符集汉字折笔规范》中印刷楷体汉字的标准,通常把汉字的笔画划分为32种,根据隐写载体文本中出现概率高的前25种笔画,如:点、横、竖、撇、捺、提、横折、横撇、横钩、横折钩、横折提、横折弯、横折折、横斜钩、竖钩、竖弯钩、竖折撇、撇点、撇折、斜钩、竖提、竖弯、竖折折、卧钩以及其他笔画,构建汉字笔画对照矩阵,如图2所示。汉字笔画矩阵为的矩阵,当汉字对应的笔画出现记为1,不论笔画出现多少次只要出现对应笔画为1,因此在汉字笔画矩阵中只有0和1,如针对汉字“湖”构建的汉字笔画矩阵/>
针对汉字初始分组中的每个汉字得到其对应的汉字笔画矩阵/>,由此结合汉字笔画矩阵和字频共现粘连度,能够得到汉字笔画双端区分度,表达式为:
式中,表示在隐写载体文本中第k个汉字初始分组中第i个汉字的汉字笔画双端区分度,/>表示在隐写载体文本中第k个汉字初始分组中第i个汉字的汉字笔画矩阵,表示矩阵的F范数,/>表示以2为底数的对数函数,/>表示在隐写载体文本中第k个汉字初始分组中第i个汉字归一化后的字频共现粘连度,/>、/>分别表示在隐写载体文本中第k个汉字初始分组中第i-1个、第i+1汉字的汉字笔画矩阵。需要说明的是,F范数的计算为现有公知技术,本实施例中不再赘述。
汉字笔画双端区分度能够反映当前汉字的独立性和笔画复杂度,往往笔画越复杂的汉字越容易进行信息隐写。若汉字笔画构成越复杂,得到对应的汉字笔画矩阵的范数值越大,而该汉字与前后汉字的区分度越大,两者之间的比值越大,即的值越大,同时当该汉字的相对较为独立,得到归一化字频共现粘连度的值较小,最终使得汉字笔画双端区分度的值增大。相反,若当前汉字相对较为简单与汉字之间的关联程度较大,使得汉字笔画双端区分度的值减小。
通过汉字笔画双端区分度实现对汉字笔画复杂度的衡量,但是其中存在一定的缺陷,汉字笔画矩阵是通过笔画进行汉字构建,只能表征汉字的组成成分差异。而较为复杂的汉字往往能够包含汉字笔画矩阵的所有笔画,因此通过笔画矩阵无法对汉字进行区分,需要在笔画的基础上进一步分析,根据在汉字笔画矩阵的基础上构建笔形顺序序列,这里以“湖”为例:/>,由此针对笔画矩阵中的序号构建得到的笔形顺序序列/>
由此针对当前初始分组内的汉字构建汉字笔形顺序序列,用来降低部分汉字组成成分相同,即汉字笔画矩阵相同对汉字隐写造成的干扰。针对初始分组内根据汉字笔画和笔形构建汉字笔法隐写嵌入评价因子,表达式为:
式中,表示第k个汉字初始分组中第i个汉字的汉字笔法隐写嵌入评价因子,/>表示第k个汉字初始分组中第i个汉字的汉字笔画双端区分度,/>表示在第k个汉字初始分组中第i个汉字的笔法惩罚因子,/>表示获取序列的长度,/>表示第k个汉字初始分组内汉字的个数,/>、/>分别表示在隐写载体文本中第k个汉字初始分组中第j个、第i个汉字的笔形顺序序列,/>表示DTW距离,/>、/>分别表示在隐写载体文本中第k个汉字初始分组中第j个、第i个汉字的笔画矩阵,/>表示矩阵的L1范数。需要说明的是,DTW距离、L1范数的计算为现有公知技术,本实施例中不再赘述。
汉字笔法隐写嵌入评价因子是通过对当前初始分组内的汉字笔画和笔形进行综合评价得到,能够综合衡量当前汉字隐写嵌入成功可行性。若当前汉字的笔画较为复杂并且笔形较为特殊,与当前分组内的其他汉字的区分度较大,得到当前汉字的笔法惩罚因子较大,此外当前汉字的独立性和笔画复杂度较高,得到的汉字笔画双端区分度的值较大,最终得到汉字笔法隐写嵌入评价因子的值较大。相反,若当前汉字的笔画和笔形相对简单,并且与前后汉字的关联度较高,最终得到汉字笔法隐写嵌入评价因子的值较小。其中需要注意的是对汉字隐写时并不是越复杂的汉字越好,当某个汉字过度复杂时,虽然比较容易隐写,但是由于过度复杂的特异性比较容易引起关注,因此通过添加笔形序列长度进行微调,对于较为复杂汉字的汉字笔法隐写嵌入评价因子进行适当调小。
遍历当前段落内的每个汉字都能得到对应的汉字笔法隐写嵌入评价因子,能够反映每个汉字的嵌入成功可行性,由此针对当前段落内每个汉字的汉字笔法隐写嵌入评价因子,实现对段落汉字自适应分组:
式中,表示隐写载体文本第c个段落的分组因子,/>表示在隐写载体文本中第c个段落内初始分组的个数,/>表示当前汉字初始分组内汉字的个数,/>表示在隐写载体文本中第k个汉字初始分组中第i个汉字的汉字笔法隐写嵌入评价因子,exp()表示以自然常数为底数的指数函数/>表示在隐写载体文本中第c个段落的分组大小,/>表示最大值函数,/>表示向下取整,/>表示分组调节因子,根据经验设置/>。其中,各段落的分组大小的获取流程如图3所示。
若当前段落内每个汉字较为复杂并且较为独立,即每个汉字都能够较为容易隐写信息,此时需要降低汉字分组的大小,提高当前段落内的隐写文字嵌入率。若当前段落内汉字字形相对简单并且汉字之间的关联性较强,此时应当提高汉字分组的大小,提高隐藏信息隐写的成功率。
步骤S003:通过每个段落的自适应分组大小,对隐写载体文本进行汉字分组,对每个汉字分组内的汉字进行隐写,并在接收端进行隐写提取。
通过上述步骤能够得到当前段落的自适应分组大小,能够根据当前段落内的汉字的复杂程度和独立性进行自适应调整。由此针对当前段落内的自适应分组大小进行汉字分组,在分组后的汉字组中,对每个汉字的汉字笔法隐写嵌入评价因子进行从大到小排序,对汉字笔法隐写嵌入评价因子最大的汉字按隐写字库进行汉字隐写,将汉字笔画进行微变形,用来表示隐藏信息的二进制序列A中的二比特信息,由此实现隐藏信息嵌入,将隐藏信息嵌入后的隐藏载体文本称为隐藏文本。其中,微变形操作为现有公知技术,本实施例中不再赘述。
隐藏文本可以在公共信道内传输,通过发送方传递到接收方,而汉字隐写的字库是不能进行公共传输的。在接收方根据隐写文本和隐写字库进行汉字对比,通过字形识别获得字形编码,如“01”、“10”或“11”,并将获得的编码进行拼接由此得到隐藏文本中的隐写信息A。
综上所述,本发明实施例通过构建汉字笔画矩阵得到汉字笔画双端区分度,衡量在隐写载体文本中的汉字复杂度,为了对汉字组成成分相同而字义不同的汉字进行区分构建汉字笔形顺序序列,对汉字笔画矩阵和笔形顺序序列分析得到汉字笔法隐写嵌入评价因子,最终决定段落内汉字分组的大小。与传统的均匀分组和随机分组相比,解决了因汉字分组不均造成的汉字隐写嵌入不均和易被检测的缺陷,通过汉字笔画矩阵和笔形顺序序列衡量汉字的笔法信息,由此构建段落汉字分组的大小,使得隐写信息均匀嵌入到隐写载体文本中,在提高嵌入率的同时,提高嵌入算法的鲁棒性。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。

Claims (6)

1.一种OFD版式电子文档隐藏信息提取嵌入方法,其特征在于,该方法包括以下步骤:
获取OFD版式电子文档;采用OCR算法提取OFD版式电子文档各句子序列组成隐写载体文本;将隐写载体文本中同一句子的汉字作为汉字初始分组;根据各汉字在文本和段落中的分布获取汉字字频表;
对于载体文本中的各汉字初始分组;根据汉字初始分组各汉字在汉字字频表中的字频特征获取汉字初始分组各汉字的字频联合系数;根据汉字初始分组各汉字与其余汉字组成词的概率结合各汉字的字频联合系数获取汉字初始分组中各汉字的字频共现粘连度;根据隐写载体文本中所有汉字的笔画特征构建汉字笔画对照矩阵;根据汉字初始分组各汉字的笔画特征结合汉字笔画对照矩阵获取各汉字的汉字笔画矩阵以及笔形顺序序列;根据汉字初始分组各汉字的汉字笔画矩阵以及字频共现粘连度获取汉字初始分组各汉字的汉字笔画双端区分度;
根据汉字初始分组各汉字与其他汉字之间的笔画矩阵、笔形顺序序列的差异特征结合汉字笔画双端区分度获取汉字初始分组各汉字的汉字笔法隐写嵌入评价因子;根据隐写载体文本各段落中汉字的汉字笔法隐写嵌入评价因子分布特征完成各段落的分组;
结合各汉字的汉字笔法隐写嵌入评价因子完成隐藏信息的嵌入;
所述根据各汉字在文本和段落中的分布获取汉字字频表,具体包括:
对于隐写文本中的各汉字;
将各汉字在其段落出现的概率作为各汉字的段概率;将各汉字在全文出现的概率作为各汉字的文概率;
将所有汉字的段概率和文概率组成的表保存为汉字字频表;
所述根据汉字初始分组中各汉字在汉字字频表中的字频特征获取汉字初始分组中各汉字的字频联合系数,具体为:
获取各汉字在汉字字频表中的段概率和文概率;预设第一权重调节因子和第二权重调节因子;计算各汉字所述段概率与所述第一权重调节因子的乘积;计算各汉字所述文概率与所述第二权重调节因子相乘的结果;将所述乘积与所述结果的和值作为各汉字的字频联合系数;
所述根据汉字初始分组中各汉字与其余汉字组成词的概率结合各汉字的字频联合系数获取汉字初始分组中各汉字的字频共现粘连度,具体为:
预设词的长度记为,其中,词的长度为词包含的汉字个数;第k个汉字初始分组第i个汉字的字频共现粘连度的字频共现粘连度/>,表达式为:
式中,表示第k个汉字初始分组第i个汉字的字频联合系数,/>、/>分别表示第k个汉字初始分组中第i个汉字、第i-1个汉字、第i-n-1个汉字,表示计数函数;
所述根据汉字初始分组各汉字与其他汉字之间的笔画矩阵、笔形顺序序列的差异特征结合汉字笔画双端区分度获取汉字初始分组各汉字的汉字笔法隐写嵌入评价因子,具体步骤包括:
针对第k个汉字初始分组中第i个汉字;
第k个汉字初始分组中第i个汉字的笔法惩罚因子,表达式为:
式中, 表示第k个汉字初始分组内汉字的个数,/>、/>分别表示在隐写载体文本中第k个汉字初始分组中第j个、第i个汉字的笔形顺序序列,/>表示DTW距离,/>分别表示在隐写载体文本中第k个汉字初始分组中第j个、第i个汉字的笔画矩阵,表示矩阵的L1范数;
将所述笔法惩罚因子作为以自然常数为底数的指数函数的指数;计算所述指数函数与所述汉字的汉字笔画双端区分度的乘积;获取所述汉字的笔形顺序序列的长度;计算以2为底数,所述长度与1的和值为真数的对数函数值;将所述乘积与所述对数函数值的比值作为所述汉字的汉字笔法隐写嵌入评价因子。
2.如权利要求1所述的一种OFD版式电子文档隐藏信息提取嵌入方法,其特征在于,所述根据隐写载体文本中所有汉字的笔画特征构建汉字笔画对照矩阵,具体为:
获取隐写载体文本中出现概率高的前种笔画;对各笔画从1开始进行编号;将所述笔画以及对应编号作为汉字笔画对照矩阵的各元素,其中/>为预设值。
3.如权利要求1所述的一种OFD版式电子文档隐藏信息提取嵌入方法,其特征在于,所述根据汉字初始分组各汉字的笔画特征结合汉字笔画对照矩阵获取各汉字的汉字笔画矩阵以及笔形顺序序列,具体为:
获取汉字初始分组各汉字的笔画集合以及笔画序列;
若汉字对照矩阵各元素出现在所述笔画集合中,则标记对应元素位置为1,否则为0;将标记结果作为各汉字的汉字笔画矩阵;
将各汉字的笔画序列各元素对应汉字笔画对照矩阵中的编号作为各汉字的笔形顺序序列的各元素。
4.如权利要求1所述的一种OFD版式电子文档隐藏信息提取嵌入方法,其特征在于,所述根据汉字初始分组各汉字的汉字笔画矩阵以及字频共现粘连度获取汉字初始分组各汉字的汉字笔画双端区分度,具体步骤包括:
对于汉字初始分组中的各汉字;
计算各汉字的汉字笔画矩阵的F范数;计算各汉字前后汉字的汉字笔画矩阵的和值;计算以2为底数,各汉字的字频共现粘连度的归一化值为真数的对数函数值;计算所述对数函数值与所述和值的F范数的乘积;将所述F范数与所述乘积的比值作为汉字初始分组各汉字的汉字笔画双端区分度。
5.如权利要求1所述的一种OFD版式电子文档隐藏信息提取嵌入方法,其特征在于,所述根据隐写载体文本各段落中汉字的汉字笔法隐写嵌入评价因子分布特征获取各段落的分组大小,具体为:
对于隐写载体文本的各段落;
将各汉字的汉字笔法隐写嵌入评价因子的相反数作为以自然常数为底数的指数函数的指数;将各段落所有汉字所述指数函数的和值作为各段落的分组因子;预设分组调节因子;将所述分组因子向下取整的值与所述分组调节因子之中的最大值作为各段落的分组大小。
6.如权利要求1所述的一种OFD版式电子文档隐藏信息提取嵌入方法,其特征在于,所述结合各汉字的汉字笔法隐写嵌入评价因子完成隐藏信息的嵌入,具体包括:
针对分组后的各汉字组;
获取各汉字组中汉字笔法隐写嵌入评价因子最大的汉字,按照隐写字库对所述汉字进行微变形操作完成隐藏信息的嵌入。
CN202410123051.7A 2024-01-30 2024-01-30 一种ofd版式电子文档隐藏信息提取嵌入方法 Active CN117648681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410123051.7A CN117648681B (zh) 2024-01-30 2024-01-30 一种ofd版式电子文档隐藏信息提取嵌入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410123051.7A CN117648681B (zh) 2024-01-30 2024-01-30 一种ofd版式电子文档隐藏信息提取嵌入方法

Publications (2)

Publication Number Publication Date
CN117648681A CN117648681A (zh) 2024-03-05
CN117648681B true CN117648681B (zh) 2024-04-05

Family

ID=90046444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410123051.7A Active CN117648681B (zh) 2024-01-30 2024-01-30 一种ofd版式电子文档隐藏信息提取嵌入方法

Country Status (1)

Country Link
CN (1) CN117648681B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118487766A (zh) * 2024-05-06 2024-08-13 国网河南省电力公司经济技术研究院 基于数字签名的可信混合标记索引生成方法
CN118211194B (zh) * 2024-05-14 2024-08-16 北京国隐科技有限公司 一种业务系统的隐写处理方法、装置及设备

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5212769A (en) * 1989-02-23 1993-05-18 Pontech, Inc. Method and apparatus for encoding and decoding chinese characters
US6813367B1 (en) * 2000-09-11 2004-11-02 Seiko Epson Corporation Method and apparatus for site selection for data embedding
CN1740943A (zh) * 2004-08-27 2006-03-01 北京北大方正电子有限公司 一种文档加密方法
CN101639826A (zh) * 2009-09-01 2010-02-03 西北大学 一种基于中文句式模板变换的文本隐藏方法
CN103258314A (zh) * 2005-09-16 2013-08-21 北京书生国际信息技术有限公司 一种隐形编码嵌入和检测的方法
CN104834864A (zh) * 2015-04-09 2015-08-12 南京安斯克信息科技有限公司 一种基于拓扑不变性和图像变形的打印文档信息追溯方法
CN109992783A (zh) * 2019-04-03 2019-07-09 同济大学 中文词向量建模方法
CN111274793A (zh) * 2018-11-19 2020-06-12 阿里巴巴集团控股有限公司 一种文本处理方法、装置以及计算设备
CN114048314A (zh) * 2021-11-11 2022-02-15 长沙理工大学 一种自然语言隐写分析方法
CN115114597A (zh) * 2022-06-19 2022-09-27 北卡科技有限公司 一种基于文字信息的溯源水印嵌入及提取方法
CN115409020A (zh) * 2022-08-24 2022-11-29 杭州电子科技大学 基于字词平衡的汉字分组测试方法、系统和计算机可读存储介质
CN115952528A (zh) * 2023-03-14 2023-04-11 南京信息工程大学 一种多尺度联合文本隐写方法及系统
CN116192507A (zh) * 2023-02-27 2023-05-30 盐城工学院 一种基于深度学习的信息隐藏方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5212769A (en) * 1989-02-23 1993-05-18 Pontech, Inc. Method and apparatus for encoding and decoding chinese characters
US6813367B1 (en) * 2000-09-11 2004-11-02 Seiko Epson Corporation Method and apparatus for site selection for data embedding
CN1740943A (zh) * 2004-08-27 2006-03-01 北京北大方正电子有限公司 一种文档加密方法
CN103258314A (zh) * 2005-09-16 2013-08-21 北京书生国际信息技术有限公司 一种隐形编码嵌入和检测的方法
CN101639826A (zh) * 2009-09-01 2010-02-03 西北大学 一种基于中文句式模板变换的文本隐藏方法
CN104834864A (zh) * 2015-04-09 2015-08-12 南京安斯克信息科技有限公司 一种基于拓扑不变性和图像变形的打印文档信息追溯方法
CN111274793A (zh) * 2018-11-19 2020-06-12 阿里巴巴集团控股有限公司 一种文本处理方法、装置以及计算设备
CN109992783A (zh) * 2019-04-03 2019-07-09 同济大学 中文词向量建模方法
CN114048314A (zh) * 2021-11-11 2022-02-15 长沙理工大学 一种自然语言隐写分析方法
CN115114597A (zh) * 2022-06-19 2022-09-27 北卡科技有限公司 一种基于文字信息的溯源水印嵌入及提取方法
CN115409020A (zh) * 2022-08-24 2022-11-29 杭州电子科技大学 基于字词平衡的汉字分组测试方法、系统和计算机可读存储介质
CN116192507A (zh) * 2023-02-27 2023-05-30 盐城工学院 一种基于深度学习的信息隐藏方法
CN115952528A (zh) * 2023-03-14 2023-04-11 南京信息工程大学 一种多尺度联合文本隐写方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"An image steganography method based on texture perception";Lianqiang Niu 等;2022 IEEE 2nd International Conference on Data Science and Computer Application (ICDSCA);20221229;全文 *
"基于汉字字符特征的文本无载体隐写方法设计";于翔美;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20200215;全文 *
基于汉字笔画编码矩阵的文本隐写方法;于翔美;王开西;;青岛大学学报(自然科学版);20190515(第02期);全文 *

Also Published As

Publication number Publication date
CN117648681A (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
CN117648681B (zh) 一种ofd版式电子文档隐藏信息提取嵌入方法
US8600053B2 (en) Message key generation
CN107248134B (zh) 一种文本文档中的信息隐藏方法和装置
CN104143200A (zh) 一种图像附加信息的边框型编码与智能识别方法
CN115689853A (zh) 一种基于汉字特征修改和分组的鲁棒文本水印方法
CN111242829A (zh) 一种水印提取方法、装置、设备及存储介质
CN113095992A (zh) 一种新型的条码截图隐写溯源组合算法
AU2006223761B2 (en) Method and system for adaptive recognition of distorted text in computer images
CN109508712A (zh) 一种基于图像的汉语文字识别方法
CN100353279C (zh) 一种文件加密方法
CN114898376A (zh) 公式识别方法、装置、设备及介质
CN101231742A (zh) 二值文本图像中数字水印的嵌入和提取的方法及装置
CN115455965B (zh) 基于字距词链的字符分组方法、存储介质及电子设备
CN115455966B (zh) 安全字库构建方法及其安全码提取方法
CN112417087A (zh) 基于文字的溯源方法及系统
KR100353872B1 (ko) 기계로 인식가능한 코드 및 그 인코딩/디코딩 방법
CN115618809A (zh) 基于二元字符频次的字符分组方法及安全字库构建方法
CN104866631A (zh) 咨询问题聚合的方法和装置
CN115409020A (zh) 基于字词平衡的汉字分组测试方法、系统和计算机可读存储介质
CN115565182A (zh) 一种基于复杂度分组的手写汉字识别方法
CN115100662A (zh) 公式识别方法、装置、设备及介质
CN115455987B (zh) 基于字频词频的字符分组方法、存储介质及电子设备
TWM618756U (zh) 影像識別系統
CN106650716A (zh) 一种计算机字体识别方法及装置
CN107103630B (zh) 一种基于gif属性区间划分映射编码的无载体隐蔽通信方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant