[go: up one dir, main page]

CN117520547A - 一种基于Sigma规则的文本分类分级方法及系统 - Google Patents

一种基于Sigma规则的文本分类分级方法及系统 Download PDF

Info

Publication number
CN117520547A
CN117520547A CN202311488811.6A CN202311488811A CN117520547A CN 117520547 A CN117520547 A CN 117520547A CN 202311488811 A CN202311488811 A CN 202311488811A CN 117520547 A CN117520547 A CN 117520547A
Authority
CN
China
Prior art keywords
classification
detection
rules
classified
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311488811.6A
Other languages
English (en)
Inventor
魏海宇
陈正伟
刘庆林
吕宗辉
陈健
李小琼
刘刚
谢辉
杨晓峰
刘海洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zorelworld Information Technology Co ltd
Original Assignee
Beijing Zorelworld Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zorelworld Information Technology Co ltd filed Critical Beijing Zorelworld Information Technology Co ltd
Priority to CN202311488811.6A priority Critical patent/CN117520547A/zh
Publication of CN117520547A publication Critical patent/CN117520547A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于Sigma规则的文本分类分级方法及系统,本发明实施例提取文档内容并转换为相应的文本,然后再根据不同的检测平台,转化为各个平台的导入配置,并将用户输入的自定义规则统一转换为Sigma规则,然后再由Sigma规则转换为各个检测平台的规则,规则和内容都导入检测平台之后,由平台进行内容检测,然后将各个平台的结果统一转换为通用的检测结果,在用统一的结构展示和导出组件进行展示和导出。本发明实施例通过Sigma提供规则转换工具,可以将Sigma规则转换为各个分析平台的规则,这样仅使用一套规则就可以在各个检测平台中进行对应的数据分类分级的检测,摆脱平台限制,可以方便的跨平台进行检测。

Description

一种基于Sigma规则的文本分类分级方法及系统
技术领域
本发明实施例涉及数据安全技术领域,具体涉及一种基于Sigma规则的文本分类分级方法及系统。
背景技术
在当今社会,“数据”已成为和土地、资本、劳动力并列的“生产要素”,具有重大价值,一旦数据被破坏或者被泄露,这些数据信息被利用后将对国家安全、公共利益等造成损害。
其中,《数据安全法》中也明确规定了未《数据安全法》规定国家建立数据分类分级保护制度,对数据实行分类分级保护,未履行数据安全保护义务将承担法律责任,对于监管者和执法者来说都需要引起高度重视。
数据分类分级工作作为数据分类分级保护制度的基础和核心,其不仅是数据安全治理的第一步,也是当前数据安全治理的痛点和难点。
Sigma是一种通用且开放的签名格式,以直接的方式描述相关的日志事件。Sigma规则格式非常灵活,易于编写,适用于任何类型的日志文件,研究人员或分析师可以在其中描述他们曾设计开发的检测方法,并与其他安全人员共享。Sigma还提供了规则转换工具,可以将Sigma规则转换为其他系统的规则格式。
目前的数据分类分级检测是通过私有化部署或者通过注册相关平台账号的方式,将数据导入到平台中运行。每个平台都有着自己的分类分级识别引擎,识别结果就与检测平台强绑定。当使用多个平台进行数据分类分级检测时,如果需要创建检测内容一样的规则的话,需要分别在多个平台中进行创建,这样就会导致生成的规则和查询平台强关联,无法做到检测规则的通用性。
发明内容
为此,本发明实施例提供一种基于Sigma规则的文本分类分级方法及系统,以解决现有技术识别结果与检测平台强关联、通用性差的技术问题。
为了实现上述目的,本发明实施例提供如下技术方案:
根据本发明实施例的第一方面,提供了一种基于Sigma规则的文本分类分级方法,其特征在于,所述方法包括:
S1、导入第一待分类分级文档文件并对所述第一待分类分级文档文件进行预处理,解析并获取文本格式统一的第二待分类分级文档文件;
S2、获取当前平台的数据导入配置并将所述第二待分类分级文档文件转换为符合所述数据导入配置的第三待分类分级文档文件;
S3、通过分类分级编辑器编辑分类分级规则,设置相关分级和相关分类的归属与检测规则,并将编辑完成的分类分级规则转化为Sigma规则并生成所述Sigma规则的对应字段;
S4、将所述Sigma规则中的字段转换为对应检测平台的查询语句,利用所述查询语句和对应检测平台对所述第三待分类分级文档文件进行文本检测,生成对应的分类分级检测结果。
进一步地,通过分类分级编辑器编辑分类分级规则,设置相关分级和相关分类的归属与检测规则,包括:
所述检测规则为关键词匹配或正则表达式匹配;
编辑分类分级规则包括输入分类、分级与检测内容。
进一步地,编辑分类分级规则包括输入分类、分级与检测内容,包括:
所述检测内容为正则表达式、枚举、字符串匹配。
进一步地,将所述Sigma规则中的字段转换为对应检测平台的查询语句,包括:
接收转换命令并获取需要转换的对应检测平台的规则类型;
根据所述转换命令将所述Sigma规则中的字段转换为符合对应检测平台的规则的对应字段;
根据对应检测平台的规则与对应字段生成对应检测平台的查询语句。
进一步地,利用所述查询语句和对应检测平台对所述第三待分类分级文档文件进行文本检测,生成对应的分类分级检测结果,还包括:
从所述分类分级检测结果中获取返回数据并获取对应配置文件;
通过所述对应配置文件对所述返回数据进行内容映射,将所述分类分级检测结果映射为标准分类分级检测结果;
将所述标准分类分级检测结果进行存储并输出。
进一步地,还包括使用统一的结构展示和导出组件对标准分类分级检测结果进行导出并展示。
根据本发明实施例的第二方面,提供了一种基于Sigma规则的文本分类分级系统,其特征在于,所述系统包括:
导入模块,用于导入第一待分类分级文档文件并对所述第一待分类分级文档文件进行预处理,解析并获取文本格式统一的第二待分类分级文档文件;
转换模块,用于获取当前平台的数据导入配置并将所述第二待分类分级文档文件转换为符合所述数据导入配置的第三待分类分级文档文件;
Sigma规则转换模块,用于通过分类分级编辑器编辑分类分级规则,设置相关分级和相关分类的归属与检测规则,并将编辑完成的分类分级规则转化为Sigma规则并生成所述Sigma规则的对应字段;
文本检测模块,用于将所述Sigma规则中的字段转换为对应检测平台的查询语句,利用所述查询语句和对应检测平台对所述第三待分类分级文档文件进行文本检测,生成对应的分类分级检测结果。
进一步地,所述系统还包括:
格式转换模块,用于从所述分类分级检测结果中获取返回数据并获取对应配置文件;通过所述对应配置文件对所述返回数据进行内容映射,将所述分类分级检测结果映射为标准分类分级检测结果;将所述标准分类分级检测结果进行存储并输出。
本发明实施例具有如下优点:
本发明实施例提取文档内容并转换为相应的文本,然后再根据不同的检测平台,转化为各个平台的导入配置,并将用户输入的自定义规则统一转换为Sigma规则,然后再由Sigma规则转换为各个检测平台的规则,规则和内容都导入检测平台之后,由平台进行内容检测,然后将各个平台的结果统一转换为通用的检测结果,在用统一的结构展示和导出组件进行展示和导出。本发明实施例通过Sigma提供规则转换工具,可以将Sigma规则转换为各个分析平台的规则,这样仅使用一套规则就可以在各个检测平台中进行对应的数据分类分级的检测,摆脱平台限制,可以方便的跨平台进行检测。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明实施例提供的一种基于Sigma规则的文本分类分级系统的逻辑结构示意图;
图2为本发明实施例提供的一种基于Sigma规则的文本分类分级方法的流程示意图;
图3为本发明实施例提供的一种基于Sigma规则的文本分类分级方法中的的技术架构示意图;
图4为本发明实施例提供的一种基于Sigma规则的文本分类分级方法中的运行流程的流程示意图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前的数据分类分级检测是通过私有化部署或者通过注册相关平台账号的方式,将数据导入到平台中运行。每个平台都有着自己的分类分级识别引擎,识别结果就与检测平台强绑定。当使用多个平台进行数据分类分级检测时,如果需要创建检测内容一样的规则的话,需要分别在多个平台中进行创建,这样就会导致生成的规则和查询平台强关联,无法做到检测规则的通用性。
为了解决上述通过以解决现有技术识别结果与检测平台强关联、通用性差的技术问题。
参考图1,本发明实施例公开了一种基于Sigma规则的文本分类分级系统,该系统包括:导入模块1;转换模块2;Sigma规则转换模块3;文本检测模块4;格式转换模块5。
与上述公开的一种基于Sigma规则的文本分类分级系统相对应,本发明实施例还公开了一种基于Sigma规则的文本分类分级方法。以下结合上述描述的一种基于Sigma规则的文本分类分级系统详细介绍本发明实施例中公开的一种基于Sigma规则的文本分类分级方法。
参考图2至图4,本发明公开了一种基于Sigma规则的文本分类分级方法,所述方法包括:
S1、导入第一待分类分级文档文件并对所述第一待分类分级文档文件进行预处理,解析并获取文本格式统一的第二待分类分级文档文件。
其中,本发明实施例不仅可以解析doc、xslx、csv等常用的文档格式的文件,也可以解析pdf等的只读型的文件,生成对应的文本。
S2、获取当前平台的数据导入配置并将所述第二待分类分级文档文件转换为符合所述数据导入配置的第三待分类分级文档文件。
其中,数据导入配置包括但不限于Sql语句配置、json格式ES插入语句配置,如果当前平台的使用方式为sql语句的配置,即转换为Sql语句的配置。
S3、通过分类分级编辑器编辑分类分级规则,设置相关分级和相关分类的归属与检测规则,并将编辑完成的分类分级规则转化为Sigma规则并生成所述Sigma规则的对应字段。
例如,规则的格式如下所示:
其中,“title”代表规则的名称,“description”用于添加规则的描述,“logsource”用于添加源文件路径,例如此时的“logsource”字段中的“product”字段为“mall”,表示名称为商城的产品,“service”字段为“order”,表示从订单服务中获取数据,“detection”字段用于填写具体的检测内容,例如此时的检测内容为检测文本中包含“phone_number”字段的文本。
“fields”字段用于表示规则的分类,例如当前的分类为“privacy”,即表示当前规则检测的数据属于隐私信息,“level”表示分级,此时表示当前规则的敏感级别为高。
S4、将所述Sigma规则中的字段转换为对应检测平台的查询语句,利用所述查询语句和对应检测平台对所述第三待分类分级文档文件进行文本检测,生成对应的分类分级检测结果。
进一步地,通过分类分级编辑器编辑分类分级规则,设置相关分级和相关分类的归属与检测规则,包括:所述检测规则为关键词匹配或正则表达式匹配;编辑分类分级规则包括输入分类、分级与检测内容。
进一步地,编辑分类分级规则包括输入分类、分级与检测内容,包括:所述检测内容为正则表达式、枚举、字符串匹配。
进一步地,将所述Sigma规则中的字段转换为对应检测平台的查询语句,包括:接收转换命令并获取需要转换的对应检测平台的规则类型;根据所述转换命令将所述Sigma规则中的字段转换为符合对应检测平台的规则的对应字段;根据对应检测平台的规则与对应字段生成对应检测平台的查询语句。
进一步地,利用所述查询语句和对应检测平台对所述第三待分类分级文档文件进行文本检测,生成对应的分类分级检测结果,还包括:从所述分类分级检测结果中获取返回数据并获取对应配置文件;通过所述对应配置文件对所述返回数据进行内容映射,将所述分类分级检测结果映射为标准分类分级检测结果;将所述标准分类分级检测结果进行存储并输出。
由于不同平台检测的结果格式都不相同,例如ES的查询结果是Json格式的数据,Mysql查询的结构是标准Sql语句的输出,需要一个统一的结果转换模块,将各个平台的分类分级检测结果转换为一个统一的转换结果进行存储。例如将可以Sigma规则转换为Elastic规则,或者转换为Splunk等其他平台规则,与此同时Elastic规则或Splunk等其他平台规则也可以转换为Sigma规则,实现双向转换。
进一步地,还包括使用统一的结构展示和导出组件对标准分类分级检测结果进行导出并展示。
本发明实施例有如下优点:
1)由Sigma规则进行数据分类分级配置,包括检测规则,数据分类、数据分级这三项配置;
2)使用格式转换模块5去转换规则,将规则转换为各个检测平台的检测语句;
3)通过导入模块1解析各种文档内容;
4)将待检测文本转换为各个平台的数据导入配置;
5)将各个平台的检测结果转换为通用结果,并使用通用展示模板进行敏感数据分类分级展示。
另外,本发明实施例还提供了一种基于Sigma规则的文本分类分级设备,所述设备包括:处理器和存储器;所述存储器用于存储一个或多个程序指令;所述处理器,用于运行一个或多个程序指令,用以执行如上任一项所述的一种基于Sigma规则的文本分类分级方法的步骤。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.一种基于Sigma规则的文本分类分级方法,其特征在于,所述方法包括:
S1、导入第一待分类分级文档文件并对所述第一待分类分级文档文件进行预处理,解析并获取文本格式统一的第二待分类分级文档文件;
S2、获取当前平台的数据导入配置并将所述第二待分类分级文档文件转换为符合所述数据导入配置的第三待分类分级文档文件;
S3、通过分类分级编辑器编辑分类分级规则,设置相关分级和相关分类的归属与检测规则,并将编辑完成的分类分级规则转化为Sigma规则并生成所述Sigma规则的对应字段;
S4、将所述Sigma规则中的字段转换为对应检测平台的查询语句,利用所述查询语句和对应检测平台对所述第三待分类分级文档文件进行文本检测,生成对应的分类分级检测结果。
2.如权利要求1所述的一种基于Sigma规则的文本分类分级方法,其特征在于,通过分类分级编辑器编辑分类分级规则,设置相关分级和相关分类的归属与检测规则,包括:
所述检测规则为关键词匹配或正则表达式匹配;
编辑分类分级规则包括输入分类、分级与检测内容。
3.如权利要求2所述的一种基于Sigma规则的文本分类分级方法,其特征在于,编辑分类分级规则包括输入分类、分级与检测内容,包括:
所述检测内容为正则表达式、枚举、字符串匹配。
4.如权利要求3所述的一种基于Sigma规则的文本分类分级方法,其特征在于,将所述Sigma规则中的字段转换为对应检测平台的查询语句,包括:
接收转换命令并获取需要转换的对应检测平台的规则类型;
根据所述转换命令将所述Sigma规则中的字段转换为符合对应检测平台的规则的对应字段;
根据对应检测平台的规则与对应字段生成对应检测平台的查询语句。
5.如权利要求4所述的一种基于Sigma规则的文本分类分级方法,其特征在于,利用所述查询语句和对应检测平台对所述第三待分类分级文档文件进行文本检测,生成对应的分类分级检测结果,还包括:
从所述分类分级检测结果中获取返回数据并获取对应配置文件;
通过所述对应配置文件对所述返回数据进行内容映射,将所述分类分级检测结果映射为标准分类分级检测结果;
将所述标准分类分级检测结果进行存储并输出。
6.如权利要求5所述的一种基于Sigma规则的文本分类分级方法,其特征在于,还包括使用统一的结构展示和导出组件对标准分类分级检测结果进行导出并展示。
7.一种基于Sigma规则的文本分类分级系统,其特征在于,所述系统包括:
导入模块,用于导入第一待分类分级文档文件并对所述第一待分类分级文档文件进行预处理,解析并获取文本格式统一的第二待分类分级文档文件;
转换模块,用于获取当前平台的数据导入配置并将所述第二待分类分级文档文件转换为符合所述数据导入配置的第三待分类分级文档文件;
Sigma规则转换模块,用于通过分类分级编辑器编辑分类分级规则,设置相关分级和相关分类的归属与检测规则,并将编辑完成的分类分级规则转化为Sigma规则并生成所述Sigma规则的对应字段;
文本检测模块,用于将所述Sigma规则中的字段转换为对应检测平台的查询语句,利用所述查询语句和对应检测平台对所述第三待分类分级文档文件进行文本检测,生成对应的分类分级检测结果。
8.如权利要求7所述的一种基于Sigma规则的文本分类分级系统,其特征在于,所述系统还包括:
格式转换模块,用于从所述分类分级检测结果中获取返回数据并获取对应配置文件;通过所述对应配置文件对所述返回数据进行内容映射,将所述分类分级检测结果映射为标准分类分级检测结果;将所述标准分类分级检测结果进行存储并输出。
CN202311488811.6A 2023-11-09 2023-11-09 一种基于Sigma规则的文本分类分级方法及系统 Pending CN117520547A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311488811.6A CN117520547A (zh) 2023-11-09 2023-11-09 一种基于Sigma规则的文本分类分级方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311488811.6A CN117520547A (zh) 2023-11-09 2023-11-09 一种基于Sigma规则的文本分类分级方法及系统

Publications (1)

Publication Number Publication Date
CN117520547A true CN117520547A (zh) 2024-02-06

Family

ID=89747082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311488811.6A Pending CN117520547A (zh) 2023-11-09 2023-11-09 一种基于Sigma规则的文本分类分级方法及系统

Country Status (1)

Country Link
CN (1) CN117520547A (zh)

Similar Documents

Publication Publication Date Title
CN110852065B (zh) 一种文档审核方法、装置、系统、设备及存储介质
US9256798B2 (en) Document alteration based on native text analysis and OCR
US11263714B1 (en) Automated document analysis for varying natural languages
CN109582861A (zh) 一种数据隐私信息检测系统
CN117707922B (zh) 测试用例的生成方法、装置、终端设备和可读存储介质
CN108153729B (zh) 一种面向金融领域的知识抽取方法
US11393237B1 (en) Automatic human-emulative document analysis
CN113836038B (zh) 测试数据构造方法、装置、设备及存储介质
CN114218391B (zh) 一种基于深度学习技术的敏感信息识别方法
CN105824791B (zh) 一种参考文献格式检查方法
CN114003692A (zh) 合同文本信息的处理方法、装置、计算机设备及存储介质
CN113515587B (zh) 一种标的物信息提取方法、装置、计算机设备及存储介质
Šandrih et al. Development and evaluation of three named entity recognition systems for serbian-the case of personal names
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
CN118331890B (zh) 基于token训练限定大语言模型的数据批量生成方法
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
CN118261130A (zh) 票据版式数据生成方法、装置、计算机设备和存储介质
CN117520547A (zh) 一种基于Sigma规则的文本分类分级方法及系统
CN118152423A (zh) 智能查询方法、装置、电子设备及可读存储介质
CN117435189A (zh) 金融系统接口的测试用例分析方法、装置、设备及介质
CN117745440A (zh) 资产自动化管理的方法、装置、电子设备及存储介质
CN117473054A (zh) 基于知识图谱的通用智能问答方法及装置
CN114115831A (zh) 数据处理方法、装置、设备和存储介质
CN114708100A (zh) 一种数据交易合规检测系统及方法
CN113947510A (zh) 一种基于文件格式自适应的不动产电子证照管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination