CN115375380B - 一种基于属性分类的业务数据处理方法和处理装置 - Google Patents
一种基于属性分类的业务数据处理方法和处理装置 Download PDFInfo
- Publication number
- CN115375380B CN115375380B CN202211314753.0A CN202211314753A CN115375380B CN 115375380 B CN115375380 B CN 115375380B CN 202211314753 A CN202211314753 A CN 202211314753A CN 115375380 B CN115375380 B CN 115375380B
- Authority
- CN
- China
- Prior art keywords
- metadata
- data
- entity
- root
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 28
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000012946 outsourcing Methods 0.000 claims abstract description 57
- 238000000034 method Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 6
- 238000013475 authorization Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 abstract 1
- 238000013075 data extraction Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 230000004927 fusion Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007500 overflow downdraw method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2255—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Economics (AREA)
- Game Theory and Decision Science (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于属性分类的业务数据处理方法和处理装置。该处理方法应用于电子商务外包平台接入多个电子商务平台获取源数据,通过对多源业务数据进行预处理后得到第一实体部分的主体特征与第二实体部分的主体特征,基于属性权重划分第一实体部分,基于信息熵值划分第二实体部分,分别得到对应的参数列。该处理方法根据多源业务数据的特性预设不同的根特征,根特征遍历参数列进行数据分类,并将结果以实体匹配表的形式存储于电子商务平台前端服务器的元数据库中,分别构建SKU元数据、售后元数据、订单元数据、库存元数据、推广元数据。
Description
技术领域
本发明涉及业务信息的处理技术,尤其涉及一种基于属性分类的业务数据处理方法和处理装置。
背景技术
数据的提取与融合是计算机信息技术应用领域内的基本工具,基于网页端的数据提取一般采用Deep Web爬虫与广度优先搜索的方式进行,而这种方法仅用于获取网页Web前端的数据资源,且对于URL加密条件下的电子商务平台,数据爬取效率不佳,部分内容无法进行直接展示。现有技术中,众多系统软件厂商都提供了以DataStage、 SQL ServerDTS、Primeton DI等具有代表性的数据交换与融合系统,这些系统架构过于庞大,应用场景往往是大型软件工程项目,并不适用于小型工程的软件开发计划。针对小型工程的数据提取与融合方法,现有技术集中在利用分布式系统、神经网络等进行数据挖掘,例如CN108804528B中公开了一种融合数据的训练模型,能够在数据提取的过程中进行训练,起到收敛数据融合的效果。而面向电子商务外包平台的业务数据中,作为典型的小型软件工程项目的数据提取与融合应用,为实现外包平台对业务数据实现高效的数据处理,现有技术还有待进一步改进,针对业务数据的特点,构建相应的业务数据处理方法和处理装置,以期实现电子商务与外包平台在数据交互的具体场景下实现更高效率的深入应用。
发明内容
针对上述问题,本发明提出了一种基于属性分类的业务数据处理方法和处理装置,将电子商务平台中涉及的数据按照外包平台的需求种类划分为SKU数据类、售后数据类、订单数据类、库存数据类、推广数据类五种。并根据数据类型分为数字类型与文本类型两种,通过提取前端服务器数据库中的文本数据与数字数据,构成第一实体部分与第二实体部分,第一实体部分与第二实体部分分别通过属性权重与信息熵分类构建相应的参数列,在此基础上基于提前预设的文本根特征与数字根特征遍历相应的参数列,分类得到不同的元数据,包括SKU元数据、售后元数据、订单元数据、库存元数据、推广元数据,并分配各元数据库索引标识符,在授权外包服务器接入的请求下,根据预先开放的API接口的请求标识符分配相应的数据库调用权限。
本申请的发明目的可通过以下技术方案实现:
一种基于属性分类的业务数据处理方法,包括以下步骤:
步骤1:电商服务器为外包服务器颁发数字证书,为授权终端分配唯一的请求标识符;
步骤2:提取前端服务器的业务数据,得到第一实体部分、第二实体部分,获取第一实体部分与第二实体部分中的主体特征;
步骤3:分别计算第一实体部分的属性权重与第二实体部分的信息熵值,设置基于属性权重的第一参数列Ki,基于信息熵值的第二参数列Kj;
步骤4:预设业务数据的文本根特征,基于文本根特征遍历各个第一参数列Ki,将第一参数列符合文本根特征标准的纳入第一实体匹配表;
步骤5:预设业务数据的数字根特征,基于数字根特征遍历各个第二参数列Kj,将第二参数列符合数字根特征标准的纳入第二实体匹配表;
步骤6:将第一实体匹配表、第二实体匹配表均存储至前端服务器的元数据库;
步骤7:基于朴素贝叶斯分类器对元数据库的第一实体匹配表分类,基于熵分类器对元数据库的第二实体匹配表分类,得到SKU元数据、售后元数据、订单元数据、库存元数据、推广元数据,为任意元数据提供唯一的索引标识符;
步骤8:前端服务器接收来自至少一个的外包服务器的接入请求,前端服务器验证请求标识符;
步骤9:根据请求标识符为外包服务器开放元数据库访问权限,外包服务器基于电商服务器所开放的元数据加载业务流信息。
在本发明中,请求标识符包含外包服务器的身份编码、数字签名的哈希摘要,所述身份编码为电子商务平台数据库中存储外包平台数据库父表中的子表编号;所述数字签名的哈希摘要为数字签名通过伪随机数所生成的哈希函数值。
在本发明中,第一实体部分为文本特征向量,第二实体部分为数字特征向量。
在本发明中,所述文本特征向量与数字特征向量分别为预处理后的文本数据与数字数据经过向量特征处理后得到的特征向量。
在本发明中,文本根特征与数字根特征为业务数据的至少一个特征值,文本根特征与数字根特征描述相同参数列的重复度以及不同参数列的相似度。
在本发明中,第一参数列Ki与第二参数列Kj分别为属性分类条件、信息熵分类条件下得到的数据列,包含电子商务平台数据库中文本类数据与数字类数据的至少一项信息。
在本发明中,提取第二实体部分中的数据集D={x1,x2,…,xn},将数据集D以信息熵进行表示,遍历第二实体部分中的各个数据集,得到对应的第二参数列。
在本发明中,索引标识符由外包平台的身份编码以及所生成元数据父表中为主键的ID字段共同构成,一个索引标识符对应唯一一个请求标识符。
一种根据所述的基于属性分类的业务数据处理方法的处理装置,包括电商服务器、外包服务器、前端服务器,前端服务器包括提取单元、第一存储单元、第二存储单元、判决单元、TCAM主控单元。
在本发明中,TCAM主控单元分别由N-TCAM芯片与W-TCAM芯片共同组成,第二存储单元与N-TCAM芯片与W-TCAM芯片组成通信回路,进行全双工通信。
实施本发明的一种基于属性分类的业务数据处理方法和处理装置,具有以下有益效果:本发明中根据电子商务外包平台获取信息的特点,通过将业务数据分类构成多个元数据的方式,为外包平台开放已授权工作的元数据库类接口,确保外包平台在电子商务平台已授权的基础上仅能够获取与外包内容相关的数据信息,而无法获取整个电子商务平台商家的全部信息,从而保障电子商务平台商家的数据安全,并提高外包平台获取业务数据的处理效率。另外,对于多源类业务数据,考虑到电子商务平台类型不同,一类电商与二类电商的存储方式、数据格式均存在差异,不同商品的编码方式、数据库底层设计逻辑的差异性都限制了电子商务平台的数据提取与融合效率,本发明通过预设文本根特征与数字根特征的方式,遍历处理分类后的参数列构成多个元数据库类型,确保外包平台获取电子商务平台商家的信息是动态的、准确的、有限的。
附图说明
图1为本发明的一种基于属性分类的业务数据处理方法的流程图;
图2为本发明的通过信息熵值进行匹配域处理的示意图;
图3为本发明的通过信息熵值进行匹配域处理第二实体部分后的示意图;
图4为本发明的第一参数列与第二参数列的示意图;
图5为本发明的一种基于属性分类的业务数据处理装置的硬件框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
针对电子商务商家与外包平台的数据提取需求而言,从合作的视角来看,对于外包平台,需要获取电子商务平台商家的相关信息,且能够进行实时调用与改变数据信息,实现数据的动态化共享。对于电子商务商家平台而言,希望提供给外包平台有限的部分数据信息,在不泄露其他包含商业机密数据信息的前提下,确保外包平台能够根据所提供的部分数据信息完成外包工作。电子商务外包需求主要包括售后客服外包、订单发货外包、商品管理外包、商品推广外包、库存管理外包五个方面的应用,单个外包平台往往需要获取多个电子商务平台的源数据,且按照电子商务平台的种类,分为一类电商平台与二类电商平台,外包平台需要将多个不同类型电子商务平台的源数据进行整合。
面对电子商务平台的业务数据,由于不同电子商务平台的数据库底层开发逻辑不同,数据库表的设计方法存在差异性,如果采用一般方法调用多平台数据库进行数据处理后输出结果,大概率会产生数据错误或者丢失的问题。按照外包平台完成电子商务外包工作的基本需求出发,将多源数据分为两个实体类,将文本实体与数据实体划分为单独的参数列,再按照电子商务外包平台需要的数据类型,预设根特征提取参数列中的有效数据。这一方案运用到本实施例详述的一种基于属性分类的业务数据处理方法和处理装置,参照图1,包括以下步骤:
步骤1:电子商务平台为外包服务器颁发数字签名认证,开放API接口,为外包服务器分配唯一的请求标识符。电子商务平台为一外包平台授权,根据伪随机种子序列为外包平台分配一身份编码,哈希函数以伪随机种子序列进行数字签名认证,得到哈希摘要,哈希摘要与身份编码共同组成请求标识符。电子商务平台数据库中写入基于外包平台身份编码的数据库表,外包平台能够通过API的身份认证访问前端数据库。
步骤2:提取前端服务器中的业务数据,得到第一实体部分、第二实体部分,获取第一实体部分与第二实体部分中的主体特征。
由于电商商品信息中具有标识含义的信息较多,对于任意一商品的销售情况而言,唯一的标识信息为实体信息。在本实施例中,元数据库中具体分为了多个类别,不同类别之间的元数据库包括文本实体与数据实体两种。SKU元数据与售后元数据中,需要文本实体;订单元数据与库存元数据中则只需要数字实体;推广元数据中则需要文本实体与数据实体。将电商平台的多源数据信息划分为第一实体与第二实体,其中,第一实体为文本特征向量,第二实体为数据特征向量。
提取电子商务平台中的数据点特征采用分层提取的方法进行。首先对前端服务器中包含的各类描述性文本进行提取,包括数字、字母、符号等构成的组成,存储至数据结构commodity_des_model中,并对各个词组进行分割,初步统计词频数值。其次,对提取后前端数据库中剩余的文本按照分词标记进行描述性文本的分割,依据“空格”、“括号类”进行拆分,并存储至数据结构commodity_des_keyword中。最后,按照语法对文本内容进行分词处理,并标注不同的词性,并进行多次循环,直至文本细粒度符合后续文本向量化的处理流程。在本实施例中,将拆分后的文字字符长度是否小于或等于6作为判断标准,若是,则不再进行分词处理的循环;若否,则继续进行分词处理的循环。
在文本向量化处理之后,通过TD-IDF方法进行文本特征的提取,在统计词频的过程中,将电子商务类相关的词频赋予更高的权重,在电子商务类名词信息出现词频不高的情况下,依然分配更大的词频权重,更加倾向于选择电子商务类名词作为文本特征向量。在本实施例中,电子商务类名词目录信息基于Amazon数据目录2019版词频的获取。
步骤3:分别计算第一实体部分的属性权重与第二实体部分的信息熵值,设置基于属性权重的第一参数列Ki,基于信息熵值的第二参数列Kj。
通过对第二实体部分中的数据增加数据分组头部信息熵,其中包含有N条预设的
相关规则,构成规则集合λ,对不同的数据头部分组通过N条预设的规则进行匹配得到数据
分组头部的信息熵值为,其中,pi为任意数据分组头部规则的
出现概率。在本实施例中,不同元数据类对数据的要求并没有显著差异性,则假设所有规则
权重分配均相等,即pi=1/N,则数据分组头部的信息熵值可以计为H=lbN。
本实施例优选的信息熵值提取第二参数列的方法,通过将匹配域裁剪的方式尽可能减少数据的宽度,确保数据能够在后续精确分类为多个元数据库。将数据分组头部规则的信息熵值作为单一匹配域中划分参数列的标准,参照图2,第二实体划分为第二参数列的过程中,若考虑单独M1、单独M2与单独M3进行匹配域裁剪时,数据分组头部信息熵H(M1)>H(M3)>H(M2),则认为单独M1参与匹配域裁剪过程可以最大化降低分组头部信息熵。因此,M1单独构成参数列,脱离第一实体部分,参照图3,M1脱离第一实体部分,且M2与M3中丢失原M1的预设规则。
第一参数列包含一级参数与二级参数。外包平台所获取的电子商务平台信息中,不同电子商务平台所包含的信息属性不同,而同一电子商务平台中不同商铺的信息属性也存在差异性。参照图4,第一参数列中包含两列参数,其中,一级参数为类信息的参数名称,二级参数则为类信息下的具体参数内容。
在本实施例中,第一参数列基于属性权重进行分类,属性分类条件分为固定属性、变动属性以及半变动属性,固定属性为商品名称、规格参数、品牌型号;变动属性为SKU、商品价格、推广信息;半变动属性为售后信息、库存信息。
步骤4:预设业务数据的文本根特征,基于文本根特征遍历各个第一参数列Ki,将第一参数列符合文本根特征标准的纳入第一实体匹配表。
在本实施例中,文本根特征采用信息增益的方法设置,文本根特征为电子商务外
包平台所需信息种类中的高频词汇。例如,当电子商务平台商家外包商品上架这一工作之
后,授权的外包平台需要获取SKU元数据,与商品SKU相关的包括但不仅限于“款式”、“颜
色”、“尺码”、“品牌”、“型号”、“适用群体”,人为选定的电子商务平台中某一类的文本词为
预设特征元素。在本实施例中,基于初始设定的根集,根据外包平台所需数据库信息类型,
预设特征元素x类,在第一实体部分中挑选多个特征词组成根集,并计算各个特征词在根集
中的权值,权值大于阈值标准的特征词提取为文本根特征。特征词判定为文本根特征权值
的阈值,其中,d为选取的特征词数量,x为预设特征元素种类,为各个
特征值在根集中权值的平均数。
在本实施例中,第一实体匹配表为第一参数列Ki中通过文本根特征遍历得到的数据库表,第一实体匹配表包括数据库父表与数据库子表,数据库父表为不同的电子商务信息类别,数据库子表为各个电子商务信息类中所包含的特征词。
步骤5:预设业务数据的数字根特征,基于数字根特征遍历各个第二参数列Kj,将第二参数列符合数字根特征标准的纳入第二实体匹配表。
多源电子商务信息中不同平台的数字类信息存在一定的规律,按照这一规律匹配对应的数据提取与融合方法,可以提高数字类信息的提取与融合效率。本实施例中,数字根特征用以对电子商务平台的订单号、物流号、商品编码、SKU编码进行数字信息提取,采用信息增益的方法进行设置,具体方法同上文本根特征的提取方法,在此不做赘述。
在本实施例中,第二实体匹配表为第二参数列Kj中通过数字根特征遍历得到的数据库表,第二实体匹配表包括数据库父表与数据库子表,数据库父表为不同的电子商务信息类别,数据库子表为各个电子商务信息类中所包含的特征数字组合。
步骤6:第一实体匹配表与第二实体匹配表存储至前端服务器的元数据库,为不同类别的元数据库信息提供唯一的索引标识符。
第一实体匹配表与第二实体匹配表在前端服务器的元数据库中,任意一元数据类均包含有一个数据库父表以及多个数据库子表,数据库父表中各个类的主键作为索引标识,增加受外包服务器的身份编码,用以与请求标识符对应。
步骤7:基于朴素贝叶斯分类器对第一实体匹配表进行元数据库分类,基于熵分类器对第二实体匹配表进行元数据库分类,得到SKU元数据、售后元数据、订单元数据、库存元数据、推广元数据。
本实施例优选的HBase分布式数据库的设计方法为所有数据库表提供了多维度的映射。在元数据库中,基于HBase的分布式数据库设计需要对数据库进行分割处理,并且将所分配的不同节点进行存储与调整,第一实体表、第二实体表在元数据库中需要进行水平分片与垂直分片。例如,对于推广元数据库的分类过程采用水平分片方式,根据推广订单的创建时间,构建分片a与分片b。其中分片a为当前计划内的所有推广情况,包括推广状态、推广消耗金额、OCPX消耗额、自定义推广消耗额。分片b则为基于分片a计算出的ROI以及产品的基本属性,包括推广名称、产品编号、产品名称、产品状态、ROI。任意一张数据库表的索引标识符包含一关键字与一时间戳,当数据库内存储信息发生改变的情况下,时间戳会进行标记,外包平台接入时,提取数据的时间与时间戳标记的时间保持一致。
步骤8:电子商务平台的前端服务器接收来自至少一个的外包服务器的接入请求,前端服务器验证请求标识符。
在本实施例中,索引标识符对请求标识符交换的身份编码与数字签名,若核对一致,则允许请求标识符对应的外包平台调用元数据库信息;若核对错误,则拒绝请求标识符信息,并发送拒绝信息至外包平台;若核对为空,则拒绝请求标识符信息,并发送到期信息至外包平台。优选的,标识符与索引标识符之间的信息交换存在于任意一次访问前端数据库的请求中。
步骤9:根据请求标识符为外包平台开放元数据库访问权限,允许接入请求,外包服务器基于电商服务器所开放的元数据加载业务流信息。按照页面组件间对接的配置实现数据融合与交换。
本实施例优选的外包平台界面设计方式,基于的JSP技术下,利用B/S架构提升外包平台的数据提取能力与人机交互,系统架构划分为表示层、业务逻辑层、数据访问层与元数据库,系统的前端业务逻辑采用React框架进行编写,搭建页面组件的可视化,多源业务数据处理结果在表示层中利用MyBatis框架构建,系统可以切换登录身份,对多个电子商务平台的外包工作在同一页面组件中进行处理,处理后的多源业务数据在不同页面组件之间的业务流交换不会受到平台数据库修改的影响。
实施例二
用于业务数据的处理装置,包括电商服务器、外包服务器、前端服务器,其中,前端服务器包括提取单元、第一存储单元、第二存储单元、判决单元、TCAM主控单元。在本实施例中,TCAM主控单元分别由N-TCAM芯片与W-TCAM芯片共同组成,第二存储单元与N-TCAM芯片与W-TCAM芯片组成通信回路,进行全双工通信。
参照图5,TCAM主控单元由N-TCAM以及W-TCAM共同组成,其中,N-TCAM存储匹配域裁剪之后得到的流表,存储有原始流表宽度的W-TCAM可以存储第一实体匹配表、第二实体匹配表。第一实体部分、第二实体部分的主体特征存储至第一存储单元中,通过匹配域提取电路构成第一参数列与第二参数列后,通过TCAM主控单元进行提取与分类,得到的第一实体匹配表、第二实体匹配表存储于第二存储单元中,并通过判决模块输出相应的元数据库分类。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改,等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于属性分类的业务数据处理方法,其特征在于,包括以下步骤:
步骤1:电商服务器为外包服务器颁发数字证书,为授权终端分配唯一的请求标识符;
步骤2:提取前端服务器的业务数据,得到第一实体部分、第二实体部分,获取第一实体部分与第二实体部分中的主体特征,其中,第一实体部分为文本特征向量,第二实体部分为数字特征向量;
步骤3:分别计算第一实体部分的属性权重与第二实体部分的信息熵值,设置基于属性权重的第一参数列Ki,基于信息熵值的第二参数列Kj;
步骤4:预设业务数据的文本根特征,基于文本根特征遍历各个第一参数列Ki,将第一参数列符合文本根特征标准的纳入第一实体匹配表;
步骤5:预设业务数据的数字根特征,基于数字根特征遍历各个第二参数列Kj,将第二参数列符合数字根特征标准的纳入第二实体匹配表;
步骤6:将第一实体匹配表、第二实体匹配表均存储至前端服务器的元数据库;
步骤7:基于朴素贝叶斯分类器对元数据库的第一实体匹配表分类,基于熵分类器对元数据库的第二实体匹配表分类,得到SKU元数据、售后元数据、订单元数据、库存元数据、推广元数据,为任意元数据提供唯一的索引标识符;
步骤8:前端服务器接收来自至少一个的外包服务器的接入请求,前端服务器验证请求标识符;
步骤9:根据请求标识符为外包服务器开放元数据库访问权限,外包服务器基于电商服务器所开放的元数据加载业务流信息,其中,
在第一实体部分中挑选多个特征词组成根集,并计算各个特征词在根集中的权值,权值大于阈值标准的特征词提取为文本根特征,
数字根特征用于对电子商务平台的订单号、物流号、商品编码、SKU编码进行数字信息提取,采用信息增益的方法进行设置。
2.根据权利要求1所述的基于属性分类的业务数据处理方法,其特征在于,请求标识符包含外包服务器的身份编码、数字签名的哈希摘要,所述身份编码为电子商务平台数据库中存储外包平台数据库父表中的子表编号;所述数字签名的哈希摘要为数字签名通过伪随机数所生成的哈希函数值。
3.根据权利要求1所述的基于属性分类的业务数据处理方法,其特征在于,所述文本特征向量与数字特征向量分别为预处理后的文本数据与数字数据经过向量特征处理后得到的特征向量。
4.根据权利要求1所述的基于属性分类的业务数据处理方法,其特征在于,文本根特征与数字根特征为业务数据的至少一个特征值,文本根特征与数字根特征描述相同参数列的重复度以及不同参数列的相似度。
5.根据权利要求1所述的基于属性分类的业务数据处理方法,其特征在于,第一参数列Ki与第二参数列Kj分别为属性分类条件、信息熵分类条件下得到的数据列,包含电子商务平台数据库中文本类数据与数字类数据的至少一项信息。
6.根据权利要求1所述的基于属性分类的业务数据处理方法,其特征在于,提取第二实体部分中的数据集D={x1,x2,…,xn},将数据集D以信息熵进行表示,遍历第二实体部分中的各个数据集,得到对应的第二参数列。
7.根据权利要求1所述的基于属性分类的业务数据处理方法,其特征在于,索引标识符由外包平台的身份编码以及所生成元数据父表中为主键的ID字段共同构成,一个索引标识符对应唯一一个请求标识符。
8.一种根据权利要求1所述的基于属性分类的业务数据处理方法的处理装置,其特征在于,包括电商服务器、外包服务器、前端服务器,前端服务器包括提取单元、第一存储单元、第二存储单元、判决单元、TCAM主控单元。
9.根据权利要求8所述的处理装置,其特征在于,TCAM主控单元分别由N-TCAM芯片与W-TCAM芯片共同组成,第二存储单元与N-TCAM芯片与W-TCAM芯片组成通信回路,进行全双工通信。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211314753.0A CN115375380B (zh) | 2022-10-26 | 2022-10-26 | 一种基于属性分类的业务数据处理方法和处理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211314753.0A CN115375380B (zh) | 2022-10-26 | 2022-10-26 | 一种基于属性分类的业务数据处理方法和处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115375380A CN115375380A (zh) | 2022-11-22 |
CN115375380B true CN115375380B (zh) | 2023-02-03 |
Family
ID=84073504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211314753.0A Active CN115375380B (zh) | 2022-10-26 | 2022-10-26 | 一种基于属性分类的业务数据处理方法和处理装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115375380B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115794827B (zh) * | 2022-11-29 | 2023-07-21 | 广发银行股份有限公司 | 一种数据表结构管理系统和方法 |
CN116304886A (zh) * | 2023-05-12 | 2023-06-23 | 江苏网进科技股份有限公司 | 一种基于机器学习的元数据智能分类方法和存储介质 |
CN118820985B (zh) * | 2024-09-20 | 2025-05-16 | 威海双子星软件科技有限公司 | 基于大数据的业务订单分析预测系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921631A (zh) * | 2018-04-18 | 2018-11-30 | 长沙九行天下电子商务有限公司 | 电子商务平台系统实现方法及终端 |
CN113268500A (zh) * | 2021-06-08 | 2021-08-17 | 中国联合网络通信集团有限公司 | 业务处理方法、装置及电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070061303A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Mobile search result clustering |
CN105653732A (zh) * | 2016-02-02 | 2016-06-08 | 优品财富管理有限公司 | 一种基于元数据自动建立表方法及系统 |
WO2021210992A1 (en) * | 2020-04-15 | 2021-10-21 | Xero Limited | Systems and methods for determining entity attribute representations |
CN112800298B (zh) * | 2021-02-01 | 2021-11-12 | 黄秋奋 | 一种基于互联网的电子商务数据处理方法及系统 |
CN112905845B (zh) * | 2021-03-17 | 2022-06-21 | 重庆大学 | 离散智能制造应用的多源非结构化数据清洗方法 |
CN114462384B (zh) * | 2022-04-12 | 2022-07-12 | 北京大学 | 一种面向数字对象建模的元数据自动生成装置 |
CN114756207A (zh) * | 2022-04-13 | 2022-07-15 | 北京沃东天骏信息技术有限公司 | 业务系统开发方法、PaaS平台及相关设备 |
CN114969484A (zh) * | 2022-05-18 | 2022-08-30 | 中国平安财产保险股份有限公司 | 业务数据搜索方法、装置、设备及存储介质 |
-
2022
- 2022-10-26 CN CN202211314753.0A patent/CN115375380B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108921631A (zh) * | 2018-04-18 | 2018-11-30 | 长沙九行天下电子商务有限公司 | 电子商务平台系统实现方法及终端 |
CN113268500A (zh) * | 2021-06-08 | 2021-08-17 | 中国联合网络通信集团有限公司 | 业务处理方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115375380A (zh) | 2022-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12271768B2 (en) | Systems and methods for removing identifiable information | |
CN115375380B (zh) | 一种基于属性分类的业务数据处理方法和处理装置 | |
KR101700585B1 (ko) | 온라인 제품 검색 방법 및 시스템 | |
US8190621B2 (en) | Method, system, and computer readable recording medium for filtering obscene contents | |
CN110909182B (zh) | 多媒体资源搜索方法、装置、计算机设备及存储介质 | |
CN111552799B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
US20090327249A1 (en) | Intellegent Data Search Engine | |
CN102663022B (zh) | 一种基于url的分类识别方法 | |
CN113010701A (zh) | 以视频为中心的融媒体内容推荐方法及装置 | |
CN111552797B (zh) | 名称预测模型的训练方法、装置、电子设备及存储介质 | |
CN111026858A (zh) | 基于项目推荐模型的项目信息处理方法及装置 | |
CN112506925A (zh) | 一种基于区块链的数据检索系统及方法 | |
CN105741121B (zh) | 一种基于条目引用的产品溯源信息的编写与存储方法 | |
CN111897528B (zh) | 一种面向企业在线教育的低代码平台 | |
CN105574200A (zh) | 基于历史记录的用户兴趣提取方法 | |
CN110704574A (zh) | 一种银行业务需求资产管理的方法以及系统 | |
CN116992052B (zh) | 用于威胁情报领域的长文本摘要方法、装置和电子设备 | |
US20240193402A1 (en) | Method and apparatus for determining representation information, device, and storage medium | |
WO2025092584A1 (zh) | 一种客户端ui交互组件生成方法、装置、终端及介质 | |
CN108470289B (zh) | 基于电商购物平台的虚拟物品发放方法及设备 | |
JP2019534498A (ja) | 検証方法および装置 | |
CN118467845B (zh) | 智能交互服务系统的构建方法、网站智能交互方法和设备 | |
CN111325562B (zh) | 粮食安全追溯系统及方法 | |
CN114282119B (zh) | 一种基于异构信息网络的科技信息资源检索方法及系统 | |
US20250245076A1 (en) | Systems and methods for removing identifiable information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |