CN116228265A - 发票风险识别方法、装置和设备 - Google Patents
发票风险识别方法、装置和设备 Download PDFInfo
- Publication number
- CN116228265A CN116228265A CN202310302024.1A CN202310302024A CN116228265A CN 116228265 A CN116228265 A CN 116228265A CN 202310302024 A CN202310302024 A CN 202310302024A CN 116228265 A CN116228265 A CN 116228265A
- Authority
- CN
- China
- Prior art keywords
- invoice
- information
- invoice information
- risk
- registration text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012795 verification Methods 0.000 claims description 31
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 7
- 230000000737 periodic effect Effects 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000010200 validation analysis Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 239000011800 void material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02W—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO WASTEWATER TREATMENT OR WASTE MANAGEMENT
- Y02W90/00—Enabling technologies or technologies with a potential or indirect contribution to greenhouse gas [GHG] emissions mitigation
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Technology Law (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开中一种发票风险识别方法、装置和设备,其中,发票风险识别方法包括:获取企业信息和发票信息;基于企业信息,下载企业信息对应的资产登记文本;基于发票信息和资产登记文本,识别是否存在发票重复使用风险。通过本公开的发票风险识别方法可以自动识别出发票在融资活动中是否存在重复使用风险,从而提高了发票风险识别的效率和准确性。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种发票风险识别方法、装置和设备。
背景技术
在供应链金融的融资活动中,融资方需要向融资机构提供资产的发票,以佐证资产真实存在。但如果发票在其它融资过程中使用过,则该融资项目存在较大风险,因此,融资机构查验发票是否存在重复使用的风险,对融资项目的风险防控至关重要。
目前,在查验发票是否存在重复使用的风险时,主要通过融资机构的资料审核人员登录到中国人民银行征信中心动产融资统一登记公示系统(后简称“中登网”),查询融资方的相关的资产登记文字,并通过人工比对的方式逐一核实各项资产登记文本中是否已经登记过此次融资过程中提供的发票(即是否存在发票重复使用风险)。通过人工方式查验发票是否存在重复使用风险,使得查验效果效率低、查验准确性差。
发明内容
有鉴于此,本公开提出了一种发票风险识别方法、装置和设备,可以自动完成发票风险识别,提高发票风险识别的效率和准确性。
根据本公开的第一方面,提供了一种发票风险识别方法,包括:
获取企业信息和发票信息;
基于所述企业信息,下载所述企业信息对应的资产登记文本;
基于所述发票信息和所述资产登记文本,识别是否存在发票重复使用风险。
在一种可能的实现方式中,在基于所述发票信息和所述资产登记文本,识别是否存在发票重复使用风险时,包括:
对所述资产登记文本进行分词处理,得到所述资产登记文本的分词结果;
基于所述发票信息和所述分词结果,计算所述发票信息与登记文本的关联度;
基于所述发票信息与登记文本之间的关联度,识别是否存在发票重复使用风险。
在一种可能的实现方式中,所述发票信息包括至少两个分级发票信息;
在基于所述发票信息和所述分词结果,计算所述发票信息与登记文本的关联度时,包括:
基于各所述分级发票信息和所述分词结果,计算各所述分级发票信息与所述登记文本的关联度;
基于各所述分级发票信息与所述登记文本的关联度,计算所述发票信息与登记文本的关联度。
在一种可能的实现方式中,在获取发票信息时,包括:
获取发票文件,并基于光字识别算法识别出所述发票文件中的初始发票信息;
基于预设的验证规则,验证所述初始发票信息是否准确;
在验证所述初始发票信息准确的情况下,验证所述初始发票信息是否真实;
在验证所述初始发票信息真实的情况下,将所述初始发票信息作为所述发票信息。
在一种可能的实现方式中,在验证所述初始发票信息不准确或者所述初始发票信息不真实的情况下,对所述初始发票信息异常进行告警。
在一种可能的实现方式中,在获取企业信息和发票信息之后,还包括:验证所述企业信息与所述发票信息是否一致;
在验证所述企业信息与所述发票信息一致的情况下,在执行基于所述企业信息,下载所述企业信息对应的资产登记文本的操作。
在一种可能的实现方式中,在识别出发票存在重复使用风险时,对所述发票重复使用风险进行告警。
在一种可能的实现方式中,所述方法还包括:生成所述发票风险识别的实例,并将所述实例加入风控任务中心,以根据所述风控任务中心的调度,对所述发票进行周期性风险识别。
根据本公开的第二方面,提供了一种发票风险识别装置,包括:
第一数据获取模块,用于获取企业信息和发票信息;
第二数据获取模块,用于基于所述企业信息,下载所述企业信息对应的资产登记文本;
风险识别模块,用于基于所述发票信息和所述资产登记文本,识别是否存在发票重复使用风险。
根据本公开的第三方面,提供了一种发票风险识别设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行本公开第一方面所述的方法。
在本公开中一种发票风险识别方法,包括获取企业信息和发票信息;基于企业信息,下载企业信息对应的资产登记文本;基于发票信息和资产登记文本,识别是否存在发票重复使用风险。通过本公开的发票风险识别方法可以自动识别出发票在融资活动中是否存在重复使用风险,从而提高了发票风险识别的效率和准确性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出根据本公开一实施例发票风险识别方法的流程图;
图2示出根据本公开一实施例发票风险识别方法的示例流程图;
图3示出根据本公开一实施例发票风险识别装置的示意性框图;
图4示出根据本公开一实施例发票风险识别设备的示意性框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
<方法实施例>
图1示出根据本公开一实施例发票风险识别方法的流程图。如图1所示,该方法包括步骤S1100-S1300。
S1100,获取企业信息和发票信息。其中,该企业信息可以包括企业的名称和纳税人识别号中的至少一种。该发票信息可以包括发票号码、发票代码、发票类型、加密数据、购买方信息、销售方信息、货物名称、数量、单价、金额、税率、税额和开票日期中的至少一种。
在一种可能的实现方式中,在获取发票信息时,可以包括以下步骤:
首先,获取发票文件,并基于光字识别算法识别出发票文件中的初始发票信息。其中,发票文件为发票的电子文件,该发票文件的文件类型可以是PDF、可以OFD,可以是PNG,可以是JPG,还可以是其他文件类型,在此不作具体限定。
在一种可能的实现方式中,在获取到发票文件后,先对发票文件的文件类型进行识别,在识别出发票文件的文件类型为PDF或者OFD时,对发票文件的文件类型进行转换,以得到PNG类型的发票文件;然后,对PNG类型的发票文件进行初始发票信息的识别。在识别出发票文件的文件类型为PNG或JPG时,可以直接基于PNG或JPG类型的发票文件进行初始发票信息的识别。
其次,基于预设的验证规则,验证初始发票信息是否准确。
在一种可能的实现方式中,预设的验证规则可以包括:第一验证规则和第二验证规则和第三验证规则中的至少一种。
在一种可能的实现方式中,第一验证规则可以是:购买方名称长度为1~100位;购买方纳税人识别号长度为15~20位,且仅支持大写字母和数字;购买方地址长度为0~100位;电话长度为0~100位;购买方开户行长度为0~100位;商品名称长度为1~100位;规格型号长度为0~40位;计量单位长度为0~22位中的至少一种。通过第一验证规则可以验证识别出的各项初始发票信息是否完整、规范以及识别出的各项发票信息是否有效。
在一种可能的实现方式中,第二验证规则可以是:验证发票号码、发票代码和发票类型三者之间是否符合设定的约束关系,在符合设定约束关系的情况下,确定初始发票信息准确。其中,设定的约束关系可以是:当发票代码为空时,发票号码长度为20位;当发票代码不为空时,发票代码长度为8~12位,发票号码长度为8位。
在一种可能的实现方式中,第三验证规则可以是:对加密数据进行解析,验证解析出的数据与初始发票信息是否一致,在一致的情况下,确定初始发票信息准确。举例来说,对加密数据进行解析后,将得到发票号码、发票代码、开票日期、金额和税额等解析数据。分别判断解析出的发票号码、发票代码、开票日期、金额和税额与初始发票信息中的发票号码、发票代码、开票日期、金额和税额是否一致,在均一致的情况下,确定初始发票信息准确。
在验证规则包括第一验证规则、第二验证规则和第三验证规则的可实现方式中,可以依次使用第一验证规则、第二验证规则和第三验证规则对初始发票信息的准确性进行验证,当初始发票信息满足三个验证规则的情况下,确定所述初始发票信息准确。当初始发票信息不满足任一验证规则的情况下,确定所述初始发票信息不准确。
再次,在验证初始发票信息准确的情况下,验证初始发票信息是否真实。
此处需要说明的是,验证初始发票信息是否准确只能确定发票信息本身是否存在内容缺失、填写不规范和由于篡改造成的自相矛盾等情况,但并不能确定发票是否真实开具过,即发票是否为真实开具的发票,因此,在验证初始发票信息准确的情况下,还要进一步地验证初始发票是否真实。
在一种可能的实现方式中,在验证初始发票信息是否真实时,基于国家税务总局提供的发票真实性查询接口实现。具体地,调用发票验真接口(发票验真应用程序接口(Application Programming Interface,API)),通过向发票验真API的服务端地址发送HTTPS、GET或POST请求,并按照发票验真API接口说明在请求中加入相应请求参数来调用发票验证API。其中,相应请求参数可以包括校验码、初始发票信息中的发票代码、发票号码、开票日期以及不含税金额中的至少一种。启动发票验真服务对初始发票信息进行真伪查验,若查验结果为真,则返回真实发票信息,其中,返回的真实发票信息为JSON(JavaScriptObject Notation)格式的结构化信息数据。也就是说,当收到发票验真接口返回的真实发票信息的情况下,即可以确定初始发票信息真实。返回的真实发票信息可以包括:发票号码、发票代码、发票类型、销售方名称、销售方纳税人识别号、销售方联系方式、销售方开户行、购方名称、购方纳税人识别号、购方联系方式、购方开户行、发票校验码、发票机器码、是否作废、税额合计、价格合计、价税合计、数量合计、更新时间、税局查验次数以及备注信息中的至少一种。
最后,在验证初始发票信息真实的情况下,将初始发票信息作为发票信息。
在该可实现方式中,先由发票信息中识别出初始发票信息,然后通过本地预设的验证规则验证初始发票信息的准确性,在初始发票信息准确的情况下,再通过国家税务总局提供的发票真实性查询接口进行初始发票信息真实性的验证,并在验证真实的情况下,将初始发票信息作为用于重复使用风险识别的发票信息,这样,可以提高获取有效发票信息的效率。
在一种可能的实现方式中,在获取到发票信息的情况下,还包括生成发票信息的唯一标识,并将发票信息以及发票信息的唯一标识进行存储,这样,后续便可以基于发票信息的唯一标识读取存储的发票信息。
在一种可能的实现方式中,在验证初始发票信息不准确或者初始发票信息不真实的情况下,还包括对初始发票信息异常进行告警的操作。具体地,在初始发票信息不准确的情况下,将生成反映初始发票信息不准确的第一告警消息,并将第一告警消息以广播的方式或者短信的方式发送至指定的外部应用端。在初始发票信息不真实的情况下,将生成反映初始发票信息不真实的第二告警消息,并将第二告警消息以广播或者短信的方式发送至指定的外部应用端。这样,用户便可以通过外部应用端及时接收告警消息,并根据告警消息对初始发票信息异常的发票文件进行处理。
此处需要说明的是,在企业向融资机构进行融资时,需要提供与自身企业相关的发票信息,因此,在一种可能的实现方式中,在获取企业信息和发票信息之后,还包括:验证企业信息与发票信息是否一致,在验证企业信息与发票信息一致的情况下,在执行基于企业信息,下载企业信息对应的资产登记文本的操作,这样,可以避免由发票信息与企业信息不一致造成的发票重复使用风险识别错误。
在企业信息包括企业名称和纳税人识别号的可实现方式中,可以验证企业名称和纳税人识别号是否与发票信息中购买方信息或者销售方信息一致,在一致的情况下,则确定企业信息与发票信息一致。其中,购买方信息包括购买方的企业名称和纳税人识别号,销售方信息包括销售方的企业名称和纳税人识别号。
S1200,基于企业信息,下载企业信息对应的资产登记文本。具体地,先基于企业信息,由中登网中下载与企业信息相关的资产登记文件。然后,基于资产登记文件,生成资产登记文本。其中,资产登记文件的类型可以是PDF,可以是OFD,可以是openXML,还可以是其它文件类型,在此不作具体限定。
在一种可能的实现方式时,在基于资产登记文件,生成资产登记文本时,基于资产登记文件的文件类型实现。具体地,在获取到资产登记文件后,识别资产登记文件的文件类型,选择与资产登记文件的文件类型相匹配算法提取出资产登记文件中的文本内容,生成资产登记文本。
在一种可能的实现方式中,在资产登记文件的文件类型为PDF或者OFD时,选择光字识别算法提取出资产登记文件中的文本内容,得到资产登记文本。
在一种可能的实现方式中,在资产登记文件的文件类型为openXML时,选择标签分析算法提取出资产登记文件中的文本内容,得到资产登记文本。具体地,资产登记文件中的文本中包括各类openXML标签,根据文本的长度匹配相应数量的线程实例对文本中的各类openXML标签进行分类匹配、整理和拼装,以得到资产登记文件对应的文本内容,并基于该文本内容生成资产登记文本。其中,各类openXML标签参见openXML的标准化工作技术委员会TC45提出的“Ecma Office Open XML”标准,标准是针对字处理文档、演示文稿和电子表格的国际化开放标准。通过选取与文本的长度匹配相应数量的线程实例对文本中的各类openXML标签进行分类匹配、整理和拼装,可以资产登记文件的处理速度。
在该可实现方式中,在根据文本的长度匹配相应数量的线程实例对文本中的各类openXML标签进行分类匹配、整理和拼装,以得到资产登记文件对应的文本内容时,可以包括以下步骤:
第一,使用fileLoader读取文件openXmlFile,判断openXmlFile是否属于待处理的openXML格式。其中,待处理的openXML格式包括:xlsx、docx。
第二,选用与penXmlFile的格式相匹配的算法,对openXmlFile文件进行处理以得到资产登记文本对应的文本内容。
下面以xlsx格式的penXmlFile为例,对第二步进行详细说明。
首先,解压缩openXmlFile为openXmlDirectory文件夹,按照目录规则获取相应XML文件。其中,xl/worksheets/sheet1.xml 为表结构文件,xl/sharedStrings.xml 为字符串共享存储文件。读取表结构文件为sheet1,读取字符串共享存储文件为sharedString。
其次,读取sheet1为Xml结构sheetXml1,读取sharedString为Xml结构sharedStringXml。
最后,获取sheetXml1的行数组sheetXml1Rows[],处理行数组的数据为sheetXmlStr。具体地,1)获取行内所有单元格cells。2)根据单元格类型选择相应的值处理办法。当单元格类型为s即字符串类型时,从sharedStringXml中按下标索引获取对应文本并返回;当单元格类型为n即数字类型时,直接获取v即value值返回;当单元格类型为其他类型时,正则去除所有xml标签,拼接剩余内容并返回。3)汇总行内所有单元格文本,通过半角逗号隔开,汇总成行文本字符串。4)为行文本尾部加入行下标补正编号。5)汇总行数组文本,通过"|"隔开,汇总成表文本字符串(即资产登记文本对应的文本内容)。
此处需要说明的是,在资产登记文件的文件类型为文本时,直接将该资产登记文件作为资产登记文本。
在得到资产登记文本后,可以将所有资产登记文本缓存至本地服务器中。其中,资产登记文本在本地服务器中的缓存时间可以根据具体的应用场景进行设置。例如,可以将资产登记文本在本地服务器中的缓存时间设置为4小时。
S1300,基于发票信息和资产登记文本,识别是否存在发票重复使用风险。
在一种可能的实现方式中,在基于发票信息和资产登记文本,识别是否存在发票重复使用风险时,可以包括以下步骤:
第一,对资产登记文本进行分词处理,得到资产登记文本的分词结果。具体地,可以采用自然语言处理工具对资产登记文本进行分词处理,从而得到包括多个分词的分词结果。
第二,基于发票信息和分词结果,计算发票信息与登记文本的关联度。
在一种可能的实现方式中,在基于发票信息和分词结果,计算发票信息与登记文本的关联度时,基于预设的发票信息分级实现。
在一种可能的实现方式中,预设的发票信息分级可以是至少两级。例如,可以将发票信息分为二级,其中,将发票信息中的发票号码作为第一级发票信息,将发票信息中的金额作为第二级发票信息。又如,还可以将发票信息分为三级,其中,可以将发票信息中的发票号码作为第一级发票信息,将发票信息中的购买方纳税人识别号作为第二级发票信息,将发票信息中的购买方名称作为第三级发票信息。
在该可实现方式中,在基于发票信息和分词结果,计算发票信息与登记文本的关联度时,可以包括以下步骤:
首先,基于各分级发票信息和分词结果,计算各分级发票信息与登记文本的关联度。
举例来说,预设的发票信息分级分为N级,分别为第一级发票信息、第二级发票信息,…,第N级发票信息。在依次计算各级发票信息与登记文本的关联度时,包括:先基于第一级发票信息和分词结果,计算第一级发票信息与登记文本的关联度。具体地,可以将第一级发票信息和分词结果输入至TF-IDF模型,计算出第一级发票信息在登记文本中第一词频,并计算第一词频与预设的一级权重的乘积,将该乘积作为第一级发票信息与登记文本的关联度。再基于第二级发票信息和分词结果,计算第二级发票信息与登记文本的关联度。具体地,将可以将第二级发票信息和分词结果输入至TF-IDF模型,计算出第二级发票信息在登记文本中第二词频,并计算第二词频、第二词频的前一词频(即第一词频)和预设的二级权重的乘积,并将该乘积作为第二级发票信息与登记文本的关联度。接着,依次计算第三级发票信息至第N级发票信息与登记文本的关联度。具体地计算过程参见第二级发票信息与登记文本的关联度的计算过程,在此不再赘述。
此处需要说明的是,各级发票信息对应的预设权重可以根据具体需求进行配置,在此不作具体限定。例如,在发票信息分为二级,发票信息中的发票号码作为第一级发票信息,发票信息中的金额作为第二级发票信息的可实现方式中,可以将一级权重设置为0.85,将二级权重设置为0.89。又如,在发票信息分为三级,发票信息中的发票号码作为第一级发票信息,发票信息中的购买方纳税人识别号作为第二级发票信息,发票信息中的购买方名称作为第三级发票信息的可实现方式中,各级发票信息对应的权重可以依次设置为0.85,0.82,0.63。
其次,基于各分级发票信息与登记文本的关联度,计算发票信息与登记文本的关联度。具体地,可以将各级发票信息与登记文本的关联度的平均值作为发票信息与登记文本之间的关联度。
第三,基于发票信息与登记文本之间的关联度,识别是否存在发票重复使用风险。具体地,可以预设配置风险识别阈值,在发票信息与登记文本之间的关联度大于风险识别阈值的情况下,确定该发票信息对应的发票文件存在重复使用风险。其中,风险识别阈值可以根据具体的应用需求进行配置,例如,可以将风险识别阈值设置为0.85。
在一种可能的实现方式中,在识别出发票存在重复使用风险时,对发票重复使用风险进行告警。具体地,在识别出发票存在重复使用风险时,可以生成反映发票存在重复使用风险的第三告警消息,并将第三告警消息以广播或者短信的方式发送至指定的外部应用端。这样,用户便可根据外部应用端接收到的第三告警消息对存在重复使用的发票文件进行处理。
在一种可能的实现方式中,发票风险识别方法还包括:生成发票风险识别的实例,并将实例加入风控任务中心,以根据风控任务中心的调度,对发票进行周期性风险识别。进一步地,在发票所在的融资活动结束后,可以从风控任务中心中移除实例,以结束对发票的周期性风险识别。通过本实施例,可以在整个融资周期内对发票的重复使用风险进行识别,从而提高融资周期内的风险防控能力。
在本公开中提供了一种发票风险识别方法,包括:获取企业信息和发票信息;基于企业信息,下载企业信息对应的资产登记文本;基于发票信息和资产登记文本,识别是否存在发票重复使用风险。通过本公开的发票风险识别方法可以自动识别出发票在融资活动中是否存在重复使用的风险,从而提高了发票风险识别的效率和准确性。
<方法示例>
图2示出根据本公开一实施例的发票风险识别方法的示例的流程图。该示例由外部应用端和发票风险识别系统交互实施。其中,发票风险识别系统中包括发票风控服务模块和基础服务模块。如图2所示,该方法包括步骤S2001-S2012。
S2001,通过外部应用端向发票风控服务模块发送发票验证请求,其中,该发票验证请求中包括融资过程中使用的发票文件。
S2002,发票风控服务模块在接收到发票验证请求后,向基础服务模块发送OCR识别请求,其中,该OCR识别请求中包括步骤S2001中的发票文件。
S2003,基础服务模块在接收到OCR识别请求后,由OCR识别请求中解析出发票文件并对发票文件进行文件类型转换,采用光字识别算法由发票文件中识别出发票信息。
S2004,基础服务模块将识别出的发票信息发送至发票风控服务模块。
S2005,发票风控服务模块在接收到发票信息后,对发票信息的准确性和真实性进行验证。
S2006,发票风控服务模块将发票信息以及发票信息的准确性和真实性验证结果反馈至外部应用端,并对发票的准确性和真实性异常进行告警。同时,对于准确且真实的发票信息进行存储,其中,存储的每一发票信息均对应设置由唯一发票标识,这样,后续便可以基于唯一的发票标识获取对应的发票信息。
S2007,通过外部应用端向发票风控服务模块发送的发票查重请求,其中,该发票查重请求中包括企业信息和融资使用的发票的发票标识。
S2008,发票风控服务模块在接收到发票查重请求后,将该发票查重请求发送至基础服务模块。
S2009,基础服务模块在接收到发票查重请求后,由发票查重请求中解析出企业信息和发票标识信息,并基于企业信息由中登网拉去与企业信息相关的资产登记文件。
S2010,基础服务模块将企业信息、发票标识信息以及资产登记文件发送至发票风控服务模块。
S2011,发票风控服务模块,基于发票标识信息读取对应的发票信息,将资产登记文件转换成资产登记文本,并基于发票信息和资产登记文本,识别是否存在发票重复使用风险。
S2012,发票风控服务模块将发票重复使用风险的识别结果反馈至外部应用端,并对发票重复使用风险进行告警。
在该方法示例中,发票风险识别方法还包括以下步骤:
由发票风控服务模块将上述S2011-S2012封装成实例,加入风控任务中心,并根据风控任务中心的调度,对发票进行周期性风险识别。其中,每个实例对应设置由唯一的实例标识。
通过外部应用端向发票风控服务模块发送的结束发票查重请求,其中,该结束发票查重请求中包括结束实例标识,发票风控服务模块在接收到该结束发票查重请求时,基于实例标识移除风控任务中心的实例,以结束对该发票风险识别。
<装置实施例>
图3示出根据本公开一实施例发票风险识别装置的示意性框图。如图3所示,发票风险识别装置100包括:
第一数据获取模块110,用于获取企业信息和发票信息;
第二数据获取模块120,用于基于所述企业信息,下载所述企业信息对应的资产登记文本;
风险识别模块130,用于基于所述发票信息和所述资产登记文本,识别是否存在发票重复使用风险。
<设备实施例>
图4示出根据本公开一实施例发票风险识别设备的示意性框图。如图4所示,发票风险识别设备200包括:处理器210以及用于存储处理器210可执行指令的存储器220。其中,处理器210被配置为执行可执行指令时实现前面任一所述的发票风险识别方法。
此处,应当指出的是,处理器210的个数可以为一个或多个。同时,在本公开实施例的发票风险识别设备200中,还可以包括输入装置230和输出装置240。其中,处理器210、存储器220、输入装置230和输出装置240之间可以通过总线连接,也可以通过其他方式连接,此处不进行具体限定。
存储器220作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序和各种模块,如:本公开实施例的发票风险识别方法所对应的程序或模块。处理器210通过运行存储在存储器220中的软件程序或模块,从而执行发票风险识别设备200的各种功能应用及数据处理。
输入装置230可用于接收输入的数字或信号。其中,信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置240可以包括显示屏等显示设备。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (10)
1.一种发票风险识别方法,其特征在于,包括:
获取企业信息和发票信息;
基于所述企业信息,下载所述企业信息对应的资产登记文本;
基于所述发票信息和所述资产登记文本,识别是否存在发票重复使用风险。
2.根据权利要求1所述的方法,其特征在于,在基于所述发票信息和所述资产登记文本,识别是否存在发票重复使用风险时,包括:
对所述资产登记文本进行分词处理,得到所述资产登记文本的分词结果;
基于所述发票信息和所述分词结果,计算所述发票信息与登记文本的关联度;
基于所述发票信息与登记文本之间的关联度,识别是否存在发票重复使用风险。
3.根据权利要求2所述的方法,其特征在于,所述发票信息包括至少两个分级发票信息;
在基于所述发票信息和所述分词结果,计算所述发票信息与登记文本的关联度时,包括:
基于各所述分级发票信息和所述分词结果,计算各所述分级发票信息与所述登记文本的关联度;
基于各所述分级发票信息与所述登记文本的关联度,计算所述发票信息与登记文本的关联度。
4.根据权利要求1所述的方法,其特征在于,在获取发票信息时,包括:
获取发票文件,并基于光字识别算法识别出所述发票文件中的初始发票信息;
基于预设的验证规则,验证所述初始发票信息是否准确;
在验证所述初始发票信息准确的情况下,验证所述初始发票信息是否真实;
在验证所述初始发票信息真实的情况下,将所述初始发票信息作为所述发票信息。
5.根据权利要求4所述的方法,其特征在于,在验证所述初始发票信息不准确或者所述初始发票信息不真实的情况下,对所述初始发票信息异常进行告警。
6.根据权利要求1所述的方法,其特征在于,在获取企业信息和发票信息之后,还包括:验证所述企业信息与所述发票信息是否一致;
在验证所述企业信息与所述发票信息一致的情况下,在执行基于所述企业信息,下载所述企业信息对应的资产登记文本的操作。
7.根据权利要求1-6任一项所述的方法,其特征在于,在识别出发票存在重复使用风险时,对所述发票重复使用风险进行告警。
8.根据权利要求1-6任一项所述的方法,其特征在于,还包括:生成发票风险识别的实例,并将所述发票风险识别的实例加入风控任务中心,以根据所述风控任务中心的调度,对发票进行周期性风险识别。
9.一种发票风险识别装置,其特征在于,包括:
第一数据获取模块,用于获取企业信息和发票信息;
第二数据获取模型,用于基于所述企业信息,下载所述企业信息对应的资产登记文本;
风险识别模块,用于基于所述发票信息和所述资产登记文本,识别是否存在发票重复使用风险。
10.一种发票风险识别设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述可执行指令时实现权利要求1至8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310302024.1A CN116228265A (zh) | 2023-03-24 | 2023-03-24 | 发票风险识别方法、装置和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310302024.1A CN116228265A (zh) | 2023-03-24 | 2023-03-24 | 发票风险识别方法、装置和设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116228265A true CN116228265A (zh) | 2023-06-06 |
Family
ID=86582579
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310302024.1A Pending CN116228265A (zh) | 2023-03-24 | 2023-03-24 | 发票风险识别方法、装置和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116228265A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118152548A (zh) * | 2024-05-13 | 2024-06-07 | 杭州律途科技有限公司 | 基于问答式图片文本提取模型的医保数据溯源方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2606400Y (zh) * | 2002-02-22 | 2004-03-10 | 何长杰 | 鉴别发票真伪的系统 |
WO2008108861A1 (en) * | 2006-06-12 | 2008-09-12 | Datacert, Inc | Electronic document processing |
CN106033445A (zh) * | 2015-03-16 | 2016-10-19 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN106339378A (zh) * | 2015-07-07 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词导向的主题网络爬虫的数据搜集方法 |
CN109472918A (zh) * | 2018-10-12 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 发票验证方法、融资审核方法、装置、设备及介质 |
CN109523685A (zh) * | 2018-09-04 | 2019-03-26 | 航天信息股份有限公司 | 一种基于ofd格式文件的电子发票查验方法及系统 |
WO2020119287A1 (zh) * | 2018-12-13 | 2020-06-18 | 阿里巴巴集团控股有限公司 | 基于区块链的发票创建方法及装置、电子设备 |
CN112069808A (zh) * | 2020-09-28 | 2020-12-11 | 深圳壹账通智能科技有限公司 | 融资风控方法、装置、计算机设备及存储介质 |
CN115018613A (zh) * | 2022-04-20 | 2022-09-06 | 中银金融科技有限公司 | 报告分析方法、装置、设备、存储介质及产品 |
-
2023
- 2023-03-24 CN CN202310302024.1A patent/CN116228265A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2606400Y (zh) * | 2002-02-22 | 2004-03-10 | 何长杰 | 鉴别发票真伪的系统 |
WO2008108861A1 (en) * | 2006-06-12 | 2008-09-12 | Datacert, Inc | Electronic document processing |
CN106033445A (zh) * | 2015-03-16 | 2016-10-19 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN106339378A (zh) * | 2015-07-07 | 2017-01-18 | 中国科学院信息工程研究所 | 基于关键词导向的主题网络爬虫的数据搜集方法 |
CN109523685A (zh) * | 2018-09-04 | 2019-03-26 | 航天信息股份有限公司 | 一种基于ofd格式文件的电子发票查验方法及系统 |
CN109472918A (zh) * | 2018-10-12 | 2019-03-15 | 深圳壹账通智能科技有限公司 | 发票验证方法、融资审核方法、装置、设备及介质 |
WO2020119287A1 (zh) * | 2018-12-13 | 2020-06-18 | 阿里巴巴集团控股有限公司 | 基于区块链的发票创建方法及装置、电子设备 |
CN112069808A (zh) * | 2020-09-28 | 2020-12-11 | 深圳壹账通智能科技有限公司 | 融资风控方法、装置、计算机设备及存储介质 |
CN115018613A (zh) * | 2022-04-20 | 2022-09-06 | 中银金融科技有限公司 | 报告分析方法、装置、设备、存储介质及产品 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118152548A (zh) * | 2024-05-13 | 2024-06-07 | 杭州律途科技有限公司 | 基于问答式图片文本提取模型的医保数据溯源方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887153B (zh) | 一种财税处理方法和处理系统 | |
US11710332B2 (en) | Electronic document data extraction | |
AU2019203697A1 (en) | Intelligent data extraction | |
US20110078067A1 (en) | Method and system configured for facilitating management of international trade receivables transactions | |
US10657530B2 (en) | Automated transactions clearing system and method | |
CN110599319B (zh) | 自动审计方法、装置、终端及存储介质 | |
CN109062872B (zh) | 一种对不同格式报关文件进行统一处理的方法 | |
CN112037039A (zh) | 一种贷款评估方法及装置 | |
CN117010779A (zh) | 基于智能编码的海关进出口申报方法、系统、设备及介质 | |
CN117541180A (zh) | 一种发票处理方法、装置及介质 | |
CN113918583A (zh) | 一种业务单据中审核节点风险等级的确定方法及确定装置 | |
CN119047450A (zh) | 合同模板数据处理方法、装置和计算机设备 | |
CN116228265A (zh) | 发票风险识别方法、装置和设备 | |
CN119339400A (zh) | 数据校验方法、装置、电子设备、存储介质及程序产品 | |
CN111223230A (zh) | 一种基于crnn算法的发票文件真伪识别方法 | |
CN117195319A (zh) | 保函文件电子件的验真方法、装置、电子设备和介质 | |
CN113887955B (zh) | 业务单据的审查方法、装置、电子设备及可读存储介质 | |
CN115713399A (zh) | 一种结合第三方数据源的用户信用评估系统 | |
CN114861622A (zh) | 跟单信用证生成方法、装置、设备、存储介质和程序产品 | |
CN114037999A (zh) | 一种ofd版式发票文件验真与解析的方法 | |
CN119338539B (zh) | 基于区块链的业务数据处理方法、装置、设备及存储介质 | |
CN120409648A (zh) | 一种影像上下游关联图谱生成方法、设备及介质 | |
EP3494530A1 (en) | Obtaining reissues of electronic documents lacking required data | |
CN119131824A (zh) | 发票检测方法、发票检测装置、设备及存储介质 | |
CN112861613A (zh) | 一种电子发票版式文件的识别查验方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230606 |
|
RJ01 | Rejection of invention patent application after publication |