CN111832998B - 一种判断寄递电话号码真实使用者的方法及装置 - Google Patents
一种判断寄递电话号码真实使用者的方法及装置 Download PDFInfo
- Publication number
- CN111832998B CN111832998B CN202010707689.7A CN202010707689A CN111832998B CN 111832998 B CN111832998 B CN 111832998B CN 202010707689 A CN202010707689 A CN 202010707689A CN 111832998 B CN111832998 B CN 111832998B
- Authority
- CN
- China
- Prior art keywords
- data
- telephone number
- data table
- information
- delivery
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000004364 calculation method Methods 0.000 claims abstract description 31
- 238000000638 solvent extraction Methods 0.000 claims description 12
- 239000003999 initiator Substances 0.000 claims description 5
- 238000005192 partition Methods 0.000 claims description 5
- 238000012805 post-processing Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 208000037805 labour Diseases 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/083—Shipping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Mathematical Analysis (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Evolutionary Biology (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Probability & Statistics with Applications (AREA)
- Strategic Management (AREA)
- Algebra (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种判断寄递信息中电话号码真实使用者的方法及装置,所述方法包括:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;对合并数据表中的数据进行分组、合并,得到处理后的数据表;获取概率计算模板,从所述概率计算模板获取概率规则;基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。根据本发明的方案,对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。在大规模数据下,当有多个人员使用同一个号码混淆查询视线时,可快速定位该号码的真实使用者。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种判断寄递电话号码真实使用者的方法及装置。
背景技术
随着互联网技术的日益成熟及人们生活水平的大幅度提高,越来越多的人选择在网络上购物消费,这也促进了寄递行业的快速发展壮大,为更多的劳动力提供了就业机会。因此,产生的寄递数据越来越多,为了使用、管理数据,必不可少的,需要提高数据的准确性。虽然目前办理电话号码都必须使用身份证实名注册,但实名注册之后并不一定是注册人在使用该电话号码,所以仅根据运营商的开户信息不能确定寄递信息中的寄递电话是该注册人在使用或是其他人在使用。因此,造成注册使用的身份信息和寄递信息中的寄递姓名不能完全匹配。为了对数据进行分析,需要提高数据的准确性,也需要对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。
但现有技术中并不存在对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断的方法。
发明内容
为解决上述技术问题,本发明提出了一种判断寄递电话号码真实使用者的方法及装置,所述方法及装置,用以解决现有技术中缺少对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断的技术问题。
根据本发明的第一方面,提供一种判断寄递电话号码真实使用者的方法,所述方法包括以下步骤:
步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则;
步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。
进一步地,所述步骤S101的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。
进一步地,所述步骤S102包括:获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。
进一步地,所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。
根据本发明第二方面,提供一种判断寄递电话号码真实使用者的装置,所述装置包括:
合并数据表生成模块:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
处理后数据表生成模块:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
获取模块:获取概率计算模板,从所述概率计算模板获取概率规则;
计算模块:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。
进一步地,所述合并数据表生成模块的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。
进一步地,所述处理后数据表生成模块包括:生成子模块,用于获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。
进一步地,所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25。
根据本发明第三方面,提供一种判断寄递电话号码真实使用者的系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的一种判断寄递电话号码真实使用者的方法。
根据本发明第四方面,提供一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的一种判断寄递电话号码真实使用者的方法。
根据本发明的上述方案,对寄递数据中发件人或收件人所填的电话号码的真实使用者是否是该发件人或收件人进行判断。在大规模数据下,当有多个人员使用同一个号码混淆查询视线时,可快速定位该号码的真实使用者,为不同方向的数据提取和查询准确性提供强有力的帮助与支撑。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
构成本发明的一部分的附图用来提供对本发明的进一步理解,本发明提供如下附图进行说明。在附图中:
图1为本发明一个实施方式的判断寄递信息中电话号码真实使用者的方法流程图;
图2为本发明一个实施方式的使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算示意图;
图3为本发明一个实施方式的判断寄递信息中电话号码真实使用者的系统架构图;
图4为本发明一个实施方式的判断寄递信息中电话号码真实使用者的装置结构框图。
具体实施方式
定义:
寄递:指邮局寄送邮件,也指邮局递送邮件,本文中特指快递公司的快递。
Spark:Apache Spark就专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce的通用并行框架。Spark拥有Hadoop MapReduce所具有的优点,但不同于MapReduce的是,Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此,Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先结合图1说明为本发明一个实施方式的识别打印文件的敏感内容的方法流程图。如图1所示,所述方法包括以下步骤:
步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则;
步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。
所述步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;包括:
所述寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据要以从多个数据源获取。
所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列。
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于应用场景标志dt,dt=1表示该数据为发件数据,dt=2表示该数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。
本实施例中,合并后生成的记录如表1所示。
表1
所述步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;包括:
获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。
本实施例中,表1中的数据经过处理后,得到的处理后的数据表如下表2所示。
姓名 | 电话 | 地址 | dt=1 | dt=2 | dt=3 | dt=4 |
张三 | 13619192929 | 地址一&地址五 | 1 | 0 | 0 | 1 |
李四 | 13899029983 | 地址二 | 2 | 0 | 0 | 0 |
王五 | 17799092278 | 地址三 | 0 | 0 | 1 | 0 |
钱七 | 17799092278 | 地址六&地址七 | 1 | 1 | 0 | 1 |
程六 | 13881819900 | 地址四 | 0 | 0 | 1 | 0 |
表2
结合表1和表2可以看出,张三在发送快递及与房产、车辆、法人等相关使用场景下,使用过其对应的电话号码;李四在两次发送快递时使用其对应的电话号码;王五在运营商处获得的信息中使用过其对应的号码,钱七使用的号码与王五一致,钱七在发快递、收快递、以及与房产、车辆、法人等相关使用场景下,均使用过该号码。程六在运营商处获得的信息中使用过其对应的号码。
所述步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则,其概率计算模板可以由用户根据使用需求动态配置。
本实施例中,所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25;
步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算,如图2所示。包括:
基于所述概率规则及处理后的数据表中的该电话号码在不同应用场景应用的次数,将各应用场景各自对应的标志dt的数值以连接符&连接;由Spark分别针对各应用场景进行概率计算;再将各应用场景对应的概率值求和。
对如表2中的处理后的数据表,按所述概率规则进行计算后,得到的概率表如表3所示。
姓名 | 电话 | 地址 | desc | rate |
张三 | 13619192929 | 地址一&地址五 | 1&0&0&1 | 0.55 |
李四 | 13899029983 | 地址二 | 2&0&0&0 | 0.6 |
王五 | 17799092278 | 地址三 | 0&0&1&0 | 0.15 |
钱七 | 17799092278 | 地址六 | 1&1&0&1 | 0.75 |
程六 | 13881819900 | 地址四 | 0&0&1&0 | 0.15 |
表3
从表3中,可以看出人员与当前使用的电话号码的匹配度,特别注意王五与钱七的数据,两人共用同一个号码,该号码是王五注册的,但实际使用是由钱七使用,根据数据计算结果,可以大概率地判定此号码的真实使用者是钱七。对于海量数据,计算出来的真实使用者的概率会更趋近于实际情况。
图3为本发明一个实施方式的判断寄递信息中电话号码真实使用者的系统架构图,具体如图3所示。
本发明实施例进一步给出一种判断寄递信息中电话号码真实使用者的装置,如图4所示,所述装置包括:
合并数据表生成模块:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
处理后数据表生成模块:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
获取模块:获取概率计算模板,从所述概率计算模板获取概率规则;
计算模块:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算。
本发明实施例进一步给出一种判断寄递信息中电话号码真实使用者的系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的一种判断寄递信息中电话号码真实使用者的方法。
本发明实施例进一步给出一种计算机可读存储介质,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如前所述的一种判断寄递信息中电话号码真实使用者的方法。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,实体机服务器,或者网络云服务器等,需安装Windows或者Windows Server操作系统)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (8)
1.一种判断寄递信息中电话号码真实使用者的方法,其特征在于,包括以下步骤:
步骤S101:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
步骤S102:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
步骤S103:获取概率计算模板,从所述概率计算模板获取概率规则;
步骤S104:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算;
所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25;
其中,dt为应用场景标志,dt=1表示数据为发件数据,dt=2表示数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一。
2.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法,其特征在于,所述步骤S101的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。
3.如权利要求1所述的判断寄递信息中电话号码真实使用者的方法,其特征在于,所述步骤S102包括:获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。
4.一种判断寄递信息中电话号码真实使用者的装置,其特征在于,所述装置包括:
合并数据表生成模块:获取数据信息,所述数据信息包括寄递数据、运营商开户数据、房产数据、车辆数据以及法人数据,在数据库中合并数据信息,得到合并数据表;并对数据信息依据数据内容、来源进行分区存储;
处理后数据表生成模块:对合并数据表中的数据进行分组、合并,得到处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数;
获取模块:获取概率计算模板,从所述概率计算模板获取概率规则;
计算模块:基于所述概率规则,使用Spark对所述处理后的数据表中的电话号码及姓名进行概率计算;
所述概率规则为:当寄递次数至少为2时,即寄快递、收快递累计至少2次时,也即dt=1和dt=2的计数和至少为2时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.6;
当寄递次数为1时,即仅寄快递1次或收快递1次时,也即dt=1和dt=2的计数和为1时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.3;
当运营商开户数据计数大于0,dt=3的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.15;
当房产信息、车辆数据、法人数据的计数大于0,即dt=4的计数大于0时,处理后的数据表中的电话号码的实际使用者与处理后的数据表中记录的姓名一致的概率为0.25;
其中,dt为应用场景标志,dt=1表示数据为发件数据,dt=2表示数据为收件数据,dt=3表示数据为运营商开户数据,dt=4表示数据至少为房产数据、车辆、法人数据之一。
5.如权利要求4所述的判断寄递信息中电话号码真实使用者的装置,其特征在于,所述合并数据表生成模块的所述在数据库中合并数据信息,包括:根据获取到的寄递数据,从寄递数据中提取运单号、寄件人信息及收件人信息;再根据寄件人信息、收件人信息分别查询运营商开户数据、房产数据、车辆数据以及法人数据,使寄递数据的每一个运单号对应两条数据记录,分别为第一记录和第二记录;所述第一记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的寄件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;所述第二记录至少包括获取的寄递数据中的运单号、快递公司、该运单号对应的收件人电话号、该电话号对应的开户人姓名、开户人身份证号、房产数据、车辆数据以及法人数据;得到待计算数据;
所述该运单号对应的寄件人电话号、该运单号对应的收件人电话号均对应于电话号列,该电话号对应的开户人姓名,均对应于姓名列;
在数据库中合并数据信息,并对数据信息依据数据内容、来源进行分区存储,还包括:使用greenplum数据库,利用应用场景标志dt、快递类型code为数据信息进行分区;
对于快递类型code,先获取该数据信息对应的应用场景标志dt,若dt=1或dt=2,则该快递类型code为快递公司名称缩写;若dt=3,则该快递类型code标记为kh,若dt=4,则该快递类型code标记为ybss。
6.如权利要求4所述的判断寄递信息中电话号码真实使用者的装置,其特征在于,所述处理后数据表生成模块包括:生成子模块,用于获取合并数据表,使用sql,根据姓名、电话号,将合并数据表中的数据分组,对于姓名、电话号均相同的记录,将地址去重,对于具有多个地址的,使用符号&连接多个地址,并对应用场景dt进行逻辑计数,生成处理后的数据表,所述处理后的数据表中至少记录有姓名、电话号码、地址、该电话号码在不同应用场景应用的次数。
7.一种判断寄递信息中电话号码真实使用者的系统,其特征在于,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如权利要求1-3之任一项所述的判断寄递信息中电话号码真实使用者的方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质中存储有多条指令;所述多条指令,用于由处理器加载并执行如权利要求1-3之任一项所述的判断寄递信息中电话号码真实使用者的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010707689.7A CN111832998B (zh) | 2020-07-21 | 2020-07-21 | 一种判断寄递电话号码真实使用者的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010707689.7A CN111832998B (zh) | 2020-07-21 | 2020-07-21 | 一种判断寄递电话号码真实使用者的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832998A CN111832998A (zh) | 2020-10-27 |
CN111832998B true CN111832998B (zh) | 2024-04-05 |
Family
ID=72924587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010707689.7A Active CN111832998B (zh) | 2020-07-21 | 2020-07-21 | 一种判断寄递电话号码真实使用者的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832998B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113885878B (zh) * | 2021-10-21 | 2024-12-10 | 优默网络科技(深圳)有限公司 | 应用程序的混淆方法、装置及计算机设备 |
CN114706899B (zh) * | 2022-01-24 | 2025-01-17 | 北京明朝万达科技股份有限公司 | 快递数据的敏感度计算方法、装置、存储介质及设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010107811A (ko) * | 2001-10-15 | 2001-12-07 | 김시율 | 전화번호를 이용한 주소검색 및 우편물발송대행 시스템 |
KR20060093640A (ko) * | 2005-02-22 | 2006-08-25 | 임성호 | 인터넷주민등록번호를 이용한 실명인증 방법 및 시스템 |
CN101551815A (zh) * | 2009-05-13 | 2009-10-07 | 陈福 | 一种实名隐私保护换号查询系统与查询方法 |
CN105574696A (zh) * | 2015-12-17 | 2016-05-11 | 深圳市从晶科技有限公司 | 快递实名制认证方法及系统 |
CN105608550A (zh) * | 2016-01-29 | 2016-05-25 | 重庆珂擎物联科技有限公司 | 用于邮件/快件实名制收寄及监督/核查/管理的方法 |
CN106296067A (zh) * | 2016-07-22 | 2017-01-04 | 孙巍 | 一种基于移动互联技术的快递包裹信息管理方法及系统 |
CN108416551A (zh) * | 2018-02-12 | 2018-08-17 | 安徽千云度信息技术有限公司 | 一种基于大数据的寄递物流信息管理平台 |
CN110362607A (zh) * | 2019-06-11 | 2019-10-22 | 中国平安财产保险股份有限公司 | 异常号码识别方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150054639A1 (en) * | 2006-08-11 | 2015-02-26 | Michael Rosen | Method and apparatus for detecting mobile phone usage |
-
2020
- 2020-07-21 CN CN202010707689.7A patent/CN111832998B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010107811A (ko) * | 2001-10-15 | 2001-12-07 | 김시율 | 전화번호를 이용한 주소검색 및 우편물발송대행 시스템 |
KR20060093640A (ko) * | 2005-02-22 | 2006-08-25 | 임성호 | 인터넷주민등록번호를 이용한 실명인증 방법 및 시스템 |
CN101551815A (zh) * | 2009-05-13 | 2009-10-07 | 陈福 | 一种实名隐私保护换号查询系统与查询方法 |
CN105574696A (zh) * | 2015-12-17 | 2016-05-11 | 深圳市从晶科技有限公司 | 快递实名制认证方法及系统 |
CN105608550A (zh) * | 2016-01-29 | 2016-05-25 | 重庆珂擎物联科技有限公司 | 用于邮件/快件实名制收寄及监督/核查/管理的方法 |
CN106296067A (zh) * | 2016-07-22 | 2017-01-04 | 孙巍 | 一种基于移动互联技术的快递包裹信息管理方法及系统 |
CN108416551A (zh) * | 2018-02-12 | 2018-08-17 | 安徽千云度信息技术有限公司 | 一种基于大数据的寄递物流信息管理平台 |
CN110362607A (zh) * | 2019-06-11 | 2019-10-22 | 中国平安财产保险股份有限公司 | 异常号码识别方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111832998A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815742B (zh) | 数据脱敏方法及装置 | |
CN110597816A (zh) | 数据处理方法、装置、计算机设备和计算机可读存储介质 | |
CN109739957B (zh) | 基于数据处理的单据信息录入方法、装置、设备及存储介质 | |
CN109756760B (zh) | 视频标签的生成方法、装置及服务器 | |
CN111832998B (zh) | 一种判断寄递电话号码真实使用者的方法及装置 | |
CN111429110B (zh) | 门店标准化审核方法、装置、设备及存储介质 | |
CN111159183B (zh) | 报表生成方法、电子装置及计算机可读存储介质 | |
CN112241458B (zh) | 文本的知识结构化处理方法、装置、设备和可读存储介质 | |
CN106446149B (zh) | 一种通知信息的过滤方法及装置 | |
CN108694547B (zh) | 账号异常识别方法、装置、设备和储存介质 | |
CN112115836B (zh) | 信息校验方法和装置、计算机可读存储介质、电子设备 | |
US11665176B2 (en) | Systems and methods of performing an identity verification across different geographical or jurisdictional regions | |
CN110380952B (zh) | 邮件收发方法及装置 | |
CN113468037A (zh) | 一种数据质量评估方法、装置、介质和电子设备 | |
CN117909335A (zh) | 一种数据中心资源管理方法及系统 | |
CN117493319A (zh) | 数据去重方法、装置、电子设备及存储介质 | |
CN116737417A (zh) | 数据同步方法、装置、设备及存储介质 | |
CN114710468B (zh) | 一种域名生成和识别方法、装置、设备及介质 | |
CN108376365B (zh) | 一种银行编号确定方法及装置 | |
CN107784478B (zh) | 行政机构信息的处理方法和装置 | |
CN113760939B (zh) | 账号类型的确定方法、装置及设备 | |
CN115994167A (zh) | 数据处理方法、装置、设备、介质及产品 | |
WO2020117074A1 (en) | Method and system to ensure a submitter of an anonymous tip remains anonymous | |
CN113034157B (zh) | 集团成员识别方法、装置及计算设备 | |
CN115828111A (zh) | 一种污染源的数据管理方法、数据管理系统以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |