[go: up one dir, main page]

CN119830906B - 地理信息词汇的敏感性确定方法和装置 - Google Patents

地理信息词汇的敏感性确定方法和装置

Info

Publication number
CN119830906B
CN119830906B CN202411917340.0A CN202411917340A CN119830906B CN 119830906 B CN119830906 B CN 119830906B CN 202411917340 A CN202411917340 A CN 202411917340A CN 119830906 B CN119830906 B CN 119830906B
Authority
CN
China
Prior art keywords
geographic information
vocabulary
word
database
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202411917340.0A
Other languages
English (en)
Other versions
CN119830906A (zh
Inventor
陈会仙
章炜
闫春利
杨殿阁
杨蒙蒙
程晓茜
王心宇
杨廷超
李墨
朱大伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Navinfo Co Ltd
Original Assignee
Tsinghua University
Navinfo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Navinfo Co Ltd filed Critical Tsinghua University
Priority to CN202411917340.0A priority Critical patent/CN119830906B/zh
Publication of CN119830906A publication Critical patent/CN119830906A/zh
Application granted granted Critical
Publication of CN119830906B publication Critical patent/CN119830906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种地理信息词汇的敏感性确定方法和装置,所述方法包括:获取目标地理信息词汇;确定目标地理信息词汇是否命中预先建立的地理信息词汇数据库,若未命中,获取预先建立的地理信息词组数据库,地理信息词组数据库中包括若干地理信息词组及其标签信息,多个地理信息词组能够组成地理信息词汇,地理信息词组的标签信息用于表示包括该地理信息词组的地理信息词汇为敏感词汇或非敏感词汇的概率;对目标地理信息词汇进行分词,得到多个分词,将多个分词中的每个分词与地理信息词组数据库中的地理信息词组进行匹配,基于地理信息词组数据库中与分词匹配成功的各个地理信息词组的标签信息确定目标地理信息词汇的敏感性。

Description

地理信息词汇的敏感性确定方法和装置
技术领域
本申请涉及数据安全技术领域,尤其涉及一种地理信息词汇的敏感性确定方法和装置。
背景技术
在现代信息社会中,地理信息已经广泛应用于各种场景,包括导航、位置服务、社交网络、智慧城市等。然而,地理信息中包含的部分内容可能涉及个人隐私、国家安全、商业机密等敏感数据,因此,如何对这些地理信息进行敏感性判断,进而采取相应的保护措施,成为了研究和技术应用中的一个重要课题。在相关技术中,通常会建立敏感地理信息的数据库,并将待判别的地理信息与数据库中的地理信息进行匹配,根据匹配结果确定待判别的地理信息是否敏感。然而,由于地理信息具有动态性和实时性,即,地理信息会随着时间、地点或环境变化而不断更新,因此,及时、全面地建立敏感地理信息的数据库存在一定的难度,从而导致对敏感地理信息的判断结果不够准确。
发明内容
第一方面,本申请实施例提供一种地理信息词汇的敏感性确定方法,所述方法包括:获取目标地理信息词汇;确定所述目标地理信息词汇是否命中预先建立的地理信息词汇数据库,所述地理信息词汇数据库中包括若干地理信息词汇,每个地理信息词汇对应于一个兴趣点,所述兴趣点表示具有唯一性和确定性的地理位置,所述若干地理信息词汇包括敏感词汇和非敏感词汇;若所述目标地理信息词汇未命中所述地理信息词汇数据库,获取预先建立的地理信息词组数据库,所述地理信息词组数据库中包括若干地理信息词组及其标签信息,多个地理信息词组能够组成地理信息词汇,地理信息词组的标签信息用于表示包括该地理信息词组的地理信息词汇为敏感词汇或非敏感词汇的概率;对所述目标地理信息词汇进行分词,得到多个分词,将所述多个分词中的每个分词与所述地理信息词组数据库中的地理信息词组进行匹配,基于所述地理信息词组数据库中与分词匹配成功的各个地理信息词组的标签信息确定所述目标地理信息词汇的敏感性。
第二方面,本申请实施例提供一种地理信息词汇的敏感性确定装置,所述装置包括:第一获取模块,用于获取目标地理信息词汇;确定模块,用于确定所述目标地理信息词汇是否命中预先建立的地理信息词汇数据库,所述地理信息词汇数据库中包括若干地理信息词汇,每个地理信息词汇对应于一个兴趣点,所述兴趣点表示具有唯一性和确定性的地理位置,所述若干地理信息词汇包括敏感词汇和非敏感词汇;第二获取模块,用于若所述目标地理信息词汇未命中所述地理信息词汇数据库,获取预先建立的地理信息词组数据库,所述地理信息词组数据库中包括若干地理信息词组及其标签信息,多个地理信息词组能够组成地理信息词汇,地理信息词组的标签信息用于表示包括该地理信息词组的地理信息词汇为敏感词汇或非敏感词汇的概率;匹配模块,用于对所述目标地理信息词汇进行分词,得到多个分词,将所述多个分词中的每个分词与所述地理信息词组数据库中的地理信息词组进行匹配,基于所述地理信息词组数据库中与分词匹配成功的各个地理信息词组的标签信息确定所述目标地理信息词汇的敏感性。
第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请任一实施例所述的方法。
第四方面,本申请实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请任一实施例所述的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请任一实施例所述的方法。
本申请实施例建立了两种数据粒度的数据库,数据粒度较大的数据库为地理信息词汇数据库,其中包括若干地理信息词汇,每个地理信息词汇对应于一个兴趣点,能够表示具有唯一性和确定性的地理位置;数据粒度较小的数据库为地理信息词组数据库,其中包括若干地理信息词组及其标签信息,地理信息词组是地理信息词汇中的一部分,多个地理信息词组能够组成地理信息词汇,标签信息能够表示包括地理信息词组的地理信息词汇为敏感词汇或非敏感词汇的概率。在确定目标地理信息词汇的敏感性时,首先确定目标地理信息词汇是否命中地理信息词汇数据库,若未命中,则将目标地理信息词汇中的多个分词与地理信息词组数据库中的地理信息词组进行匹配,并根据地理信息词组数据库中与分词匹配成功的各个地理信息词组的标签信息确定目标地理信息词汇的敏感性。由于地理信息词组仅为地理信息词汇中的一部分,其粒度相比于地理信息词汇的粒度更小,因此,地理信息词组可以作为组成地理信息词汇的要素,即便完整的地理信息词汇尚未被收录到地理信息词汇数据库,但依然可以基于组成地理信息词汇的要素来估计地理信息词汇的敏感性,而不是简单地将未收录到地理信息词汇数据库的地理信息词汇均判别为非敏感词汇,从而提高了地理信息词汇的敏感性判别结果的准确性。
应当理解,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。
附图说明
此处的附图被并入说明书中并构成本申请的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1是本申请实施例的地理信息词汇的敏感性确定方法的流程图。
图2是本申请实施例的地理信息词汇数据库的示意图。
图3是本申请实施例的地理信息词组数据库的示意图。
图4是本申请实施例的系统架构的示意图。
图5是本申请实施例的合规弱正词库对照表生成方式的示意图。
图6是本申请实施例的总体流程的示意图。
图7是本申请实施例的地理信息词汇的敏感性确定装置的框图。
图8是本申请实施例的计算机设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
为了使本技术领域的人员更好的理解本申请实施例中的技术方案,并使本申请实施例的上述目的、特征和优点能够更加明显易懂,下面结合附图对本申请实施例中的技术方案作进一步详细的说明。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
在很多应用场景中可能涉及地理信息的采集,采集的地理信息可能包括敏感信息。为了提高数据安全性,需要对地理信息进行敏感性判断。例如,在智能驾驶场景中,可以利用车载传感器(如GPS、雷达、摄像头等)采集周围环境的地理信息,用来规划路线和避开障碍物。采集的地理信息中可能包括一些涉密机构的名称,这些涉密机构的名称不适宜被公开,因此,需要通过敏感性判断将这些涉密机构的名称出采集的数据中过滤出来并进行脱敏处理。
在相关技术中,通常会建立敏感地理信息的数据库,并将待判别的地理信息与数据库中的地理信息进行匹配,根据匹配结果确定待判别的地理信息是否敏感。例如,敏感地理信息的数据库中包括“XX军事基地”,则在待判别的地理信息中包括“XX军事基地”时,带判别的地理信息与敏感地理信息的数据库中的“XX军事基地”匹配成功,从而可以将其判断为敏感的地理信息。
然而,地理信息可能随着时间、地点或环境变化而不断更新,例如,根据国情的发展,国家可能会在某地秘密增设一些新的行政机构。敏感地理信息的数据库的更新相对于地理信息本身的更新往往存在滞后性,若新增的行政机构对应的地理信息未能及时收录到敏感地理信息的数据库,就无法通过数据库匹配的方式来准确判断出实际采集的地理信息的敏感性。
基于此,本申请提供一种地理信息词汇的敏感性确定方法,参见图1,所述方法包括:
步骤S11:获取目标地理信息词汇;
步骤S12:确定所述目标地理信息词汇是否命中预先建立的地理信息词汇数据库,所述地理信息词汇数据库中包括若干地理信息词汇,每个地理信息词汇对应于一个兴趣点,所述兴趣点表示具有唯一性和确定性的地理位置,所述若干地理信息词汇包括敏感词汇和非敏感词汇;
步骤S13:若所述目标地理信息词汇未命中所述地理信息词汇数据库,获取预先建立的地理信息词组数据库,所述地理信息词组数据库中包括若干地理信息词组及其标签信息,多个地理信息词组能够组成地理信息词汇,地理信息词组的标签信息用于表示包括该地理信息词组的地理信息词汇为敏感词汇或非敏感词汇的概率;
步骤S14:对所述目标地理信息词汇进行分词,得到多个分词,将所述多个分词中的每个分词与所述地理信息词组数据库中的地理信息词组进行匹配,基于所述地理信息词组数据库中与分词匹配成功的各个地理信息词组的标签信息确定所述目标地理信息词汇的敏感性。
考虑到敏感的地理信息词汇(即敏感词汇)往往会包括指定的要素,本申请基于完整的地理信息词汇建立地理信息词汇数据库,同时,基于组成地理信息词汇的要素(即,地理信息词组)建立地理信息词组数据库。当待判别的目标地理信息词汇未能命中地理信息词汇数据库时,通过对目标地理信息词汇进行分词,并将得到的多个分词均与组成地理信息词汇的要素进行匹配,并在要素维度对目标地理信息词汇进行敏感性判别。相比于单纯依赖地理信息词汇数据库来对目标地理信息词汇进行敏感度判别的方式,本申请能够在地理信息词汇数据库更新不及时的情况下,有效提高地理信息词汇的敏感性判别结果的准确性。下面对本申请的具体实现方式进行举例说明。
在步骤S11中,可以获取目标地理信息词汇。其中,目标地理信息词汇与兴趣点(Point of Interest,POI)相对应,POI表示具有唯一性和确定性的地理位置。也就是说,目标地理信息词汇对应于具有唯一性和确定性的地理位置。例如,目标地理信息词汇可以是一个地址,如“XX省XX市XX区XX大街XX号”,或者是一栋具有唯一性和确定性的地表或建筑物名称,如“故宫”、“埃菲尔铁塔”等。
目标地理信息词汇的获取方式可以根据实际应用场景的不同而不同。例如,在智能驾驶场景中,目标地理信息词汇可以由车载传感器采集得到。在智能交通管理系统中,可以利用安装在交叉路口或高速公路的监控摄像头,结合计算机视觉技术识别车流、道路状况等信息,从而目标地理信息词汇。在地图和位置服务的应用中,可以通过与开放地图服务的接口对接,获取目标地理信息词汇。
在步骤S12中,可以获取预先建立的地理信息词汇数据库,该地理信息词汇数据库中包括若干地理信息词汇,每个地理信息词汇对应于一个兴趣点。地理信息词汇数据库中的若干地理信息词汇可以包括敏感词汇和非敏感词汇。其中,敏感词汇是指具有敏感性、不可公开的地理信息词汇,非敏感词汇是指不具有敏感性、可公开的地理信息词汇。
在一些实施例中,可以为地理信息词汇数据库中的每个地理信息词汇添加标签信息,用来表示该地理信息词汇是敏感词汇还是非敏感词汇。在另一些实施例中,可以分别为敏感词汇和非敏感词汇建立不同的地理信息词汇数据库。例如,可以建立正词汇数据库和负词汇数据库,其中,正词汇数据库中包括的地理信息词汇均为非敏感词汇,负词汇数据库中的地理信息词汇均为敏感词汇。
地理信息词汇数据库还可以按照一定的频率进行更新,例如,将地理信息词汇数据库中已有的地理信息词汇删除,在地理信息词汇数据库中增加新的地理信息词汇,和/或更改地理信息词汇的类型,如将正词汇数据库中的非敏感词汇迁移到负词汇数据库中。
在一些实施例中,地理信息词汇数据库还包括版本信息,用于表示地理信息词汇数据库当前的版本。不同版本的地理信息词汇数据库的内容可能是不同的,通过添加版本信息,便于对各个版本更新后的地理信息词汇数据库进行管理。
在一些实施例中,地理信息词汇数据库还包括文件标志,用于表示该地理信息词汇数据库的有效性。在使用时,可以先读取地理信息词汇数据库中的文件标志,并将读取的文件标志与预设的有效文件标志进行匹配。若匹配成功,则表示该地理信息词汇数据库为有效的地理信息词汇数据库,从而可以基于该地理信息词汇数据库执行对目标地理信息词汇进行敏感性判别。
在一些实施例中,地理信息词汇数据库中的各个地理信息词汇可以经加密处理。具体来说,可以通过加密技术将地理信息词汇加密为不可逆的数字唯一标识。加密方式包括但不限于哈希算法、散列加密、对称加密算法或非对称加密算法等。进一步地,在加密时,由于负词汇数据库中的地理信息词汇是不可公开的,因此,可以仅对负词汇数据库中的地理信息词汇进行加密。或者,也可以对正词汇数据库中的地理信息词汇和负词汇数据库中的地理信息词汇均进行加密处理。
一些实施例的地理信息词汇数据库如图2所示,包括表头信息和表数据,其中,表头信息包括文件标志和文件版本信息,表数据用于记录地理信息词汇,每条地理信息词汇与对应的数字唯一标识一一对应。在地理信息词汇数据库包括正词汇数据库和负词汇数据库的例子中,正词汇数据库和负词汇数据库均可以采用图2所示的数据结构。
在获取到目标地理信息词汇之后,可以确定目标地理信息词汇是否命中地理信息词汇数据库。若目标地理信息词汇与地理信息词汇数据库中的任意一个地理信息词汇相同,则可以确定目标地理信息词汇命中地理信息词汇数据库。若目标地理信息词汇与地理信息词汇数据库中的各个地理信息词汇均不同,则可以确定目标地理信息词汇未命中地理信息词汇数据库。
在地理信息词汇数据库包括正词汇数据库和负词汇数据库的例子中,可以先确定目标地理信息词汇是否命中正词汇数据库,若未命中,再确定目标地理信息词汇是否命中负词汇数据库。或者,也可以先确定目标地理信息词汇是否命中负词汇数据库,若未命中,再确定目标地理信息词汇是否命中正词汇数据库。或者,可以同步执行确定目标地理信息词汇是否命中正词汇数据库以及确定目标地理信息词汇是否命中负词汇数据库的步骤。
若目标地理信息词汇命中地理信息词汇数据库,可以基于目标地理信息词汇在地理信息词汇数据库中命中的地理信息词汇的类型,确定所述目标地理信息词汇的敏感性。例如,若命中的地理信息词汇的类型为敏感词汇,则可以确定该目标地理信息词汇为敏感词汇。若命中的地理信息词汇的类型为非敏感词汇,则可以确定该目标地理信息词汇为非敏感词汇。
在地理信息词汇数据库包括正词汇数据库和负词汇数据库的例子中,若目标地理信息词汇命中正词汇数据库中的非敏感词汇,可以直接确定目标地理信息词汇为非敏感词汇。同样地,若目标地理信息词汇命中负词汇数据库中的非敏感词汇,可以直接确定目标地理信息词汇为敏感词汇。
若目标地理信息词汇既未命中正词汇数据库,又未命中负词汇数据库,则可以确定目标地理信息词汇未命中所述地理信息词汇数据库,此时,可以执行步骤S13。
在一些实施例中,地理信息词汇数据库中的各个地理信息词汇预先经过加密处理。在这种情况下,可以先基于所述地理信息词汇数据库中的各个地理信息词汇的加密方式对目标地理信息词汇进行加密处理,再确定加密后的目标地理信息词汇是否命中预先建立的地理信息词汇数据库。这样,可以减少地理信息词汇数据库中的地理信息词汇泄露的风险。
在步骤S13中,可以获取预先建立的地理信息词组数据库,该地理信息词组数据库中包括若干地理信息词组及其标签信息。其中,地理信息词组是组成地理信息词汇的元素,多个地理信息词组能够组成地理信息词汇。地理信息词汇中包括但不限于以下至少部分要素:表示国家的要素、表示省的要素、表示市的要素、表示区的要素、表示街道的要素、表示建筑物信息(如建筑物的名称或编号)的要素、表示景点名称的要素等。例如,一条地理信息词汇可以是“XX省XX市XX街道XX公园”。每个地理信息词组可以包括上述一个或多个要素,例如,一个地理信息词组可以是“XX公园”,另一个地理信息词组可以是“XX市XX街道”,再一个地理信息词组可以是“XX省XX市”。地理信息词组对应一个或多个区域,每个区域可以包括多个兴趣点,即,地理信息词组对应的地理位置具有不唯一性和不确定性。例如,地理信息词组“XX公园”既可以是A市的XX公园,也可能是B市的XX公园。又例如,地理信息词组“XX省XX市”包括该市的政府大楼、商场、动物园等多个兴趣点。
由于地理信息词组对应的地理位置具有不唯一性和不确定性,因此,并不能直接确定地理信息词组是敏感的还是非敏感的。但是,地理信息词组是组成地理信息词汇的要素,并且,敏感词汇中通常包括特定要素,如“军队”、“政府大楼”等,因此,可以大致推测出包括某个地理信息词组的地理信息词汇为敏感词汇的概率。即,可以为每个地理信息词组建立标签信息,用来表示包括该地理信息词组的地理信息词汇为敏感词汇或非敏感词汇的概率。例如,包括“军队”这一地理信息词组的地理信息词汇为敏感词汇的概率较高,因此,“军队”这一地理信息词组对应的标签信息所表示的概率也较大,例如,可以为0.7;而包括“面馆”这一地理信息词组的地理信息词汇为敏感词汇的概率较高,因此,“面馆”这一地理信息词组对应的标签信息所表示的概率也较小,例如,可以为0.1。可以理解,此处的数值仅为示例性说明,并非用于限制本公开。
在一些实施例中,地理信息词组数据库可以包括正词组数据库和负词组数据库。其中,正词组数据库中的地理信息词组对应的标签信息所表示的概率,大于负词组数据库中的地理信息词组对应的标签信息所表示的概率。也就是说,如果目标地理信息词汇包括正词组数据库中的地理信息词汇,则该目标地理信息词汇有较高的概率为敏感词汇;如果目标地理信息词汇包括负词组数据库中的地理信息词汇,则该目标地理信息词汇有较低的概率为敏感词汇。
地理信息词组数据库还可以按照一定的频率进行更新,例如,将地理信息词组数据库中已有的地理信息词组删除,在地理信息词组数据库中增加新的地理信息词组,和/或更改地理信息词组的标签信息。
在一些实施例中,地理信息词组数据库还包括版本信息,用于表示地理信息词组数据库当前的版本。不同版本的地理信息词组数据库的内容可能是不同的,通过添加版本信息,便于对各个版本更新后的地理信息词组数据库进行管理。
在一些实施例中,地理信息词组数据库还包括文件标志,用于表示该地理信息词组数据库的有效性。在使用时,可以先读取地理信息词组数据库中的文件标志,并将读取的文件标志与预设的有效文件标志进行匹配。若匹配成功,则表示该地理信息词组数据库为有效的地理信息词组数据库,从而可以基于该地理信息词组数据库执行对目标地理信息词汇进行敏感性判别。
在一些实施例中,地理信息词组数据库还可以包括该地理信息词组数据库的权重。不同的地理信息词组数据库(如正词组数据库和负词组数据库)采用的权重可以是不同的。通过为地理信息词组数据库设置权重,可以调整该地理信息词组数据库中的地理信息词组的标签信息对敏感性判别结果的影响程度。
在一些实施例中,地理信息词组数据库还可以包括各个地理信息词组的权重。通过为地理信息词组设置权重(称为词组权重),能够调整地理信息词组对应的标签信息对敏感性判别结果的影响程度。例如,包括“军队”这一地理信息词组的地理信息词汇为敏感词汇的可能性远高于包括“面馆”这一地理信息词组的地理信息词汇,因此,“军队”这一地理信息词组对应的权重可以大于“面馆”这一地理信息词组对应的权重。
在一些实施例中,地理信息词组数据库中的各个地理信息词组、地理信息词组对应的标签信息、地理信息词组数据库的权重以及地理信息词组对应的权重均可以经加密处理。
一些实施例的地理信息词组数据库如图3所示,包括表头信息和表数据,其中,表头信息包括文件标志、文件版本信息和地理信息词组数据库的权重,表数据用于记录地理信息词组、地理信息词组的标签信息以及地理信息词组的权重。地理信息词组数据库的权重、地理信息词组、地理信息词组的标签信息以及地理信息词组的权重均可以是加密后的数据。在地理信息词组数据库包括正词组数据库和负词组数据库的例子中,正词组数据库和负词组数据库均可以采用图3所示的数据结构。
在步骤S14中,可以对目标地理信息词汇进行分词,得到多个分词。其中,多个分词可以包括地理信息词组,也可以包括非地理信息词组,包括但不限于人名、时间、数字等。例如,目标地理信息词汇为“张三面馆”,对该目标地理信息词汇进行分词可以得到“张三”和“面馆”这两个分词,其中,“张三”为人名,“面馆”为地理信息词组。
可以将多个分词中的每个分词与地理信息词组数据库中的地理信息词组进行匹配。在地理信息词组数据库包括正词组数据库和负词组数据库的情况下,可以先将每个分词与正词组数据库中的地理信息词组进行匹配,若某个分词未能与正词组数据库中的地理信息词组匹配成功,再将该分词与负词组数据库中的地理信息词组进行匹配;或者,可以先将每个分词与负词组数据库中的地理信息词组进行匹配,若某个分词未能与负词组数据库中的地理信息词组匹配成功,再将该分词与正词组数据库中的地理信息词组进行匹配;或者,可以并行地将每个分词与正词组数据库中的地理信息词组和负词组数据库中的地理信息词组进行匹配。
在一些实施例中,地理信息词组数据库中的各个地理信息词汇及其标签信息预先经过加密处理。可以先对地理信息词组数据库中的地理信息词组进行解密处理,将所述多个分词中的每个分词与地理信息词组数据库中的解密后的地理信息词组进行匹配。此外,还可以对地理信息词组数据库中与所述多个分词匹配成功的地理信息词组的标签信息进行解密处理,基于匹配成功的各个地理信息词组的解密后的标签信息确定目标地理信息词汇的敏感性。
举例来说,可以先对地理信息词组数据库中的各个地理信息词组进行解密处理,并将解密后的地理信息词组与目标地理信息词汇包括的多个分词进行匹配。假设地理信息词组数据库中的地理信息词组a与目标地理信息词汇中的某个分词匹配成功,则可以对地理信息词组a的标签信息进行解密处理,基于地理信息词组a的解密后的标签信息确定目标地理信息词汇的敏感性。
可以理解,以上仅为一种可实现的方式。在其他实现方式中,也可以先按照地理信息词组的加密方式对目标地理信息词汇中的多个分词进行加密,并对加密后的多个分词与地理信息词组数据库中的地理信息词组进行匹配,筛选出匹配成功的地理信息词组,再对匹配成功的地理信息词组的标签信息进行解密,基于解密后的标签信息确定目标地理信息词汇的敏感性。这种方式能够减少地理信息词组的泄露,提高数据安全性。
经过上述匹配过程,可以确定出地理信息词组数据库中与各个分词匹配成功的地理信息词组,基于确定出的这些地理信息词组可以确定目标地理信息词汇的敏感性。例如,目标地理信息词汇经分词得到A、B、C、D四个分词,其中,A和B与正词组数据库中的地理信息词组a匹配成功,C未与地理信息词组数据库中的任何地理信息词组匹配成功,D与负词组数据库中的地理信息词组d匹配成功,则可以基于地理信息词组a的标签信息和地理信息词组d的标签信息确定目标地理信息词汇的敏感性。
在一些实施例中,在对分词与地理信息词组进行匹配时,若分词与某个地理信息词组相同,可以确定该分词与该地理信息词组匹配成功。若分词与地理信息词组不同,则确定该分词与该地理信息词组匹配失败。
在另一些实施例中,可以在读音和字形两个维度上分别对分词与地理信息词组进行匹配,得到分词与地理信息词组的读音相似度和字形相似度,基于读音相似度和字形相似度确定分词与地理信息词组之间的总相似度,并基于该总相似度确定分词与地理信息词组是否匹配。例如,在总相似度大于预设相似度阈值时,可以确定分词与地理信息词组匹配成功,否则,确定分词与地理信息词组匹配失败。这样,可以减少因拼写错误或读音近似导致的匹配不准确的情况,例如,用户通过与开放地图服务的接口上传“XX部队”这一地理信息词汇时,将其中的“部队”输入为“部对”;或者,在车载语音输出模块输出“罗阳”时,将其误识别为“洛阳”。
在一些实施例中,可以将所述多个分词中的每个分词与正词组数据库中的地理信息词组进行匹配,确定正词组数据库中与所述多个分词匹配成功的各个第一地理信息词组的第一标签信息,将所述多个分词中的每个分词与负词组数据库中的地理信息词组进行匹配,确定负词组数据库中与所述多个分词匹配成功的各个第二地理信息词组的第二标签信息,并基于各个第一地理信息词组的第一标签信息和各个第二地理信息词组的第二标签信息,确定目标地理信息词汇的敏感性。
接着前面的例子,正词组数据库中与所述多个分词匹配成功的第一地理信息词组包括地理信息词组a,负词组数据库中与所述多个分词匹配成功的第二地理信息词组包括地理信息词组d,因此,可以基于地理信息词组a的标签信息和地理信息词组d的标签信息确定目标地理信息词汇的敏感性。
进一步地,还可以确定正词组数据库对应的第一权重和负词组数据库对应的第二权重,基于第一权重对各个第一地理信息词组的第一标签信息进行加权,并基于第二权重对各个第二地理信息词组的第二标签信息进行加权,基于各个第一地理信息词组的加权后的第一标签信息和各个第二地理信息词组的加权后的第二标签信息确定所述目标地理信息词汇的敏感性。
接着前面的例子,可以基于第一权重对地理信息词组a的标签信息进行加权,并基于第二权重对地理信息词组d的标签信息进行加权。然后,基于地理信息词组a加权后的标签信息和地理信息词组d加权后的标签信息确定目标地理信息词汇是否为敏感词汇。
进一步地,在基于各个第一地理信息词组的第一标签信息和各个第二地理信息词组的第二标签信息确定目标地理信息词汇的敏感性之前,还可以确定各个第一地理信息词组的权重和各个第二地理信息词组的权重,基于各个第一地理信息词组的权重对相应的第一地理信息词组的第一标签信息进行加权,并基于各个第二地理信息词组的权重对相应的第二地理信息词组的第二标签信息进行加权。
在一些实施例中,地理信息词组的权重与该地理信息词组的敏感程度等级相关。可以先确定地理信息词组的敏感程度等级,再根据地理信息词组的敏感程度等级确定该地理信息词组的权重。其中,地理信息词组的敏感程度等级越高,包括该地理信息词组的地理信息词汇为敏感词汇的概率越大。不同的敏感程度等级对应的权重可以是不同的。
可以理解,在实际应用中,与目标地理信息词汇中的多个分词匹配成功的各个地理信息词组的数量可以不限于上述例子中所举的情况,但无论匹配成功的地理信息词组的数量是多少,均可以采用与上述实施例中类似的方式来确定目标地理信息词汇的敏感性。
下面结合附图对本申请的一具体实施例及其应用场景进行举例说明。
本申请可用于智能网联汽车及自动驾驶领域,对车载传感器采集的地理信息词汇进行敏感性判别,并给出判定结果。本申请主要包括三个部分:知识库,判定参考资料,语义判定。
整体系统架构如图4所示,包括以下多个部分:合规强正词库、合规强正词库对照表、合规强正语义判定模块、合规强负词库、合规强负词库对照表、合规强负语义判定模块、合规弱正词库、合规弱正词库对照表、合规弱正语义判定模块、合规弱负词库、合规弱负词库对照表和合规弱负语义判定模块。
知识库中包含正词汇数据库(也称为合规强正词库)、负词汇数据库(也称为合规强负词库)、正词组数据库(也称为合规弱正词库)和负词组数据库(也称为合规弱负词库),这些知识库可以由专家团队实战经验持续积累和更新。
合规强正词库中的地理信息词汇为智能网联汽车及自动驾驶领域相关的可公开、非敏感的地理信息词汇(即前述实施例中的非敏感词汇);
合规强负词库中的地理信息词汇为智能网联汽车及自动驾驶领域相关的不可公开、强敏感的地理信息词汇(即前述实施例中的敏感词汇);
合规弱正词库中的地理信息词组为智能网联汽车及自动驾驶领域相关的可公开,但与弱敏感词组结合可能产生异议的地理信息词组,因此,合规弱正词库中的标签信息用于表示包括地理信息词组的地理信息词汇为非敏感词汇的概率;
合规弱负词库中的地理信息词组为智能网联汽车及自动驾驶领域相关的弱敏感的地理信息词组,因此,合规弱正词库中的标签信息用于表示包括地理信息词组的地理信息词汇为敏感词汇的概率。
判定参考资料包含对照表及判定原则两项内容。对照表中包含合规强正词库对照表(其中包括若干非敏感词汇)、合规强负词库对照表(其中包括若干敏感词汇)、合规弱正词库对照表(其中包括若干地理信息词组及其标签信息,该标签信息用于表示包括地理信息词组的地理信息词汇为非敏感词汇的概率)和合规弱负词库对照表(其中包括若干地理信息词组及其标签信息,该标签信息用于表示包括地理信息词组的地理信息词汇为敏感词汇的概率)。
可以将合规强正词库所有词汇采用商密数据加密保护技术生成不可逆的数字唯一标识,存储在私有格式文件中,即为合规强正词库对照表。同样地,可以将合规强负词库所有词汇采用商密数据加密保护技术生成不可逆的数字唯一标识,存储在私有格式文件中,即为合规强负词库对照表。
根据专家团队实战经验可以持续积累和更新合规弱正词库,并基于合规弱正词库按照与地理信息词组结合可能产生异议的程度,确定地理信息词组的敏感程度等级,并为不同敏感程度等级的地理信息词组赋予不同的权重。例如,可以划分出形成N多个敏感程度等级,分别对应N个权重。每次更新合规弱正词库,可以协同合规弱负词库对地理信息词组的权重进行调整。将地理信息词组的权重、标签信息以及合规弱正词库的权重等信息都做加密后,存储在私有格式文件中,即合规弱正词库对照表。具体步骤如图5所示。
合规弱负词库以及合规弱负词库对照表的处理方式类似,此处不再赘述。
上述实施例中涉及的各种权重可以基于专家团队实战经验持续积累和更新形成的技术判定规则确定,依赖合规弱正词库评分表和合规弱负词库评分表。同时语义判定模块的打分和判定环节会依赖评分判定原则。
如图6所示,语义判定主要包括以下步骤:1)合规强正词库判定;2)合规强负词库判定;3)合规弱正词库判定;4)合规弱负词库判定;5)输出判定结果。此判定结果能够确定输入的地理信息词汇是否可以进行公开或传输等活动。
①合规强正词库判定
将输入的目标地理信息词汇采用商密数据加密保护技术生成不可逆的数字唯一标识,判断合规强正词库对照表中是否包含此数字唯一标识,如果包含则确定目标地理信息词汇为非敏感词汇,并返回判定结果,判定流程结束;如果不包含,则进入步骤②继续判定;
②合规强负词库判定
将输入的目标地理信息词汇采用商密数据加密保护技术生成不可逆的数字唯一标识,判断合规强负词库对照表中是否包含此数字唯一标识,如果包含则确定目标地理信息词汇为敏感词汇,并返回判定结果,判定流程结束;如果不包含,则进入步骤③继续判定;
③合规弱正词库判定
遍历合规弱正词库评分表,将输入的目标地理信息词汇与合规弱正词库评分表中每个解密后的地理信息词组进行正则匹配,得到每个地理信息词组的权重和概率(即标签信息),并累计计算合规弱正词库评分表中匹配成功的各个地理信息词组对应的概率,得到累加总分;动态打分公式如下:
其中,ypositive表示合规弱正词库评分表中匹配成功的各个地理信息词组的累加总分,α12,N表示合规弱正词库评分表中N个地理信息词组各自的权重,基于相应的地理信息词组的敏感程度等级确定,x1,x2,,xN表示合规弱正词库评分表中N个地理信息词组各自对应的概率。
④合规弱负词库判定
遍历合规弱负词库评分表,将输入的目标地理信息词汇与合规弱负词库评分表中每个解密后的地理信息词组进行正则匹配,得到每个地理信息词组的维度权重和概率(即标签信息),并累计计算合规弱负词库评分表中匹配成功的各个地理信息词组对应的概率,得到累加总分;动态打分公式如下:
其中,ynegative表示合规弱负词库评分表中匹配成功的各个地理信息词组的累加总分,β12,M表示合规弱负词库评分表中M个地理信息词组各自的权重,基于相应的地理信息词组的敏感程度等级确定,y1,y2,,yM表示合规弱负词库评分表中M个地理信息词组各自对应的概率。
⑤输出判定结果
针对输入的某个目标地理信息词汇,基于合规弱正词库评分与合规弱负词库评分的累加总分确定其敏感性,具体公式如下所示:
其中,γpositive和γnegative分别表示合规弱正词库的权重和合规弱负词库的权重,Stotal表示目标地理信息词汇为敏感词汇的概率。
合规弱正词库的权重和合规弱负词库的权重用来保证累加总分在知识库动态更新时值域的一致性,分别来自于合规弱正词库评分表文件和合规弱负词库评分表文件,随着两个词库同步动态更新。
基于累加总分Stotal和内置的判定原则可以给出唯一判定结果,该判定结果为用于表示目标地理信息词汇是否可进行公开或传输等活动。例如,当Stotal大于某个阈值时,可以确定目标地理信息词汇为敏感词汇,不可进行公开或传输等活动;当Stotal小于或等于上述阈值时,可以确定目标地理信息词汇为非敏感词汇,可以进行公开或传输等活动。
本申请基于专家团队长期积累的实战经验,构建了一个多维度的知识库。这个知识库不仅涵盖了广泛的行业知识和经验,而且通过专家团队的持续更新,确保了与行业发展保持同步,能够应对不断变化的危害识别需求。
在这个多维度知识库的基础上,本申请进一步衍生出了判定参考资料和语义判定逻辑。这些判定参考资料和语义判定逻辑结合了行业内的专业知识和经验,从多个角度对输入词汇进行全面评估。通过对词汇的敏感性从多个维度进行评分,能够更准确地判断词汇的潜在危害程度。
为了更好的提升评估的准确性,本申请设计了一个严谨、科学的语义判定模块。这个模块不是简单地进行词汇匹配,而是通过为不同的地理信息词组赋予不同的权重和概率,来评估其是否构成危害。采用了多步骤、全面的打分机制,综合考虑了词汇的敏感程度等级,从而得出了更为准确和可靠的判定结果。
如图7所示,本申请还提供一种地理信息词汇的敏感性确定装置,所述装置包括:
第一获取模块101,用于获取目标地理信息词汇;
确定模块102,用于确定所述目标地理信息词汇是否命中预先建立的地理信息词汇数据库,所述地理信息词汇数据库中包括若干地理信息词汇,每个地理信息词汇对应于一个兴趣点,所述兴趣点表示具有唯一性和确定性的地理位置,所述若干地理信息词汇包括敏感词汇和非敏感词汇;
第二获取模块103,用于若所述目标地理信息词汇未命中所述地理信息词汇数据库,获取预先建立的地理信息词组数据库,所述地理信息词组数据库中包括若干地理信息词组及其标签信息,多个地理信息词组能够组成地理信息词汇,地理信息词组的标签信息用于表示包括该地理信息词组的地理信息词汇为敏感词汇或非敏感词汇的概率;
匹配模块104,用于对所述目标地理信息词汇进行分词,得到多个分词,将所述多个分词中的每个分词与所述地理信息词组数据库中的地理信息词组进行匹配,基于所述地理信息词组数据库中与分词匹配成功的各个地理信息词组的标签信息确定所述目标地理信息词汇的敏感性。
本申请提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
本申请实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述任一实施例所述的方法。
图8示出了本申请实施例所提供的一种更为具体的计算机设备硬件结构示意图,该设备可以包括:处理器201、存储器202、输入/输出接口203、通信接口204和总线205。其中处理器201、存储器202、输入/输出接口203和通信接口204通过总线205实现彼此之间在设备内部的通信连接。
处理器201可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案。处理器201还可以包括显卡,所述显卡可以是Nvidia titan X显卡或者1080Ti显卡等。
存储器202可以采用只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、静态存储设备,动态存储设备等形式实现。存储器202可以存储操作系统和其他应用程序,在通过软件或者固件来实现本申请实施例所提供的技术方案时,相关的程序代码保存在存储器202中,并由处理器201来调用执行。
输入/输出接口203用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口204用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线205包括一通路,在设备的各个组件(例如处理器201、存储器202、输入/输出接口203和通信接口204)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器201、存储器202、输入/输出接口203、通信接口204以及总线205,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请实施例方案所必需的组件,而不必包含图中所示的全部组件。
本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请任一实施例所述的方法。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一实施例所述的方法。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本申请实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请实施例的保护范围。

Claims (12)

1.一种地理信息词汇的敏感性确定方法,其特征在于,所述方法包括:
获取目标地理信息词汇;
确定所述目标地理信息词汇是否命中预先建立的地理信息词汇数据库,所述地理信息词汇数据库中包括若干地理信息词汇,每个地理信息词汇对应于一个兴趣点,所述兴趣点表示具有唯一性和确定性的地理位置,所述若干地理信息词汇包括敏感词汇和非敏感词汇;
若所述目标地理信息词汇未命中所述地理信息词汇数据库,获取预先建立的地理信息词组数据库,所述地理信息词组数据库中包括若干地理信息词组及其标签信息,多个地理信息词组能够组成地理信息词汇,地理信息词组的标签信息用于表示包括该地理信息词组的地理信息词汇为敏感词汇或非敏感词汇的概率;
对所述目标地理信息词汇进行分词,得到多个分词,将所述多个分词中的每个分词与所述地理信息词组数据库中的地理信息词组进行匹配,基于所述地理信息词组数据库中与分词匹配成功的各个地理信息词组的标签信息确定所述目标地理信息词汇的敏感性。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述目标地理信息词汇命中所述地理信息词汇数据库,基于所述目标地理信息词汇在所述地理信息词汇数据库中命中的地理信息词汇的类型,确定所述目标地理信息词汇的敏感性。
3.根据权利要求2所述的方法,其特征在于,所述地理信息词汇数据库包括正词汇数据库和负词汇数据库,所述正词汇数据库中包括所述非敏感词汇,所述负词汇数据库中包括所述敏感词汇;
所述基于所述目标地理信息词汇在所述地理信息词汇数据库中命中的地理信息词汇的类型,确定所述目标地理信息词汇的敏感性,包括:
若所述目标地理信息词汇命中所述正词汇数据库中的非敏感词汇,确定所述目标地理信息词汇为非敏感词汇;
若所述目标地理信息词汇命中所述负词汇数据库中的敏感词汇,确定所述目标地理信息词汇为敏感词汇。
4.根据权利要求1所述的方法,其特征在于,所述地理信息词组数据库包括正词组数据库和负词组数据库,所述正词组数据库中的地理信息词组对应的标签信息所表示的概率,大于所述负词组数据库中的地理信息词组对应的标签信息所表示的概率;
所述将所述多个分词中的每个分词与所述地理信息词组数据库中的地理信息词组进行匹配,基于所述地理信息词组数据库中与分词匹配成功的各个地理信息词组的标签信息确定所述目标地理信息词汇的敏感性,包括:
将所述多个分词中的每个分词与所述正词组数据库中的地理信息词组进行匹配,确定所述正词组数据库中与所述多个分词匹配成功的各个第一地理信息词组的第一标签信息;
将所述多个分词中的每个分词与所述负词组数据库中的地理信息词组进行匹配,确定所述负词组数据库中与所述多个分词匹配成功的各个第二地理信息词组的第二标签信息;
基于各个第一地理信息词组的第一标签信息和各个第二地理信息词组的第二标签信息,确定所述目标地理信息词汇的敏感性。
5.根据权利要求4所述的方法,其特征在于,所述基于各个第一地理信息词组的第一标签信息和各个第二地理信息词组的第二标签信息,确定所述目标地理信息词汇的敏感性,包括:
确定所述正词组数据库对应的第一权重和所述负词组数据库对应的第二权重;
基于所述第一权重对各个第一地理信息词组的第一标签信息进行加权,并基于所述第二权重对各个第二地理信息词组的第二标签信息进行加权;
基于各个第一地理信息词组的加权后的第一标签信息和各个第二地理信息词组的加权后的第二标签信息确定所述目标地理信息词汇的敏感性。
6.根据权利要求4所述的方法,其特征在于,在基于各个第一地理信息词组的第一标签信息和各个第二地理信息词组的第二标签信息,确定所述目标地理信息词汇的敏感性之前,所述方法还包括:
确定各个第一地理信息词组的权重和各个第二地理信息词组的权重;地理信息词组的权重与该地理信息词组的敏感程度等级相关,地理信息词组的敏感程度等级越高,包括该地理信息词组的地理信息词汇为敏感词汇的概率越大;
基于各个第一地理信息词组的权重对相应的第一地理信息词组的第一标签信息进行加权,并基于各个第二地理信息词组的权重对相应的第二地理信息词组的第二标签信息进行加权。
7.根据权利要求1所述的方法,其特征在于,所述地理信息词汇数据库中的各个地理信息词汇预先经过加密处理;
所述确定所述目标地理信息词汇是否命中预先建立的地理信息词汇数据库,包括:
基于所述地理信息词汇数据库中的各个地理信息词汇的加密方式对所述目标地理信息词汇进行加密处理;
确定加密后的目标地理信息词汇是否命中预先建立的地理信息词汇数据库。
8.根据权利要求1所述的方法,其特征在于,所述地理信息词组数据库中的各个地理信息词汇及其标签信息预先经过加密处理;
所述将所述多个分词中的每个分词与所述地理信息词组数据库中的地理信息词组进行匹配,基于所述地理信息词组数据库中与分词匹配成功的各个地理信息词组的标签信息确定所述目标地理信息词汇的敏感性,包括:
对所述地理信息词组数据库中的地理信息词组进行解密处理;
将所述多个分词中的每个分词与所述地理信息词组数据库中的解密后的地理信息词组进行匹配;
对所述地理信息词组数据库中与所述多个分词匹配成功的地理信息词组的标签信息进行解密处理;
基于匹配成功的各个地理信息词组的解密后的标签信息确定所述目标地理信息词汇的敏感性。
9.一种地理信息词汇的敏感性确定装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标地理信息词汇;
确定模块,用于确定所述目标地理信息词汇是否命中预先建立的地理信息词汇数据库,所述地理信息词汇数据库中包括若干地理信息词汇,每个地理信息词汇对应于一个兴趣点,所述兴趣点表示具有唯一性和确定性的地理位置,所述若干地理信息词汇包括敏感词汇和非敏感词汇;
第二获取模块,用于若所述目标地理信息词汇未命中所述地理信息词汇数据库,获取预先建立的地理信息词组数据库,所述地理信息词组数据库中包括若干地理信息词组及其标签信息,多个地理信息词组能够组成地理信息词汇,地理信息词组的标签信息用于表示包括该地理信息词组的地理信息词汇为敏感词汇或非敏感词汇的概率;
匹配模块,用于对所述目标地理信息词汇进行分词,得到多个分词,将所述多个分词中的每个分词与所述地理信息词组数据库中的地理信息词组进行匹配,基于所述地理信息词组数据库中与分词匹配成功的各个地理信息词组的标签信息确定所述目标地理信息词汇的敏感性。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任意一项所述的方法。
11.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任意一项所述的方法。
12.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任意一项所述的方法。
CN202411917340.0A 2024-12-24 2024-12-24 地理信息词汇的敏感性确定方法和装置 Active CN119830906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202411917340.0A CN119830906B (zh) 2024-12-24 2024-12-24 地理信息词汇的敏感性确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202411917340.0A CN119830906B (zh) 2024-12-24 2024-12-24 地理信息词汇的敏感性确定方法和装置

Publications (2)

Publication Number Publication Date
CN119830906A CN119830906A (zh) 2025-04-15
CN119830906B true CN119830906B (zh) 2025-10-21

Family

ID=95299020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202411917340.0A Active CN119830906B (zh) 2024-12-24 2024-12-24 地理信息词汇的敏感性确定方法和装置

Country Status (1)

Country Link
CN (1) CN119830906B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN121211030A (zh) * 2025-11-28 2025-12-26 湖北亿咖通科技有限公司 地理信息合规评估方法、设备、存储介质及程序产品

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729420A (zh) * 2013-12-20 2014-04-16 潘大庆 微博热点追踪系统及追踪方法
CN112183087A (zh) * 2020-09-27 2021-01-05 武汉华工安鼎信息技术有限责任公司 一种敏感文本识别的系统和方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380323B (zh) * 2020-12-01 2024-11-05 合肥大多数信息科技有限公司 一种基于中文分词识别技术的垃圾信息剔除系统及方法
CN117909538A (zh) * 2024-01-19 2024-04-19 上海点掌文化科技股份有限公司 敏感词检测方法、装置、设备及计算机可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103729420A (zh) * 2013-12-20 2014-04-16 潘大庆 微博热点追踪系统及追踪方法
CN112183087A (zh) * 2020-09-27 2021-01-05 武汉华工安鼎信息技术有限责任公司 一种敏感文本识别的系统和方法

Also Published As

Publication number Publication date
CN119830906A (zh) 2025-04-15

Similar Documents

Publication Publication Date Title
CN106649331B (zh) 商圈识别方法及设备
CN107796411B (zh) 具有偏好分析机制的导航系统及其操作方法
US11460307B2 (en) System and method for processing vehicle event data for journey analysis
KR102236571B1 (ko) 무선 엑세스 포인트를 이용하여 관심 지점을 유지하는 방법
US10955255B2 (en) Navigation system with location based parser mechanism and method of operation thereof
US9945676B2 (en) Navigation system with content curation mechanism and method of operation thereof
JP6464849B2 (ja) 移動経路データ匿名化装置および方法
US9086288B2 (en) Method and system for finding paths using GPS tracks
US20220046380A1 (en) System and method for processing vehicle event data for journey analysis
US10970184B2 (en) Event detection removing private information
CN119830906B (zh) 地理信息词汇的敏感性确定方法和装置
US9959289B2 (en) Navigation system with content delivery mechanism and method of operation thereof
CN114117261B (zh) 轨迹检测方法、装置、电子设备及存储介质
US11741167B2 (en) Merging point-of-interest datasets for mapping systems
US9273972B2 (en) Navigation system with error detection mechanism and method of operation thereof
US11821748B2 (en) Processing apparatus and method for determining road names
CN107247716B (zh) 一种增加电子眼信息的方法及装置、导航芯片及服务器
Stephens et al. Development of a smartphone application serving pavement management engineers
Dey et al. Identification of parking spaces from multi‐modal trajectory data
Miller et al. An exploratory analysis of the effects of spatial and temporal scale and transportation mode on anonymity in human mobility trajectories
Schneider et al. D-TOUR: Detour-based point of interest detection in privacy-sensitive trajectories
CN115599875B (zh) 一种轨迹异常检测方法、系统及产品
CN119377338B (zh) 地理对象处理方法、装置、电子设备和计算机存储介质
US12140690B2 (en) Positioning using locally unique neighbor cell identifiers
JP6054808B2 (ja) 並行道路判定装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant