CN109934265B - 一种常驻地址的确定方法和装置 - Google Patents
一种常驻地址的确定方法和装置 Download PDFInfo
- Publication number
- CN109934265B CN109934265B CN201910118099.8A CN201910118099A CN109934265B CN 109934265 B CN109934265 B CN 109934265B CN 201910118099 A CN201910118099 A CN 201910118099A CN 109934265 B CN109934265 B CN 109934265B
- Authority
- CN
- China
- Prior art keywords
- address
- user
- clustering
- cell
- cells
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种常驻地址的确定方法和装置,该方法包括:根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区,用户地址信息中包括每个用户ID下的多个经纬度地址信息;根据预设的排序策略,确定每个用户ID对应的优选地址聚类小区,该优选地址聚类小区是多个地址聚类小区中的任一小区;根据优选地址聚类小区,利用GeoHash计算,对应筛选出每个用户ID对应的常驻地址信息。因此,能够使用GeoHash对用户的经纬度数据进行处理,利用预设聚合策略在保证数据计算的精确度的同时减少计算时间。此外,利用GeoHash计算将常驻地址信息与实际地理区域对应,提升地址信息的覆盖率。
Description
技术领域
本申请涉及信息处理技术领域,特别是涉及一种常驻地址的确定方法和装置。
背景技术
在现有技术中,大部分互联网公司通过应用程序中的SDK(中文:软件工具开发包,英文:Software Development Kit)采集该应用程序的用户每次使用该应用程序时所在的经纬度,以获取每个用户的常驻地址信息。但是,这种采集方式受限于用户是否授权以及用户是否经常使用该应用程序,也就是说,用户使用应用程序的习惯和在应用程序中设置有对应SDK的数量决定了所能够采集到的经纬度的数量和频率,因此,通常是每隔一段时间、一段距离才能采集到一个经纬度,而对应采集到经纬度的总人数通常是亿级别的。
目前,常驻的地理位置挖掘算法多用于单个用户的稠密轨迹计算,对应建立亿级别的聚类模型需要较长的时间,进而降低了业务响应速度。且单个用户经纬度数据稀疏也会导致这些聚类模型的效果较差,进而无法保证地址信息的正确性。
发明内容
鉴于上述问题,本申请实施例提供一种常驻地址的确定方法,能够解决现有技术业务响应速率慢且无法保证正确率的问题。
相应的,本申请实施例还提供了一种常驻地址的确定装置,用以保证上述方法的实现及应用。
为了解决上述问题,本申请实施例公开了一种常驻地址的确定方法,所述方法包括:
根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区,所述用户地址信息中包括每个用户ID下的多个经纬度地址信息;
根据预设的排序策略,确定所述每个用户ID对应的优选地址聚类小区,所述优选地址聚类小区是所述多个地址聚类小区中的任一小区;
根据所述优选地址聚类小区,利用空间索引编码GeoHash算法,对应筛选出每个用户ID对应的常驻地址信息。
相应的,本申请实施例还公开了一种常驻地址的确定方法装置,所述装置包括:
小区生成模块,用于根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区,所述用户地址信息中包括所述每个用户ID下的多个经纬度地址信息;
小区确定模块,用于根据预设的排序策略,确定所述每个用户ID对应的优选地址聚类小区,所述优选地址聚类小区是所述多个地址聚类小区中的任一小区;
信息筛选模块,用于根据所述优选地址聚类小区,利用空间索引编码GeoHash算法,对应筛选出每个用户ID对应的常驻地址信息。
本申请实施例还提供一种装置,包括处理器以及存储器,其中,
所述处理器执行所述存储器所存放的计算机程序代码,以实现本申请所述的常驻地址的确定方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现本申请所述的常驻地址的确定方法的步骤。
本申请实施例包括以下优点:
根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区,所述用户地址信息中包括所述每个用户ID下的多个经纬度地址信息;根据预设的排序策略,确定所述每个用户ID对应的优选地址聚类小区,所述优选地址聚类小区是所述多个地址聚类小区中的任一小区;根据所述优选地址聚类小区,利用空间索引编码GeoHash算法,对应筛选出每个用户ID对应的常驻地址信息。因此,能够使用GeoHash计算对用户的经纬度数据进行处理,进而利用预设的聚类策略,在保证数据计算的精确度的同时能够减少聚类计算的时间。此外,利用GeoHash计算,将用户的常住地址信息与实际地理区域对应,克服在数据稀疏区域下无法保证地址信息准确性的问题,从而提升地址信息的覆盖率。
附图说明
图1是本申请的一种常驻地址的确定方法实施例的步骤流程图;
图2是本申请的一种常驻地址的确定方法可选实施例的步骤流程图;
图3是本申请的一种常驻地址的确定方法可选实施例的步骤流程图;
图4是本申请的一种常驻地址的确定方法实施例的步骤流程图;
图5是本申请的一种常驻地址的确定装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
在介绍本发明的实施例之前,首先对现有的常驻地址的确定方法进行介绍:DBSCAN(中文:基于密度带有噪音的聚类,英文:Density-Based Spatial Clustering ofApplication with Noise)算法是现有常驻的聚类算法,其核心是从某个选定的核心点出发,不断向目的可达的区域扩张,从而得到一个包含核心点和边界点的最大化区域,在这个区域中任一两个点之间的密度相连,由于利用DBSCAN算法要求计算各经纬度之间的距离,例如当有n个经纬度,则涉及到n*n次距离计算;且对于不同用户ID所采集到的经纬度数量是不一致的,在并行计算过程中会导致数据倾斜,影响计算效率;由于针对每个用户都需要建立一个DBSCAN模型,而建立大量的DBSCAN模型往往需要较长的计算时间,且为了得到合适的聚类中心,通常会根据经验值设定定义密度时的领域半径(eps)和定义核心点时的阈值(minPts),而参数对于采集数量不同的经纬度会得到不同的聚类效果,进一步会导致经纬度采集数量较少的用户无法判断出聚类中心,从而导致总量减少。因此,现有的常驻地址的确定方法在时间和数量上均无法满足亿级别用户常驻小区的挖掘需求。本发明的技术方案利用GeoHash进行聚类中心的处理,有效利用大数据并行计算的机制,进而缩短计算时间,同时增加所能挖掘出的小区数量。
参照图1,示出了本申请的一种常驻地址的确定方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区。
其中,用户地址信息中包括每个用户ID下的多个经纬度地址信息。
示例地,当采集到多个用户ID所对应的多个经纬度地址信息之后,为了降低计算量可以对用户地址信息进行GeoHash(空间索引编码)的转换:将经纬度编码成一串数字和字母的组合,每个编码代表平面空间的一个网格(地址范围),编码位数决定了网格的大小,例如12位GeoHash编码wttkctytjxkw对应的经纬度为(31.804945,119.957899)。当取其前6位wttkct时,所对应的经纬度为(31.8,120),该6位的GeoHash编码构成的网格区域(其中包括了所有GeoHash编码前6位相同的经纬度)大小在1.5km范围内,进而可以满足对常驻地址信息的计算精度和降低计算量的目的。因此,本发明优选的采用前6位的GeoHash编码进行归类聚合,对应每个用户ID分别生成多个地址聚类小区。
步骤102,根据预设的排序策略,确定每个用户ID对应的优选地址聚类小区。
其中,优选地址聚类小区是多个地址聚类小区中的任一小区。
示例地,通过步骤101将SDK授权采集的源数据根据用户ID和GeoHash值进行分类,为每个用户ID生成多个地址聚类小区,其中源数据中包括设备ID、经纬度、采集时间戳等信息。再利用本步骤,为每个用户ID确定一个优选地址聚类小区,例如可以将多个地址聚类小区中用户ID出现频率最高的作为优选地址聚类小区,或者是出现频率最高且出现天数最多的作为优选地址聚类小区。
步骤103,根据优选地址聚类小区,利用空间索引编码GeoHash算法,对应筛选出每个用户ID对应的常驻地址信息。
其中,利用GeoHash算法对优选地址聚类小区中经纬度信息进行再次筛选,进一步精确确定该用户ID对应的常驻地址。
需要说明的是,本发明所提出的技术方法用于各类场景下的聚类划分,例如大量用户并且用户的经纬度数据量分布不均,大部分用户经纬度数据量较少等场景下的常驻地址挖掘,能够确定比如工作地址、活跃商圈等信息,此外,依据本发明所提出的技术方案可以挖掘出的每个用户ID对应的常驻地址,也就是市政规划中的住户小区信息,进而再能够根据小区的房价等级确定该用户ID对应的资质;或者是基于常驻地址进行风控,通过小区地址记录和标记,对可能出现的黑灰产进行查找和排除。
此外,需要说明的是,在现有的聚类方法中,通常需要提供一个参数来确定是否能够成功聚类,例如预设6个点以上才能成为一个聚类小区;因此当区域A和区域B分别有10个点和5个点时,那么在预设6个点的限制的情况下,只有区域A可以聚类成功,区域B虽然这5个点都在一起但是由于参数限制,却无法聚类成功,这样会导致无法判断B的聚类小区。通常这个聚类数量的参数(6)是根据经验得出的,因此对于不同的用户这个参数值并不通用。而本发明所提供的技术方案,并不需要设置该参数,即使只有一个点,也会去判断它对应的常驻地址信息,进而能够满足在数据稀疏的区域进行聚类的需求。
综上所述,本申请实施例提供的常驻地址的确定方法,根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区,用户地址信息中包括每个用户ID下的多个经纬度地址信息;根据预设的排序策略,确定每个用户ID对应的优选地址聚类小区,该优选地址聚类小区是多个地址聚类小区中的任一小区;根据优选地址聚类小区,利用GeoHash计算,对应筛选出每个用户ID对应的常驻地址信息。因此,能够使用GeoHash计算对用户的经纬度数据进行处理,进而利用预设的聚类策略在保证数据计算的精确度的同时能够减少聚类操作的计算时间。此外,利用GeoHash计算,将用户的常住地址信息与实际地理区域所对应,克服在数据稀疏区域下无法保证地址信息准确性的问题,从而提升地址信息的覆盖率和准确度。
参照图2,示出了本申请的一种常驻地址的确定方法可选实施例的步骤流程图,步骤101所述的根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区,包括如下步骤:
步骤1011,对用户地址信息进行GeoHash计算,以获取多个地址地理哈希值。
示例地,将用户地址信息中所有经纬度地址信息转换为地址地理哈希值,以便于进行常驻地址的挖掘,简化数据计算过程。
步骤1012,根据每个用户ID,分别将多个地址地理哈希值中前第一预设位数相同的地址地理哈希值聚合为一个地址聚类小区,以生成多个地址聚类小区。
在具体应用中,可以选取地址地理哈希值中前6位相同的地址地理哈希值作为一个簇(Cluster),也就是对应每个用户ID生成多个地址聚类小区,且每个地址聚类小区中应包括多个前6位相同的地址地理哈希值,其分别对应该用户ID下的一个经纬度地址信息。
需要说明的是,由于通过选取前6位相同的地址地理哈希值进行聚类,避免通过大量计算(例如现有的聚类算法,通过计算点与点之间的距离)以进行聚类的操作,本发明的技术方案则可以通过简单的方式快速有效的实现地址聚类小区的划分。
参照图3,示出了本申请的一种常驻地址的确定方法可选实施例的步骤流程图,步骤102所述的根据预设的排序策略,确定每个用户ID对应的优选地址聚类小区,包括如下步骤:
步骤1021,根据用户地址信息,获取每个用户ID对应的数据汇总信息。
其中,数据汇总信息中包括用户ID分别在多个地址聚类小区中出现次数、分别在多个地址聚类小区中出现天数以及在每一个地址聚类小区中最近一次出现的时间。
示例地,通过对用户地址信息的统计,对应确定每个用户ID分别在每个地址聚类小区中出现次数、出现天数以及上一次出现时间等信息,以作为对优选地址聚类小区的筛选条件。
步骤1022,通过对数据信息汇总进行排序,将多个地址聚类小区中符合排序条件的地址聚类小区,作为用户ID对应的优选地址聚类小区。
在具体应用中,可以对用户ID分别在多个地址聚类小区中出现次数、分别在多个地址聚类小区中出现天数以及在每一个地址聚类小区中最近一次出现的时间进行倒序排序,对出现次数、出现天数以及上一次(最近一次)出现时间等信息进行优先级设置。示例地,将出现次数设置为优先级最高的,之后是出现天数,上一次出现时间作为最低优先级。也就是可以将在多个地址聚类小区中出现次数最高的小区直接作为优选地址聚类小区;而当出现次数最多对应有多个小区时(在多个小区的出现次数一样多),可以再进行出现天数的比对,将出现天数最多的小区作为优选地址聚类小区;若出现天数最多也对应多个小区时(在多个小区的出现天数也一样多),则继续对比最近一次出现时间,例如通过SDK获取到的最近一次出现时间是以时间戳的方式表示的,当对最近一次出现时间进行倒序排序时,时间戳越大则排在最前面,而时间戳越大说明离现在时间越近,即可以作为优选地址聚类小区。
参照图4,示出了本申请的一种常驻地址的确定方法可选实施例的步骤流程图,步骤103所述的根据优选地址聚类小区,利用空间索引编码GeoHash算法,对应筛选出每个用户ID对应的常驻地址信息,包括如下步骤:
步骤1031,对优选地址聚类小区中所有经度和纬度分别计算经平均值,以作为目标经纬度值。
示例地,由于每个地址聚类小区中将包括一个或者多个经纬度信息,因此可以对作为优选地址聚类小区中的所有的经纬度地址信息求平均值,分别确定为目标经度值和目标纬度值,如可以记为(Lat,Long)。
步骤1032,对目标经纬度值进行GeoHash转换,以生成目标地理哈希值。
示例地,将(Lat,Long)再转换为地理哈希值,作为目标地理哈希值,以便于之后与预先确定的多个小区地址哈希值进行比较筛选,该多个小区地址哈希值例如是根据导航软件所获取到的地图上的可选小区地址(行政地理规划小区)所对应的地址哈希值。
步骤1033,根据目标地理哈希值和预先确定的多个小区地址哈希值,确定待筛选目标点。
其中,待筛选目标点是多个小区地址哈希值中与目标地理哈希值前第二预设位数相同的小区地址。
示例地,可以选择前5位作为筛选目标点的条件,将从导航软件或者地图软件中获取到的多个小区地址哈希值(将原小区地址进行地址哈希值转换后生成的)与目标地理哈希值进行比对,将与目标地理哈希值的前5位一致的小区地址作为待筛选目标点,可能是多个,之后还需进行下面步骤的判断,以从中选出一个更为符合实际地理情况的地址信息(小区地址),而将根据上述步骤所确定的目标地理哈希值与实际的小区地址对应,即作为目标地理哈希值对应的用户ID的常住小区地址。需要说明的是,步骤101中选取6位GeoHash编码进行小区聚类,该6位GeoHash编码代表的网格大小在1.5km范围内;本步骤可以选择5位GeoHash编码作为筛选待筛选目标点的条件,由于5位GeoHash编码代表的网格大小在5km范围内,是因为在小区聚类时是考虑到小区半径在1km左右时,由于GeoHash的聚类方法可能造成边界处的点与其他编码区域距离更近,而为了尽量减少GeoHash边界差异带来的影响,本步骤选择网格范围更大,即5位GeoHash编码作为筛选待筛选目标点的条件,将6位GeoHash编码的边界点覆盖在其中,进而能够降低边界差异给计算结果带来的不准确性。
此外,本实施例提出的第一预设位数和第二预设位数不局限于上述的6和5,为了进一步提高精确度,可以将预设位数选择的更大,具体本发明不做限制。
步骤1034,分别计算待筛选目标点与目标经纬度值之间的距离。
步骤1035,选择与目标经纬度值的距离最小的待筛选目标点,作为用户ID对应的常驻地址信息。
示例地,通过计算待筛选目标点与目标经纬度值之间的距离,进而确定常驻地址信息,即将待筛选目标点与目标经纬度值距离最近的地址信息作为常驻地址信息。
也就是说,由于根据步骤1032所确定的目标地理哈希值对应的实际地理地址是地图上的某一个点(经纬度值),无法直接与小区地址对应,为了能够精确确定使用某一用户ID的用户的所居住的实际小区地址,可以利用已有的多个小区地址哈希值进行距离计算;并且为了降低计算量,先利用地理哈希值进行筛选,将前5位一致的哈希值所对应的小区地址作为备选小区,再精确计算每个备选小区与目标地理哈希值所在地点的实际距离,从而能够从备选小区中确定用户所居住的实际小区地址,即作为常驻地址,进而也实现将某一个点获取一个实际地址信息的过程。
此外,需要说明的是,在实施例1的步骤103之后还可以包括:
将常驻地址信息与用户ID关联,以作为用户ID的常驻小区地址。
示例地,通过上述步骤101-步骤103,根据用户地址信息,为每个用户ID确定一个常驻地址信息,该地址信息可以作为是该用户ID的用户所常驻的小区位置信息,即常驻小区地址,将二者进行关联后,用于之后利用常驻小区地址进行用户ID的扩展应用。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
参照图5,示出了本申请的一种常驻地址的确定装置实施例的结构框图,具体可以包括如下模块:
小区生成模块510,用于根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区,用户地址信息中包括每个用户ID下的多个经纬度地址信息。
小区确定模块520,用于根据预设的排序策略,确定每个用户ID对应的优选地址聚类小区,优选地址聚类小区是多个地址聚类小区中的任一小区。
信息筛选模块530,用于根据优选地址聚类小区,利用空间索引编码GeoHash算法,对应筛选出每个用户ID对应的常驻地址信息。
在本申请的一个可选实施例中,小区生成模块510,包括:
计算子模块,用于对用户地址信息进行GeoHash计算,以获取多个地址地理哈希值。
小区聚类子模块,用于根据每个用户ID,分别将多个地址地理哈希值中前第一预设位数相同的地址地理哈希值聚合为一个地址聚类小区,以生成多个地址聚类小区。
可选的,在本申请的一个可选实施例中,小区确定模块520,包括:
信息采集子模块,用于根据用户地址信息,获取每个用户ID对应的数据汇总信息,数据汇总信息中包括每个用户ID分别在多个地址聚类小区中出现次数、分别在多个地址聚类小区中出现天数以及在每一个地址聚类小区中最近一次出现的时间。
小区获取子模块,用于通过对数据信息汇总进行排序,将多个地址聚类小区中符合排序条件的地址聚类小区,作为用户ID对应的优选地址聚类小区。
可选的,在本申请的一个可选实施例中,信息筛选模块530,包括:
平均值计算子模块,用于对优选地址聚类小区中所有经度和纬度分别计算经平均值,以作为目标经纬度值;
哈希值转换子模块,用于对目标经纬度值进行GeoHash转换,以生成目标地理哈希值;
目标点筛选子模块,用于根据目标地理哈希值和预先确定的多个小区地址哈希值,确定待筛选目标点;待筛选目标点是多个小区地址哈希值中与目标地理哈希值前第二预设位数相同的小区地址;
距离计算子模块,用于分别计算待筛选目标点与目标经纬度值之间的距离;
信息获取子模块,用于选择与目标经纬度值的距离最小的待筛选目标点,作为用户ID对应的常驻地址信息。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在终端设备时,可以使得该终端设备执行本申请实施例中各方法步骤的指令(instructions)。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (6)
1.一种常驻地址的确定方法,其特征在于,所述方法包括:
根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区,所述用户地址信息中包括所述每个用户ID下的多个经纬度地址信息;
根据预设的排序策略,确定所述每个用户ID对应的优选地址聚类小区,所述优选地址聚类小区是所述多个地址聚类小区中的任一小区;
根据所述优选地址聚类小区,利用空间索引编码GeoHash算法,对应筛选出每个用户ID对应的常驻地址信息;
其中,所述根据所述优选地址聚类小区,利用空间索引编码GeoHash算法,对应确定每个用户ID对应的常驻地址信息,包括:
对所述优选地址聚类小区中所有经度和纬度分别计算经平均值,以作为目标经纬度值;
对所述目标经纬度值进行GeoHash转换,以生成目标地理哈希值;
根据所述目标地理哈希值和预先确定的多个小区地址哈希值,确定待筛选目标点,所述待筛选目标点是所述多个小区地址哈希值中与所述目标地理哈希值前第二预设位数相同的小区地址;
分别计算所述待筛选目标点与所述目标经纬度值之间的距离;
选择与所述目标经纬度值的距离最小的待筛选目标点,作为所述用户ID对应的所述常驻地址信息。
2.根据权利要求1所述的方法,其特征在于,所述根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区,包括:
对所述用户地址信息进行GeoHash计算,以获取多个地址地理哈希值;
根据所述每个用户ID,分别将所述多个地址地理哈希值中前第一预设位数相同的地址地理哈希值聚合为一个地址聚类小区,以生成所述多个地址聚类小区。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的排序策略,分别确定每个用户ID对应的优选地址聚类小区,包括:
根据所述用户地址信息,获取所述每个用户ID对应的数据汇总信息,所述数据汇总信息中包括所述用户ID分别在所述多个地址聚类小区中出现次数、分别在所述多个地址聚类小区中出现天数以及在每一个地址聚类小区中最近一次出现的时间;
通过对所述数据信息汇总进行排序,将所述多个地址聚类小区中符合排序条件的地址聚类小区,作为所述用户ID对应的所述优选地址聚类小区。
4.一种常驻地址的确定装置,其特征在于,所述装置包括:
小区生成模块,用于根据采集到的用户地址信息,利用预设的密度聚类算法,生成每个用户ID所对应的多个地址聚类小区,所述用户地址信息中包括所述每个用户ID下的多个经纬度地址信息;
小区确定模块,用于根据预设的排序策略,确定所述每个用户ID对应的优选地址聚类小区,所述优选地址聚类小区是所述多个地址聚类小区中的任一小区;
信息筛选模块,用于根据所述优选地址聚类小区,利用空间索引编码GeoHash算法,对应筛选出每个用户ID对应的常驻地址信息;
其中,所述信息筛选模块,包括:
平均值计算子模块,用于对所述优选地址聚类小区中所有经度和纬度分别计算经平均值,以作为目标经纬度值;
哈希值转换子模块,用于对所述目标经纬度值进行GeoHash转换,以生成目标地理哈希值;
目标点筛选子模块,用于根据所述目标地理哈希值和预先确定的多个小区地址哈希值,确定待筛选目标点,所述待筛选目标点是所述多个小区地址哈希值中与所述目标地理哈希值前第二预设位数相同的小区地址;
距离计算子模块,用于分别计算所述待筛选目标点与所述目标经纬度值之间的距离;
信息获取子模块,用于选择与所述目标经纬度值的距离最小的待筛选目标点,作为所述用户ID对应的所述常驻地址信息。
5.根据权利要求4所述的装置,其特征在于,所述小区生成模块,包括:
计算子模块,用于对所述用户地址信息进行GeoHash计算,以获取多个地址地理哈希值;
小区聚类子模块,用于根据所述每个用户ID,分别将所述多个地址地理哈希值中前第一预设位数相同的地址地理哈希值聚合为一个地址聚类小区,以生成所述多个地址聚类小区。
6.根据权利要求5所述的装置,其特征在于,所述小区确定模块,包括:
信息采集子模块,用于根据所述用户地址信息,获取所述每个用户ID对应的数据汇总信息,所述数据汇总信息中包括所述每个用户ID分别在所述多个地址聚类小区中出现次数、分别在所述多个地址聚类小区中出现天数以及在每一个地址聚类小区中最近一次出现的时间;
小区获取子模块,用于通过对所述数据信息汇总进行排序,将所述多个地址聚类小区中符合排序条件的地址聚类小区,作为所述用户ID对应的所述优选地址聚类小区。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910118099.8A CN109934265B (zh) | 2019-02-15 | 2019-02-15 | 一种常驻地址的确定方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910118099.8A CN109934265B (zh) | 2019-02-15 | 2019-02-15 | 一种常驻地址的确定方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109934265A CN109934265A (zh) | 2019-06-25 |
CN109934265B true CN109934265B (zh) | 2021-06-11 |
Family
ID=66985611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910118099.8A Active CN109934265B (zh) | 2019-02-15 | 2019-02-15 | 一种常驻地址的确定方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109934265B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112203286B (zh) * | 2019-07-08 | 2022-10-18 | 中国移动通信集团浙江有限公司 | 无线网络覆盖稳定性的评估方法、装置及设备 |
CN110688436B (zh) * | 2019-08-19 | 2021-06-08 | 成都海天数联科技有限公司 | 一种基于行车轨迹的改进型GeoHash道路聚类方法 |
CN110598131B (zh) * | 2019-08-20 | 2020-12-04 | 北京三快在线科技有限公司 | 确定用户常驻区域的方法、装置、存储介质和电子设备 |
CN112667756B (zh) * | 2019-10-15 | 2023-04-07 | 浙江大搜车软件技术有限公司 | 一种地址追踪方法及装置 |
CN111083636B (zh) * | 2019-12-27 | 2021-11-30 | 中国联合网络通信集团有限公司 | 运动状态信息的处理方法及设备 |
CN113139137B (zh) * | 2020-01-19 | 2022-05-03 | 北京三快在线科技有限公司 | 确定poi坐标的方法、装置、存储介质及电子设备 |
CN111400442B (zh) * | 2020-02-28 | 2024-06-04 | 深圳前海微众银行股份有限公司 | 常驻地址分析方法、装置、设备及可读存储介质 |
CN111680117A (zh) * | 2020-05-29 | 2020-09-18 | 上海欣能信息科技发展有限公司 | 一种电力用能服务大数据智慧地图系统及方法 |
WO2021203728A1 (zh) * | 2020-10-26 | 2021-10-14 | 平安科技(深圳)有限公司 | 一种展业区域的选址方法、装置、计算机设备和介质 |
CN112328880B (zh) * | 2020-11-05 | 2025-02-14 | 北京嘀嘀无限科技发展有限公司 | 地理区域聚类方法、装置、存储介质和电子设备 |
CN112883291B (zh) * | 2021-02-05 | 2023-04-07 | 上海钧正网络科技有限公司 | 目的地位置的推荐方法、装置和服务器 |
CN113704640B (zh) * | 2021-08-09 | 2023-04-07 | 北京三快在线科技有限公司 | 用户常驻地址的预测方法、装置、电子设备及存储介质 |
CN113961780A (zh) * | 2021-10-29 | 2022-01-21 | 中国电信股份有限公司 | 常驻小区的获取方法、装置、电子设备以及存储介质 |
CN114443974A (zh) * | 2021-12-20 | 2022-05-06 | 贝壳找房网(北京)信息技术有限公司 | 用户地理位置偏好数据挖掘方法、程序产品及存储介质 |
CN114416900A (zh) * | 2022-01-04 | 2022-04-29 | 厦门市美亚柏科信息股份有限公司 | 一种轨迹停留点分析的方法和装置 |
CN115526221B (zh) * | 2022-04-19 | 2023-10-24 | 荣耀终端有限公司 | 一种定位异常检测和处理方法及相关设备 |
CN115550843B (zh) * | 2022-04-19 | 2023-10-20 | 荣耀终端有限公司 | 一种定位方法及相关设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105234087A (zh) * | 2015-10-12 | 2016-01-13 | 杨彦明 | 一种快递自动分拣方法及系统 |
CN107547633A (zh) * | 2017-07-27 | 2018-01-05 | 腾讯科技(深圳)有限公司 | 一种用户常驻点的处理方法、装置和存储介质 |
CN108108749A (zh) * | 2017-12-12 | 2018-06-01 | 杭州电子科技大学 | 一种基于用户相似度的好友推荐方法 |
CN108271120A (zh) * | 2017-12-22 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 目标区域及目标用户的确定方法、装置及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104252527B (zh) * | 2014-09-02 | 2018-04-20 | 百度在线网络技术(北京)有限公司 | 一种确定移动用户的常驻点信息的方法和装置 |
US9720092B2 (en) * | 2015-03-26 | 2017-08-01 | International Business Machines Corporation | Enhanced conversion between geohash codes and corresponding longitude/latitude coordinates |
CN106485164A (zh) * | 2016-09-27 | 2017-03-08 | 维沃移动通信有限公司 | 一种图片处理方法和移动终端 |
CN109034454B (zh) * | 2018-06-25 | 2022-07-08 | 腾讯大地通途(北京)科技有限公司 | 路线挖掘方法、装置、计算机可读存储介质和计算机设备 |
-
2019
- 2019-02-15 CN CN201910118099.8A patent/CN109934265B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105234087A (zh) * | 2015-10-12 | 2016-01-13 | 杨彦明 | 一种快递自动分拣方法及系统 |
CN107547633A (zh) * | 2017-07-27 | 2018-01-05 | 腾讯科技(深圳)有限公司 | 一种用户常驻点的处理方法、装置和存储介质 |
CN108108749A (zh) * | 2017-12-12 | 2018-06-01 | 杭州电子科技大学 | 一种基于用户相似度的好友推荐方法 |
CN108271120A (zh) * | 2017-12-22 | 2018-07-10 | 阿里巴巴集团控股有限公司 | 目标区域及目标用户的确定方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109934265A (zh) | 2019-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109934265B (zh) | 一种常驻地址的确定方法和装置 | |
CN107547633B (zh) | 一种用户常驻点的处理方法、装置和存储介质 | |
Zheng et al. | Forecasting fine-grained air quality based on big data | |
Lee et al. | Can Twitter data be used to validate travel demand models | |
CN106156965B (zh) | 一种物流服务调度方法与设备 | |
CN103220376B (zh) | 利用移动终端的位置数据来定位ip位置的方法 | |
CN110264709A (zh) | 基于图卷积网络的道路的交通流量的预测方法 | |
US9291700B1 (en) | Systems and methods to identify home addresses of mobile devices | |
CN109189876B (zh) | 一种数据处理方法及装置 | |
CN111597279B (zh) | 基于深度学习的信息预测方法及相关设备 | |
CN112738729B (zh) | 一种用手机信令数据判别探亲返乡游客的方法及系统 | |
CN112651546B (zh) | 一种公交线路优化方法以及系统 | |
JP6756744B2 (ja) | 位置情報提供方法及び装置 | |
CN111415035A (zh) | 一种预估建筑功能户型比的方法及装置 | |
CN117351368B (zh) | 自然村边界的获取方法、装置、电子设备及存储介质 | |
CN110598917A (zh) | 一种基于路径轨迹的目的地预测方法、系统及存储介质 | |
KR101703972B1 (ko) | 공간정보를 이용한 지하수 부존 지역 예측시스템 및 지하수 부존 지역 예측방법 | |
CN110807546A (zh) | 社区网格人口变化预警方法及系统 | |
EP4290914A1 (en) | Traffic scenario identification method and apparatus, device, and storage medium | |
CN112380906B (zh) | 一种基于行车数据确定用户住址的方法 | |
CN109150571B (zh) | 网格映射方法和装置 | |
CN107798450B (zh) | 业务分配方法和装置 | |
CN114339967A (zh) | 基站业务量的预测方法及装置 | |
CN112287503A (zh) | 用于交通需求预测的动态空间网络构建方法 | |
CN117878918A (zh) | 一种基于分布式光伏的用电负荷确定方法、装置及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210913 Address after: 311100 18 Yuhang 207, Wen Yi Xi Road, Yuhang District, Hangzhou, Zhejiang. Patentee after: TONGDUN TECHNOLOGY Co.,Ltd. Address before: Room 704, building 18, No. 998, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Patentee before: TONGDUN HOLDINGS Co.,Ltd. |
|
TR01 | Transfer of patent right |