CN114791938A - 位置标签的生成方法、装置、存储介质及电子设备 - Google Patents
位置标签的生成方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114791938A CN114791938A CN202110105381.XA CN202110105381A CN114791938A CN 114791938 A CN114791938 A CN 114791938A CN 202110105381 A CN202110105381 A CN 202110105381A CN 114791938 A CN114791938 A CN 114791938A
- Authority
- CN
- China
- Prior art keywords
- location
- point
- cluster
- data
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 28
- 238000004590 computer program Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 10
- 238000007405 data analysis Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Remote Sensing (AREA)
- Navigation (AREA)
Abstract
本发明提供一种位置标签的生成方法、装置、存储介质及电子设备,所述位置标签的生成方法包括以下步骤:获取车辆定位数据;对所述车辆定位数据进行基于密度的聚类,获取位置点簇;对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置;基于获取的所述位置点簇的质心位置,生成用户的位置标签。本发明首先通过聚类算法对海量的数据进行聚类,形成位置点簇,然后再通过聚类算法寻找位置点簇质心位置的方法形成用户的位置标签,从而达到获取用户重要位置数据的目的;本发明的位置标签的生成方法可以为车联网实现智能推荐和专项服务提供数据基础。
Description
技术领域
本发明涉及大数据技术领域,特别是涉及车联网大数据分析技术领域,具体为一种位置标签的生成方法、装置、存储介质及电子设备。
背景技术
车联网的概念源于物联网,即车辆物联网,是以行驶中的车辆为信息感知对象,借助新一代信息通信技术,实现车与X(即车与车、人、路、服务平台)之间的网络连接,提升车辆整体的智能驾驶水平,为用户提供安全、舒适、智能、高效的驾驶感受与交通服务,同时提高交通运行效率,提升社会交通服务的智能化水平。
车联网通过新一代信息通信技术,实现车与云平台、车与车、车与路、车与人、车内等全方位网络链接,主要实现了“三网融合”,即将车内网、车际网和车载移动互联网进行融合。车联网是利用传感技术感知车辆的状态信息,并借助无线通信网络与现代智能信息处理技术实现交通的智能化管理,以及交通信息服务的智能决策和车辆的智能化控制。
车联网的目标是做到在满足汽车驾驶安全的前提下,尽可能让汽车更好满足用户更多样化的需求。用户的标签数据,或称为数值化标签,是提供智慧服务的基础,用户的位置属性是用户标签最为重要的组成部分。浮动车数据是用户用车所产生的位置信息,利用浮动车数据获取用户重要的位置属性一直是业内所要追求实现目标,比如,获取常驻地、居住社区、工作地等等。
传统的获取用户位置属性的方法都是对数据点依赖较大,在GPS存在噪声时获取的位置数据出现较大偏差,同时,在海量的数据信息面前,无法有效获取所需的数据,快速形成用户的位置标签数据。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种位置标签的生成方法、装置、存储介质及电子设备,用于解决现有技术中无法有效从大数据中获取用户的位置标签数据的技术问题。
为实现上述目的及其他相关目的,本发明提供一种位置标签的生成方法,包括以下步骤:获取车辆定位数据;对所述车辆定位数据进行基于密度的聚类,获取位置点簇;对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置;基于获取的所述位置点簇的质心位置,生成用户的位置标签。
为实现上述目的,本发明还提供一种位置标签的生成装置,包括:数据获取模块,所述数据获取模块获取车辆定位数据;位置点簇获取模块,所述位置点簇获取模块对所述车辆定位数据进行基于密度的聚类,获取位置点簇;质心位置获取模块,所述质心位置获取模块对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置;位置标签标记模块,所述位置标签标记模块基于获取的所述位置点簇的质心位置,生成用户的位置标签。
为实现上述目的,本发明还提供一种存储介质,存储有程序指令,所述程序指令被处理器执行时实现如上所述的位置标签的生成方法的步骤。
为实现上述目的,本发明还提供一种电子设备,包括存储器,用于存储计算机程序;处理器,用于运行所述计算机程序以实现如上所述的位置标签的生成方法的步骤。
如上所述,本发明的一种位置标签的生成方法、装置、存储介质及电子设备,具有以下有益效果:
本发明位置标签的生成方法中首先通过聚类算法对海量的数据进行聚类,形成位置点簇,然后再通过聚类算法寻找位置点簇质心位置的方法形成用户的位置标签,从而达到获取用户重要位置数据的目的;本发明的位置标签的生成方法可以为车联网实现智能推荐和专项服务提供数据基础。
附图说明
图1显示为本发明的位置标签的生成方法和装置的应用架构图;
图2显示为本发明的位置标签的生成方法的整体流程示意图;
图3显示为本发明的位置标签的生成方法中获取位置点簇的流程示意图;
图4显示为本发明的位置标签的生成方法中形成的两个位置点簇的示意图;
图5显示为本发明的位置标签的生成方法中一种获取位置点簇的质心位置的流程图;
图6显示为本发明的位置标签的生成方法中质心位置的示意图;
图7显示为本发明的位置标签的生成方法中另一种获取位置点簇的质心位置的流程图;
图8显示为本发明的分享信息的处理装置的原理结构框图;
图9显示为本发明的电子设备于一实施例中的原理结构示意图。
元件标号说明
10 电子设备
101 处理器
102 存储器
100 位置标签的生成装置
110 数据获取模块
120 位置点簇获取模块
130 质心位置获取模块
140 位置标签标记模块
S100~S400 步骤
S210~S270 步骤
S311~S312 步骤
S321~S322 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,故图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的位置标签的生成方法、装置、存储介质及电子设备,用于解决现有技术中无法有效从大数据中获取用户的位置标签数据的技术问题。
以下将详细阐述本实施例的位置标签的生成方法、装置、存储介质及电子设备的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的位置标签的生成方法、装置、存储介质及电子设备。
实施例1
本实施例提供一种位置标签的生成方法,图1显示为实施例的位置标签的生成方法和装置的应用架构图。本实施例的位置标签的生成方法基于Hadoop分布式系统基础架构和SPARK MLLIB平台构建实现,即本实施例的位置标签的生成方法可以通过基于Hadoop分布式系统基础架构和SPARK MLLIB平台构建分布式应用程序实现。
如图1所示,本实施例采集多源数据,例如采集车载终端(TBOX)的数据,APP应用的行为数据(IVI),APP应用、车载终端等软件或设备的登录信息等。然后通过对数据过滤筛选形成用于数据分析的数据。本实施例在进行数据分析的原理如下:首先通过DBSCAN聚类算法对过滤筛选后的数据进行聚类,形成位置点簇,然后通过Kmeans聚类寻找位置点簇的质心位置,最后基于位置点簇的质心位置形成用户所需的位置标签(即位置属性),达到获取用户重要位置数据的目的。本实施例生成的位置标签可以为车联网提供应用的数据基础,车联网可以例如实现智能推荐和专项服务,满足用户使用需求和更高品质的要求。例如通过用户界面显示给用户,供各类APP应用的端口进行调用,通过车载终端或用户移动端的APP进行智能推荐等。
具体地,请参阅图2,显示为本发明的位置标签的生成方法的整体流程示意图。如图2所示,本实施例中的位置标签的生成方法包括以下步骤:
步骤S100,获取车辆定位数据;
步骤S200,对所述车辆定位数据进行基于密度的聚类,获取位置点簇;
步骤S300,对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置;
步骤S400,基于获取的所述位置点簇的质心位置,生成用户的位置标签。
以下对本实施例位置标签的生成方法中的步骤S100至步骤S400进行详细说明。
步骤S100,获取车辆定位数据。
于本实施例中,所述获取车辆定位数据包括:
1)获取预设的车辆埋点数据。
其中,车辆埋点数据包括但不限于采集车载终端(TBOX)的数据,APP应用的行为数据(IVI),APP应用、车载终端等软件或设备的登录信息等。
2)基于预设筛选条件对所述车辆埋点数据进行过滤筛选,形成所述车辆定位数据。
其中,所述预设筛选条件包括基于数据的时间属性形成的筛选条件和/或基于数据的空间属性形成的筛选条件。所述基于数据的时间属性形成的筛选条件是指包括上班时段(例如6点至9点)、下班时段(例如16点至19点)、节假日期等可通过时间将所述车辆定位数据进行筛选的条件。基于数据的空间属性形成的筛选条件是指通过地图选点,指定路段,指定区域范围等可通过位置空间属性将所述车辆定位数据进行筛选的条件。
本实施例中,采用利用ETL(Extract-Transform-Load,抽取、转换、加载)数据工具对所述车辆埋点数据进行过滤筛选,将采集到的分散、零乱、标准不统一的车辆埋点数据进行抽取、清洗和标准化,获取有效数据,形成可用于后续数据分析的车辆定位数据。
步骤S200,对所述车辆定位数据进行基于密度的聚类,获取位置点簇。
于本实施例中,基于密度的聚类可以基于提供的数据点的局部密度确定用户的活动区域。本实施例中,所述基于密度的聚类的聚类算法为但不限于DBSCAN聚类算法。
于本实施例中,对所述车辆定位数据进行基于密度的聚类,获取位置点簇的原理如下:获取所述车辆定位数据中与预设位置点相距预设距离范围的邻域点,形成位置点簇,然后基于密度的聚类算法获取所述车辆定位数据中与所述邻域点相距所述预设距离范围的新的邻域点,扩大所述位置点簇,再基于密度的聚类算法迭代所述新的邻域点和所述预设距离范围,不断扩大所述位置点簇,直至在所述预设距离范围内搜寻不到新的邻域点,获取最终的位置点簇。
也就是说,选择一个数据点并在一个给定的距离寻找更多的数据点,也就是搜寻一个给定的数据点的邻域附近最少有多少数据点。然后通过重复这个过程扩展寻找新的点来扩展点簇,直到无法再扩大为止,形成位置点簇,通过形成的位置点簇可找到重要的位置信息,例如:家和公司位置点簇。
具体地,请参阅图3,显示为本实施例的位置标签的生成方法中获取位置点簇的一种具体实现过程流程示意图。如图3所示,于本实施例中,所述对所述车辆定位数据进行基于密度的聚类,获取位置点簇的具体实现过程包括:
步骤S210,从所述车辆定位数据选取预设位置点。
假设一个有N个预设位置点,每次选取一个预设位置点。
步骤S220,判断所述预设位置点与所述车辆定位数据中其他位置点的距离是否小于预设距离值。
步骤S230,响应于所述预设位置点与所述车辆定位数据中其他位置点的距离小于预设距离值,确认所述预设位置点为有效位置点。
步骤S240,判断是否遍历N个预设位置点,若否,则重复上述步骤,即返回至步骤S210,选取下一个预设位置点,重复执行步骤S220和步骤S230,若是,则确认遍历N个预设位置点,执行步骤S250,获得M个有效位置点,其中M≤N。
步骤S260,继续判断M个有效位置点的数量大于等于预设簇点值,也就是确认是否获取了足够多的,可用于后续分析的有效位置点数量。其中,预设簇点值基于基于距离的聚类的输入需求确定。例如,若只有2个,3个有效位置点的数据,无法进行后续聚类的迭代计算,对后续数据分析无意义。
在M个有效位置点的数量大于等于预设簇点值时,形成所述位置点簇。请参阅图4,显示为本实施例的位置标签的生成方法中形成的位置点簇的示意图。
步骤S300,对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置。
于本实施例中,所述基于距离的聚类算法为但不限于Kmeans聚类算法。
本实施例所述基于距离的聚类算法用一个聚类的质心来代表一个子簇,即在迭代过程中选择的聚类的质心不一定是聚类中的一个点。其目的是使各个子簇(共k个)中的数据点与所在子簇质心的误差平方和SSE(Sum of Squared Error)达到最小,最终获取需要位置,例如:用户标签-车位的位置。
请参阅图5,显示为本发明的位置标签的生成方法中一种获取位置点簇的质心位置的流程图。如图5所示,所述对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置包括:
步骤S311,基于多个初始质心将所述位置点簇划分为多个子簇。
于本实施例中,基于多个初始质心将所述位置点簇划分为多个子簇是指从位置点簇中选取K个不相同的位置点作为初始质心,一个初始质心代表一个子簇。
步骤S312,将到各个子簇内数据点距离最小的位置点,确定为所述位置点簇的质心位置。
也就是说,将每个位置点指派到最近的子簇的质心,形成K个子簇,重新计算每个子簇的质心,直到质心不发生变化或达到最大迭代次数。此时,将到各个子簇内数据点距离最小的位置点,确定为所述位置点簇的质心位置。请参阅图6,显示为本发明的位置标签的生成方法中质心位置的示意图。
其中,计算到各个子簇内数据点的距离时采用但不限于是欧式距离,余弦相似度函数,曼哈顿距离等方式。本实施例并不限定。
其中,在各子簇具有坐标时,请参阅图7,显示为本发明的位置标签的生成方法中一种获取位置点簇的质心位置的流程图。所述对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置包括:
步骤S321,基于多个初始质心将所述位置点簇划分为多个子簇。
步骤S321与上述步骤S311的实现原理过程相同,在此不再赘述。
步骤S322,在各子簇具有坐标时,获取各子簇的坐标值,并将与各所述子簇的坐标值误差的平方和最小的位置点,确定为所述位置点簇的质心位置。
步骤S400,基于获取的所述位置点簇的质心位置,生成用户的位置标签。
即对获取的质心位置标记为最终需要位置,例如:用户的位置标签-家的位置。
为使本领域技术人员进一步理解本实施例中的位置标签的生成方法,以下对本实施例中位置标签的生成方法的实施过程进一步进行说明。
首先获取车辆定位数据:采集车载终端(TBOX)的数据,APP应用的行为数据(IVI),APP应用、车载终端等软件或设备的登录信息等车辆埋点数据,利用ETL(Extract-Transform-Load,抽取、转换、加载)数据工具对所述车辆埋点数据进行抽取、清洗和标准化,获取有效数据,并基于数据的时间属性形成的筛选条件和/或基于数据的空间属性形成的筛选条件的过滤筛选,获取车辆定位数据。
然后对车辆定位数据进行基于密度的聚类,获取位置点簇:从所述车辆定位数据选取预设位置点,假设一个有N个预设位置点,每次选取一个预设位置点,判断所述预设位置点与所述车辆定位数据中其他位置点的距离是否小于预设距离值,在所述预设位置点与所述车辆定位数据中其他位置点的距离小于预设距离值时,确认所述预设位置点为有效位置点,遍历N个预设位置点,获得M个有效位置点,在M个有效位置点的数量大于等于预设簇点值时,形成所述位置点簇。
接着对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置:从位置点簇中选取K个不相同的位置点作为初始质心,一个初始质心代表一个子簇,即基于多个初始质心将所述位置点簇划分为多个子簇,将到各个子簇内数据点的距离最小的位置点,确定为所述位置点簇的质心位置,或者在各子簇具有坐标时,获取各子簇的坐标值,并将与各所述子簇的坐标值误差的平方和最小的位置点,确定为所述位置点簇的质心位置。
最后,基于获取的所述位置点簇的质心位置,生成用户的位置标签:即对获取的质心位置标记为最终需要位置,例如:用户的位置标签-家的位置。
由此可见,本实施例位置标签的生成方法中首先通过聚类算法对海量的数据进行聚类,形成位置点簇,然后再通过聚类算法寻找位置点簇质心位置的方法形成用户的位置标签,从而达到获取用户重要位置数据的目的。
实施例2
如图8所示,本实施例提供一种位置标签的生成装置100,所述位置标签的生成装置100包括:数据获取模块110,位置点簇获取模块120,质心位置获取模块130以及位置标签标记模块140。
于本实施例中,所述数据获取模块110获取车辆定位数据。所述数据获取模块110获取车辆定位数据的过程如下:
首先获取预设的车辆埋点数据。
其中,车辆埋点数据包括但不限于采集车载终端(TBOX)的数据,APP应用的行为数据(IVI),APP应用、车载终端等软件或设备的登录信息等。
然后基于预设筛选条件对所述车辆埋点数据进行过滤筛选,形成所述车辆定位数据。
其中,所述预设筛选条件包括基于数据的时间属性形成的筛选条件和/或基于数据的空间属性形成的筛选条件。所述基于数据的时间属性形成的筛选条件是指包括上班时段(例如6点至9点)、下班时段(例如16点至19点)、节假日期等可通过时间将所述车辆定位数据进行筛选的条件。基于数据的空间属性形成的筛选条件是指通过地图选点,指定路段,指定区域范围等可通过位置空间属性将所述车辆定位数据进行筛选的条件。
本实施例中,采用利用ETL(Extract-Transform-Load,抽取、转换、加载)数据工具对所述车辆埋点数据进行过滤筛选,将采集到的分散、零乱、标准不统一的车辆埋点数据进行抽取、清洗和标准化,获取有效数据,形成可用于后续数据分析的车辆定位数据。
于本实施例中,所述位置点簇获取模块120对所述车辆定位数据进行基于密度的聚类,获取位置点簇。
于本实施例中,基于密度的聚类可以基于提供的数据点的局部密度确定用户的活动区域。本实施例中,所述基于密度的聚类的聚类算法为但不限于DBSCAN聚类算法。
所述位置点簇获取模块120对所述车辆定位数据进行基于密度的聚类,获取位置点簇的原理如下:获取所述车辆定位数据中与预设位置点相距预设距离范围的邻域点,形成位置点簇,然后基于密度的聚类算法获取所述车辆定位数据中与所述邻域点相距所述预设距离范围的新的邻域点,扩大所述位置点簇,再基于密度的聚类算法迭代所述新的邻域点和所述预设距离范围,不断扩大所述位置点簇,直至在所述预设距离范围内搜寻不到新的邻域点,获取最终的位置点簇。
也就是说,选择一个数据点并在一个给定的距离寻找更多的数据点,也就是搜寻一个给定的数据点的邻域附近最少有多少数据点。然后通过重复这个过程扩展寻找新的点来扩展点簇,直到无法再扩大为止,形成位置点簇,通过形成的位置点簇可找到重要的位置信息,例如:家和公司位置点簇。
于本实施例中,所述位置点簇获取模块120对所述车辆定位数据进行基于密度的聚类,获取位置点簇的具体实现过程包括:
1)从所述车辆定位数据选取预设位置点。
假设一个有N个预设位置点,每次选取一个预设位置点。
2)判断所述预设位置点与所述车辆定位数据中其他位置点的距离是否小于预设距离值。
3)响应于所述预设位置点与所述车辆定位数据中其他位置点的距离小于预设距离值,确认所述预设位置点为有效位置点。
4)判断是否遍历N个预设位置点,若否,则重复上述步骤,即返回至1),选取下一个预设位置点,重复执行2)和3),若是,则确认遍历N个预设位置点,获得M个有效位置点,其中M≤N。
5)继续判断M个有效位置点的数量大于等于预设簇点值,也就是确认是否获取了足够多的,可用于后续分析的有效位置点数量。其中,预设簇点值基于基于距离的聚类的输入需求确定。例如,若只有2个,3个有效位置点的数据,无法进行后续聚类的迭代计算,对后续数据分析无意义。
6)在M个有效位置点的数量大于等于预设簇点值时,形成所述位置点簇。
于本实施例中,所述质心位置获取模块130对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置。
于本实施例中,所述基于距离的聚类算法为但不限于Kmeans聚类算法。
于本实施例中,获取位置点簇的质心位置是最贴近所需位置。本实施例所述基于距离的聚类算法用一个聚类的质心来代表一个子簇,即在迭代过程中选择的聚类的质心不一定是聚类中的一个点。其目的是使各个子簇(共k个)中的数据点与所在子簇质心的误差平方和SSE(Sum of Squared Error)达到最小,最终获取需要位置,例如:用户标签-车位的位置。
所述质心位置获取模块130对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置的过程包括:
1)基于多个初始质心将所述位置点簇划分为多个子簇。
于本实施例中,基于多个初始质心将所述位置点簇划分为多个子簇是指从位置点簇中选取K个不相同的位置点作为初始质心,一个初始质心代表一个子簇。
2)将到各个子簇内数据点的距离最小的位置点,确定为所述位置点簇的质心位置。
也就是说,将每个位置点指派到最近的子簇的质心,形成K个子簇,重新计算每个子簇的质心,直到质心不发生变化或达到最大迭代次数。此时,将到各个子簇内数据点的距离最小的位置点,确定为所述位置点簇的质心位置。请参阅图6,显示为本发明的位置标签的生成方法中质心位置的示意图。
其中,计算到各个子簇内数据点的距离时采用但不限于是欧式距离,余弦相似度函数,曼哈顿距离等方式。本实施例并不限定。
此外,其中,在各子簇具有坐标时,所述质心位置获取模块130对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置的过程包括:
1)基于多个初始质心将所述位置点簇划分为多个子簇。
2)在各子簇具有坐标时,获取各子簇的坐标值,并将与各所述子簇的坐标值误差的平方和最小的位置点,确定为所述位置点簇的质心位置。
于本实施例中,所述位置标签标记模块140基于获取的所述位置点簇的质心位置,生成用户的位置标签。
即对获取的质心位置标记为最终需要位置,例如:用户的位置标签-家的位置。
本实施例的用于位置标签的生成装置100具体实现的技术特征与实施例1中位置标签的生成方法的原理基本相同,方法和装置之间可以通用的技术内容不作重复赘述。
实施例3
如图9所示,本实施例还提供一种电子设备10,所述电子设备10为但不限于智能手机、平板、智能穿戴设备、个人台式电脑、笔记本电脑、服务器、车载设备等。
所述电子设备10包括存储器102,用于存储计算机程序;处理器101,用于运行所述计算机程序以实现如实施例1所述的位置标签的生成方法的步骤。
存储器102通过装置总线与处理器101连接并完成相互间的通信,存储器102用于存储计算机程序,处理器101用于运行计算机程序,以使所述电子设备10执行所述的位置标签的生成方法。实施例1中已经对所述位置标签的生成方法进行了说明,在此不再赘述。
另需说明的是,上述提到的装置总线可以是外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该装置总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器102可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
上述的处理器101可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
实施例4
本实施例提供一种存储介质,存储有程序指令,所述程序指令被处理器执行时实现实施例1中所述的位置标签的生成方法的步骤。实施例1已经对所述位置标签的生成方法进行了说明,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括实施例1中各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本发明位置标签的生成方法中首先通过聚类算法对海量的数据进行聚类,形成位置点簇,然后再通过聚类算法寻找位置点簇质心位置的方法形成用户的位置标签,从而达到获取用户重要位置数据的目的;本发明的位置标签的生成方法可以为车联网实现智能推荐和专项服务提供数据基础。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (11)
1.一种位置标签的生成方法,其特征在于:包括以下步骤:
获取车辆定位数据;
对所述车辆定位数据进行基于密度的聚类,获取位置点簇;
对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置;
基于获取的所述位置点簇的质心位置,生成用户的位置标签。
2.根据权利要求1所述的位置标签的生成方法,其中,所述获取车辆定位数据包括:
获取预设的车辆埋点数据;
基于预设筛选条件对所述车辆埋点数据进行过滤筛选,形成所述车辆定位数据。
3.根据权利要求2所述的位置标签的生成方法,其中,利用ETL数据工具对所述车辆埋点数据进行过滤筛选;所述预设筛选条件包括基于数据的时间属性形成的筛选条件和/或基于数据的空间属性形成的筛选条件。
4.根据权利要求1所述的位置标签的生成方法,其中,所述对所述车辆定位数据进行基于密度的聚类,获取位置点簇包括:
从所述车辆定位数据选取预设位置点,并判断所述预设位置点与所述车辆定位数据中其他位置点的距离是否小于预设距离值;
响应于所述预设位置点与所述车辆定位数据中其他位置点的距离小于预设距离值,确认所述预设位置点为有效位置点;
遍历N个预设位置点,重复上述步骤,获得M个有效位置点,其中M≤N;
在M个有效位置点的数量大于等于预设簇点值时,形成所述位置点簇。
5.根据权利要求4所述的位置标签的生成方法,其中,所述基于密度的聚类的聚类算法为DBSCAN聚类算法。
6.根据权利要求1或4所述的位置标签的生成方法,其中,所述对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置包括:
基于多个初始质心将所述位置点簇划分为多个子簇;
将到各个子簇内数据点距离最小的位置点,确定为所述位置点簇的质心位置。
7.根据权利要求6所述的位置标签的生成方法,其中,所述对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置包括:
基于多个初始质心将所述位置点簇划分为多个子簇;
在各子簇具有坐标时,获取各子簇的坐标值,并将与各所述子簇的坐标值误差的平方和最小的位置点,确定为所述位置点簇的质心位置。
8.根据权利要求6或7所述的位置标签的生成方法,其中,所述基于距离的聚类算法为Kmeans聚类算法。
9.一种位置标签的生成装置,其特征在于:包括:
数据获取模块,所述数据获取模块获取车辆定位数据;
位置点簇获取模块,所述位置点簇获取模块对所述车辆定位数据进行基于密度的聚类,获取位置点簇;
质心位置获取模块,所述质心位置获取模块对所述位置点簇进行基于距离的聚类,获取所述位置点簇的质心位置;
位置标签标记模块,所述位置标签标记模块基于获取的所述位置点簇的质心位置,生成用户的位置标签。
10.一种存储介质,存储有程序指令,其特征在于:所述程序指令被处理器执行时实现如权利要求1至权利要求8任一权利要求所述的位置标签的生成方法的步骤。
11.一种电子设备,其特征在于:包括存储器,用于存储计算机程序;处理器,用于运行所述计算机程序以实现如权利要求1至权利要求8任一权利要求所述的位置标签的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110105381.XA CN114791938A (zh) | 2021-01-26 | 2021-01-26 | 位置标签的生成方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110105381.XA CN114791938A (zh) | 2021-01-26 | 2021-01-26 | 位置标签的生成方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114791938A true CN114791938A (zh) | 2022-07-26 |
Family
ID=82460253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110105381.XA Pending CN114791938A (zh) | 2021-01-26 | 2021-01-26 | 位置标签的生成方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114791938A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520023A (zh) * | 2018-03-22 | 2018-09-11 | 合肥佳讯科技有限公司 | 一种基于混合聚类算法的雷暴核识别及追踪方法 |
WO2020052312A1 (zh) * | 2018-09-14 | 2020-03-19 | 北京三快在线科技有限公司 | 一种定位方法、装置、电子设备及可读存储介质 |
CN111178932A (zh) * | 2019-11-26 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用户地理画像生成方法、装置、计算机设备和存储介质 |
CN111476270A (zh) * | 2020-03-04 | 2020-07-31 | 中国平安人寿保险股份有限公司 | 基于K-means算法的课程信息确定方法、装置、设备及存储介质 |
-
2021
- 2021-01-26 CN CN202110105381.XA patent/CN114791938A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108520023A (zh) * | 2018-03-22 | 2018-09-11 | 合肥佳讯科技有限公司 | 一种基于混合聚类算法的雷暴核识别及追踪方法 |
WO2020052312A1 (zh) * | 2018-09-14 | 2020-03-19 | 北京三快在线科技有限公司 | 一种定位方法、装置、电子设备及可读存储介质 |
CN111178932A (zh) * | 2019-11-26 | 2020-05-19 | 深圳壹账通智能科技有限公司 | 用户地理画像生成方法、装置、计算机设备和存储介质 |
CN111476270A (zh) * | 2020-03-04 | 2020-07-31 | 中国平安人寿保险股份有限公司 | 基于K-means算法的课程信息确定方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
刘萌;邬群勇;邱端昇;孙梅;张强;: "签到位置数据的密度峰值快速搜索与聚类方法", 测绘学报, no. 04, 15 April 2017 (2017-04-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992633B (zh) | 基于用户位置的地理围栏确定方法、装置、电子设备 | |
CN104063466B (zh) | 虚拟‑现实一体化的三维显示方法及系统 | |
CN106503714B (zh) | 一种基于兴趣点数据识别城市功能区的方法 | |
WO2016086786A1 (zh) | 地理围栏生成方法及装置 | |
CN103092853B (zh) | 一种空间索引的建立方法、使用方法及装置 | |
CN110298687B (zh) | 一种区域吸引力评估方法及设备 | |
CN107092623B (zh) | 一种兴趣点查询方法及装置 | |
CN113204714B (zh) | 一种基于用户画像的任务推荐方法、装置、存储介质及终端 | |
CN111522968A (zh) | 知识图谱融合方法及装置 | |
KR20210134253A (ko) | 차량 모니터링 방법, 장치 및 클라우드 제어 플랫폼 | |
CN107688955A (zh) | 一种基于自适应dbscan密度聚类的城市商业圈群簇划分方法 | |
CN113792206A (zh) | 数据处理方法、装置、计算机可读存储介质及计算机设备 | |
CN112218230B (zh) | 用户常驻位置的获取方法、装置以及计算机可读存储介质 | |
CN110532437A (zh) | 电子凭证提示方法、装置、计算机设备及存储介质 | |
US20140370920A1 (en) | Systems and methods for generating and employing an index associating geographic locations with geographic objects | |
US20220398487A1 (en) | Methods and systems for mobility solution recommendations using geospatial clustering | |
WO2025039827A1 (zh) | 行驶轨迹的处理方法、装置、车辆及存储介质 | |
CN115525642A (zh) | 逆地理编码方法、装置及电子设备 | |
CN114791938A (zh) | 位置标签的生成方法、装置、存储介质及电子设备 | |
CN116611678A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN116664416A (zh) | 雷达点云数据处理方法、装置、电子设备及存储介质 | |
CN115773744A (zh) | 模型训练和路网处理方法、装置、设备、介质和产品 | |
CN116561240A (zh) | 电子地图处理方法、相关装置和介质 | |
CN111210297B (zh) | 一种上车点的划分方法及装置 | |
CN108132992B (zh) | 一种人员信息基础地址编码方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |