[go: up one dir, main page]

CN106940705B - 一种用于构建用户画像的方法与设备 - Google Patents

一种用于构建用户画像的方法与设备 Download PDF

Info

Publication number
CN106940705B
CN106940705B CN201611186477.9A CN201611186477A CN106940705B CN 106940705 B CN106940705 B CN 106940705B CN 201611186477 A CN201611186477 A CN 201611186477A CN 106940705 B CN106940705 B CN 106940705B
Authority
CN
China
Prior art keywords
application
user
information
tag information
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611186477.9A
Other languages
English (en)
Other versions
CN106940705A (zh
Inventor
范海金
段如冰
季一波
杨林畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zongzhang Technology Group Co.,Ltd.
Original Assignee
Shanghai Zhangmen Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhangmen Science and Technology Co Ltd filed Critical Shanghai Zhangmen Science and Technology Co Ltd
Priority to CN201611186477.9A priority Critical patent/CN106940705B/zh
Publication of CN106940705A publication Critical patent/CN106940705A/zh
Application granted granted Critical
Publication of CN106940705B publication Critical patent/CN106940705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请的目的是提供一种用于构建用户画像的方法与设备。与现有技术相比,本申请获取用户在用户设备上使用应用的应用使用记录信息,根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息,然后,基于所述一个或多个应用标签信息,构建所述用户的用户画像信息;本申请所述应用使用记录信息相对于用户网页浏览记录、社交网络关系、新闻广告点击记录等用户信息而言,具有静态稳定、数据量小、信息量大的优点,因而,本申请所构建的用户画像信息能够更加精准地定义和识别用户。

Description

一种用于构建用户画像的方法与设备
技术领域
本申请涉及通信领域,尤其涉及一种用于构建用户画像的技术。
背景技术
用户画像是客观、准确地描述目标用户的工具和方法。用户画像中,包含用户多维度的信息,比如用户的基本属性(年龄、性别、地域、星座等)、社会特征(家庭结构、婚姻状况等)、兴趣特征(兴趣爱好、互动内容等)以及根据不同场合需要的其它行为、消费以及购买力特征等。现有技术中,用户画像的构建大都基于不同的用户信息,比如用户通话日志、基站位置信息、用户网页浏览记录、用户网上购物记录、新闻广告点击记录以及社交网络关系及兴趣等。这些信息通常变化快,不稳定,比如用户浏览网页和点击新闻记录会时刻在变化;同时有些信息的采集需要用户登录之后才能确定信息的归属,比如网上购物记录,社交网络信息等。
发明内容
本申请的一个目的是提供一种用于构建用户画像的方法与设备。
根据本申请的一个方面,提供了一种用于构建用户画像的方法,其中,该方法包括:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;
基于所述一个或多个应用标签信息,构建所述用户的用户画像信息。
根据本申请的另一个方面,提供了一种用于确定用户的应用标签信息的方法,其中,该方法包括:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;
根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息。
根据本申请的又一个方面,提供了一种用于构建用户画像的设备,其中,该设备包括:
第一装置,用于获取用户在用户设备上使用应用的应用使用记录信息;
第二装置,用于根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;
第三装置,用于基于所述一个或多个应用标签信息,构建所述用户的用户画像信息。
根据本申请的再一个方面,提供了一种用于确定用户的应用标签信息的设备,其中,该设备包括:
第五装置,用于获取用户在用户设备上使用应用的应用使用记录信息;
第六装置,用于根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;
第七装置,用于根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息。
根据本申请的又一个方面,提供了一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;
基于所述一个或多个应用标签信息,构建所述用户的用户画像信息。
根据本申请的又一个方面,提供了一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;
根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息。
根据本申请的又一个方面,提供了一种用于构建用户画像的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;
基于所述一个或多个应用标签信息,构建所述用户的用户画像信息。
根据本申请的又一个方面,提供了一种用于确定用户的应用标签信息的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;
根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息。
与现有技术相比,本申请获取用户在用户设备上使用应用的应用使用记录信息,根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息,然后,基于所述一个或多个应用标签信息,构建所述用户的用户画像信息;本申请所述应用使用记录信息相对于用户网页浏览记录、社交网络关系、新闻广告点击记录等用户信息而言,具有静态稳定、数据量小、信息量大的优点,因而,本申请所构建的用户画像信息能够更加精准地定义和识别用户。进一步地,本申请所述应用标签信息包括应用安装标签信息和/或应用活跃标签信息,从不同维度对所述用户进行标签化,从而构建更精准的用户画像信息。进一步地,本申请提供了一种基于应用主题的应用安装标签信息和/或应用活跃标签信息,得到更丰富的差异化标签信息,能够更好地对应用进行分类。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个实施例的一种用于构建用户画像的方法流程图;
图2示出根据本申请另一个实施例的一种用于确定用户的应用标签信息的方法流程图;
图3示出根据本申请一个实施例的一种用于构建用户画像的设备示意图;
图4示出根据本申请另一个实施例的一种用于确定用户的应用标签信息的设备示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
图1示出根据本申请一个实施例的一种用于构建用户画像的方法流程图,该方法包括步骤S11、步骤S12和步骤S13。
具体地,步骤S11中,设备1获取用户在用户设备上使用应用的应用使用记录信息;步骤S12中,设备1根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;步骤S13中,设备1基于所述一个或多个应用标签信息,构建所述用户的用户画像信息。
在此,所述设备1包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,设备1还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的脚本程序。当然,本领域技术人员应能理解上述设备1仅为举例,其他现有的或今后可能出现的设备1如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
步骤S11中,设备1获取用户在用户设备上使用应用的应用使用记录信息。
例如,所述应用使用记录信息可以包括应用的名称或标识信息,以及在一个时间段(一天、一周、半个月、一个月等)内的使用次数、每次使用时长、使用消耗流量等信息。在此,可以通过所述用户设备上安装的APP进行数据收集以获取所述应用使用记录信息,或者从第三方获取所述应用使用记录信息。
步骤S12中,设备1根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息。
在移动用户中,每个用户基本上单独使用一台用户设备,每一台用户设备都有一个唯一的标识(例如imei号或mac地址),具有独特性和单一性特点,因此,所述应用使用记录信息能够比较真实地反应用户真实特征。在此,根据所述应用使用记录信息对不同特征的用户进行标签化,确定所述用户对应的一个或多个应用标签信息。
优选地,步骤S12中,设备1根据所述应用使用记录信息查询应用库信息,确定所述用户对应的一个或多个应用标签信息。
在此,所述应用库信息包括应用的类别、描述、价格、下载量等信息,可以从网络获得所述应用库信息,比如应用市场(Google Play、iOS app store等)可以提供所述应用库信息。
优选地,所述应用标签信息包括以下至少任一项:应用安装标签信息;应用活跃标签信息;基于应用主题的应用安装标签信息;基于应用主题的应用活跃标签信息。
例如,所述应用安装标签信息基于用户安装的应用确定,所述应用活跃标签信息基于用户安装的应用及各应用的使用频率(一个时间段内的使用次数、每次使用时长、使用消耗流量等)确定。所述应用安装标签信息包括基于应用主题的应用安装标签信息,所述应用活跃标签信息包括基于应用主题的应用活跃标签信息。在此,所述应用主题用于比较全面地体现该应用的具体信息。
优选地,所述应用安装标签信息包括以下至少任一项:基于类别的应用安装标签信息,基于价格的应用安装标签信息;所述应用活跃标签信息包括以下至少任一项:基于类别的应用活跃标签信息,基于价格的应用活跃标签信息。
例如,根据用户安装的应用类别,统计不同类别的应用安装的个数,根据该信息确定所述用户对应的一个或多个基于类别的应用安装标签信息,在该过程中每个应用的权重都是相同的。假设用户A在手机上一共安装了m个移动应用,分属于k个不同的类别:类别1、类别2…类别k,对应的应用个数为:c1、c2…ck;那么用户A的基于类别的应用安装标签信息可以为:["类别1":c1,"类别2":c2,…,"类别k":ck];可选的,应用个数也可以使用归一化后的值,如类别1的权重可以为c1/C,其中C=c1+c2+…+ck为安装应用的总数。
再例如,根据用户安装的应用的价格信息,确定所述用户对应的一个或多个基于价格的应用安装标签信息,进而分析用户对付费应用的安装情况,可以在一定程度上反映用户对付费应用的态度以及经济状况。一个用户的基于价格的应用安装标签信息可以为[“付费”:c1,“免费”:c2,“使用付费”:0或1],其中,c1为用户安装免费应用个数,c2为用户安装付费应用个数,根据用户是否适用付费应用来决定使用付费标签的值为1或者0。
再例如,根据用户使用的应用类别/价格信息和对应的使用频率(一个时间段内的使用次数、每次使用时长、使用消耗流量等),确定所述用户对应的一个或多个基于类别/价格的应用活跃标签信息,在该过程中用户使用过的每个应用的权重是不一样的,权重值正比于应用的使用频率。假设用户B的基于类别的应用活跃标签信息可以为:["类别1":t1,"类别2":t2,…,"类别k":tk],其中,“类别1”为用户使用的应用的类别,t1为该用户使用该类别的应用在一个时间段的的使用流量,其中权重也可以为归一化后的值t1/T,其中T=t1+t2+…+tk。或者,用户B的基于类别的应用活跃标签信息也可以为:["类别1":n1,"类别2":n2,…,"类别k":nk],其中,“类别1”为用户使用的应用对应的类别,n1为该类别的应用在一个时间段的使用次数,或者采用归一化后的值。该过程中,在时间段的选择上,不同的时间段选择可以反映出用户不同的应用使用兴趣。可以选择诸如三个月、半年等的时间范围来获取用户的长期活跃类别标签,也可以选择一个月、半个月等的时间范围来获取用户的中期活跃类别标签,也可以选择一个星期、一天、两天等的时间范围来获取用户的短期活跃类别标签。
更优选地,所述应用标签信息包括基于应用主题的应用安装标签信息或应用活跃标签信息;其中,步骤S12中,设备1根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的所述基于应用主题的应用安装标签信息或应用活跃标签信息。
随着应用数量的增加和应用功能的丰富,对应用进行分类对开发者来说越来越困难,类别信息在一定程度上并不能全面的体现应用的具体信息。针对应用类别划分等可能存在不准确、粗糙度大、信息量少以及一个应用可能具有多重类别的可能,本申请提供了一种基于应用主题的应用安装标签信息和/或应用活跃标签信息,所述应用主题用于比较全面地体现该应用的具体信息。例如,一个社交类应用对应的应用主题向量可能为:[“通讯”:0.1,“短信”:0.15,“语音”:0.2,“视频”:0.15,“聊天”:0.4],一个运动类应用对应的应用主题向量可能为:[“篮球”:0.1,“跑步”:0.2,“卡路里”:0.2,“减肥”:0.1,“运动”:0.4],关键词(如通讯、篮球等)为构成该应用主题的主要标签,权重(如0.1、0.2等)表示对应关键词在该应用主题中出现的频率。
步骤S13中,设备1基于所述一个或多个应用标签信息,构建所述用户的用户画像信息。
例如,可以基于全部应用标签信息构建所述用户的用户画像信息,也可以基于部分(比如权重大于对应阈值的若干个)应用标签信息构建所述用户的用户画像信息。
优选地,步骤S13中,设备1基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息。
例如,所述目标应用场景包括但不限于:考察用户APP安装相关的场景、考察用户APP偏好的场景。
优选地,步骤S13中,设备1基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,其中,所述用户画像信息包括与所述目标应用场景相匹配的所述应用标签信息。
例如,若所述目标应用场景与用户短期行为相关,可以选择一周、一天、两天等的时间范围内的所述应用活跃标签信息;若所述目标应用场景与用户中期行为相关,可以选择一个月、半个月等的时间范围内的所述应用活跃标签信息;若所述目标应用场景与用户长期行为相关,可以选择诸如三个月、半年等的时间范围内的所述应用活跃标签信息。即,所选择的所述应用标签信息应与所述目标场景相匹配。
优选地,步骤S13中,设备1基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,其中,所述用户画像信息中与所述目标应用场景相匹配的所述应用标签信息的权重高于所述用户画像信息中其他所述应用标签信息。
例如,当所述目标应用场景为考察用户APP安装相关的场景时,可以对所述应用安装标签信息给予比较大的权重;当所述目标应用场景为考察用户APP偏好的场景时,可以对所述应用活跃标签信息给予比较大的权重。
优选地,所述方法还包括:设备1将与所述用户画像信息相匹配的应用信息或呈现信息提供至所述用户设备。
例如,与所述用户画像信息相匹配的应用信息或呈现信息可以包括所述用户可能感兴趣的应用推荐信息、新闻、商品广告信息等。
图2示出根据本申请另一个实施例的一种用于确定用户的应用标签信息的方法流程图,该方法包括步骤S25、步骤S26和步骤S27。
具体地,步骤S25中,设备2获取用户在用户设备上使用应用的应用使用记录信息;步骤S26中,设备2根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;步骤S27中,设备2根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息。
在此,所述设备2包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,设备2还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的脚本程序。当然,本领域技术人员应能理解上述设备2仅为举例,其他现有的或今后可能出现的设备2如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
步骤S25中,设备2获取用户在用户设备上使用应用的应用使用记录信息。
例如,所述应用使用记录信息可以包括应用的名称或标识信息,以及在一个时间段(一天、一周、半个月、一个月等)内的使用次数、每次使用时长、使用消耗流量等信息。在此,可以通过所述用户设备上安装的APP进行数据收集以获取所述应用使用记录信息,或者从第三方获取所述应用使用记录信息。
步骤S26中,设备2根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量。
在此,根据所述应用使用记录信息可以确定所述用户设备上应用(即用户目前安装的应用),进而获取其对应的应用主题向量。例如,一个社交类应用对应的应用主题向量可能为:[“通讯”:0.1,“短信”:0.15,“语音”:0.2,“视频”:0.15,“聊天”:0.4],一个运动类应用对应的应用主题向量可能为:[“篮球”:0.1,“跑步”:0.2,“卡路里”:0.2,“减肥”:0.1,“运动”:0.4],关键词(如通讯、篮球等)为构成该应用主题的主要标签,权重(如0.1、0.2等)表示对应关键词在该应用主题中出现的频率。
优选地,步骤S26中,设备2根据所述应用使用记录信息获取所述用户设备上应用对应的应用描述信息;根据所述应用描述信息生成对应应用的应用主题向量,其中,所述应用主题向量包括一个或多个主题关键词。
例如,可以从网络获得所述应用描述信息,比如应用市场(Google Play、iOS appstore等)可以提供所述应用描述信息。相对于应用的类别来说,所述应用描述信息含有更多的信息,包含更多的关键词和功能描述。
更优选地,所述根据所述应用描述信息生成对应应用的应用主题向量,包括:对所述应用描述信息进行分词处理,以获得多个主题关键词;对所述多个主题关键词进行聚类算法,确定对应应用的应用主题向量,其中,所述应用主题向量包括一个或多个主题关键词。
例如,对所述应用描述信息进行处理,对句子进行分词,去掉没有信息的停顿词以及标点符号、网址信息、邮箱地址等;设置主题模型个数,每个主题模型对应一个所述应用主题向量,采用LDA(Latent Dirichlet Allocation,一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息)主题模型算法进行主题模型聚类得到模型关键词和权重。
当然,本领域技术人员应能理解上述LDA主题模型算法仅为举例,其他现有的或今后可能出现的算法,例如LSI(Latent Semantic Indexing,潜语义索引)算法,如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
步骤S27中,设备2根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息。
例如,可以根据所述应用主题向量中的全部主题关键词确定所述用户对应的应用标签信息,也可以根据所述应用主题向量中优选(比如权重较高的)的若干个主题关键词确定所述用户对应的应用标签信息。
优选地,步骤S27中,设备2根据所述应用使用记录信息,以及所述应用主题向量中的一个或多个主题关键词,确定所述用户对应的应用安装标签信息和/或应用活跃标签信息。
在此,所述应用标签信息包括应用安装标签信息和/或应用活跃标签信息。所述应用安装标签信息基于用户安装的应用确定,所述应用活跃标签信息基于用户安装的应用及各应用的使用频率(一个时间段内的使用次数、每次使用时长、使用消耗流量等)确定。
例如,确定所述应用安装标签信息的过程可以包括:得到每一个应用的主题关键词和对应的应用主题向量,选取一个阈值k,每个主题只取权重最大的k个关键词,一个主题可以简化为[w1:v1,w1:v1…wk:vk],其中w1…k为关键词,v1…k为关键词的权重。根据应用的关键词来为用户打标签,例如,一个用户A安装了m个应用,则对应的标签有m×k个,每个标签的权重为关键词权重[w11:v11,…w1k:v1k,w21:v21,…w2k:v2k,…wm1:vm1,…wmk:vmk],其中wij为第i个应用的第j个关键词,vij为对应的权重;出现相同关键词时,可以进行合并,两个关键词权重相加作为新的权重。
再例如,确定所述应用活跃标签信息的过程可以包括:根据应用的主题关键词以及权重基于用户应用的使用流量或者使用次数给用户添加标签以及计算相应的标签权重。每个主题只取权重最大的k个关键词,一个用户B在一个时间段使用了m个应用,则对应的标签有m×k个,每个标签的权重为关键词权重[w11:v11×t1,…w1k:v1k×tk,w21:v21×t2,…w2k:v2k×t2,…wm1:vm1×tm,…wmk:vmk×tm],其中wij为第i个应用的第j个关键词,vij为对应的权重,ti为第个应用使用流量或者次数;出现相同关键词时,也可以进行合并,两个关键词权重乘以对应流量再相加作为新的权重。
图3示出根据本申请一个实施例的一种用于构建用户画像的设备1,所述设备1包括第一装置11、第二装置12和第三装置13。
具体地,所述第一装置11获取用户在用户设备上使用应用的应用使用记录信息;所述第二装置12根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;所述第三装置13基于所述一个或多个应用标签信息,构建所述用户的用户画像信息。
在此,所述设备1包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,设备1还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的脚本程序。当然,本领域技术人员应能理解上述设备1仅为举例,其他现有的或今后可能出现的设备1如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
所述第一装置11获取用户在用户设备上使用应用的应用使用记录信息。
例如,所述应用使用记录信息可以包括应用的名称或标识信息,以及在一个时间段(一天、一周、半个月、一个月等)内的使用次数、每次使用时长、使用消耗流量等信息。在此,可以通过所述用户设备上安装的APP进行数据收集以获取所述应用使用记录信息,或者从第三方获取所述应用使用记录信息。
所述第二装置12根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息。
在移动用户中,每个用户基本上单独使用一台用户设备,每一台用户设备都有一个唯一的标识(例如imei号或mac地址),具有独特性和单一性特点,因此,所述应用使用记录信息能够比较真实地反应用户真实特征。在此,根据所述应用使用记录信息对不同特征的用户进行标签化,确定所述用户对应的一个或多个应用标签信息。
优选地,所述第二装置12根据所述应用使用记录信息查询应用库信息,确定所述用户对应的一个或多个应用标签信息。
在此,所述应用库信息包括应用的类别、描述、价格、下载量等信息,可以从网络获得所述应用库信息,比如应用市场(Google Play、iOS app store等)可以提供所述应用库信息。
优选地,所述应用标签信息包括以下至少任一项:应用安装标签信息;应用活跃标签信息;基于应用主题的应用安装标签信息;基于应用主题的应用活跃标签信息。
例如,所述应用安装标签信息基于用户安装的应用确定,所述应用活跃标签信息基于用户安装的应用及各应用的使用频率(一个时间段内的使用次数、每次使用时长、使用消耗流量等)确定。所述应用安装标签信息包括基于应用主题的应用安装标签信息,所述应用活跃标签信息包括基于应用主题的应用活跃标签信息。在此,所述应用主题用于比较全面地体现该应用的具体信息。
优选地,所述应用安装标签信息包括以下至少任一项:基于类别的应用安装标签信息,基于价格的应用安装标签信息;所述应用活跃标签信息包括以下至少任一项:基于类别的应用活跃标签信息,基于价格的应用活跃标签信息。
例如,根据用户安装的应用类别,统计不同类别的应用安装的个数,根据该信息确定所述用户对应的一个或多个基于类别的应用安装标签信息,在该过程中每个应用的权重都是相同的。假设用户A在手机上一共安装了m个移动应用,分属于k个不同的类别:类别1、类别2…类别k,对应的应用个数为:c1、c2…ck;那么用户A的基于类别的应用安装标签信息可以为:["类别1":c1,"类别2":c2,…,"类别k":ck];可选的,应用个数也可以使用归一化后的值,如类别1的权重可以为c1/C,其中C=c1+c2+…+ck为安装应用的总数。
再例如,根据用户安装的应用的价格信息,确定所述用户对应的一个或多个基于价格的应用安装标签信息,进而分析用户对付费应用的安装情况,可以在一定程度上反映用户对付费应用的态度以及经济状况。一个用户的基于价格的应用安装标签信息可以为[“付费”:c1,“免费”:c2,“使用付费”:0或1],其中,c1为用户安装免费应用个数,c2为用户安装付费应用个数,根据用户是否适用付费应用来决定使用付费标签的值为1或者0。
再例如,根据用户使用的应用类别/价格信息和对应的使用频率(一个时间段内的使用次数、每次使用时长、使用消耗流量等),确定所述用户对应的一个或多个基于类别/价格的应用活跃标签信息,在该过程中用户使用过的每个应用的权重是不一样的,权重值正比于应用的使用频率。假设用户B的基于类别的应用活跃标签信息可以为:["类别1":t1,"类别2":t2,…,"类别k":tk],其中,“类别1”为用户使用的应用的类别,t1为该用户使用该类别的应用在一个时间段的的使用流量,其中权重也可以为归一化后的值t1/T,其中T=t1+t2+…+tk。或者,用户B的基于类别的应用活跃标签信息也可以为:["类别1":n1,"类别2":n2,…,"类别k":nk],其中,“类别1”为用户使用的应用对应的类别,n1为该类别的应用在一个时间段的使用次数,或者采用归一化后的值。该过程中,在时间段的选择上,不同的时间段选择可以反映出用户不同的应用使用兴趣。可以选择诸如三个月、半年等的时间范围来获取用户的长期活跃类别标签,也可以选择一个月、半个月等的时间范围来获取用户的中期活跃类别标签,也可以选择一个星期、一天、两天等的时间范围来获取用户的短期活跃类别标签。
更优选地,所述应用标签信息包括基于应用主题的应用安装标签信息或应用活跃标签信息;其中,所述第二装置12根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的所述基于应用主题的应用安装标签信息或应用活跃标签信息。
随着应用数量的增加和应用功能的丰富,对应用进行分类对开发者来说越来越困难,类别信息在一定程度上并不能全面的体现应用的具体信息。针对应用类别划分等可能存在不准确、粗糙度大、信息量少以及一个应用可能具有多重类别的可能,本申请提供了一种基于应用主题的应用安装标签信息和/或应用活跃标签信息,所述应用主题用于比较全面地体现该应用的具体信息。例如,一个社交类应用对应的应用主题向量可能为:[“通讯”:0.1,“短信”:0.15,“语音”:0.2,“视频”:0.15,“聊天”:0.4],一个运动类应用对应的应用主题向量可能为:[“篮球”:0.1,“跑步”:0.2,“卡路里”:0.2,“减肥”:0.1,“运动”:0.4],关键词(如通讯、篮球等)为构成该应用主题的主要标签,权重(如0.1、0.2等)表示对应关键词在该应用主题中出现的频率。
所述第三装置13基于所述一个或多个应用标签信息,构建所述用户的用户画像信息。
例如,可以基于全部应用标签信息构建所述用户的用户画像信息,也可以基于部分(比如权重大于对应阈值的若干个)应用标签信息构建所述用户的用户画像信息。
优选地,所述第三装置13基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息。
例如,所述目标应用场景包括但不限于:考察用户APP安装相关的场景、考察用户APP偏好的场景。
优选地,所述第三装置13基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,其中,所述用户画像信息包括与所述目标应用场景相匹配的所述应用标签信息。
例如,若所述目标应用场景与用户短期行为相关,可以选择一周、一天、两天等的时间范围内的所述应用活跃标签信息;若所述目标应用场景与用户中期行为相关,可以选择一个月、半个月等的时间范围内的所述应用活跃标签信息;若所述目标应用场景与用户长期行为相关,可以选择诸如三个月、半年等的时间范围内的所述应用活跃标签信息。即,所选择的所述应用标签信息应与所述目标场景相匹配。
优选地,所述第三装置13基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,其中,所述用户画像信息中与所述目标应用场景相匹配的所述应用标签信息的权重高于所述用户画像信息中其他所述应用标签信息。
例如,当所述目标应用场景为考察用户APP安装相关的场景时,可以对所述应用安装标签信息给予比较大的权重;当所述目标应用场景为考察用户APP偏好的场景时,可以对所述应用活跃标签信息给予比较大的权重。
优选地,所述设备1还包括第四装置(图中未示出);所述第四装置将与所述用户画像信息相匹配的应用信息或呈现信息提供至所述用户设备。
例如,与所述用户画像信息相匹配的应用信息或呈现信息可以包括所述用户可能感兴趣的应用推荐信息、新闻、商品广告信息等。
图4示出根据本申请另一个实施例的一种用于确定用户的应用标签信息的设备2,所述设备2包括第五装置25、第六装置26和第七装置27。
具体地,所述第五装置25获取用户在用户设备上使用应用的应用使用记录信息;所述第六装置26根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;所述第七装置27根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息。
在此,所述设备2包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品,例如智能手机、平板电脑等,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。优选地,设备2还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的脚本程序。当然,本领域技术人员应能理解上述设备2仅为举例,其他现有的或今后可能出现的设备2如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
所述第五装置25获取用户在用户设备上使用应用的应用使用记录信息。
例如,所述应用使用记录信息可以包括应用的名称或标识信息,以及在一个时间段(一天、一周、半个月、一个月等)内的使用次数、每次使用时长、使用消耗流量等信息。在此,可以通过所述用户设备上安装的APP进行数据收集以获取所述应用使用记录信息,或者从第三方获取所述应用使用记录信息。
所述第六装置26根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量。
在此,根据所述应用使用记录信息可以确定所述用户设备上应用(即用户目前安装的应用),进而获取其对应的应用主题向量。例如,一个社交类应用对应的应用主题向量可能为:[“通讯”:0.1,“短信”:0.15,“语音”:0.2,“视频”:0.15,“聊天”:0.4],一个运动类应用对应的应用主题向量可能为:[“篮球”:0.1,“跑步”:0.2,“卡路里”:0.2,“减肥”:0.1,“运动”:0.4],关键词(如通讯、篮球等)为构成该应用主题的主要标签,权重(如0.1、0.2等)表示对应关键词在该应用主题中出现的频率。
优选地,所述第六装置26根据所述应用使用记录信息获取所述用户设备上应用对应的应用描述信息;根据所述应用描述信息生成对应应用的应用主题向量,其中,所述应用主题向量包括一个或多个主题关键词。
例如,可以从网络获得所述应用描述信息,比如应用市场(Google Play、iOS appstore等)可以提供所述应用描述信息。相对于应用的类别来说,所述应用描述信息含有更多的信息,包含更多的关键词和功能描述。
更优选地,所述根据所述应用描述信息生成对应应用的应用主题向量,包括:对所述应用描述信息进行分词处理,以获得多个主题关键词;对所述多个主题关键词进行聚类算法,确定对应应用的应用主题向量,其中,所述应用主题向量包括一个或多个主题关键词。
例如,对所述应用描述信息进行处理,对句子进行分词,去掉没有信息的停顿词以及标点符号、网址信息、邮箱地址等;设置主题模型个数,每个主题模型对应一个所述应用主题向量,采用LDA(Latent Dirichlet Allocation,一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息)主题模型算法进行主题模型聚类得到模型关键词和权重。
当然,本领域技术人员应能理解上述LDA主题模型算法仅为举例,其他现有的或今后可能出现的算法,例如LSI(Latent Semantic Indexing,潜语义索引)算法,如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
所述第七装置27根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息。
例如,可以根据所述应用主题向量中的全部主题关键词确定所述用户对应的应用标签信息,也可以根据所述应用主题向量中优选(比如权重较高的)的若干个主题关键词确定所述用户对应的应用标签信息。
优选地,所述第七装置27根据所述应用使用记录信息,以及所述应用主题向量中的一个或多个主题关键词,确定所述用户对应的应用安装标签信息和/或应用活跃标签信息。
在此,所述应用标签信息包括应用安装标签信息和/或应用活跃标签信息。所述应用安装标签信息基于用户安装的应用确定,所述应用活跃标签信息基于用户安装的应用及各应用的使用频率(一个时间段内的使用次数、每次使用时长、使用消耗流量等)确定。
例如,确定所述应用安装标签信息的过程可以包括:得到每一个应用的主题关键词和对应的应用主题向量,选取一个阈值k,每个主题只取权重最大的k个关键词,一个主题可以简化为[w1:v1,w1:v1…wk:vk],其中w1…k为关键词,v1…k为关键词的权重。根据应用的关键词来为用户打标签,例如,一个用户A安装了m个应用,则对应的标签有m×k个,每个标签的权重为关键词权重[w11:v11,…w1k:v1k,w21:v21,…w2k:v2k,…wm1:vm1,…wmk:vmk],其中wij为第i个应用的第j个关键词,vij为对应的权重;出现相同关键词时,可以进行合并,两个关键词权重相加作为新的权重。
再例如,确定所述应用活跃标签信息的过程可以包括:根据应用的主题关键词以及权重基于用户应用的使用流量或者使用次数给用户添加标签以及计算相应的标签权重。每个主题只取权重最大的k个关键词,一个用户B在一个时间段使用了m个应用,则对应的标签有m×k个,每个标签的权重为关键词权重[w11:v11×t1,…w1k:v1k×tk,w21:v21×t2,…w2k:v2k×t2,…wm1:vm1×tm,…wmk:vmk×tm],其中wij为第i个应用的第j个关键词,vij为对应的权重,ti为第个应用使用流量或者次数;出现相同关键词时,也可以进行合并,两个关键词权重乘以对应流量再相加作为新的权重。
根据本申请的又一个方面,提供了一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;
基于所述一个或多个应用标签信息,构建所述用户的用户画像信息。
根据本申请的又一个方面,提供了一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;
根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息。
根据本申请的又一个方面,提供了一种用于构建用户画像的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;
基于所述一个或多个应用标签信息,构建所述用户的用户画像信息。
根据本申请的又一个方面,提供了一种用于确定用户的应用标签信息的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;
根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息。
与现有技术相比,本申请获取用户在用户设备上使用应用的应用使用记录信息,根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息,然后,基于所述一个或多个应用标签信息,构建所述用户的用户画像信息;本申请所述应用使用记录信息相对于用户网页浏览记录、社交网络关系、新闻广告点击记录等用户信息而言,具有静态稳定、数据量小、信息量大的优点,因而,本申请所构建的用户画像信息能够更加精准地定义和识别用户。进一步地,本申请所述应用标签信息包括应用安装标签信息和/或应用活跃标签信息,从不同维度对所述用户进行标签化,从而构建更精准的用户画像信息。进一步地,本申请提供了一种基于应用主题的应用安装标签信息和/或应用活跃标签信息,得到更丰富的差异化标签信息,能够更好地对应用进行分类。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (22)

1.一种用于构建用户画像的方法,其中,该方法包括:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;
基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,其中所述目标应用场景包括以下至少任一项:考察用户APP安装相关的场景、考察用户APP偏好的场景;
其中,所述基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,包括:
基于用户画像的目标应用场景从所述一个或多个应用标签信息中选择与所述目标应用场景相匹配的应用标签信息,并构建所述用户的用户画像信息,其中所述用户画像信息包括与所述目标应用场景相匹配的所述应用标签信息;或者,
基于用户画像的目标应用场景确定所述一个或多个应用标签信息中应用标签信息的权重信息,并构建所述用户的用户画像信息,其中所述用户画像信息中与所述目标应用场景相匹配的应用标签信息的权重信息高于所述用户画像信息中其他应用标签信息的权重信息。
2.根据权利要求1所述的方法,其中,所述方法还包括:
将与所述用户画像信息相匹配的应用信息或呈现信息提供至所述用户设备。
3.根据权利要求1所述的方法,其中,所述应用标签信息包括以下至少任一项:
应用安装标签信息;
应用活跃标签信息;
基于应用主题的应用安装标签信息;
基于应用主题的应用活跃标签信息。
4.根据权利要求3所述的方法,其中,所述应用标签信息包括基于应用主题的应用安装标签信息或应用活跃标签信息;
其中,所述根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息包括:
根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;
根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的所述基于应用主题的应用安装标签信息或应用活跃标签信息。
5.根据权利要求1所述的方法,其中,所述根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息包括:
根据所述应用使用记录信息查询应用库信息,确定所述用户对应的一个或多个应用标签信息。
6.根据权利要求3所述的方法,其中,所述应用安装标签信息包括以下至少任一项:
基于类别的应用安装标签信息,
基于价格的应用安装标签信息;
其中,所述应用活跃标签信息包括以下至少任一项:
基于类别的应用活跃标签信息,
基于价格的应用活跃标签信息。
7.一种用于确定用户的应用标签信息的方法,其中,该方法包括:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息从应用市场获取所述用户设备上应用对应的应用描述信息;根据所述应用描述信息生成对应应用的应用主题向量,其中,所述应用主题向量包括一个或多个主题关键词;
根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息;
其中,所述根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息,包括:根据所述应用使用记录信息,以及所述应用主题向量中的一个或多个主题关键词,确定所述用户对应的应用活跃标签信息,其中每个应用主题向量只取权重最大的k个主题关键词,所述用户在一个时间段使用了m个应用,则所述用户对应的应用活跃标签信息有m×k个;根据所述主题关键词以及权重及所述用户设备上应用的使用流量或使用次数计算相应的应用活跃标签信息的权重。
8.根据权利要求7所述的方法,其中,所述根据所述应用描述信息生成对应应用的应用主题向量包括:
对所述应用描述信息进行分词处理,以获得多个主题关键词;
对所述多个主题关键词进行聚类算法,确定对应应用的应用主题向量,其中,所述应用主题向量包括一个或多个主题关键词。
9.根据权利要求7至8中任一项所述的方法,其中,所述根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息还包括:
根据所述应用使用记录信息,以及所述应用主题向量中的一个或多个主题关键词,确定所述用户对应的应用安装标签信息。
10.一种用于构建用户画像的设备,其中,该设备包括:
第一装置,用于获取用户在用户设备上使用应用的应用使用记录信息;
第二装置,用于根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;
第三装置,用于基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,其中所述目标应用场景包括以下至少任一项:考察用户APP安装相关的场景、考察用户APP偏好的场景;
其中,所述基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,包括:
基于用户画像的目标应用场景从所述一个或多个应用标签信息中选择与所述目标应用场景相匹配的应用标签信息,并构建所述用户的用户画像信息,其中所述用户画像信息包括与所述目标应用场景相匹配的所述应用标签信息;或者,
基于用户画像的目标应用场景确定所述一个或多个应用标签信息中应用标签信息的权重信息,并构建所述用户的用户画像信息,其中所述用户画像信息中与所述目标应用场景相匹配的应用标签信息的权重信息高于所述用户画像信息中其他应用标签信息的权重信息。
11.根据权利要求10所述的设备,其中,所述设备还包括:
第四装置,用于将与所述用户画像信息相匹配的应用信息或呈现信息提供至所述用户设备。
12.根据权利要求10所述的设备,其中,所述应用标签信息包括以下至少任一项:
应用安装标签信息;
应用活跃标签信息;
基于应用主题的应用安装标签信息;
基于应用主题的应用活跃标签信息。
13.根据权利要求12所述的设备,其中,所述应用标签信息包括基于应用主题的应用安装标签信息或应用活跃标签信息;
其中,所述第二装置用于:
根据所述应用使用记录信息获取所述用户设备上应用对应的应用主题向量;
根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的所述基于应用主题的应用安装标签信息或应用活跃标签信息。
14.根据权利要求10所述的设备,其中,所述第二装置用于:
根据所述应用使用记录信息查询应用库信息,确定所述用户对应的一个或多个应用标签信息。
15.根据权利要求12所述的设备,其中,所述应用安装标签信息包括以下至少任一项:
基于类别的应用安装标签信息,
基于价格的应用安装标签信息;
其中,所述应用活跃标签信息包括以下至少任一项:
基于类别的应用活跃标签信息,
基于价格的应用活跃标签信息。
16.一种用于确定用户的应用标签信息的设备,其中,该设备包括:
第五装置,用于获取用户在用户设备上使用应用的应用使用记录信息;
第六装置,用于根据所述应用使用记录信息从应用市场获取所述用户设备上应用对应的应用描述信息;根据所述应用描述信息生成对应应用的应用主题向量,其中,所述应用主题向量包括一个或多个主题关键词;
第七装置,用于根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息;
其中,所述根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息,包括:根据所述应用使用记录信息,以及所述应用主题向量中的一个或多个主题关键词,确定所述用户对应的应用活跃标签信息,其中每个应用主题向量只取权重最大的k个主题关键词,所述用户在一个时间段使用了m个应用,则所述用户对应的应用活跃标签信息有m×k个;根据所述主题关键词以及权重及所述用户设备上应用的使用流量或使用次数计算相应的应用活跃标签信息的权重。
17.根据权利要求16所述的设备,其中,所述根据所述应用描述信息生成对应应用的应用主题向量,包括:
对所述应用描述信息进行分词处理,以获得多个主题关键词;
对所述多个主题关键词进行聚类算法,确定对应应用的应用主题向量,其中,所述应用主题向量包括一个或多个主题关键词。
18.根据权利要求16至17中任一项所述的设备,其中,所述第七装置还用于:
根据所述应用使用记录信息,以及所述应用主题向量中的一个或多个主题关键词,确定所述用户对应的应用安装标签信息。
19.一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;
基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,其中所述目标应用场景包括以下至少任一项:考察用户APP安装相关的场景、考察用户APP偏好的场景;
其中,所述基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,包括:
基于用户画像的目标应用场景从所述一个或多个应用标签信息中选择与所述目标应用场景相匹配的应用标签信息,并构建所述用户的用户画像信息,其中所述用户画像信息包括与所述目标应用场景相匹配的所述应用标签信息;或者,
基于用户画像的目标应用场景确定所述一个或多个应用标签信息中应用标签信息的权重信息,并构建所述用户的用户画像信息,其中所述用户画像信息中与所述目标应用场景相匹配的应用标签信息的权重信息高于所述用户画像信息中其他应用标签信息的权重信息。
20.一种包括指令的计算机可读存储介质,所述指令在被执行时使得系统进行以下操作:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息从应用市场获取所述用户设备上应用对应的应用描述信息;根据所述应用描述信息生成对应应用的应用主题向量,其中,所述应用主题向量包括一个或多个主题关键词;
根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息;
其中,所述根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息,包括:根据所述应用使用记录信息,以及所述应用主题向量中的一个或多个主题关键词,确定所述用户对应的应用活跃标签信息,其中每个应用主题向量只取权重最大的k个主题关键词,所述用户在一个时间段使用了m个应用,则所述用户对应的应用活跃标签信息有m×k个;根据所述主题关键词以及权重及所述用户设备上应用的使用流量或使用次数计算相应的应用活跃标签信息的权重。
21.一种用于构建用户画像的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息确定所述用户对应的一个或多个应用标签信息;
基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,其中所述目标应用场景包括以下至少任一项:考察用户APP安装相关的场景、考察用户APP偏好的场景;
其中,所述基于用户画像的目标应用场景,以及所述一个或多个应用标签信息,构建所述用户的用户画像信息,包括:
基于用户画像的目标应用场景从所述一个或多个应用标签信息中选择与所述目标应用场景相匹配的应用标签信息,并构建所述用户的用户画像信息,其中所述用户画像信息包括与所述目标应用场景相匹配的所述应用标签信息;或者,
基于用户画像的目标应用场景确定所述一个或多个应用标签信息中应用标签信息的权重信息,并构建所述用户的用户画像信息,其中所述用户画像信息中与所述目标应用场景相匹配的应用标签信息的权重信息高于所述用户画像信息中其他应用标签信息的权重信息。
22.一种用于确定用户的应用标签信息的设备,其中,该设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取用户在用户设备上使用应用的应用使用记录信息;
根据所述应用使用记录信息从应用市场获取所述用户设备上应用对应的应用描述信息;根据所述应用描述信息生成对应应用的应用主题向量,其中,所述应用主题向量包括一个或多个主题关键词;
根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息;
其中,所述根据所述应用主题向量中的一个或多个主题关键词确定所述用户对应的应用标签信息,包括:根据所述应用使用记录信息,以及所述应用主题向量中的一个或多个主题关键词,确定所述用户对应的应用活跃标签信息,其中每个应用主题向量只取权重最大的k个主题关键词,所述用户在一个时间段使用了m个应用,则所述用户对应的应用活跃标签信息有m×k个;根据所述主题关键词以及权重及所述用户设备上应用的使用流量或使用次数计算相应的应用活跃标签信息的权重。
CN201611186477.9A 2016-12-20 2016-12-20 一种用于构建用户画像的方法与设备 Active CN106940705B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611186477.9A CN106940705B (zh) 2016-12-20 2016-12-20 一种用于构建用户画像的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611186477.9A CN106940705B (zh) 2016-12-20 2016-12-20 一种用于构建用户画像的方法与设备

Publications (2)

Publication Number Publication Date
CN106940705A CN106940705A (zh) 2017-07-11
CN106940705B true CN106940705B (zh) 2021-01-22

Family

ID=59468580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611186477.9A Active CN106940705B (zh) 2016-12-20 2016-12-20 一种用于构建用户画像的方法与设备

Country Status (1)

Country Link
CN (1) CN106940705B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109389138A (zh) * 2017-08-09 2019-02-26 武汉安天信息技术有限责任公司 一种用户画像方法及装置
CN107563851A (zh) * 2017-08-23 2018-01-09 广东欧珀移动通信有限公司 应用推荐方法、装置、终端及存储介质
CN107688639A (zh) * 2017-08-24 2018-02-13 努比亚技术有限公司 应用推荐方法、服务器及计算机可读存储介质
CN107578292B (zh) * 2017-09-19 2020-10-16 上海财经大学 一种用户画像构建系统
CN107870986A (zh) * 2017-10-13 2018-04-03 平安科技(深圳)有限公司 基于爬虫数据的用户行为分析方法、应用服务器及计算机可读存储介质
CN107705156B (zh) * 2017-10-16 2021-02-05 深圳大宇无限科技有限公司 用户特征分析方法及装置
CN110019759A (zh) * 2017-10-27 2019-07-16 腾讯科技(深圳)有限公司 用户分群处理方法、装置、计算机设备和存储介质
CN107844548A (zh) * 2017-10-30 2018-03-27 北京锐安科技有限公司 一种数据标签方法和装置
CN107729560A (zh) * 2017-11-08 2018-02-23 北京奇虎科技有限公司 基于大数据的用户画像构造方法、装置及计算设备
CN108388572A (zh) * 2018-01-10 2018-08-10 链家网(北京)科技有限公司 一种用户画像取数方法
CN108230114B (zh) * 2018-01-16 2021-04-23 平安好房(上海)电子商务有限公司 选取用户特征标签的方法、装置、设备及可读存储介质
CN109359180B (zh) * 2018-09-20 2021-03-02 腾讯科技(深圳)有限公司 用户画像生成方法、装置、电子设备及计算机可读介质
CN109767300B (zh) * 2019-01-14 2022-02-15 博拉网络股份有限公司 基于用户习惯的大数据画像及模型构建方法
CN110175264A (zh) * 2019-04-23 2019-08-27 深圳市傲天科技股份有限公司 视频用户画像的构建方法、服务器及计算机可读存储介质
CN113396433B (zh) * 2019-06-11 2023-12-26 深圳市欢太科技有限公司 用户画像构建方法及相关产品
CN112116368A (zh) * 2019-06-19 2020-12-22 百度在线网络技术(北京)有限公司 对向人群推荐内容的设备进行标注的方法和装置及处理器
CN110457679B (zh) * 2019-07-01 2023-11-28 深圳追一科技有限公司 用户画像的构建方法、装置、计算机设备和存储介质
CN110674144A (zh) * 2019-08-14 2020-01-10 深圳壹账通智能科技有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN113050782B (zh) * 2019-12-27 2023-02-28 Oppo广东移动通信有限公司 画像构建方法、装置、终端及存储介质
CN113051465A (zh) * 2019-12-27 2021-06-29 Oppo广东移动通信有限公司 优化策略的推送方法、装置、服务器及存储介质
CN111079023B (zh) * 2019-12-30 2023-06-16 Oppo广东移动通信有限公司 目标帐户的识别方法、装置、终端及存储介质
CN111310009A (zh) * 2020-01-16 2020-06-19 珠海格力电器股份有限公司 用户分类方法、装置、存储介质、计算机设备
CN111260220B (zh) * 2020-01-16 2021-05-14 北京房江湖科技有限公司 群控设备识别方法、装置、电子设备和存储介质
CN112035519B (zh) * 2020-08-28 2023-11-24 中国平安人寿保险股份有限公司 用户画像方法、装置、计算机可读存储介质及终端设备
CN114546794A (zh) * 2020-11-27 2022-05-27 中国移动通信集团终端有限公司 应用覆盖率的确定方法、装置、设备和存储介质
CN112948526A (zh) * 2021-02-01 2021-06-11 大箴(杭州)科技有限公司 用户画像的生成方法及装置、电子设备、存储介质
CN113157540A (zh) * 2021-03-31 2021-07-23 国家计算机网络与信息安全管理中心 一种用户行为分析方法和系统
CN114943562A (zh) * 2022-06-08 2022-08-26 中国银行股份有限公司 一种银行优惠券的推送方法和相关装置
CN115061700A (zh) * 2022-06-30 2022-09-16 上海掌门科技有限公司 确定用户画像标签信息的方法、设备、介质及程序产品
CN116484109B (zh) * 2023-06-21 2023-09-01 九一金融信息服务(北京)有限公司 基于人工智能的客户画像分析系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102884822A (zh) * 2010-05-11 2013-01-16 诺基亚公司 用于确定用户场景的方法和装置
CN103530339A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 移动应用信息推送方法和装置
CN103927309A (zh) * 2013-01-14 2014-07-16 阿里巴巴集团控股有限公司 一种对业务对象标注信息标签的方法及装置
CN104133878A (zh) * 2014-07-25 2014-11-05 百度在线网络技术(北京)有限公司 用户标签的生成方法和装置
CN104850662A (zh) * 2015-06-08 2015-08-19 浙江每日互动网络科技有限公司 一种基于用户画像的移动终端智能消息推送方法、服务器和系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102884822A (zh) * 2010-05-11 2013-01-16 诺基亚公司 用于确定用户场景的方法和装置
CN103927309A (zh) * 2013-01-14 2014-07-16 阿里巴巴集团控股有限公司 一种对业务对象标注信息标签的方法及装置
CN103530339A (zh) * 2013-10-08 2014-01-22 北京百度网讯科技有限公司 移动应用信息推送方法和装置
CN104133878A (zh) * 2014-07-25 2014-11-05 百度在线网络技术(北京)有限公司 用户标签的生成方法和装置
CN104850662A (zh) * 2015-06-08 2015-08-19 浙江每日互动网络科技有限公司 一种基于用户画像的移动终端智能消息推送方法、服务器和系统

Also Published As

Publication number Publication date
CN106940705A (zh) 2017-07-11

Similar Documents

Publication Publication Date Title
CN106940705B (zh) 一种用于构建用户画像的方法与设备
US11269962B2 (en) Inductive matrix completion and graph proximity for content item recommendation
US10747771B2 (en) Method and apparatus for determining hot event
US9098569B1 (en) Generating suggested search queries
CN104899220B (zh) 应用程序推荐方法和系统
WO2018192496A1 (zh) 热度信息的生成方法和装置、存储介质以及电子装置
US9183072B1 (en) Error troubleshooting using a correlated knowledge base
US12141212B2 (en) Intelligent interface accelerating
WO2019149145A1 (zh) 投诉举报类别的排序方法和装置
WO2019169978A1 (zh) 资源推荐方法及装置
US20160117328A1 (en) Influence score of a social media domain
US20210209624A1 (en) Online platform for predicting consumer interest level
US9767417B1 (en) Category predictions for user behavior
US10346496B2 (en) Information category obtaining method and apparatus
CN110851710A (zh) 一种小说推荐方法及设备
US11921732B2 (en) Artificial intelligence and/or machine learning systems and methods for evaluating audiences in an embedding space based on keywords
US20170228378A1 (en) Extracting topics from customer review search queries
US12255903B2 (en) Identifying fraudulent requests for content
CN113010795A (zh) 用户动态画像生成方法、系统、存储介质及电子设备
US11503071B2 (en) Identifying fraudulent requests for content
US11061937B2 (en) Method and system for classifying user identifiers into similar segments
US8484092B1 (en) Generating communities based on common interest
US20160162930A1 (en) Associating Social Comments with Individual Assets Used in a Campaign
US20220222300A1 (en) Systems and methods for temporal and visual feature driven search utilizing machine learning
CN106547921B (zh) 标签生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 80536, Shanghai

Patentee after: Shanghai Zongzhang Technology Group Co.,Ltd.

Country or region after: China

Address before: Room 80536, Shanghai

Patentee before: SHANGHAI ZHANGMEN SCIENCE AND TECHNOLOGY Co.,Ltd.

Country or region before: China