[go: up one dir, main page]

CN109829033B - 数据展示方法和终端设备 - Google Patents

数据展示方法和终端设备 Download PDF

Info

Publication number
CN109829033B
CN109829033B CN201711182131.6A CN201711182131A CN109829033B CN 109829033 B CN109829033 B CN 109829033B CN 201711182131 A CN201711182131 A CN 201711182131A CN 109829033 B CN109829033 B CN 109829033B
Authority
CN
China
Prior art keywords
emotion
attribute
data
words
polarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711182131.6A
Other languages
English (en)
Other versions
CN109829033A (zh
Inventor
王剑
周鑫
孙常龙
陶秀莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201711182131.6A priority Critical patent/CN109829033B/zh
Publication of CN109829033A publication Critical patent/CN109829033A/zh
Application granted granted Critical
Publication of CN109829033B publication Critical patent/CN109829033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据展示方法和终端设备,其中,该数据展示方法包括:确定目标对象;获取来自于多个数据源的与所述目标对象相关的多媒体数据;从所述多媒体数据中确定出与所述目标对象相关的特征词;对确定出的特征词进行展示。相较于现有的仅通过一个数据源获取数据,以及展示的特征词都是预先设定好的方式相比,本例所提供的方案数据来源是随机的,展示的结果也是随机的,可以便于进行大范围的数据统计,将其应用到舆情数据中,可以实现对舆情数据的有效整合利用。

Description

数据展示方法和终端设备
技术领域
本申请属于互联网技术领域,尤其涉及一种数据展示方法和终端设备。
背景技术
随着科技的迅速发展,尤其是信息技术的快速发展。人们越来越多地依靠互联网获取信息,也越来越多的人通过互联网发布对某个产品的喜好或者作用等的评价,这些内容可以称之为舆情。
对于这些舆情数据如果可以有效的整合利用,可以为人们提供更为全面和客观的认知。现有的基于舆情数据来为用户提供产品认知的方式相对还是比较单一的,一般还仅是以用户在一个网站上的有指向性的评价内容作为数据源,整合得到的结果也是基于预先设定的特征词进行的。例如,对一个餐厅的评价,就是基于在某个网站上用户对该餐厅的指向性评价内容进行聚合,聚合得到的结果也是预先设定好的框架,基于框架内的词进行聚合分类,得到该网站下用户对该餐厅的评价,例如,打分、评价内容等。
这就需要有一个固定的指向性的数据源,且展示结果较为固定,无法对舆情数据进行有效的分析利用。
针对该问题,目前尚未提出有效的解决方案。
发明内容
本申请目的在于提供一种数据展示方法和终端设备,可以实现对舆情数据的有效整合利用。
本申请提供一种数据展示方法和终端设备是这样实现的:
一种数据展示方法,包括:
确定目标对象;
获取来自于多个数据源的与所述目标对象相关的多媒体数据;
从所述多媒体数据中确定出与所述目标对象相关的特征词;
对确定出的特征词进行展示。
一种终端设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现如下步骤:
确定目标对象;
获取来自于多个数据源的与所述目标对象相关的多媒体数据;
从所述多媒体数据中确定出与所述目标对象相关的特征词;
对确定出的特征词进行展示。
一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现上述方法的步骤。
本申请提供的数据展示方法,在确定了查询的目标对象之后,是从多个数据源获取相关的多媒体数据,且是从获取的这些多媒体数据中确定出目标对象的特征词并进行展示。相较于现有的仅通过一个数据源获取数据,以及展示的特征词都是预先设定好的方式相比,本例所提供的方案数据来源是随机的,展示的结果也是随机的,可以便于进行大范围的数据统计,将其应用到舆情数据中,可以实现对舆情数据的有效整合利用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的舆情数据处理系统的一种实施例的架构示意图;
图2是本申请提供的聚类结果展示界面一种实施例的示意图;
图3是本申请提供的基于舆情数据的分析处理流程示意图;
图4是本申请提供的依存句法树一种实施例的示意图;
图5是本申请提供的聚类结果展示界面的示例性示意图;
图6是本申请提供的终端设备的一种实施例的架构示意图;
图7是本申请提供的数据展示装置一种实施例的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
在本例中,考虑到如果可以从互联网海量的数据中获取与特定产品相关的描述或评价数据,然后从这些数据中获取该特定产品多个维度的属性和情感信息,并对这些属性和情感信息进行聚合统计,以形成对该特定产品多个维度的评价认知信息,这样将使得用户可以更为全面的认知该特定产品。
基于此,在本例中提供了一种舆情数据处理系统,如图1所示,可以包括:服务器101、终端102。服务器101可以获取来自于多个数据源的与所述目标对象相关的多媒体数据,从多媒体数据中确定出与目标对象相关的特征词,并将其推送至终端102进行展示。也可以是这些操作都是终端102执行的,即,从多个数据源获取数据,对数据进行整合展示都通过终端102执行。具体采用哪种方式,可以根据实际需要,本申请对此不作限定。
在一个实施方式中,上述服务器101可以是单一的服务器,也可以是服务器集群,也可以是云端的处理器等等,具体采用哪种模式可以根据实际需要选择。
在一个实施方式中,上述终端102可以是用户操作使用的终端设备或者软件。具体的,终端102可以智能手机、平板电脑、笔记本电脑、台式计算机、智能手表或者其它可穿戴设备等终端设备。当然,终端102也可以是能运行于上述终端设备中的软件。例如:手机淘宝、支付宝或者浏览器等应用软件。
在一个实施方式中,上述多媒体数据可以是文本数据,也可以是语音数据、视频数据等等。例如,如果获取的多媒体数据是语音数据,可以通过语音识别识别出其中携带的文字,如果获取的多媒体数据是视频数据,可以通过图像语义理解识别出其中携带的文字。在实现的时候,选择哪一种或者多种类型的数据作为获取的多媒体数据可以根据实际需要选择,本申请对此不作限定。
以在服务器101上实现数据获取、聚合为例进行说明,当然对于终端102而言,也可以按照如下方式进行数据的获取和聚合操作。
具体的,数据展示方法可以包括如下步骤:
S1:确定目标对象;
在一个实施方式中,可以是接收用户输入的关键词,将用户输入的关键词作为目标对象,也可以是预先设定一个关键词列表,用户进行点击,将用户点击的关键词作为目标对象。当然也可以是用户直接选择前一次输入的关键词作为目标对象等等,
然而值得注意的是,上述所列列举的确定目标对象的方式仅是一种示例性描述,在实际实现的时候,还可以采用其它的确定目标对象的方式,本申请对此不作限定。
以“小A汽车”为例,用户可以输入“小A汽车”,即,以“小A汽车”作为关键词,也就相应的确定目标对象为“小A汽车”。
S2:获取来自于多个数据源的与所述目标对象相关的多媒体数据;
在确定了目标对象“小A汽车”之后,就可以从互联网上获取与目标对象相关的数据。具体的,在获取数据的时候,可以是从多个网站平台爬取数据的。例如,可以仅从新闻网站上获取数据,也可以是从新闻网站、论坛、贴吧、电商平台、微博等平台获取与目标对象相关的数据。即,可以从多个数据源获取数据,从而使得获取的关于“小A汽车”的数据更为全面。
在确定数据源的时候,可以是按照实际需求确定哪些数据源作为目标数据源。例如,如果是需要看“小A汽车”整个的运营情况,对互联网上的不管是新闻报告还是论坛、贴吧、电商网站的用户使用反馈都需要进行一个全面的了解的用户,那么就需要从多个网络平台爬取数据,从而得到对“小A汽车”更为全面的统计结果。
即,在本例中所获取的数据是从多个数据源获取的,这些数据可以是新闻数据,可以是贴吧的数据等等,这些数据都是无指向性的,与现有的点评网站中仅通过自身网站的数据进行聚合显示是不同的,现有的点评网站的数据一般还都是有指向性的,针对该对象专门进行评价的数据,因此,数据源是完全不同的。
S3:从上述多媒体数据中确定出与所述目标对象相关的特征词;
上述特征词可以包括但不限于以下至少之一:属性词、情感词、属性类别。
具体的,在从多个数据源获取到海量的数据之后,可以先从海量的数据中抽取出含有情感表达的句子,可以降低后续处理的复杂度,节省数据处理的时间。当然,这仅是一个可选的步骤,在实际实现的时候,也可以不先对数据进行预处理,而是直接将所有的数据都认为是含有情感表达的句子,直接送入后续的处理过程。具体采用哪种方式可以根据系统的处理的能力以及实际需要选择,本申请对此不作限定。
例如:目标对象为小A汽车,“小A汽车对象是一个来自XX国家的汽车”和“小A汽车特别舒服”两句话,第一句就不是情感句,第二句就是情感句。在进行数据预处理的时候,就仅抽取“小A汽车特别舒服”,而对于“小A汽车对象是一个来自XX国家的汽车”则舍弃。
在对数据进行预处理,从中抽取出含有情感表达的句子的过程中,可以通过fasttext文本分类算法来识别情感句。其中,fasttext文本分类算法是一种公开的文本分类算法,通过从句子中抽取多维度特征,学习分类函数,来预测句子所属的分类,通过fasttext文本分类算法可以针对文本表达和分类帮助建立量化的解决方案。
然而,值得注意的是,上述所涉及的fasttext文本分类算法仅是一种示例性描述,在实际实现的时候,也可以采用其它的文本分类算法来识别得到情感句,对此,不申请不作具体限定。
在确定出情感句之后,可以从获取的情感句中抽取属性-情感对,并确定属性-情感对所属的属性类别。
例如,情感句为:“8月14日盘中突破500元后,小A汽车并未站稳这一股价,此后几日呈震荡下行态势,截至8月18日,小A汽车收于489.65元每股”,从该情感句中可以抽取出属性词为“股价”,对应的情感描述词为“震荡下行”,那么基于该情感句抽取的属性-情感对为“股价-震荡下行”。
进一步的,可以确定该属性-情感对所属的属性类别“市场价值”。
具体的,在实现的时候,所谓属性类别可以预先根据目标对象较为核心的属性体系预先设定的。例如,对于“小A汽车”而言,可以包含但不限于如下的属性类别“舒适性”、“外观”“历史文化”、“市场价值”、“战略决策”等。这些都可以作为属性-情感词对所属的属性类别。
在一个实施方式中,可以是基于整个属性-情感对确定所属的属性类别,也可以是仅基于属性-情感对中的属性词确定所属的属性类别。
可以预先基于各个属性类别的特性挖掘出各个属性类别对应的属性词或者是属性-情感对集合。这样在确定属性类别的过程中,可以基于属性词或者是属性-情感对到各个属性类别对应的集合中进行匹配,选择相似度最高的属性类别,作为确定的属性类别。
然而,值得注意的是,上述所列举的确定属性类别的方式仅是一种示例性描述,在实际实现的时候可以采用其它方式实现,本申请对此不作限定。
进一步的,可以判断属性或属性-情感对的情感极性。即,判断是正向的、中性的、还是负向的。
例如:“震荡下行”是负向的,“舒适”是正向的。
针对每个属性-情感对,可以先抽取该属性-情感对所在的文本字句,然后根据该字句的情感极性以及该属性-情感对中情感词的极性联合判断该属性的情感极性,也可以是根据属性-情感对对应的极性判断该属性-情感对的极性。具体得到哪种判断结果可以根据实际需要选择,本申请对此不作限定。
对于字句的情感极性,可以通过fasttext文本分类算法判断,对于情感词的情感极性可以通过预先建立的情感词典,以及人工特征等判断。
然而,值得注意的是,上述所列举的判断情感极性的方法仅是一种示例性描述,在实际实现的时候,可以采用其它方式判断,本申请对此不作限定。
通过上述对海量的网络数据进行处理之后,可以得到多个属性情感对,且确定出了属性情感对所属的类别,以及属性情感对的情感极性。基于此,可以对进行属性类别在情感句的分类整合,便于用户查看目标对应的舆情分布。
S4:对确定出的特征词进行展示。
在一个实施方式中,可以按照如图2所示的方式进行展示,即,可以在展示界面上展示目标对象各个属性类别下情感句的数量、属性情感对、属性情感对的情感极性等等。
进一步的,还可以响应于用户查询某个属性情感对对应的情感句的展示请求,展示选定的属性情感对对应的情感句,可以同步显示这些情感句的来源网站,并将其中涉及的属性情感对进行高亮显示,从而使得用户可以有效查看该属性情感对的来源以及对应的多媒体数据信息。
在一个实施方式中,考虑到还可以在展示界面中展示属性情感对的情感极性的高低,例如,可以按照顺序或者是标明比例等标明极性高低,也可以通过颜色都属性标明情感极性的高低,具体选择哪种方式可以根据实际需要选择,本申请对此不作限定。
对于属性情感对而言,有些属性情感对出现的次数特别多,标明热度比较高,有些属性情感对出现次数比较少,相对的热度就低一些。为了表征热度的高低,可以通过数量、比例等进行标识,也可以通过距离核心词(即,目标对象)的距离远近来标识。具体选择哪种方式可以根据实际需要选择,本申请对此不作限定。
在一个实施方式中,结果展示可以是模板化的展示方式,即,预先定义好显示界面中每个显示模块所要展示的内容类型,以及可以操作项,按照这种预定义好的展示方式进行展示。
在一个实施方式中,在对结果进行展示之后,可以提供多个选择项,例如,可以提供时间段选择项,用户可以选择时间段。以选择“三天以内”,那么这个时候就可以仅显示三天内的数据聚合得到的结果。即,可以接收选择的时间段;展示目标特征词,其中,目标特征词是根据在所述数据源上的发布时间位于所述时间段内的与所述目标对象相关的多媒体数据确定的。通过这种方式,使得查看者可以根据实际需要选择时间段内的数据进行展示,不需要限定为系统自身设定的时间段,从而使得对结果的查看更为便利,灵活性更高。
在一个实施方式中,可以将上述数据展示方法应用在评价网站、科普网站、产品介绍网站等等,通过上述的处理方法可以实现舆情数据的聚合分析处理和展示。
在本例中,展示结果的展示样式也是完全不同的,现有的都是预先设定了展示特征词,然而,在本例中,展示结果是基于实时获取的多媒体数据聚合得到特征词,即,展示的特征词是基于数据临时聚合得到的,而不是预先设定的好的,即,展示结果都是来源于当下获取的数据的,都是随机的。
上例的数据展示方法还可以应用于数据统计查询的场景。例如,小A汽车的老总希望对小A汽车近期的市场反馈情况看进行一个了解,那么通过上述的基于舆情数据的数据展示方法,就可以简单直观地看到一定时间内的小A汽车在互联网上的数据反馈情况。例如:用户口碑、股市变化、新闻对其的评价等等。
在上例中,在确定了查询的目标对象之后,是从多个数据源获取相关的多媒体数据,且是从获取的这些多媒体数据中确定出目标对象的特征词并进行展示。相较于现有的仅通过一个数据源获取数据,以及展示的特征词都是预先设定好的方式相比,本例所提供的方案数据来源是随机的,展示的结果也是随机的,可以便于进行大范围的数据统计,将其应用到舆情数据中,可以实现对舆情数据的有效整合利用。
下面结合一个具体场景对上述数据处理分类方法进行说明,然而值得注意的是,该具体场景仅是为了更好地说明本申请,并不构成对本申请的不当限定。
在本例中,以对“小A汽车”进行信息抽取和分类展示进行说明,具体的,通过结合文本分类以及信息抽取等,对互联网中的“小A汽车”信息进行处理,抽取小A汽车各个维度属性中用户的情感倾向以及情感观点,并采用聚合统计的方式对这些信息进行展示。
如图3所示,可以包括如下流程:
S1:在网页、论坛、贴吧、微博等平台抓取数据;
S2:结合文本分类算法,从钻取的大量的无结构的多媒体数据中,抽取具有用户情感表达的情感句;
考虑到网页文本中存在大量与目标对象(本例为:小A汽车)无关的文本,如果可以从中挖掘出包含用户情感表达的候选句子,那么可以有效减少后续抽取过程的工作量,且可以提供属性抽取的准确性。为了实现这个目的,可以对网页文本中的大量文本进行抽取,得到与目标对象相关的具有用户情感表达的情感句。例如,可以通过但不限于fasttext文本分类算法,从人工标注的数据集中学习一个识别分类模型,来确定输入的文本句子是否为与目标对象相关的具有用户情感表达的情感句。
在一个实施方式中,还可以将抽取具有用户情感表达的情感句与后续的信息抽取联合在一起,形成一个统一的抽取模型。例如,可以通过LSTM(Long Short-Term Memory,长短期记忆网络)确定出句子的情感得分,然后将情感得分作为一个维度的特征加入到CRF(Conditional Random Field algorithm,条件随机场算法)属性抽取模型中。
S3:对抽取的具有用户情感表达的情感句进行属性级的情感分析,可以包括:
A)抽取属性词,例如,可以通过序列标注算法抽取句子中的属性词;
B)抽取情感词抽取,例如,可以依据句法规则以及序列标注算法抽取句子中的情感词;
具体的,可以结合词的上下文特征、词性特征、依存句法特征进行属性词、情感词的抽取。
其中,依存句法是将句子分析成一颗依存句法树,描述出各个词语之间的依存关系。也就是说,指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。例如:句子“会议宣布了首批资深院士名单”的依存句法树可以如图4所示。由图4可以看出,词“宣布”支配“会议”、“了”和“名单”,因此,将这几个词作为“宣布”的搭配词。
具体的,先使用CRF算法抽取情感句中的候选属性词集合,并针对每个属性词,使用CRF算法抽取其候选情感词集合,在这个过程中融合了位置、句法等信息;然后,可以结合依存句法信息提炼出人工规则,抽取属性-情感词对。最后,将基于CRF算法抽取的属性-情感对与基于依存句法抽取的属性-情感对进行交叉验证,从而最终确定属性-情感对。
上述所列举的抽取的属性-情感对的方式仅是一种示例性描述,在实际实现的时候可以采用其它的方式抽取属性-情感对,例如,可以使用其它的序列标注算法,例如:隐马尔科夫、最大熵马尔科夫模型等。同时,上述抽取部分中使用到的依存句法特征还可以以不同的形式呈现,例如:首先将依存句法树利用循环神经网络生成依存树的向量表示作为CRF模型输入等等。具体的实现形式可以根据实际需要选择,本申请对此不作限定。
C)归一化属性类别,结合自动化挖掘词典及相似度计算模型将属性词映射到预先设定的属性类别集合中的某一属性类别。
S3:属性类别归一;
考虑到对于不同的行业而言,属性类别一般都是不同的。因此,可以根据行业类别的不同的,或者产品的不同,预先为每种行业类别都设置其对应的属性类别集合。例如,以酒类数据为例,可以设置但不限于如下的属性类别:“舒适性”、“外观”、“历史文化”、“市场价值”、“战略决策”等。
在属性类别归一的过程中,可以将抽取的属性-情感对归一到某一特定的属性类别中。例如,可以首先根据各个属性维度的特点,自动挖掘出一批候选属性-情感对集合,然后,计算挖掘到的属性-情感对与每个属性类别中的词对集合的平均相似度,将相似度最高的属性类别,作为属性类别归一至的属性类别。
D)通过文本分类算法,判断该属性的情感极性(例如:正向、中性、负向);
具体的,针对每个属性词,可以抽取该属性所在的文本字句,然后通过该字句的情感极性以及该属性词所对应的情感词的极性联合判断该属性的情感极性。其中,句子的情感极性可以通过fasttext文本分类算法判断,情感词的情感极性可以通过预先建立的情感词典以及人工特征(例如:是否存在否定词等)判断。
S4:对一段时间内针对目标对象(某产品或某企业)的批量的结构化的属性情感分析,可以得到属性情感分析结果,可以将这些结果进行聚合统计。具体的,可以根据不同的热度、情感程度、时效性等进行可视化展示。
如图5所示为一种基于统计结果展示产品舆情的示意性展示图,如图5所示,第1部分从时间维度,支持用户选择不同时间范围内的舆情;第2部分针对不同种类的消费品,显示不同的属性体系,图5中显示的为汽车行业的关键属性;第3部分即属性词情感词的抽取结果展示,针对每个属性类别,可以展示出其中热度较高的N个属性-情感词对,并分别按照不同的颜色显示其情感极性,可以通过每个词到核心词之间的距离表征该属性的统计热度;第4部分支持用户选择不同的关键词;第5部分根据用户选择的关键词,展示相关的新闻原句,并高亮相关文本片段。
然而,值得注意的是这仅是一种示意性的展示界面,在实际实现的时候,还可以采用其它的聚合展现形式,例如:可以根据情感词的热度、属性的情感程度等进行展示,具体的展示方式可以根据实际需要选择,本申请对此不作限定。
在本例中,通过预先过滤掉不包含情感信息的文本,基于过滤后的问题进行属性情感对的抽取以及交叉验证,从而提高了属性提取的性能,并确定了属性情感对对应的情感极性。对于抽取得到的结果覆盖的范围更广,例如,可以包括大众对公司层面的舆情信息,例如:公司的“历史文化”、“市场价值”“高层领导”等。对于结果的展示,提供了更为结构化的展示方案,展示界面更为友好,且内容更为丰富。
本申请上述所提供的数据处理和显示方法实施例可以在服务器、终端或者类似的运算装置中执行。以运行在终端设备上为例,图6是本发明实施例的一种数据展示方法的终端设备的硬件结构框图。如图6所示,终端设备10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。本领域普通技术人员可以理解,图6所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的数据展示方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的数据展示方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输模块106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输模块106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输模块106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
请参考图7,在软件实施方式中,该数据展示装置应用于终端设备中,可以包括:第一确定单元、获取单元、第二确定单元和展示单元。其中:
第一确定单元,用于确定目标对象;
获取单元,用于获取来自于多个数据源的与所述目标对象相关的多媒体数据;
第二确定单元,用于从所述多媒体数据中确定出与所述目标对象相关的特征词;
展示单元,用于对确定出的特征词进行展示。
在一个实施方式中,所述特征词可以包括但不限于以下至少之一:属性词、情感词、属性类别。
在一个实施方式中,第二确定单元具体可以从多媒体数据中聚合得到多个特征词,以及各个特征词出现的频次;相应的,展示单元具体可以对确定出的特征词和特征词出现的频次进行展示。
在一个实施方式中,上述装置还可以包括:第一接收单元,用于在对确定出的特征词进行展示之后,接收对目标特征词的查询请求;展示单元具体可以响应于所述查询请求,展示与所述目标特征词相关的多媒体数据。
在一个实施方式中,上述装置还可以包括:第二接收单元,用于在对确定出的特征词进行展示之后,接收选择的时间段;展示单元具体可以展示目标特征词,其中,所述目标特征词是根据在所述数据源上的发布时间位于所述时间段内的与所述目标对象相关的多媒体数据确定的。
在一个实施方式中,确定单元具体可以从所述多媒体数据中抽取对所述目标对象进行描述的带有情感表达的情感句;从所述情感句中查找出多个属性情感词对;确定所述多个属性情感词对中各个属性情感词对所属的属性类别和情感极性;根据所述多个属性情感词对中各个属性情感词对所属的属性类别和情感极性,进行聚合分类,得到各个属性类别对应的情感句数量和情感极性;将确定出的各个属性情感词对所属的属性类别和情感极性、各个属性类别对应的情感句数量和情感极性作为所述特征词。
在一个实施方式中,确定单元具体可以按照以下方式之一确定属性情感词对所属的属性类别和情感极性:
1)根据所述属性情感词对中的情感词的情感极性,确定所述属性情感词对的情感极性;
2)根据所述属性情感词对所在的情感句的情感极性,确定所述属性情感词对的情感极性;
3)根据所述属性情感词对中的情感词的情感极性和所述属性情感词对所在的情感句的情感极性,确定所述属性情感词对的情感极性。
具体的,根据所述属性情感词对中的情感词的情感极性和所述属性情感词对所在的情感句的情感极性,确定所述属性情感词对的情感极性可以包括:
S1:确定所述属性情感词对中的情感词的情感极性;
S2:确定所述属性情感词对所在的情感句的情感极性;
S3:对确定的情感词的情感极性和确定的情感句的情感极性进行交叉验证,将交叉验证的结果作为所述属性情感词对的情感极性。
通过交叉校验的方式提高了情感极性识别的准确率。
在获取多媒体数据的过程中,可以从多个目标网页上获取与目标对象相关的多媒体数据,然后,从多媒体数据中抽取出对所述目标对象进行描述的带有情感表达的情感句。
在一个实施方式中,上述属性类别可以为针对目标对象的特性预先设定的属性分类。
在一个实施方式中,上述属性类别还可以包括:目标对象所属企业的属性分类。
在一个实施方式中,确定属性情感词对所属的属性类别,可以包括:将所述属性情感词对与预先挖掘的针对各个属性类别的属性情感对集合进行相似度比较;将最高相似度对应的属性类别,确定为所述属性情感词对所属的属性类别。
在一个实施方式中,情感极性可以包括但不限于以下至少之一:正向情感、中性情感、负向情感。
在确定了查询的目标对象之后,是从多个数据源获取相关的多媒体数据,且是从获取的这些多媒体数据中确定出目标对象的特征词并进行展示。相较于现有的仅通过一个数据源获取数据,以及展示的特征词都是预先设定好的方式相比,本例所提供的方案数据来源是随机的,展示的结果也是随机的,可以便于进行大范围的数据统计,将其应用到舆情数据中,可以实现对舆情数据的有效整合利用。
虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
上述实施例阐明的装置或模块,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。当然,也可以将实现某功能的模块由多个子模块或子单元组合实现。
本申请中所述的方法、装置或模块可以以计算机可读程序代码方式实现控制器按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本申请所述装置中的部分模块可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的硬件的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,也可以通过数据迁移的实施过程中体现出来。该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请的全部或者部分可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、移动通信终端、多处理器系统、基于微处理器的系统、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的权利要求包括这些变形和变化而不脱离本申请的精神。

Claims (13)

1.一种数据展示方法,其特征在于,包括:
确定目标对象;
获取来自于多个数据源的与所述目标对象相关的多媒体数据;
从所述多媒体数据中确定出与所述目标对象相关的特征词;
对确定出的特征词进行展示;
其中,从所述多媒体数据中确定出与所述目标对象相关的特征词,包括:
从所述多媒体数据中抽取对所述目标对象进行描述的带有情感表达的情感句;
从所述情感句中查找出多个属性情感词对;
确定所述多个属性情感词对中各个属性情感词对所属的属性类别和情感极性;
根据所述多个属性情感词对中各个属性情感词对所属的属性类别和情感极性,进行聚合分类,得到各个属性类别对应的情感句数量和情感极性;
将确定出的各个属性情感词对所属的属性类别和情感极性、各个属性类别对应的情感句数量和情感极性作为所述特征词。
2.根据权利要求1所述的方法,其特征在于,所述特征词包括以下至少之一:属性词、情感词、属性类别。
3.根据权利要求1所述的方法,其特征在于,从所述多媒体数据中确定出与所述目标对象相关的特征词,包括:
从所述多媒体数据中聚合得到多个特征词,以及各个特征词出现的频次;
相应的,对确定出的特征词进行展示,包括:
对确定出的特征词和特征词出现的频次进行展示。
4.根据权利要求1所述的方法,其特征在于,在对确定出的特征词进行展示之后,所述方法还包括:
接收对目标特征词的查询请求;
响应于所述查询请求,展示与所述目标特征词相关的多媒体数据。
5.根据权利要求1所述的方法,其特征在于,在对确定出的特征词进行展示之后,所述方法还包括:
接收选择的时间段;
展示目标特征词,其中,所述目标特征词是根据在所述数据源上的发布时间位于所述时间段内的与所述目标对象相关的多媒体数据确定的。
6.根据权利要求1所述的方法,其特征在于,确定属性情感词对所属的属性类别和情感极性,包括以下至少之一:
根据所述属性情感词对中的情感词的情感极性确定所述属性情感词对的情感极性;
根据所述属性情感词对所在的情感句的情感极性,确定所述属性情感词对的情感极性;
根据所述属性情感词对中的情感词的情感极性和所述属性情感词对所在的情感句的情感极性,确定所述属性情感词对的情感极性。
7.根据权利要求6所述的方法,其特征在于,根据所述属性情感词对中的情感词的情感极性和所述属性情感词对所在的情感句的情感极性,确定所述属性情感词对的情感极性,包括:
确定所述属性情感词对中的情感词的情感极性;
确定所述属性情感词对所在的情感句的情感极性;
对确定的情感词的情感极性和确定的情感句的情感极性进行交叉验证,将交叉验证的结果作为所述属性情感词对的情感极性。
8.根据权利要求1所述的方法,其特征在于,所述属性类别为针对所述目标对象的特性预先设定的属性分类。
9.根据权利要求8所述的方法,其特征在于,所述属性类别还包括:目标对象所属企业的属性分类。
10.根据权利要求1所述的方法,其特征在于,确定属性情感词对所属的属性类别,包括:
将所述属性情感词对与预先挖掘的针对各个属性类别的属性情感对集合进行相似度比较;
将最高相似度对应的属性类别,确定为所述属性情感词对所属的属性类别。
11.根据权利要求1所述的方法,其特征在于,所述情感极性包括以下至少之一:正向情感、中性情感、负向情感。
12.一种终端设备,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至11中任一项所述方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机指令,所述指令被执行时实现权利要求1至11中任一项所述方法的步骤。
CN201711182131.6A 2017-11-23 2017-11-23 数据展示方法和终端设备 Active CN109829033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711182131.6A CN109829033B (zh) 2017-11-23 2017-11-23 数据展示方法和终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711182131.6A CN109829033B (zh) 2017-11-23 2017-11-23 数据展示方法和终端设备

Publications (2)

Publication Number Publication Date
CN109829033A CN109829033A (zh) 2019-05-31
CN109829033B true CN109829033B (zh) 2023-04-18

Family

ID=66858542

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711182131.6A Active CN109829033B (zh) 2017-11-23 2017-11-23 数据展示方法和终端设备

Country Status (1)

Country Link
CN (1) CN109829033B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580358A (zh) * 2019-09-30 2021-03-30 北京国双科技有限公司 文本信息提取方法、装置、存储介质及设备
CN111581479B (zh) * 2020-05-11 2021-04-13 北京精准沟通传媒科技股份有限公司 一站式数据处理的方法、装置、存储介质及电子设备
CN112052375B (zh) * 2020-09-30 2024-06-11 北京百度网讯科技有限公司 舆情获取和词粘度模型训练方法及设备、服务器和介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033910A (zh) * 2010-11-19 2011-04-27 福建富士通信息软件有限公司 一种基于多数据源的企业搜索引擎技术
CN102073701A (zh) * 2010-12-30 2011-05-25 浪潮集团山东通用软件有限公司 一种基于语义定义的多数据源的数据查询方法
CN103678564A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于数据挖掘的互联网产品调研系统
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN105574176A (zh) * 2015-12-21 2016-05-11 北京奇虎科技有限公司 结合多数据源的热词推荐方法和装置
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置
CN106599065A (zh) * 2016-11-16 2017-04-26 北京化工大学 一种基于Storm分布式框架的食品安全网络舆情预警系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9195769B2 (en) * 2011-07-20 2015-11-24 Opentable, Inc. Method and apparatus for quickly evaluating entities
KR20140078312A (ko) * 2012-12-17 2014-06-25 한국전자통신연구원 텍스트 기반 감성 분석 결과를 제공하기 위한 장치, 시스템 및 그 방법

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033910A (zh) * 2010-11-19 2011-04-27 福建富士通信息软件有限公司 一种基于多数据源的企业搜索引擎技术
CN102073701A (zh) * 2010-12-30 2011-05-25 浪潮集团山东通用软件有限公司 一种基于语义定义的多数据源的数据查询方法
CN103678564A (zh) * 2013-12-09 2014-03-26 国家计算机网络与信息安全管理中心 一种基于数据挖掘的互联网产品调研系统
CN105354183A (zh) * 2015-10-19 2016-02-24 Tcl集团股份有限公司 一种家电产品互联网评论的分析方法、装置及系统
CN105574176A (zh) * 2015-12-21 2016-05-11 北京奇虎科技有限公司 结合多数据源的热词推荐方法和装置
CN105824898A (zh) * 2016-03-14 2016-08-03 苏州大学 一种网络评论的标签提取方法和装置
CN106599065A (zh) * 2016-11-16 2017-04-26 北京化工大学 一种基于Storm分布式框架的食品安全网络舆情预警系统

Also Published As

Publication number Publication date
CN109829033A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
EP3244312B1 (en) A personal digital assistant
US9830386B2 (en) Determining trending topics in social media
US11640420B2 (en) System and method for automatic summarization of content with event based analysis
US20080059447A1 (en) System, method and computer program product for ranking profiles
CN110059172B (zh) 基于自然语言理解的推荐答案的方法和装置
US11741094B2 (en) Method and system for identifying core product terms
US20140095308A1 (en) Advertisement distribution apparatus and advertisement distribution method
CN111339406B (zh) 个性化推荐方法、装置、设备及存储介质
CN108614832B (zh) 一种用户个性化商品搜索实现方法及装置
CN110020162B (zh) 用户识别方法和装置
CN112818111B (zh) 文档推荐方法、装置、电子设备和介质
US10901992B2 (en) System and method for efficiently handling queries
CN111339295A (zh) 用于展示信息的方法、装置、电子设备和计算机可读介质
KR102322212B1 (ko) 학습 콘텐츠 추천 장치 및 방법
CN116955817A (zh) 内容推荐方法、装置、电子设备以及存储介质
CN113806588A (zh) 搜索视频的方法和装置
CN109829033B (zh) 数据展示方法和终端设备
CN110532454B (zh) 一种搜索词推荐方法及装置
CN112085568A (zh) 商品和富媒体聚合显示方法及设备、电子设备和介质
CN110990710B (zh) 资源推荐方法及装置
US11003703B1 (en) System and method for automatic summarization of content
CN117436980A (zh) 保险产品的推荐方法和装置、设备、存储介质
CN114880498B (zh) 事件信息展示方法及装置、设备和介质
CN114036397B (zh) 数据推荐方法、装置、电子设备和介质
CN116561402A (zh) 网页中目标内容信息的获取方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant