CN112256946A - 基于互联网大数据的全域旅游與情监测分析方法及系统 - Google Patents
基于互联网大数据的全域旅游與情监测分析方法及系统 Download PDFInfo
- Publication number
- CN112256946A CN112256946A CN202011236168.4A CN202011236168A CN112256946A CN 112256946 A CN112256946 A CN 112256946A CN 202011236168 A CN202011236168 A CN 202011236168A CN 112256946 A CN112256946 A CN 112256946A
- Authority
- CN
- China
- Prior art keywords
- speech
- tourist
- comment information
- positive
- comment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012544 monitoring process Methods 0.000 title claims abstract description 36
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004458 analytical method Methods 0.000 claims abstract description 40
- 238000012797 qualification Methods 0.000 claims abstract description 7
- 230000003993 interaction Effects 0.000 claims abstract description 5
- 238000005516 engineering process Methods 0.000 claims description 13
- 230000009193 crawling Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 description 11
- 238000011161 development Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000009194 climbing Effects 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000007664 blowing Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及基于互联网大数据的全域旅游與情监测分析方法,包括以下:获取旅游网站上的游客评论信息;建立词性分析模型,利用所述词性分析模型对所述游客评论信息进行词性定性,所述词性包括正面词性以及负面词性;根据运营商基站建立游客判断模型,通过所述游客判断模型判断相关运行商用户是否为新增游客;当确定为新增游客的用户在进入景区后触发营销短信,当确定为新增游客的用户发生突发事件主动进行应急请求时,通过应急短信快速与所述用户进行信息交互;计算第一阈值时间段内的游客评论信息的词性的正负面比例P以得到评论趋势,当所述正负面比例P低于第二阈值时触发告警,通知管理员进行舆情追踪分析。本发明对全域旅游舆情进行较佳的监测以及预警。
Description
技术领域
本发明涉及大数据领域,尤其涉及基于互联网大数据的全域旅游與情监测分析方法及系统。
背景技术
改革开放至今,我国经济社会发展已由“生产型”经济过渡到“消费型”经济阶段,旅游消费成为消费型经济、富足型社会、移居生活形态的重要表征。随着人们可自由支配时间和可自由支配收入的增加、移动性的增强以及信息技术的发达,旅游已毫无争议地成为一种常态化的生活方式,由社会生活的非必需品变成必需品。在我国经济社会快速深入发展的背景下,无论是旅游消费的规模,还是旅游消费的质量都发生了迅速而巨大的变化。为了满足这种消费需求变化,适应这种经济社会发展趋势,全域旅游应时而生,以一种更深内涵、更高质量、更远目标的模式来统领未来旅游业的发展。而全域旅游的與情监测,成为了信息化时代游客以及旅游局最关注的风向点,全域旅游與情监测应运而生。
当今市场上的旅游舆情监测的相关技术往往还不够成熟,无法对全域旅游舆情进行较佳的监测以及预警。
发明内容
本发明的目的是为了至少解决现有技术的不足之一,提供基于互联网大数据的全域旅游與情监测分析方法及系统。
为了实现上述目的,本发明采用以下的技术方案:
具体的,提出基于互联网大数据的全域旅游與情监测分析方法,包括以下:
获取旅游网站上的游客评论信息;
建立词性分析模型,利用所述词性分析模型对所述游客评论信息进行词性定性,所述词性包括正面词性以及负面词性;
根据运营商基站建立游客判断模型,通过所述游客判断模型判断相关运行商用户是否为新增游客;
当确定为新增游客的用户在进入景区后触发营销短信,当确定为新增游客的用户发生突发事件主动进行应急请求时,通过应急短信快速与所述用户进行信息交互;
计算第一阈值时间段内的游客评论信息的词性的正负面比例P以得到评论趋势,当所述正负面比例P低于第二阈值时触发告警,通知管理员进行舆情追踪分析。
进一步,上述获取旅游网站上的游客评论信息的方式具体包括以下,
通过基于python的爬虫技术,基于代理模式,在互联网上获取代理ip,使用代理ip并采用分时爬取的方式进行旅游网站的游客评论信息的爬取。
进一步,所述词性分析模型具体通过如下方式进行建立,
建立关键词词性类分表,通过字符串匹配的方式,将游客评论信息与关键词词性类分表进行模糊匹配;
当游客评论信息中存在不止一个能够模糊匹配关键词性类分表中的关键词时,判断所述关键词中词性为正面的关键词的数量与词性为负面的关键词的数量,当词性为正面的关键词的数量不少于词性为负面的关键词的数量则判定所述游客评论信息为正面词性。
进一步,所述游客判断模型通过如下方式建立,
针对运营商基站的用户数据,每隔第二阈值时间段获取一次当前手机用户的位置快照,输出当前手机用户所附着的基站,结合景区的相关基站能够确定当前手机用户中在景区范围内的手机用户;
选定第三阈值时间段,在所述第三阈值时间段的前半段的手机用户都不在景区范围内,而在所述第三阈值时间段的后半段的手机用户都在景区范围内,则判定该手机用户为新增的游客。
进一步,所述第一阈值时间段具体为1天,所述第二阈值为0.6。
进一步,所述第二阈值时间段为5分钟,所述第三阈值时间段为30分钟。
本发明还提出基于互联网大数据的全域旅游與情监测分析系统,包括,
评论信息获取模块,用于获取旅游网站上的游客评论信息;
词性分析模块,用于建立词性分析模型,利用所述词性分析模型对所述游客评论信息进行词性定性,所述词性包括正面词性以及负面词性;
游客判断模块,用于根据运营商基站建立游客判断模型,通过所述游客判断模型判断相关运行商用户是否为新增游客;
告警模块,用于计算第一阈值时间段内的游客评论信息的词性的正负面比例P以得到评论趋势,当所述正负面比例P低于第二阈值时触发告警,通知管理员进行舆情追踪分析。
进一步,所述系统还包括显示模块,所述显示模块用于显示近7天以及近30天的评论趋势。
本发明还提出一种计算机可读存储的介质,所述计算机可读存储的介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
本发明的有益效果为:
本发明能够通过对在旅游网站上提取到的游客评论信息进行词性分析,通过词性分析,在全域旅游與情监测中,可以直观的了解到旅游景区的游客体验,为旅游推广提供了数据依据;另外能够结合通信基站对景区内的用户是否为游客进行确定,进而能够针对游客进行相关业务推送;还能够根据相关经典的评论趋势及时对相关管理人员进行告警,及时对景点进行调控。本发明对全域旅游舆情进行较佳的监测以及预警。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为本发明基于互联网大数据的全域旅游與情监测分析方法流程图;
图2所示为本发明基于互联网大数据的全域旅游與情监测分析系统的结构框图;
图3所示为本发明基于互联网大数据的全域旅游與情监测分析方法的基站快照原理示意图;
图4所示为本发明基于互联网大数据的全域旅游與情监测分析方法的舆情监测架构图;
图5所示为本发明基于互联网大数据的全域旅游與情监测分析方法的监测短信逻辑图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。
参照图1、图3、图4以及图5,实施例1,本发明提出基于互联网大数据的全域旅游與情监测分析方法,包括以下:
步骤110、获取旅游网站上的游客评论信息;
步骤120、建立词性分析模型,利用所述词性分析模型对所述游客评论信息进行词性定性,所述词性包括正面词性以及负面词性;
步骤130、根据运营商基站建立游客判断模型,通过所述游客判断模型判断相关运行商用户是否为新增游客;
步骤140、当确定为新增游客的用户在进入景区后触发营销短信,当确定为新增游客的用户发生突发事件主动进行应急请求时,通过应急短信快速与所述用户进行信息交互;
步骤150、计算第一阈值时间段内的游客评论信息的词性的正负面比例P以得到评论趋势,当所述正负面比例P低于第二阈值时触发告警,通知管理员进行舆情追踪分析。
本实施例1能够通过对在旅游网站上提取到的游客评论信息进行词性分析,通过词性分析,在全域旅游與情监测中,可以直观的了解到旅游景区的游客体验,为旅游推广提供了数据依据;另外能够结合通信基站对景区内的用户是否为游客进行确定,进而能够针对游客进行相关业务推送;还能够根据相关经典的评论趋势及时对相关管理人员进行告警,及时对景点进行调控。本发明对全域旅游舆情进行较佳的监测以及预警。
作为本发明的优选实施方式,上述获取旅游网站上的游客评论信息的方式具体包括以下,
通过基于python的爬虫技术,基于代理模式,在互联网上获取代理ip,使用代理ip并采用分时爬取的方式进行旅游网站的游客评论信息的爬取。
具体的,随着近些年互联网安全技术的规范,信息安全得到了极大的保障,对互联网信息的爬取产生了极大的挑战,爬虫与反爬虫技术一直在升级,这就对本发明的與情获取方法产生了考验。互联网與情主要是游客在旅游网站上的评论和天气数据,爬取與情信息需要考虑网站的反爬技术,特别是对ip的封锁。本发明基于代理方式,实现动态ip的與情爬取,并伪造浏览器头部信息,达到真是模拟网页请求,从而得到海量用户评论数据,为全域旅游的與情监测提供数据支撑。
目前,旅游网站上都会有游客的评论,针对每个景区的评价和评分都可以在旅游网站上获取,由于数据量巨大且实时更新,需要提供一种自动化的办法来获取游客评论。基于python的爬虫技术是现阶段最流行的技术,python本身开发简单易于上手,其拥有丰富的开发库提供开发者使用。
针对互联网网站安全技术,本发明提出基于代理模式,在互联网上获取免费的代理ip,使用代理ip去旅游网站爬取用户评论信息。同时,考虑到旅游网站的负载,在爬取时采取分时爬取的办法。
景区與情数据爬取的数据信息如下:
表1评论與情表
作为本发明的优选实施方式,所述词性分析模型具体通过如下方式进行建立,
建立关键词词性类分表,通过字符串匹配的方式,将游客评论信息与关键词词性类分表进行模糊匹配;
当游客评论信息中存在不止一个能够模糊匹配关键词性类分表中的关键词时,判断所述关键词中词性为正面的关键词的数量与词性为负面的关键词的数量,当词性为正面的关键词的数量不少于词性为负面的关键词的数量则判定所述游客评论信息为正面词性。
具体的,针对互联网用户的评论数据进行词义分析、情感分类,主要分为:中性、负面以及正面三种类型。通过词性分析,在全域旅游與情监测中,可以直观的了解到旅游景区的游客体验,为旅游推广提供了数据依据。同时,考虑到互联网数据的评论数量庞大,本模型依赖分布式计算技术和能力来实现分布式互联网與情数据的词性分析模型,通过hdfs分布式文件存储系统对海量历史评论存储,基于hive对数据进行离线批处理,基于spark计算引擎实现分布数计算。结合最领先的大数据技术实现全域旅游與情监测的词性分析模型。
互联网與情爬取下来之后,由于游客评论内容各不相同,即使评分很高的评论,写的评价也可能是负面信息。所以,对與情的词性分析就显得尤为重要。词性分析主要用到的是字符串匹配,提前在网上爬取一份正/反情绪的词语,当旅游网站的评论信息获取之后,根据评论信息和词性类分表进行模糊匹配,得到评论的正/负面词性。
关键字 | 词性 |
牛逼吹 | 负面 |
飞流直下三干尺 | 负面 |
太假 | 负面 |
乱收费 | 负面 |
门票贵 | 负面 |
性价比一般 | 负面 |
没什么意思 | 负面 |
失望 | 负面 |
空气清新 | 正面 |
民风淳朴 | 正面 |
心旷神怡 | 正面 |
景色秀丽 | 正面 |
…… | …… |
表2关键词词性分类表
经过模糊匹配之后,可以得到每一条评论的词性,由于评论中可能涉及的关键字有多个,对于每条评论会考虑综合对比正负词性的综合来得到最终评论的词性。
表3评论與情表
作为本发明的优选实施方式,所述游客判断模型通过如下方式建立,
针对运营商基站的用户数据,每隔第二阈值时间段获取一次当前手机用户的位置快照,输出当前手机用户所附着的基站,结合景区的相关基站能够确定当前手机用户中在景区范围内的手机用户;
选定第三阈值时间段,在所述第三阈值时间段的前半段的手机用户都不在景区范围内,而在所述第三阈值时间段的后半段的手机用户都在景区范围内,则判定该手机用户为新增的游客。
與情的预警监控是本发明最核心的内容,也是在行业上最贴近游客的一个模型,本发明针对互联网评论信息,分析出词性之后,对于正面/负面信息,通过短信方式向游客推送景区热门景点线路、景点网络评论和应急短信。短信发送对象依托基站用户数据,实时跟踪基站范围内的游客,通过游客模型算法,判断基站用户是否属于游客,对游客打上标签之后,当游客进入景区之后即可触发营销短信,当应急事件发生之后,比如遇到突发事件,即刻出发应急短信,通过短信快速与游客进行信息传递。
全域旅游與情分析出评论词性之后,不管是为了营销还是用户体验或者应急管理,都需要结合與情模型跟游客交互。本发明考虑使用短信的方式跟游客进行点对点交互,对于景区而言,游客买票进入进行之后,景区是无法直接联系到游客的,只能通过手机终端的方式进行信息沟通。因此,如何获取当前景区游客成为了全域旅游监测的一个关键点,本发明考虑基于运营商基站用户,通过游客模型判断手机用户是否为景区游客,通过算法确认手机用户为游客之后,即可在游客进入景区时发送欢迎短信、景区热门线路、景区景点介绍以及景区景点网络评论信息。
游客判断的第一步:针对基站用户数据,每5分钟做手机用户的位置快照,输出当前手机用户所附着的基站,然后根据景区所建设的基站,即可知道当前在景区范围内的手机用户有哪些。
表4基站用户5分钟快照表
游客判断的第二步:由于景区范围内的工作人员、警务人员都一直在景区生活居住,需要剔除这种类型的常驻人口。
游客判断的第三步:由于基站覆盖的范围很广,可能会把景区周边的居民统计在内,特别是景区靠近马路,马路过路客也会影响到实际的游客判断,所以基于游客模型,判断出一个手机用户是否为游客。
模型的算法为:前半个小时时间内,每5分钟的基站用户快照中,一个手机用户如果前3个5分钟快照都不在景区范围内,后3个5分钟快照都在景区范围内,说明此手机用户为新增的游客。
时间 | 用户 | 所在位置 | 模型满足情况 |
2020-09-2310:00:00 | 136xxxx3231 | 6387-d2912s | x |
2020-09-2310:05:00 | 136xxxx3231 | 6387-d2912s | x |
2020-09-2310:10:00 | 136xxxx3231 | 7234-j83sss | v |
2020-09-2310:15:00 | 136xxxx3231 | 7234-j83sss | v |
2020-09-2310:20:00 | 136xxxx3231 | 7234-j83sss | v |
2020-09-2310:25:00 | 136xxxx3231 | 7234-j83sss | v |
2020-09-2310:30:00 | 136xxxx3231 | 7234-j83sss | 当前时间 |
表5模型判断规则
作为本发明的优选实施方式,所述第一阈值时间段具体为1天,所述第二阈值为0.6。
作为本发明的优选实施方式,所述第二阈值时间段为5分钟,所述第三阈值时间段为30分钟。
本发明在具体实施时,首先,
(1)旅游评论與情的爬取
表6爬虫获取的用户评论以及评分(2)词性分析
表7词法分析后的结果
参照图2,实施例2,本发明还提出基于互联网大数据的全域旅游與情监测分析系统,包括,
评论信息获取模块,用于获取旅游网站上的游客评论信息;
词性分析模块,用于建立词性分析模型,利用所述词性分析模型对所述游客评论信息进行词性定性,所述词性包括正面词性以及负面词性;
游客判断模块,用于根据运营商基站建立游客判断模型,通过所述游客判断模型判断相关运行商用户是否为新增游客;
告警模块,用于计算第一阈值时间段内的游客评论信息的词性的正负面比例P以得到评论趋势,当所述正负面比例P低于第二阈值时触发告警,通知管理员进行舆情追踪分析。
实施例2采用了本发明的相关方法,能够通过对在旅游网站上提取到的游客评论信息进行词性分析,通过词性分析,在全域旅游與情监测中,可以直观的了解到旅游景区的游客体验,为旅游推广提供了数据依据;另外能够结合通信基站对景区内的用户是否为游客进行确定,进而能够针对游客进行相关业务推送;还能够根据相关经典的评论趋势及时对相关管理人员进行告警,及时对景点进行调控。本发明对全域旅游舆情进行较佳的监测以及预警。
作为本发明的优选实施方式,所述系统还包括显示模块,所述显示模块用于显示近7天以及近30天的评论趋势。
本发明还提出一种计算机可读存储的介质,所述计算机可读存储的介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例中的方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储的介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
Claims (9)
1.基于互联网大数据的全域旅游與情监测分析方法,其特征在于,包括以下:
获取旅游网站上的游客评论信息;
建立词性分析模型,利用所述词性分析模型对所述游客评论信息进行词性定性,所述词性包括正面词性以及负面词性;
根据运营商基站建立游客判断模型,通过所述游客判断模型判断相关运行商用户是否为新增游客;
当确定为新增游客的用户在进入景区后触发营销短信,当确定为新增游客的用户发生突发事件主动进行应急请求时,通过应急短信快速与所述用户进行信息交互;
计算第一阈值时间段内的游客评论信息的词性的正负面比例P以得到评论趋势,当所述正负面比例P低于第二阈值时触发告警,通知管理员进行舆情追踪分析。
2.根据权利要求1所述的基于互联网大数据的全域旅游與情监测分析方法,其特征在于,上述获取旅游网站上的游客评论信息的方式具体包括以下,
通过基于python的爬虫技术,基于代理模式,在互联网上获取代理ip,使用代理ip并采用分时爬取的方式进行旅游网站的游客评论信息的爬取。
3.根据权利要求1所述的基于互联网大数据的全域旅游與情监测分析方法,其特征在于,所述词性分析模型具体通过如下方式进行建立,
建立关键词词性类分表,通过字符串匹配的方式,将游客评论信息与关键词词性类分表进行模糊匹配;
当游客评论信息中存在不止一个能够模糊匹配关键词性类分表中的关键词时,判断所述关键词中词性为正面的关键词的数量与词性为负面的关键词的数量,当词性为正面的关键词的数量不少于词性为负面的关键词的数量则判定所述游客评论信息为正面词性。
4.根据权利要求1所述的基于互联网大数据的全域旅游與情监测分析方法,其特征在于,所述游客判断模型通过如下方式建立,
针对运营商基站的用户数据,每隔第二阈值时间段获取一次当前手机用户的位置快照,输出当前手机用户所附着的基站,结合景区的相关基站能够确定当前手机用户中在景区范围内的手机用户;
选定第三阈值时间段,在所述第三阈值时间段的前半段的手机用户都不在景区范围内,而在所述第三阈值时间段的后半段的手机用户都在景区范围内,则判定该手机用户为新增的游客。
5.根据权利要求1所述的基于互联网大数据的全域旅游與情监测分析方法,其特征在于,所述第一阈值时间段具体为1天,所述第二阈值为0.6。
6.根据权利要求4所述的基于互联网大数据的全域旅游與情监测分析方法,其特征在于,所述第二阈值时间段为5分钟,所述第三阈值时间段为30分钟。
7.基于互联网大数据的全域旅游與情监测分析系统,其特征在于,包括,
评论信息获取模块,用于获取旅游网站上的游客评论信息;
词性分析模块,用于建立词性分析模型,利用所述词性分析模型对所述游客评论信息进行词性定性,所述词性包括正面词性以及负面词性;
游客判断模块,用于根据运营商基站建立游客判断模型,通过所述游客判断模型判断相关运行商用户是否为新增游客;
告警模块,用于计算第一阈值时间段内的游客评论信息的词性的正负面比例P以得到评论趋势,当所述正负面比例P低于第二阈值时触发告警,通知管理员进行舆情追踪分析。
8.基于互联网大数据的全域旅游與情监测分析系统,其特征在于,所述系统还包括显示模块,所述显示模块用于显示近7天以及近30天的评论趋势。
9.一种计算机可读存储的介质,所述计算机可读存储的介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011236168.4A CN112256946A (zh) | 2020-11-09 | 2020-11-09 | 基于互联网大数据的全域旅游與情监测分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011236168.4A CN112256946A (zh) | 2020-11-09 | 2020-11-09 | 基于互联网大数据的全域旅游與情监测分析方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112256946A true CN112256946A (zh) | 2021-01-22 |
Family
ID=74266288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011236168.4A Pending CN112256946A (zh) | 2020-11-09 | 2020-11-09 | 基于互联网大数据的全域旅游與情监测分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112256946A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966500A (zh) * | 2021-02-15 | 2021-06-15 | 珠海市鸿瑞信息技术股份有限公司 | 基于人工智能组态的网络数据链安全监测平台 |
CN114881302A (zh) * | 2022-04-21 | 2022-08-09 | 中国农业银行股份有限公司 | 信息传播风险预测方法及装置、存储介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102316410A (zh) * | 2011-09-09 | 2012-01-11 | 昆明理工大学 | 一种利用基站获取景区人流信息的景区客流量的信息系统 |
CN106131789A (zh) * | 2016-08-16 | 2016-11-16 | 杭州诚智天扬科技有限公司 | 基于移动信令的景区游客热力图的生成方法 |
CN111078894A (zh) * | 2019-12-17 | 2020-04-28 | 中国科学院遥感与数字地球研究所 | 一种基于隐喻主题挖掘的景区评价知识库构建方法 |
CN111310466A (zh) * | 2020-02-26 | 2020-06-19 | 山东爱城市网信息技术有限公司 | 一种基于关键词库的特定维度景区满意度衡量方法及系统 |
CN111461553A (zh) * | 2020-04-02 | 2020-07-28 | 上饶市中科院云计算中心大数据研究院 | 景区舆情监测分析系统和方法 |
-
2020
- 2020-11-09 CN CN202011236168.4A patent/CN112256946A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102316410A (zh) * | 2011-09-09 | 2012-01-11 | 昆明理工大学 | 一种利用基站获取景区人流信息的景区客流量的信息系统 |
CN106131789A (zh) * | 2016-08-16 | 2016-11-16 | 杭州诚智天扬科技有限公司 | 基于移动信令的景区游客热力图的生成方法 |
CN111078894A (zh) * | 2019-12-17 | 2020-04-28 | 中国科学院遥感与数字地球研究所 | 一种基于隐喻主题挖掘的景区评价知识库构建方法 |
CN111310466A (zh) * | 2020-02-26 | 2020-06-19 | 山东爱城市网信息技术有限公司 | 一种基于关键词库的特定维度景区满意度衡量方法及系统 |
CN111461553A (zh) * | 2020-04-02 | 2020-07-28 | 上饶市中科院云计算中心大数据研究院 | 景区舆情监测分析系统和方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112966500A (zh) * | 2021-02-15 | 2021-06-15 | 珠海市鸿瑞信息技术股份有限公司 | 基于人工智能组态的网络数据链安全监测平台 |
CN114881302A (zh) * | 2022-04-21 | 2022-08-09 | 中国农业银行股份有限公司 | 信息传播风险预测方法及装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298547A (zh) | 风险评估方法、装置、计算机装置及存储介质 | |
CN110309114B (zh) | 媒体信息的处理方法、装置、存储介质和电子装置 | |
US20140108653A1 (en) | Man-Machine Interaction Data Processing Method and Apparatus | |
Pickering et al. | Assessing discourses about controversial environmental management issues on social media: Tweeting about wild horses in a national park | |
CN111885399A (zh) | 内容分发方法、装置、电子设备以及存储介质 | |
CN108733791A (zh) | 网络事件检测方法 | |
CN115086880B (zh) | 一种出行特征识别方法、装置、设备及存储介质 | |
CN113268589B (zh) | 关键用户识别方法、装置、可读存储介质和计算机设备 | |
Bar‐Massada et al. | Non‐stationarity in the co‐occurrence patterns of species across environmental gradients | |
CN112632218A (zh) | 一种用于企业危机公关的网络舆情监测方法 | |
CN112256946A (zh) | 基于互联网大数据的全域旅游與情监测分析方法及系统 | |
CN111652622A (zh) | 一种风险网址的识别方法、装置及电子设备 | |
CN117875501B (zh) | 一种基于大数据的社交媒体用户行为预测系统及方法 | |
CN118733774B (zh) | 一种基于大模型文本的市场监管数据管理系统及方法 | |
Zhang et al. | Event organization 101: Understanding latent factors of event popularity | |
Zuo et al. | Crowdsourcing incident information for emergency response using open data sources in smart cities | |
Bhuvaneswari et al. | Topic modeling based clustering of disaster tweets using BERTopic | |
Gu et al. | Public attention and psychological trends towards waste reduction: a large-scale data analysis based on social media | |
CN111191498A (zh) | 行为识别方法和相关产品 | |
US11120115B2 (en) | Identification method and apparatus | |
CN118551995A (zh) | 基于大语言模型的展厅智能化讲解控制方法和共享系统 | |
CN113015171A (zh) | 一种具有网络舆情监控及分析功能的系统 | |
CN110688469A (zh) | 一种自动分析相似行为特征的方法和装置 | |
CN111260526A (zh) | 人物轨迹行为分析预估方法和装置 | |
CN109254993B (zh) | 一种基于文本的性格数据分析方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210122 |