CN111488512A - 一种待收集目标获取方法、装置、设备及存储介质 - Google Patents
一种待收集目标获取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111488512A CN111488512A CN201910074360.9A CN201910074360A CN111488512A CN 111488512 A CN111488512 A CN 111488512A CN 201910074360 A CN201910074360 A CN 201910074360A CN 111488512 A CN111488512 A CN 111488512A
- Authority
- CN
- China
- Prior art keywords
- target
- search
- content
- searched
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000004590 computer program Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 15
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种待收集目标获取方法,包括:在待搜索关键词队列中确定目标搜索词;在搜索引擎中搜索目标搜索词,获得目标搜索词的相关搜索推荐词和搜索返回内容;针对每条搜索返回内容,确定该条搜索返回内容是否为目标相关内容;基于确定为目标相关内容的搜索返回内容,获取待收集目标;并在基于确定为目标相关内容的搜索返回内容,确定进行待搜索关键词扩展时,基于目标搜索词的相关搜索推荐词,对待搜索关键词队列中的待搜索关键词进行扩展。应用本发明实施例所提供的技术方案,动态地进行待收集目标的收集,可以覆盖新样本,可扩展性较强。本发明还公开了一种待收集目标获取装置、设备及存储介质,具有相应技术效果。
Description
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种待收集目标获取方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,网络的应用越来越广泛,网络上的攻击也越来越多,从而使得对抗攻击的算法的研究越来越深入。恶意网页样本收集是很多算法的重要步骤,样本质量对算法效果有着重要影响。
目前,多是使用网络爬虫抓取网页样本,即预先提供一个网页列表,让爬虫定向抓取网页列表中的网页。
这种方法只能按照预先提供的网页列表静态收集网页样本,不具备可扩展性,难以覆盖新样本。
发明内容
本发明的目的是提供一种待收集目标获取方法、装置、设备及存储介质,以动态收集待收集目标,可扩展性较强。
为解决上述技术问题,本发明提供如下技术方案:
一种待收集目标获取方法,包括:
在待搜索关键词队列中确定目标搜索词;
在搜索引擎中搜索所述目标搜索词,获得所述目标搜索词的相关搜索推荐词和搜索返回内容;
针对每条搜索返回内容,根据该条搜索返回内容与预设的目标内容的相似度,确定该条搜索返回内容是否为目标相关内容;
基于确定为目标相关内容的搜索返回内容,获取待收集目标;
并在基于确定为目标相关内容的搜索返回内容,确定进行待搜索关键词扩展时,基于所述目标搜索词的相关搜索推荐词,对所述待搜索关键词队列中的待搜索关键词进行扩展。
在本发明的一种具体实施方式中,所述待收集目标为网页样本,所述基于确定为目标相关内容的搜索返回内容,获取待收集目标,包括:
针对确定为目标相关内容的每条搜索返回内容,爬取该条搜索返回内容对应的网页,获得网页样本。
在本发明的一种具体实施方式中,所述待收集目标为目标关键词,所述基于确定为目标相关内容的搜索返回内容,获取待收集目标,包括:
如果确定为目标相关内容的搜索返回内容的条数占所述目标搜索词的搜索返回内容的总条数的比例大于预设第一阈值,则确定所述目标搜索词为目标关键词;
确定关键词库中是否包含所述目标搜索词;
如果否,则对所述目标搜索词做入库处理。
在本发明的一种具体实施方式中,所述针对每条搜索返回内容,根据该条搜索返回内容与预设的目标内容的相似度,确定该条搜索返回内容是否为目标相关内容,包括:
针对每条搜索返回内容,如果该条搜索返回内容与预设的目标内容的相似度大于预设第二阈值,则确定该条搜索返回内容为目标相关内容。
在本发明的一种具体实施方式中,通过以下步骤确定是否进行待搜索关键词扩展,包括:
如果确定为目标相关内容的搜索返回内容的条数占所述目标搜索词的搜索返回内容的总条数的比例大于预设第三阈值,则确定进行待搜索关键词扩展。
在本发明的一种具体实施方式中,所述基于所述目标搜索词的相关搜索推荐词,对所述待搜索关键词队列中的待搜索关键词进行扩展,包括:
针对所述目标搜索词的每个相关搜索推荐词,确定该相关搜索推荐词是否已搜索过或者已在关键词库中;
如果否,则将该相关搜索推荐词加入到所述待搜索关键词队列中。
在本发明的一种具体实施方式中,所述在待搜索关键词队列中确定目标搜索词,包括:
将所述待搜索关键词队列中优先级最高的待搜索关键词确定为目标搜索词。
一种待收集目标获取装置,包括:
搜索模块,用于在待搜索关键词队列中确定目标搜索词,在搜索引擎中搜索所述目标搜索词,获得所述目标搜索词的相关搜索推荐词和搜索返回内容;
过滤模块,用于针对每条搜索返回内容,根据该条搜索返回内容与预设的目标内容的相似度,确定该条搜索返回内容是否为目标相关内容;
获取模块,用于基于确定为目标相关内容的搜索返回内容,获取待收集目标;
扩展模块,用于在基于确定为目标相关内容的搜索返回内容,确定进行待搜索关键词扩展时,基于所述目标搜索词的相关搜索推荐词,对所述待搜索关键词队列中的待搜索关键词进行扩展。
一种待收集目标获取设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现上述任一项所述待收集目标获取方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述待收集目标获取方法的步骤。
应用本发明实施例所提供的技术方案,逐一将待搜索关键词队列中的每个待搜索关键词确定为目标搜索词,在全网范围内进行目标搜索词的搜索,根据目标搜索词的搜索返回内容与目标内容的相似度,确定每条搜索返回内容是否为目标相关内容,基于确定为目标相关内容的搜索返回内容,获取待收集目标,并在确定为目标相关内容的搜索返回内容的条数较多时,对待搜索关键词进行扩展,将相应的相关搜索推荐词加入到待搜索关键词队列中,形成搜索、收集、扩展的闭环,动态地进行待收集目标的收集,可以覆盖新样本,可扩展性较强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种待收集目标获取方法的实施流程图;
图2为本发明实施例中搜索引擎返回内容示意图;
图3为本发明实施例中待收集目标获取方法的具体实施示意图;
图4为本发明实施例中一种待收集目标获取装置的结构示意图;
图5为本发明实施例中一种待收集目标获取设备的结构示意图。
具体实施方式
本发明的核心是提供一种待收集目标获取方法,待收集目标可以是关键词,还可以是网页样本,网页样本的类型是根据实际任务需要确定的,如恶意网页样本、篡改网页样本、敏感网页样本等。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1所示,为本发明实施例所提供的一种待收集目标获取方法的实施流程图,该方法可以包括以下步骤:
S110:在待搜索关键词队列中确定目标搜索词。
在本发明实施例中,可以预先获得一些种子关键词,种子关键词可以人工提供,也可以通过其他方式获得,如筛选出的当前热度较高的与当前任务相关的关键词。初始时可以将种子关键词加入到待搜索关键词队列中,后续可以根据需要将其他关键词加入到待搜索关键词队列中。
待搜索关键词队列中包含多个待搜索关键词。关键词可以是恶意或者非法的敏感词,或者是用户特别关注的词,如业务敏感的词汇。
在待搜索关键词队列中确定目标搜索词。可以随机确定也可以按照设定规则确定。
在本发明的一种具体实施方式中,可以将待搜索关键词队列中优先级最高的待搜索关键词确定为目标搜索词。
在实际应用中,待搜索关键词队列中包含的多个待搜索关键词可以按照优先级高低排序,有助于加快搜索效率。待搜索关键词优先级的高低可以与获取所需网页样本的难易程度呈正相关,即待搜索关键词的优先级越高,利用该待搜索关键词越容易获取到需要的网页样本。
优先级的计算方法可以有多种,具体的,可以遍历待搜索关键词队列中的每个待搜索关键词,利用自然语言处理中语义相似分析的技术分别获得每个待搜索关键词与所需目标内容的相似度,将相似度作为优先级的分值。如果相似度较高,则说明关联性较高。这里的语义相似分析技术,包括但不限于word2vec、Glove或其他词向量技术。
在每次进行目标搜索词的确定时,都将待搜索关键词队列中优先级最高的待搜索关键词确定为目标搜索词,使用该目标搜索词进行搜索。搜索后,该目标搜索词即可从待搜索关键词队列中剔除。
S120:在搜索引擎中搜索目标搜索词,获得目标搜索词的相关搜索推荐词和搜索返回内容。
搜索引擎即Search Engine,是一种信息检索系统,根据某种策略,搜集互联网信息,为用户提供信息检索服务,从而帮助用户找到感兴趣的内容。
在待搜索关键词队列中确定目标搜索词后,可以在搜索引擎中搜索目标搜索词,获得目标搜索词的多个相关搜索推荐词和多条搜索返回内容。目标搜索词的搜索返回内容可能较多,搜索返回内容越靠前,其与目标搜索词的相关性越强,可以取前N条。
相关搜索推荐词是指与正在搜索的目标搜索词相关的一批词语,两者之间具有较好的关联性。如目标搜索词为“网络XX在线”,其相关搜索推荐词可能有“网络XX”、“网络XX五大平台”等。
S130:针对每条搜索返回内容,根据该条搜索返回内容与预设的目标内容的相似度,确定该条搜索返回内容是否为目标相关内容。
在本发明实施例中,获得目标搜索词的搜索返回内容后,针对每条搜索返回内容,可以获取该条搜索返回内容的标题title、摘要信息及其对应的URL 链接,如图2所示。然后,计算该条搜索返回内容与预设的目标内容的相似度。目标内容可以是根据实际任务预先设定的一些词、句等。相似度的计算可以应用但不限于TF-IDF方法,TF-IDF(TermFrequency–Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术,TF意思是词频 (Term Frequency),IDF意思是逆文本频率指数(Inverse DocumentFrequency)。
针对每条搜索返回内容,根据该条搜索返回内容与预设的目标内容的相似度,可以确定该条搜索返回内容是否为目标相关内容。
具体的,针对每条搜索返回内容,如果该条搜索返回内容与预设的目标内容的相似度大于预设第二阈值,则确定该条搜索返回内容为目标相关内容。
第二阈值可以根据实际情况进行设定和调整。如果某条搜索返回内容与目标内容的相似度大于预设第二阈值,则表明其与目标内容的相关性较强,可以判定其为目标相关内容。反之则表明其与目标内容的相关性较弱,可以不对其进行任何处理。
S140:基于确定为目标相关内容的搜索返回内容,获取待收集目标。
针对目标搜索词的每条搜索返回内容,确定该条搜索返回内容是否为目标相关内容后,可以基于确定为目标相关内容的搜索返回内容,获取待收集目标。
如果待收集目标为网页样本,则可以针对确定为目标相关内容的每条搜索返回内容,爬取该条搜索返回内容对应的网页,获得网页样本。即针对每条搜索返回内容,如果确定该条搜索返回内容为目标相关内容,则可以爬取该条搜索返回内容对应的网页,获得网页样本,并将该网页样本保存到网页样本数据库中。该条搜索返回内容对应的网页可以根据该条搜索返回内容的URL链接确定。
如果待收集目标为目标关键词,则可以在确定为目标相关内容的搜索返回内容的条数占目标搜索词的搜索返回内容的总条数的比例大于预设第一阈值时,确定目标搜索词为目标关键词,进一步确定关键词库中是否包含目标搜索词,如果否,则对目标搜索词最入库处理。
针对目标搜索词的每条搜索返回内容,确定该条搜索返回内容是否为目标相关内容。如果确定为目标相关内容的搜索返回内容的条数占搜索返回内容的总条数的比例大于预设第一阈值,则可以确定目标搜索词为目标关键词。第一阈值可以根据实际情况进行设定和调整。
确定关键词库中是否包含目标搜索词,如果包含,则可以不做任何其他操作,如果不包含,则可以对目标搜索词做入库处理,即将目标搜索词加入到关键词库中。
这样,当再次需要进行网页样本的收集时,可以将关键词库中包含的关键词放入到待搜索关键词队列中,进行网页样本的收集,提高效率。另外,还可以利用关键词库中的关键词进行流量识别等操作。
S150:在基于确定为目标相关内容的搜索返回内容,确定进行待搜索关键词扩展时,基于目标搜索词的相关搜索推荐词,对待搜索关键词队列中的待搜索关键词进行扩展。
在本发明实施例中,确定每条搜索返回内容是否为目标相关内容后,可以基于确定为目标相关内容的搜索返回内容,确定是否进行待搜索关键词扩展。具体的,如果确定为目标相关内容的搜索返回内容的条数占目标搜索词的搜索返回内容的总条数的比例大于预设第三阈值,则可以确定进行待搜索关键词扩展。
第三阈值可以根据实际情况进行设定和调整。
如果确定为目标相关内容的搜索返回内容的条数占目标搜索词的搜索返回内容的总条数的比例大于预设第三阈值,则表明当前目标搜索词有较高质量,其相关搜索推荐词也应该更加相关。可以利用其相关搜索推荐词进行待搜索关键词的扩展,扩展待搜索关键词队列中的待搜索关键词。
如果确定为目标相关内容的搜索返回内容的条数占搜索返回内容的总条数的比例小于或等于第三阈值,则可认为当前目标搜索词质量较差,其相关搜索推荐词的相关性也不高,不会利用其相关搜索推荐词进行待搜索关键词的扩展。通过这种限定,可以保证待搜索关键词的相关性,且不会造成待搜索关键词队列的无限增大。
在确定进行待搜索关键词扩展后,可以基于目标搜索词的相关搜索推荐词,对待搜索关键词队列中的待搜索关键词进行扩展。针对目标搜索词的每个相关搜索推荐词,可以确定是否将该相关搜索推荐词加入到待搜索关键词队列中。
在本发明的一种具体实施方式中,可以针对目标搜索词的每个相关搜索推荐词,确定该相关搜索推荐词是否已搜索过或者已在关键词库中,如果否,则将该相关搜索推荐词加入到待搜索关键词队列中。
在本发明实施例中,目标搜索词的有的相关搜索推荐词可能已经被搜索过或者已经在关键词库中,对于这样的相关搜索推荐词没有再搜索的必要。所以,针对目标搜索词的每个相关搜索推荐词,可以先确定该相关搜索推荐词是否已搜索过或者是否已在关键词库中,如果是,则不再做其他操作,如果否,则可以确定将该相关搜索推荐词加入到待搜索关键词队列中。可以基于目标搜索词的确定为目标相关内容的搜索返回内容的条数占搜索返回内容的总条数的比例,确定加入到待搜索关键词队列中的相关搜索推荐词的优先级。比例越高,优先级越高。
针对目标搜索词的每个相关搜索推荐词,确定将该相关搜索推荐词加入到待搜索关键词队列中后,可以将该相关搜索推荐词加入到待搜索关键词队列中作为待搜索关键词进行搜索,形成迭代。从而形成搜索、收集、扩展的闭环。
针对待搜索关键词队列中的每个待搜索关键词,均执行上述步骤S110至 S150的操作,获得相应的待收集目标。
应用本发明实施例所提供的方法,逐一将待搜索关键词队列中的每个待搜索关键词确定为目标搜索词,在全网范围内进行目标搜索词的搜索,根据目标搜索词的搜索返回内容与目标内容的相似度,确定每条搜索返回内容是否为目标相关内容,基于确定为目标相关内容的搜索返回内容,获取待收集目标,并在确定为目标相关内容的搜索返回内容的条数较多时,对待搜索关键词进行扩展,将相应的相关搜索推荐词加入到待搜索关键词队列中,形成搜索、收集、扩展的闭环,动态地进行待收集目标的收集,可以覆盖新样本,可扩展性较强。
如图3所示,为本发明实施例的一个具体实施示意图,首先获得种子关键词,将种子关键词加入到待搜索关键词队列中,逐一将待搜索关键词队列中的每个待搜索关键词确定为目标搜索词,对目标搜索词进行搜索,得到目标搜索词的相关搜索推荐词和搜索返回内容,对目标搜索词的搜索返回内容进行过滤处理,爬取确定为目标相关内容的搜索返回内容对应的网页,将爬取到的网页样本加入到网页样本数据库中,并在确定为目标相关内容的搜索返回内容的条数比例满足要求时,将相应的目标搜索词加入到关键词库中,对目标搜索词的相关搜索推荐词进行过滤处理,确定是否对待搜索关键词进行扩展,将相应的相关搜索推荐词加入到待搜索关键词队列中,形成搜索、收集、扩展的闭环。
相应于上面的方法实施例,本发明实施例还提供了一种待收集目标获取装置,下文描述的一种待收集目标获取装置与上文描述的一种待收集目标获取方法可相互对应参照。
参见图4所示,该装置包括以下模块:
搜索模块410,用于在待搜索关键词队列中确定目标搜索词,在搜索引擎中搜索目标搜索词,获得目标搜索词的相关搜索推荐词和搜索返回内容;
过滤模块420,用于针对每条搜索返回内容,根据该条搜索返回内容与目标内容的相似度,确定该条搜索返回内容是否为目标相关内容;
获取模块430,用于基于确定为目标相关内容的搜索返回内容,获取待收集目标;
扩展模块440,用于在基于确定为目标相关内容的搜索返回内容,确定进行待搜索关键词扩展时,基于目标搜索词的相关搜索推荐词,对待搜索关键词队列中的待搜索关键词进行扩展。
应用本发明实施例所提供的装置,逐一将待搜索关键词队列中的每个待搜索关键词确定为目标搜索词,在全网范围内进行目标搜索词的搜索,根据目标搜索词的搜索返回内容与目标内容的相似度,确定每条搜索返回内容是否为目标相关内容,基于确定为目标相关内容的搜索返回内容,获取待收集目标,并在确定为目标相关内容的搜索返回内容的条数较多时,对待搜索关键词进行扩展,将相应的相关搜索推荐词加入到待搜索关键词队列中,形成搜索、收集、扩展的闭环,动态地进行待收集目标的收集,可以覆盖新样本,可扩展性较强。
在本发明的一种具体实施方式中,待收集目标为网页样本,获取模块430,具体用于:
针对确定为目标相关内容的每条搜索返回内容,爬取该条搜索返回内容对应的网页,获得网页样本。
在本发明的一种具体实施方式中,获取模块430,具体用于:
如果确定为目标相关内容的搜索返回内容的条数占目标搜索词的搜索返回内容的总条数的比例大于预设第一阈值,则确定目标搜索词为目标关键词;
确定关键词库中是否包含目标搜索词;
如果否,则对目标搜索词做入库处理。
在本发明的一种具体实施方式中,过滤模块420,具体用于:
针对每条搜索返回内容,如果该条搜索返回内容与预设的目标内容的相似度大于预设第二阈值,则确定该条搜索返回内容为目标相关内容。
在本发明的一种具体实施方式中,扩展模块440还用于通过以下步骤确定是否进行待搜索关键词扩展:
如果确定为目标相关内容的搜索返回内容的条数占目标搜索词的搜索返回内容的总条数的比例大于预设第三阈值,则确定进行待搜索关键词扩展。
在本发明的一种具体实施方式中,扩展模块440,包括:
针对目标搜索词的每个相关搜索推荐词,确定该相关搜索推荐词是否已搜索过或者已在关键词库中;
如果否,则将该相关搜索推荐词加入到待搜索关键词队列中。
在本发明的一种具体实施方式中,搜索模块410,具体用于:
将待搜索关键词队列中优先级最高的待搜索关键词确定为目标搜索词。
相应于上面的方法实施例,本发明实施例还提供了一种待收集目标获取设备,如图5所示,该设备包括:
存储器510,用于存储计算机程序;
处理器520,用于执行计算机程序时实现上述待收集目标获取方法的步骤。
相应于上面的方法实施例,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述待收集目标获取方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器 (RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的技术方案及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
Claims (10)
1.一种待收集目标获取方法,其特征在于,包括:
在待搜索关键词队列中确定目标搜索词;
在搜索引擎中搜索所述目标搜索词,获得所述目标搜索词的相关搜索推荐词和搜索返回内容;
针对每条搜索返回内容,根据该条搜索返回内容与预设的目标内容的相似度,确定该条搜索返回内容是否为目标相关内容;
基于确定为目标相关内容的搜索返回内容,获取待收集目标;
并在基于确定为目标相关内容的搜索返回内容,确定进行待搜索关键词扩展时,基于所述目标搜索词的相关搜索推荐词,对所述待搜索关键词队列中的待搜索关键词进行扩展。
2.根据权利要求1所述的方法,其特征在于,所述待收集目标为网页样本,所述基于确定为目标相关内容的搜索返回内容,获取待收集目标,包括:
针对确定为目标相关内容的每条搜索返回内容,爬取该条搜索返回内容对应的网页,获得网页样本。
3.根据权利要求1所述的方法,其特征在于,所述待收集目标为目标关键词,所述基于确定为目标相关内容的搜索返回内容,获取待收集目标,包括:
如果确定为目标相关内容的搜索返回内容的条数占所述目标搜索词的搜索返回内容的总条数的比例大于预设第一阈值,则确定所述目标搜索词为目标关键词;
确定关键词库中是否包含所述目标搜索词;
如果否,则对所述目标搜索词做入库处理。
4.根据权利要求1所述的方法,其特征在于,所述针对每条搜索返回内容,根据该条搜索返回内容与预设的目标内容的相似度,确定该条搜索返回内容是否为目标相关内容,包括:
针对每条搜索返回内容,如果该条搜索返回内容与预设的目标内容的相似度大于预设第二阈值,则确定该条搜索返回内容为目标相关内容。
5.根据权利要求1所述的方法,其特征在于,通过以下步骤确定是否进行待搜索关键词扩展,包括:
如果确定为目标相关内容的搜索返回内容的条数占所述目标搜索词的搜索返回内容的总条数的比例大于预设第三阈值,则确定进行待搜索关键词扩展。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标搜索词的相关搜索推荐词,对所述待搜索关键词队列中的待搜索关键词进行扩展,包括:
针对所述目标搜索词的每个相关搜索推荐词,确定该相关搜索推荐词是否已搜索过或者已在关键词库中;
如果否,则将该相关搜索推荐词加入到所述待搜索关键词队列中。
7.根据权利要求1至6之中任一项所述的方法,其特征在于,所述在待搜索关键词队列中确定目标搜索词,包括:
将所述待搜索关键词队列中优先级最高的待搜索关键词确定为目标搜索词。
8.一种待收集目标获取装置,其特征在于,包括:
搜索模块,用于在待搜索关键词队列中确定目标搜索词,在搜索引擎中搜索所述目标搜索词,获得所述目标搜索词的相关搜索推荐词和搜索返回内容;
过滤模块,用于针对每条搜索返回内容,根据该条搜索返回内容与预设的目标内容的相似度,确定该条搜索返回内容是否为目标相关内容;
获取模块,用于基于确定为目标相关内容的搜索返回内容,获取待收集目标;
扩展模块,用于在基于确定为目标相关内容的搜索返回内容,确定进行待搜索关键词扩展时,基于所述目标搜索词的相关搜索推荐词,对所述待搜索关键词队列中的待搜索关键词进行扩展。
9.一种待收集目标获取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述待收集目标获取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述待收集目标获取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910074360.9A CN111488512A (zh) | 2019-01-25 | 2019-01-25 | 一种待收集目标获取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910074360.9A CN111488512A (zh) | 2019-01-25 | 2019-01-25 | 一种待收集目标获取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111488512A true CN111488512A (zh) | 2020-08-04 |
Family
ID=71795761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910074360.9A Pending CN111488512A (zh) | 2019-01-25 | 2019-01-25 | 一种待收集目标获取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488512A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005310094A (ja) * | 2003-10-06 | 2005-11-04 | Nippon Telegr & Teleph Corp <Ntt> | キーワード拡張装置と方法およびコンテンツ検索システムならびにコンテンツ情報提供システムと方法およびグループ化条件決定装置と方法ならびにプログラム |
CN102402619A (zh) * | 2011-12-23 | 2012-04-04 | 广东威创视讯科技股份有限公司 | 一种搜索方法和装置 |
CN102855320A (zh) * | 2012-09-04 | 2013-01-02 | 珠海市君天电子科技有限公司 | 一种利用搜索引擎对关键词相关url的收集方法和装置 |
CN103544186A (zh) * | 2012-07-16 | 2014-01-29 | 富士通株式会社 | 挖掘图片中的主题关键词的方法和设备 |
CN103577414A (zh) * | 2012-07-20 | 2014-02-12 | 富士通株式会社 | 数据处理方法和设备 |
CN104715069A (zh) * | 2015-03-31 | 2015-06-17 | 北京奇虎科技有限公司 | 一种搜索推荐词的处理方法和装置 |
CN105975596A (zh) * | 2016-05-10 | 2016-09-28 | 上海珍岛信息技术有限公司 | 一种搜索引擎查询扩展的方法及系统 |
CN106547871A (zh) * | 2016-10-31 | 2017-03-29 | 北京百度网讯科技有限公司 | 基于神经网络的搜索结果的召回方法和装置 |
CN109189955A (zh) * | 2018-09-18 | 2019-01-11 | 江苏润桐数据服务有限公司 | 一种自动检索关键词的确定方法和装置 |
-
2019
- 2019-01-25 CN CN201910074360.9A patent/CN111488512A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005310094A (ja) * | 2003-10-06 | 2005-11-04 | Nippon Telegr & Teleph Corp <Ntt> | キーワード拡張装置と方法およびコンテンツ検索システムならびにコンテンツ情報提供システムと方法およびグループ化条件決定装置と方法ならびにプログラム |
CN102402619A (zh) * | 2011-12-23 | 2012-04-04 | 广东威创视讯科技股份有限公司 | 一种搜索方法和装置 |
CN103544186A (zh) * | 2012-07-16 | 2014-01-29 | 富士通株式会社 | 挖掘图片中的主题关键词的方法和设备 |
CN103577414A (zh) * | 2012-07-20 | 2014-02-12 | 富士通株式会社 | 数据处理方法和设备 |
CN102855320A (zh) * | 2012-09-04 | 2013-01-02 | 珠海市君天电子科技有限公司 | 一种利用搜索引擎对关键词相关url的收集方法和装置 |
CN104715069A (zh) * | 2015-03-31 | 2015-06-17 | 北京奇虎科技有限公司 | 一种搜索推荐词的处理方法和装置 |
CN105975596A (zh) * | 2016-05-10 | 2016-09-28 | 上海珍岛信息技术有限公司 | 一种搜索引擎查询扩展的方法及系统 |
CN106547871A (zh) * | 2016-10-31 | 2017-03-29 | 北京百度网讯科技有限公司 | 基于神经网络的搜索结果的召回方法和装置 |
CN109189955A (zh) * | 2018-09-18 | 2019-01-11 | 江苏润桐数据服务有限公司 | 一种自动检索关键词的确定方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10997256B2 (en) | Webpage classification method and apparatus, calculation device and machine readable storage medium | |
US8312035B2 (en) | Search engine enhancement using mined implicit links | |
US8321410B1 (en) | Identification of semantic units from within a search query | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
CN111797239B (zh) | 应用程序的分类方法、装置及终端设备 | |
CN105138558A (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN110543595A (zh) | 一种站内搜索系统及方法 | |
Makkar et al. | Fs2rnn: Feature selection scheme for web spam detection using recurrent neural networks | |
CN105095175A (zh) | 获取截短的网页标题的方法及装置 | |
Kalabarige et al. | A boosting-based hybrid feature selection and multi-layer stacked ensemble learning model to detect phishing websites | |
CN108681571B (zh) | 基于Word2Vec的主题爬虫系统和方法 | |
CN104572720A (zh) | 一种网页信息排重的方法、装置及计算机可读存储介质 | |
CN107133321B (zh) | 页面的搜索特性的分析方法和分析装置 | |
CN114168948A (zh) | 网络安全态势综合分析方法 | |
CN111488512A (zh) | 一种待收集目标获取方法、装置、设备及存储介质 | |
Moumtzidou et al. | Discovery of environmental nodes in the web | |
Kim | A document ranking method with query-related web context | |
JP2002222193A (ja) | 情報自動フィルタリング方法、情報自動フィルタリングシステム及び情報自動フィルタリングプログラム | |
CN113962218A (zh) | 一种违规应用识别方法、装置、设备及可读存储介质 | |
CN108804620B (zh) | 互联网数据采集方法、系统及计算机终端 | |
CN113037714A (zh) | 基于网络大数据的网络安全分析方法及区块链金融云系统 | |
CN118194831B (zh) | 一种基于人工智能的大数据挖掘方法、系统和计算机设备 | |
Malik et al. | Performance comparison of data mining classifiers on web log data | |
CN109241428B (zh) | 用户性别的确定方法、装置、服务器及存储介质 | |
CN112287229B (zh) | 一种基于组合语义相似度的国防建设动态信息推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200804 |