(相关资料图)
根据不同的应用,网络爬虫可划分为批量型爬虫(batch crawler)、增量型爬虫(incremental crawler)、垂直型爬虫(focused crawler)。①批量型爬虫。有比较明确的抓取范围和目标,当达到设定的目标后,爬虫即停止抓取。②增量型爬虫。与批量型爬虫不同,增量型爬虫会保持持续不断地抓取,因为新增网页、网页被删除或者网页内容更改都很常见,因此增量型爬虫需要对抓取到的网页进行定期更新,不是在抓取新网页,就是在更新已有网页。③垂直型爬虫。关注特定主题内容或者属于特定行业的网页。
网络爬虫搜索策略主要有宽度优先搜索策略、深度优先搜索策略及聚焦搜索策略3类。宽度优先搜索策略采用的是图的广度优先遍历算法来遍历Web;深度优先搜索策略采用图的深度优先遍历算法来遍历Web;聚焦搜索策略只爬取与主题相关的页面,页面抓取的指导思想主要为页面内容与页面Web链接结构,因此聚焦搜索策略可进一步细分为基于内容的搜索策略和基于链接的搜索策略。
网络爬虫在搜索引擎中具有网页下载的功能,且在引擎中不可缺少,已成为搜索引擎的核心组成部分。所有被网络爬虫抓取的网页被系统存贮,进行一定的分析、过滤与建立索引后,可以方便用户对网页的查询和检索。
关键词: