网络爬虫(Web Crawler)又称网页蜘蛛、网络机器人、网页追逐者,是一种按照一定的规则,自动地抓取互联网信息的程序或者脚本。[2]它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容。[1]网络爬虫能够从公开的网页抓取数据,为不同领域如金融分析、市场趋势预测等提供数据支持。[6]
网络爬虫技术起源于1990年代初的搜索引擎,1994年初美国华盛顿大学的师生开发的一种在网路上查询信息的工具,该工具于1994年4月20日正式完成,就是网络爬虫的雏形。[8]随着互联网的发展,它们已成为不可或缺的工具。[9]现代爬虫技术在搜索引擎中占据核心地位,其目的是提高爬取速度,扩大数据范围,提升抓取准确率。[10] 从互联网中采集信息是一项重要的工作,爬虫的出现在一定程度上代替了手工访问网页,实现自动化采集互联网 的数据,从而更高效地利用互联网中的有效信息。[6]基础爬虫主要包括数据的采集、处理和存储。而高级爬虫则引入了更复杂的技术,如并发编程或分布式技术,并配备调度器和后台管理功能。[11]根据不同的使用场景、数据的爬取形式和存储方式以及实现方法,爬虫可以进一步细分为不同的类别。[6]
历史沿革
背景