网络爬虫

一种自动抓取互联网信息的程序或脚本

条目

历史版本

网络爬虫（Web Crawler）又称网页蜘蛛、网络机器人、网页追逐者，是一种按照一定的规则，自动地抓取互联网信息的程序或者脚本。^[2]它们被广泛用于互联网搜索引擎或其他类似网站，可以自动采集所有其能够访问到的页面内容，以获取或更新这些网站的内容。^[1]网络爬虫能够从公开的网页抓取数据，为不同领域如金融分析、市场趋势预测等提供数据支持。^[6]

网络爬虫技术起源于1990年代初的搜索引擎，1994年初美国华盛顿大学的师生开发的一种在网路上查询信息的工具，该工具于1994年4月20日正式完成，就是网络爬虫的雏形。^[8]随着互联网的发展，它们已成为不可或缺的工具。^[9]现代爬虫技术在搜索引擎中占据核心地位，其目的是提高爬取速度，扩大数据范围，提升抓取准确率。^[10]

从互联网中采集信息是一项重要的工作，爬虫的出现在一定程度上代替了手工访问网页，实现自动化采集互联网的数据，从而更高效地利用互联网中的有效信息。^[6]基础爬虫主要包括数据的采集、处理和存储。而高级爬虫则引入了更复杂的技术，如并发编程或分布式技术，并配备调度器和后台管理功能。^[11]根据不同的使用场景、数据的爬取形式和存储方式以及实现方法，爬虫可以进一步细分为不同的类别。^[6]

网络爬虫

历史沿革

背景