网站采集

专业术语
网站采集,专业术语,是指利用软件,将别的网站的内容,转载到另一个网站上的行为。这个过程由采集软件自动完成。
一般大型网站建站的时候,固定的内容(如新闻、下载等)都是使用固定模板、自动生成静态页面的方式。这样就使得在源码中表格等设置都是一致的。网站采集就是利用这样的一个原理,搜索页面中与采集设置相同的部分,然后搜集网站内容进入数据库。

技术概述

网站管理员会定时从同一网站上抓取内容,希望已经抓取的内容不要再发布到网站系统中。对于一些网站,需要登陆才能获取页面。网站管理员希望通能够通过一个内容列表页面获取所有的相关内容,包括内容列表的其它分页。当第二次抓取相同网站时,希望不要再重复第一次的设定。

信息采集