网页抓取

网页抓取
网页抓取主要有三个方面:
1、搜集新出现的网页;
2、搜集那些在上次搜集后有改变的网页;
3、发现自从上次搜集后已经不再存了的网页,并从库中删除。

优先策略