2009-09-13
自动分析链接
网址采集里最常用的就是自动分析链接。程序可以分析出
我们先测试下可以采到我们需要的网址不?我们选用刚才的网址来测试,先添加网址
点完成,在任务里就可以看到见网址了。
我们点开始测试网址,就可以看到有很多网址采集下来。但是有很多不是我们需要的,怎么办呢?我们可以采选定区域的网址,
我们仔细看代码,就可以发现在
网址采集里最常用的就是自动分析链接。程序可以分析出
我们先测试下可以采到我们需要的网址不?我们选用刚才的网址来测试,先添加网址
点完成,在任务里就可以看到见网址了。
我们点开始测试网址,就可以看到有很多网址采集下来。但是有很多不是我们需要的,怎么办呢?我们可以采选定区域的网址,
我们仔细看代码,就可以发现在
和之间是文章列表内容,而且这两个标记是唯一的,我们就以此为分页区域。
在没有任务设置的情况下采到的是89条,我们这里设置区域后获得30条,刚好是列表里的网址数,这就是我们需要的。规则下载。
这只是一个列表页的,想把 搜索&SEO 这个栏目的所有文章采下来,怎么办呢? 我先分析一下所有列表页网址规律。
首页的网址是http://www.admin5.com/browse/9/index.shtml,第二页的网址是http://www.admin5.com/browse/9/list_2.shtml,第三页的网址是 http://www.admin5.com/browse/9/list_3.shtml,第100页的网址是
http://www.admin5.com/browse/9/list_100.shtml我们可以看出这些网址是有序递增的,同时我们发现首页还有另一个网址http://www.admin5.com/browse/9/list_1.shtml,我们用批量多页一次就可以加完。
在没有任务设置的情况下采到的是89条,我们这里设置区域后获得30条,刚好是列表里的网址数,这就是我们需要的。规则下载。
这只是一个列表页的,想把 搜索&SEO 这个栏目的所有文章采下来,怎么办呢? 我先分析一下所有列表页网址规律。
首页的网址是http://www.admin5.com/browse/9/index.shtml,第二页的网址是http://www.admin5.com/browse/9/list_2.shtml,第三页的网址是 http://www.admin5.com/browse/9/list_3.shtml,第100页的网址是
http://www.admin5.com/browse/9/list_100.shtml我们可以看出这些网址是有序递增的,同时我们发现首页还有另一个网址http://www.admin5.com/browse/9/list_1.shtml,我们用批量多页一次就可以加完。
Copyright © 中国教育 All Rights Reserved.


