标题列表页设置 帮助目录 词典
列表页,全称为“标题列表页”,是采集项目的入口所在。设置采集项目时,通过对标题列表页面的访问,以及标题列表页面的下一页的循环访问。来获得内容页面的入口地址,进而实现遍历访问所有内容页面。
详:
标题列表页的设置方法:
1、熟悉需要采集的网站的内容架构,找到需要采集的内容的“标题列表页”。拷贝该标题列表页首页的网址url到本窗口的"标题列表页网址"输入框内。
“标题列表”页面。一般来说标题列表页面应该具有访问“下一页”的链接存在,这样才能确保所有内容都能得到遍历访问。例如需要采集百度“知道”栏目下的“电脑网络”子栏目内容,需要找到该子栏目的标题列表页面的网址:http://zhidao.baidu.com/browse/74?lm=2&seed=0 ,所有“电脑网络”的栏目内容,都可以通过该页面的标题链接而得到访问。
2、点击 <开始进行预分析>按钮。系统会对该页面进行一个系统分析。默认情况下会自动寻找该标题列表页的分页链接所在,并为你自动填写好相关设置。但对于需要通过post模式进行分页访问的网站,目前的新2系统尚不能进行有效识别。
换句话说,在大部分时候,新2官方网址采集采集系统会为用户自动完成对标题列表页的设置,用户所要做的就是点击 <开始进行预分析>按钮,并检查分析结果是否合适即可。
对标题列表页进行自动分析时,需要消耗一定的分析时间,因此对于熟练用户,可以在分析开始时提示的对话框中选择不进行翻页参数(分页)分析,自己来手工填写。