DeDeCMS织梦的采集教程
第一步:进入采集节点管理界面
在后台管理界面的主菜单中单击“采集”,然后选择“采集节点管理”,这将带你进入采集节点管理界面,在这里你可以增加新的采集节点。
第二步:增加新节点
在采集节点管理界面,点击左下角的“增加新节点”或右上角的“添加新节点”,进入选择内容模型界面,你可以选择“普通文章”或“图片集”等类型,以“普通文章”为例,点击确定后进入新增采集节点设置页面。
第三步:设置基本信息及网址索引页规则
1、填写节点名称:给新建立的节点起一个名字,采集测试(一)”。
2、设定目标页面编码:通过查看被采集目标页面的源码获取编码格式,如GB2312、UTF8或BIG5。
3、设定区域匹配模式:可选择字符串或正则表达式模式来匹配所需采集的内容部分。
4、导入顺序:可选择与目标站一致或相反。
5、引用网址:填写任何一个即将被采集的文章内容页面的网址。
第四步:设置列表网址获取规则
1、查看文章列表页源码:找到文章列表开始和结束的HTML标签,分别复制到“区域开始的HTML”和“区域结束的HTML”输入框中。
2、设定匹配网址:根据文章列表页的规律,设定匹配网址,如果列表有规律,可以批量生成列表网址;如果没有规律,则手工指定列表网址。
第五步:设置文章网址匹配规则
1、查看文章源码:找到文章标题和内容的开始及结束HTML标签,分别填入指定位置。
2、设定过滤规则:在匹配规则后面设定过滤规则,用于过滤无需采集的内容,过滤文章中的图片,只需勾选IMG即可。
第六步:测试并保存设置
1、测试网址获取规则:确保测试结果中没有无关的网址信息,如果有误,返回修改。
2、字段设置:确保文章内容能够正确采集,没有出现错误。
3、保存配置并预览:设置完毕后点击“保存配置并预览”,检查采集效果。
第七步:执行采集任务
1、选择节点并点击采集:回到采集节点管理界面,选择刚才设置的节点,点击采集。
2、查看已下载内容:可以在采集界面右上角点击“查看已下载”,也可以在采集节点管理界面里查看已下载内容。
第八步:导出数据
1、选择要导入的栏目:选择你要导入数据的栏目,设定数据量和是否生成HTML文件。
2、随机推荐数量:设定随机推荐的数量。
FAQs
问题1:如果在测试结果中发现有无关的网址信息怎么办?
如果在测试结果中发现有无关的网址信息,说明网址过滤规则有误或者没有填写过滤规则,你需要返回上一步修改过滤规则,确保只采集相关的网址。
问题2:如何过滤文章中不需要的内容?
字段获取规则时,可以使用过滤规则来去除不需要的内容,如果文章中有广告iframe标签,可以在过滤规则中勾选iframe进行过滤。
原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1225579.html
本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。
发表回复