采集规则设置
1、列表采集:
打开织梦后台,点击“采集”→“采集节点管理”→“增加新节点”。
选择要采集的内容类型(如普通文章),然后确定。
进入采集设置页面,填写节点名称。
打开目标网站的列表页,查看源文件找到页面编码和列表网址的规律。
填写页面的基本信息和列表网址获取规则,http://www.example.com/list_(*).html
。
根据需要填写文章网址匹配规则,确保能够正确匹配到文章链接。
2、内容页采集:
对区域网址进行筛选,使用正则表达式匹配必须包含的内容(如.html
)和不能包含的内容。
保存设置后预览,确保获取的文章网址正确。
填写文章内容的开始和结束标志,找到文章标题、作者等信息的匹配规则。
3、过滤与替换规则:
去除超链接:{dede:trim replace=''}<a([^>]*)>{/dede:trim}
,{dede:trim replace=''}</a>{/dede:trim}
。
过滤JS调用广告:{dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}
。
过滤div标签:{dede:trim replace=''}<div([^.]*)>{/dede:trim}
,{dede:trim replace=''}</div>{/dede:trim}
。
过滤摘要和关键字:{dede:trim replace=''}{/dede:trim}
。
简单替换:{dede:trim replace='替换后的词语'}要替换的词语{/dede:trim}
。
4、内容页分页采集:
在“内容分页导航所在的区域匹配规则”中填写分页规则,如<ul class="pages">[内容]</ul>
。
选择“全部列出的分页列表”或“上下页形式或不完整的分页列表”,根据网站结构进行调整。
5、指定作者、来源:
使用{dede:item field='writer' value='小军' isunit='' isdown=''}
指定作者。
使用{dede:item field='source' value='军事网' isunit='' isdown=''}
指定来源。
替换规则设置
1、去除超链接:
{dede:trim replace=''}<a([^>]*)>{/dede:trim}
{dede:trim replace=''}</a>{/dede:trim}
如果需要去除链接文本,可以使用:{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}
2、过滤JS调用广告:
{dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}
3、过滤div标签:
{dede:trim replace=''}<div([^.]*)>{/dede:trim}
{dede:trim replace=''}</div>{/dede:trim}
如果需要去除DIV及其内容,可以使用:{dede:trim replace=""}<div([^>]*)>(.*)</div>{/dede:trim}
4、其它过滤规则:
{dede:trim replace=''}<!(.*)>{/dede:trim}
(过滤HTML注释)
{dede:trim replace=''}<table([^>]*)>(.*)</table>{/dede:trim}
(过滤表格)
{dede:trim replace=''}<style([^>]*)>(.*)</style>{/dede:trim}
(过滤样式)
{dede:trim replace=''}<img([^>]*)>{/dede:trim}
(过滤图片)
{dede:trim replace=''}<object([^>]*)>(.*)</object>{/dede:trim}
(过滤对象)
{dede:trim replace=''}<embed([^>]*)>{/dede:trim}
(过滤嵌入内容)
{dede:trim replace=''}<iframe([^>]*)>(.*)</iframe>{/dede:trim}
(过滤iframe)
{dede:trim replace=''}<param([^>]*)>(.*)</param>{/dede:trim}
(过滤参数)
5、简单替换:
{dede:trim replace='替换后的词语'}要替换的词语{/dede:trim}
常见问题解答
1、如何去除文章中的所有超链接?
解答:可以使用以下过滤规则去除所有超链接及其文本:{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}
。
2、如何过滤掉文章中的图片?
解答:可以使用以下过滤规则去除所有图片:{dede:trim replace=''}<img([^>]*)>{/dede:trim}
。
织梦DedeCMS系统后台采集规则与替换规则详解
采集规则
采集规则是织梦DedeCMS系统中用于定义如何从外部网站采集内容的配置,以下是一些详细的采集规则设置:
1. 采集源设置
源名称:为采集源设定一个名称,方便管理。
网址:输入需要采集的网站地址。
编码:选择采集内容的编码格式,如UTF8、GBK等。
2. 采集范围设置
采集栏目:选择要采集内容的栏目。
采集类型:选择采集文章、图片、下载等内容类型。
采集页数:设置采集页数,如采集前10页。
3. 内容采集规则
的采集规则,如使用正则表达式提取。
内容链接:设置文章链接的采集规则。
内容正文:设置正文的采集规则,包括正文内容的提取、去除广告等。
内容图片:设置图片的采集规则,包括提取图片链接和保存图片。
4. 其他设置
延迟时间:设置采集任务的执行间隔时间。
代理设置:如果需要,可以设置代理服务器以绕过IP限制。
替换规则
替换规则用于在采集过程中对内容进行格式化处理,以下是一些常见的替换规则设置:
1. 标题替换
原文本:输入需要替换的标题文本。
替换为:输入替换后的标题文本。
2. 内容替换
原文本:输入需要替换的内容文本。
替换为:输入替换后的内容文本。
3. 图片替换
原文本:输入需要替换的图片链接文本。
替换为:输入替换后的图片链接文本。
4. 其他设置
替换模式:选择替换模式,如全部替换、部分替换等。
替换顺序:设置替换规则的执行顺序。
排版示例
以下是一个简单的排版示例,以帮助您更好地理解上述设置:
采集规则设置: 源名称:example_com 网址:http://www.example.com 编码:UTF8 采集栏目:新闻 采集类型:文章 采集页数:10 内容采集规则: 提取标题中的第一个《》内的内容 正文:提取正文中的第一个<p>标签内的内容 图片:提取正文中的第一个<img>标签内的src属性值 替换规则设置: 标题替换: 原文本:《新闻》 替换为:《资讯》 内容替换: 原文本:[广告] 替换为:[广告已过滤] 图片替换: 原文本:http://www.example.com/image.jpg 替换为:http://www.mysite.com/images/image.jpg
上述设置仅为示例,实际操作时需要根据具体情况进行调整。
原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1134047.html
本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。
发表回复