如何设置织梦dedecms系统后台的采集规则和替换规则?

织梦dedecms系统后台的采集规则替换规则是用于自动抓取和处理网站内容的重要功能,帮助用户高效管理和维护网站。

织梦dedecms系统后台采集规则替换规则

采集规则设置

1、列表采集

打开织梦后台,点击“采集”→“采集节点管理”→“增加新节点”。

选择要采集的内容类型(如普通文章),然后确定。

进入采集设置页面,填写节点名称。

打开目标网站的列表页,查看源文件找到页面编码和列表网址的规律。

填写页面的基本信息和列表网址获取规则,http://www.example.com/list_(*).html

根据需要填写文章网址匹配规则,确保能够正确匹配到文章链接。

2、内容页采集

对区域网址进行筛选,使用正则表达式匹配必须包含的内容(如.html)和不能包含的内容。

保存设置后预览,确保获取的文章网址正确。

填写文章内容的开始和结束标志,找到文章标题、作者等信息的匹配规则。

3、过滤与替换规则

去除超链接:{dede:trim replace=''}<a([^>]*)>{/dede:trim}{dede:trim replace=''}</a>{/dede:trim}

过滤JS调用广告:{dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}

过滤div标签:{dede:trim replace=''}<div([^.]*)>{/dede:trim}{dede:trim replace=''}</div>{/dede:trim}

过滤摘要和关键字:{dede:trim replace=''}{/dede:trim}

简单替换:{dede:trim replace='替换后的词语'}要替换的词语{/dede:trim}

4、内容页分页采集

在“内容分页导航所在的区域匹配规则”中填写分页规则,如<ul class="pages">[内容]</ul>

选择“全部列出的分页列表”或“上下页形式或不完整的分页列表”,根据网站结构进行调整。

5、指定作者、来源

使用{dede:item field='writer' value='小军' isunit='' isdown=''}指定作者。

使用{dede:item field='source' value='军事网' isunit='' isdown=''}指定来源。

替换规则设置

1、去除超链接

{dede:trim replace=''}<a([^>]*)>{/dede:trim}

{dede:trim replace=''}</a>{/dede:trim}

如果需要去除链接文本,可以使用:{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}

2、过滤JS调用广告

{dede:trim replace=''}<script([^>]*)>(.*)</script>{/dede:trim}

3、过滤div标签

{dede:trim replace=''}<div([^.]*)>{/dede:trim}

{dede:trim replace=''}</div>{/dede:trim}

如果需要去除DIV及其内容,可以使用:{dede:trim replace=""}<div([^>]*)>(.*)</div>{/dede:trim}

4、其它过滤规则

{dede:trim replace=''}<!(.*)>{/dede:trim}(过滤HTML注释)

{dede:trim replace=''}<table([^>]*)>(.*)</table>{/dede:trim}(过滤表格)

{dede:trim replace=''}<style([^>]*)>(.*)</style>{/dede:trim}(过滤样式)

{dede:trim replace=''}<img([^>]*)>{/dede:trim}(过滤图片)

{dede:trim replace=''}<object([^>]*)>(.*)</object>{/dede:trim}(过滤对象)

{dede:trim replace=''}<embed([^>]*)>{/dede:trim}(过滤嵌入内容)

{dede:trim replace=''}<iframe([^>]*)>(.*)</iframe>{/dede:trim}(过滤iframe)

如何设置织梦dedecms系统后台的采集规则和替换规则?

{dede:trim replace=''}<param([^>]*)>(.*)</param>{/dede:trim}(过滤参数)

5、简单替换

{dede:trim replace='替换后的词语'}要替换的词语{/dede:trim}

常见问题解答

1、如何去除文章中的所有超链接?

解答:可以使用以下过滤规则去除所有超链接及其文本:{dede:trim replace=''}<a([^>]*)>(.*)</a>{/dede:trim}

2、如何过滤掉文章中的图片?

解答:可以使用以下过滤规则去除所有图片:{dede:trim replace=''}<img([^>]*)>{/dede:trim}

织梦DedeCMS系统后台采集规则与替换规则详解

采集规则

采集规则是织梦DedeCMS系统中用于定义如何从外部网站采集内容的配置,以下是一些详细的采集规则设置:

1. 采集源设置

源名称:为采集源设定一个名称,方便管理。

网址:输入需要采集的网站地址。

编码:选择采集内容的编码格式,如UTF8、GBK等。

2. 采集范围设置

采集栏目:选择要采集内容的栏目。

采集类型:选择采集文章、图片、下载等内容类型。

采集页数:设置采集页数,如采集前10页。

3. 内容采集规则

的采集规则,如使用正则表达式提取。

内容链接:设置文章链接的采集规则。

内容正文:设置正文的采集规则,包括正文内容的提取、去除广告等。

内容图片:设置图片的采集规则,包括提取图片链接和保存图片。

4. 其他设置

延迟时间:设置采集任务的执行间隔时间。

代理设置:如果需要,可以设置代理服务器以绕过IP限制。

替换规则

替换规则用于在采集过程中对内容进行格式化处理,以下是一些常见的替换规则设置:

1. 标题替换

原文本:输入需要替换的标题文本。

替换为:输入替换后的标题文本。

2. 内容替换

原文本:输入需要替换的内容文本。

替换为:输入替换后的内容文本。

3. 图片替换

原文本:输入需要替换的图片链接文本。

替换为:输入替换后的图片链接文本。

4. 其他设置

替换模式:选择替换模式,如全部替换、部分替换等。

替换顺序:设置替换规则的执行顺序。

排版示例

以下是一个简单的排版示例,以帮助您更好地理解上述设置:

采集规则设置:
源名称:example_com
网址:http://www.example.com
编码:UTF8
采集栏目:新闻
采集类型:文章
采集页数:10
内容采集规则:
提取标题中的第一个《》内的内容
正文:提取正文中的第一个<p>标签内的内容
图片:提取正文中的第一个<img>标签内的src属性值
替换规则设置:
标题替换:
  原文本:《新闻》
  替换为:《资讯》
内容替换:
  原文本:[广告]
  替换为:[广告已过滤]
图片替换:
  原文本:http://www.example.com/image.jpg
  替换为:http://www.mysite.com/images/image.jpg

上述设置仅为示例,实际操作时需要根据具体情况进行调整。

原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1134047.html

本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。

(0)
未希新媒体运营
上一篇 2024-10-03 03:49
下一篇 2024-10-03 03:50

相关推荐

  • 织梦Dedecms模板内页TDK标签如何设置与优化?

    织梦(DedeCMS)是一款流行的开源内容管理系统,广泛用于构建和管理网站,在SEO优化中,TDK标签(Title、Description、Keywords)的设置至关重要,因为它们直接影响搜索引擎对网页内容的理解和排名,本文将详细讲解织梦模板内页TDK标签的使用方法和注意事项,帮助大家更好地进行网站优化……

    2024-11-02
    037
  • 如何在织梦dedecms站点中添加百度分享功能?

    织梦DedeCMS站点如何添加百度分享在当今数字化时代,网站内容分享已成为提升网站流量和用户互动的重要手段,百度分享作为一种便捷的分享工具,可以帮助网站快速实现内容的社会化传播,本文将详细介绍如何在织梦DedeCMS站点中添加百度分享按钮,并提供操作步骤和代码示例,一、获取百度分享代码1、访问百度分享官网:打开……

    2024-11-01
    024
  • 织梦Dedecms建站中,如何实现主动推送与实时推送功能?

    在织梦(DedeCMS)内容管理系统中实现主动推送和实时推送功能,可以显著提高网站的搜索引擎优化(SEO)效果,通过这些功能,网站管理员可以在发布新内容后立即通知搜索引擎,从而加快页面的收录速度,保护原创内容不被无故转载,下面将详细介绍如何在织梦系统中实现这两种功能:一、主动推送功能1、定义与作用:主动推送是指……

    2024-11-01
    030
  • 如何通过设置织梦DedeCMS文件夹权限来提升网站安全措施?

    织梦dedecms文件夹权限设置,提升网站安全措施在当今数字化时代,网站的安全性已经成为了不可忽视的重要问题,特别是对于使用织梦DedeCMS这类流行的内容管理系统(CMS)确保文件夹权限的正确设置是维护网站安全的关键步骤之一,本文将详细介绍如何通过设置织梦DedeCMS的文件夹权限来提升网站的安全措施,一、织……

    2024-11-01
    024

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

产品购买 QQ咨询 微信咨询 SEO优化
分享本页
返回顶部
云产品限时秒杀。精选云产品高防服务器,20M大带宽限量抢购 >>点击进入