如何设置织梦dedecms系统后台的采集规则和替换规则?

织梦dedecms系统后台的采集规则替换规则用于自动获取并处理外部数据。

织梦dedecms系统后台采集规则替换规则

采集规则概述

织梦CMS(DedeCMS)是一款广泛使用的内容管理系统,其内置的采集功能允许用户从互联网上自动抓取数据并整合到自己的网站中,为了实现高效和准确的数据采集,织梦提供了灵活的采集规则设置,这些规则决定了系统如何识别和提取目标网页上的数据,包括文章列表、内容字段等。

采集节点管理

1、新增采集节点:在织梦后台点击“采集” > “采集节点管理”,然后选择“增加新节点”,填写节点名称,选择普通文章类型,并保存进入下一步。

2、基本信息设置:填写被采集站的基本信息,如编码和页面网址,通过查看源文件获取页面编码,通常可以在HTML头部找到。

3、文章列表获取:输入文章列表页网址,通过查看源文件确定列表开始和结束标志,并填写相应的匹配规则。

开始标志:<div id="list">

结束标志:</ul>

URL匹配规则:<li><a href="([^"]*)">([^<]*)</a></li>

4、字段获取规则:根据需要采集的字段,如标题、作者、发布时间、内容等,设置相应的正则表达式。

标题:<h1>([^<]*)</h1>

作者:<span class="author">([^<]*)</span>

发布时间:<span class="time">([^<]*)</span>

内容:<div class="content">([^<]*)</div>

5、过滤广告代码:在文章内容中,可以使用正则表达式过滤掉不需要的广告代码。<script[^>]*>([^<]*?)</script>

6、分页处理:如果被采集的文章列表支持分页,可以设置分页规则。

列表URL规则:http://www.example.com/list_([09]+).html

下一页相对路径:_self

7、测试配置:完成以上设置后,点击“保存设置并预览”,检查采集效果是否符合预期,如果无误,点击“开始采集”进行正式采集。

替换规则概述

替换规则主要用于对采集到的数据进行清洗和格式化,以满足网站发布的需求,织梦CMS提供了多种替换规则,包括字符串替换、正则表达式替换等。

常用替换规则示例

1、标题中空格的过滤中经常会出现多余的空格,可以使用以下正则表达式进行过滤:

如何设置织梦dedecms系统后台的采集规则和替换规则?
   {dede:trim} {$title} {/dede:trim}

2、来源作者中连接的过滤:如果来源或作者字段中包含链接,可以使用以下正则表达式去除链接:

   {dede:trim} <a([^>]*)>([^<]*)</a> {/dede:trim}

3、中连接和其他广告代码的过滤:在文章内容中,可以使用以下正则表达式过滤掉不需要的广告代码和链接:

   {dede:trim} <script[^>]*>([^<]*?)</script>|<iframe[^>]*>([^<]*?)</iframe> {/dede:trim}

4、特殊字符的替换:对于一些特殊字符,如空格、换行符等,可以使用以下正则表达式进行替换:

   {dede:replace} (s+) {/dede:replace} // 替换多个连续空格为一个空格
   {dede:replace} 
 {br} {/dede:replace} // 将换行符替换为<br>标签

5、HTML标签的替换:对于一些不需要的HTML标签,可以使用以下正则表达式进行替换:

   {dede:replace} </?(font|center|big|small|strike)[^>]*>([^<]*?)</1> {/dede:replace} // 替换<font>、<center>等标签

相关FAQs

1、Q1:如何设置织梦CMS的采集规则?

A1:设置织梦CMS的采集规则包括新增采集节点、填写基本信息、设置文章列表获取规则、字段获取规则、过滤广告代码、分页处理以及测试配置等步骤,具体操作可参考上述“采集节点管理”部分。

2、Q2:如何过滤掉标题中的空格?

A2:可以使用正则表达式{dede:trim} {$title} {/dede:trim}来过滤掉标题中的空格。

3、Q3:如何去除来源或作者字段中的链接?

A3:可以使用正则表达式{dede:trim} <a([^>]*)>([^<]*)</a> {/dede:trim}来去除来源或作者字段中的链接。

4、Q4:如何过滤掉文章内容中的广告代码?

A4:可以使用正则表达式{dede:trim} <script[^>]*>([^<]*?)</script>|<iframe[^>]*>([^<]*?)</iframe> {/dede:trim}来过滤掉文章内容中的广告代码和链接。

5、Q5:如何替换特殊字符?

A5:可以使用正则表达式{dede:replace} (s+) {/dede:replace}来替换多个连续空格为一个空格,使用`{dede:replace}

{br} {/dede:replace}`来将换行符替换为<br>标签。

原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1212856.html

本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。

(0)
未希新媒体运营
上一篇 2024-10-14 04:03
下一篇 2024-10-14 04:05

相关推荐

  • 织梦Dedecms模板内页TDK标签如何设置与优化?

    织梦(DedeCMS)是一款流行的开源内容管理系统,广泛用于构建和管理网站,在SEO优化中,TDK标签(Title、Description、Keywords)的设置至关重要,因为它们直接影响搜索引擎对网页内容的理解和排名,本文将详细讲解织梦模板内页TDK标签的使用方法和注意事项,帮助大家更好地进行网站优化……

    2024-11-02
    037
  • 如何在织梦dedecms站点中添加百度分享功能?

    织梦DedeCMS站点如何添加百度分享在当今数字化时代,网站内容分享已成为提升网站流量和用户互动的重要手段,百度分享作为一种便捷的分享工具,可以帮助网站快速实现内容的社会化传播,本文将详细介绍如何在织梦DedeCMS站点中添加百度分享按钮,并提供操作步骤和代码示例,一、获取百度分享代码1、访问百度分享官网:打开……

    2024-11-01
    024
  • 织梦Dedecms建站中,如何实现主动推送与实时推送功能?

    在织梦(DedeCMS)内容管理系统中实现主动推送和实时推送功能,可以显著提高网站的搜索引擎优化(SEO)效果,通过这些功能,网站管理员可以在发布新内容后立即通知搜索引擎,从而加快页面的收录速度,保护原创内容不被无故转载,下面将详细介绍如何在织梦系统中实现这两种功能:一、主动推送功能1、定义与作用:主动推送是指……

    2024-11-01
    030
  • 如何通过设置织梦DedeCMS文件夹权限来提升网站安全措施?

    织梦dedecms文件夹权限设置,提升网站安全措施在当今数字化时代,网站的安全性已经成为了不可忽视的重要问题,特别是对于使用织梦DedeCMS这类流行的内容管理系统(CMS)确保文件夹权限的正确设置是维护网站安全的关键步骤之一,本文将详细介绍如何通过设置织梦DedeCMS的文件夹权限来提升网站的安全措施,一、织……

    2024-11-01
    024

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

产品购买 QQ咨询 微信咨询 SEO优化
分享本页
返回顶部
云产品限时秒杀。精选云产品高防服务器,20M大带宽限量抢购 >>点击进入