如何设置织梦dedecms教程的采集过滤规则?

织梦DedeCMS教程中,采集过滤规则用于在采集数据时筛选和过滤不需要的内容。

在织梦CMS(DedeCMS)中,采集过滤规则是确保采集内容纯净、有效的重要工具,通过设置适当的过滤规则,可以有效地去除不必要的信息,如广告、链接、脚本等,从而保证采集内容的质量和可用性,以下是一些常见的DedeCMS采集过滤规则及其应用示例:

如何设置织梦dedecms教程的采集过滤规则?

常用过滤规则

1、超链接过滤

去除超链接标签,保留链接文本。

“`dede:trim replace=”}{/dede:trim}<a([^>]*)>{/dede:trim}

{dede:trim replace=”}{/dede:trim}</a>{/dede:trim}

    完全去除链接及其文本。
      ```dede:trim replace=''}{/dede:trim}<a([^>]*)>(.*)</a>{/dede:trim}

2、图片过滤

去除<img>

```dede:trim}&lt;img(.*)>{/dede:trim}

{dede:trim}&lt;/img&gt;{/dede:trim}

3、样式和脚本过滤:
    去除CSS样式。
      ```dede:trim}&lt;style(.*)</style&gt;{/dede:trim}
      {dede:trim}&lt;/style&gt;{/dede:trim}

去除JavaScript脚本。

```dede:trim}&lt;script(.*)</script&gt;{/dede:trim}

{dede:trim}&lt;/script&gt;{/dede:trim}


4、HTML标签过滤:
    去除特定HTML标签,如<div><ul>等。
      ```dede:trim}&lt;div(.*)&gt;{/dede:trim}
      {dede:trim}&lt;/div&gt;{/dede:trim}
      {dede:trim}&lt;ul(.*)&gt;{/dede:trim}
      {dede:trim}&lt;/ul&gt;{/dede:trim}

5、过滤

去除视频内容。

```dede:trim}&lt;object(.*)</object&gt;{/dede:trim}

{dede:trim}&lt;embed(.*)>{/dede:trim}

{dede:trim}&lt;/embed&gt;{/dede:trim}

{dede:trim}&lt;param(.*)</param&gt;{/dede:trim}

应用示例
示例一:标题中空格的过滤
在采集文章时,如果标题中含有空格,可以使用以下正则表达式进行过滤:
```dede:trim} {/dede:trim}

示例二:来源作者中链接的过滤

有些网站在文章的来源或作者处会带有链接,可以直接使用以下规则去除这些链接:

```dede:trim replace=''}{/dede:trim}&lt;a([^&gt;]*)&gt;(.*)&lt;/a&gt;{/dede:trim}

常见问题解答(FAQs)问题一:如何设置采集节点?
答:设置采集节点需要进入织梦CMS后台,点击“采集” > “采集节点管理” > “增加新节点”,然后根据目标网站的结构填写列表网址获取规则、文章网址匹配规则等内容字段获取规则,最后保存设置并进行测试,确保采集规则正确无误。问题二:如何处理采集到的内容中的分页问题?
答:处理分页问题需要在内容字段获取规则中设置分页内容字段,具体方法是在文章内容部分选择“分页内容字段”,然后在起始HTML和结束HTML中分别填写分页内容的开始和结束标记,这样系统会自动识别并合并分页内容,生成完整的文章。
通过合理设置和应用采集过滤规则,可以大大提高织梦CMS采集内容的质量和效率,希望以上内容能够帮助站长们更好地掌握织梦CMS的采集功能。

原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1232052.html

本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。

(0)
未希新媒体运营
上一篇 2024-10-22 12:48
下一篇 2024-10-22 12:55

相关推荐

  • 织梦Dedecms模板内页TDK标签如何设置与优化?

    织梦(DedeCMS)是一款流行的开源内容管理系统,广泛用于构建和管理网站,在SEO优化中,TDK标签(Title、Description、Keywords)的设置至关重要,因为它们直接影响搜索引擎对网页内容的理解和排名,本文将详细讲解织梦模板内页TDK标签的使用方法和注意事项,帮助大家更好地进行网站优化……

    2024-11-02
    037
  • 如何在织梦dedecms站点中添加百度分享功能?

    织梦DedeCMS站点如何添加百度分享在当今数字化时代,网站内容分享已成为提升网站流量和用户互动的重要手段,百度分享作为一种便捷的分享工具,可以帮助网站快速实现内容的社会化传播,本文将详细介绍如何在织梦DedeCMS站点中添加百度分享按钮,并提供操作步骤和代码示例,一、获取百度分享代码1、访问百度分享官网:打开……

    2024-11-01
    024
  • 织梦Dedecms建站中,如何实现主动推送与实时推送功能?

    在织梦(DedeCMS)内容管理系统中实现主动推送和实时推送功能,可以显著提高网站的搜索引擎优化(SEO)效果,通过这些功能,网站管理员可以在发布新内容后立即通知搜索引擎,从而加快页面的收录速度,保护原创内容不被无故转载,下面将详细介绍如何在织梦系统中实现这两种功能:一、主动推送功能1、定义与作用:主动推送是指……

    2024-11-01
    030
  • 如何通过设置织梦DedeCMS文件夹权限来提升网站安全措施?

    织梦dedecms文件夹权限设置,提升网站安全措施在当今数字化时代,网站的安全性已经成为了不可忽视的重要问题,特别是对于使用织梦DedeCMS这类流行的内容管理系统(CMS)确保文件夹权限的正确设置是维护网站安全的关键步骤之一,本文将详细介绍如何通过设置织梦DedeCMS的文件夹权限来提升网站的安全措施,一、织……

    2024-11-01
    024

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

产品购买 QQ咨询 微信咨询 SEO优化
分享本页
返回顶部
云产品限时秒杀。精选云产品高防服务器,20M大带宽限量抢购 >>点击进入