如何设置织梦dedecms教程的采集过滤规则?

织梦DedeCMS教程中,采集过滤规则用于在采集数据时筛选和过滤不需要的内容。

在织梦CMS(DedeCMS)中,采集过滤规则是确保采集内容纯净、有效的重要工具,通过设置适当的过滤规则,可以有效地去除不必要的信息,如广告、链接、脚本等,从而保证采集内容的质量和可用性,以下是一些常见的DedeCMS采集过滤规则及其应用示例:

如何设置织梦dedecms教程的采集过滤规则?

常用过滤规则

1、超链接过滤

去除超链接标签,保留链接文本。

“`dede:trim replace=”}{/dede:trim}<a([^>]*)>{/dede:trim}

{dede:trim replace=”}{/dede:trim}</a>{/dede:trim}

    完全去除链接及其文本。
      ```dede:trim replace=''}{/dede:trim}<a([^>]*)>(.*)</a>{/dede:trim}

2、图片过滤

去除<img>

```dede:trim}&lt;img(.*)>{/dede:trim}

{dede:trim}&lt;/img&gt;{/dede:trim}

3、样式和脚本过滤:
    去除CSS样式。
      ```dede:trim}&lt;style(.*)</style&gt;{/dede:trim}
      {dede:trim}&lt;/style&gt;{/dede:trim}

去除JavaScript脚本。

```dede:trim}&lt;script(.*)</script&gt;{/dede:trim}

{dede:trim}&lt;/script&gt;{/dede:trim}

4、HTML标签过滤:
    去除特定HTML标签,如<div><ul>等。
      ```dede:trim}&lt;div(.*)&gt;{/dede:trim}
      {dede:trim}&lt;/div&gt;{/dede:trim}
      {dede:trim}&lt;ul(.*)&gt;{/dede:trim}
      {dede:trim}&lt;/ul&gt;{/dede:trim}

5、过滤

去除视频内容。

```dede:trim}&lt;object(.*)</object&gt;{/dede:trim}

{dede:trim}&lt;embed(.*)>{/dede:trim}

{dede:trim}&lt;/embed&gt;{/dede:trim}

{dede:trim}&lt;param(.*)</param&gt;{/dede:trim}

应用示例
示例一:标题中空格的过滤
在采集文章时,如果标题中含有空格,可以使用以下正则表达式进行过滤:
```dede:trim} {/dede:trim}

示例二:来源作者中链接的过滤

有些网站在文章的来源或作者处会带有链接,可以直接使用以下规则去除这些链接:

```dede:trim replace=''}{/dede:trim}&lt;a([^&gt;]*)&gt;(.*)&lt;/a&gt;{/dede:trim}

常见问题解答(FAQs)问题一:如何设置采集节点?
答:设置采集节点需要进入织梦CMS后台,点击“采集” > “采集节点管理” > “增加新节点”,然后根据目标网站的结构填写列表网址获取规则、文章网址匹配规则等内容字段获取规则,最后保存设置并进行测试,确保采集规则正确无误。问题二:如何处理采集到的内容中的分页问题?
答:处理分页问题需要在内容字段获取规则中设置分页内容字段,具体方法是在文章内容部分选择“分页内容字段”,然后在起始HTML和结束HTML中分别填写分页内容的开始和结束标记,这样系统会自动识别并合并分页内容,生成完整的文章。
通过合理设置和应用采集过滤规则,可以大大提高织梦CMS采集内容的质量和效率,希望以上内容能够帮助站长们更好地掌握织梦CMS的采集功能。

原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1232052.html

(0)
未希的头像未希新媒体运营
上一篇 2024-10-22 12:48
下一篇 2024-08-22 13:04

相关推荐

  • 在维护织梦dedecms网站时,哪些安全漏洞最需要警惕?

    织梦dedecms网站安全需注意六大问题:更新补丁、强密码策略、权限管理、文件上传限制、数据备份与恢复、防SQL注入。

    2024-10-22
    00
  • 为何VPS可能不适合建站?

    VPS不能建站的原因1、技术限制: – VPS需要一定的技术知识和管理能力,如果用户不熟悉操作系统、服务器设置和网络配置等方面的知识,可能会遇到困难,2、资源不足: – VPS的性能和资源是有限的,包括处理器、内存、存储空间和带宽等,如果VPS的资源不足以支持网站的运行和访问需求,可能会导致建站失败或网站运行缓……

    2024-10-22
    00
  • 如何在不影响网站运行的情况下将DedeCMS的数据目录安全迁移?

    DedeCMS的数据目录迁移需要谨慎操作,确保数据安全和网站正常运行。

    2024-10-22
    00
  • 如何自定义DedeCMS后台登录页面?

    DedeCMS 后台登录页面可以通过修改模板文件和配置文件进行自定义。具体步骤如下:,,1. **找到并备份原始文件**:, 在 DedeCMS 的安装目录下,找到 dede 目录中的 templets 文件夹。, 找到并备份 login_frame.php 文件。,,2. **编辑 login_frame.php 文件**:, 使用文本编辑器打开 login_frame.php 文件。, 根据需要修改 HTML、CSS 和 JavaScript 代码,以实现自定义样式和功能。,,3. **修改配置文件(可选)**:, 如果需要进行更深层次的定制,可以修改 DedeCMS 的配置文件,config.php。, 注意:修改配置文件时要小心,确保不破坏系统的核心功能。,,4. **保存并上传文件**:, 将修改后的 login_frame.php 文件保存并上传到服务器上的相应位置。,,5. **测试登录页面**:, 打开浏览器,访问 DedeCMS 后台登录页面,检查自定义效果是否符合预期。,,通过以上步骤,您可以成功自定义 DedeCMS 后台登录页面的外观和功能。如果遇到任何问题,建议查阅 DedeCMS 官方文档或寻求社区支持。

    2024-10-22
    00
  • 如何高效备份VPS服务器?

    怎么备份VPS服务器运营攻略确定备份策略1、: – 网站文件 – 数据库 – 配置文件和日志2、备份频率: – 每日备份:适用于数据更新频繁的网站, – 每周备份:适用于数据相对稳定的网站, – 每月备份:适用于数据变化较少的网站,3、备份保留时间: – 根据需要设定,例如保留最近7天的备份、最近一个月的备份等……

    2024-10-22
    01

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

免费注册
电话联系

400-880-8834

产品咨询
产品咨询
分享本页
返回顶部
云产品限时秒杀。精选云产品高防服务器,20M大带宽限量抢购  >>点击进入