如何设置Dedecms的万能采集过滤规则来优化内容采集效果?

在dedecms中,采集过滤规则可以通过编写万能采集过滤代码来实现。常用的过滤方法包括正则表达式、XPath等。具体实现方式需要根据实际需求进行编写。

在织梦CMS(DedeCMS)中,采集过滤规则是确保从互联网上抓取的数据符合网站需求的重要工具,这些规则帮助用户自动删除不需要的内容,如广告、脚本和样式表等,以下是一些常见的dedecms采集过滤规则

{/dede:trim}

{/dede:trim}

{/dede:trim}

{/dede:trim}

{/dede:trim}

过滤代码
span {dede:trim}{/dede:trim}
/span {dede:trim}{/dede:trim}
div {dede:trim}
{/dede:trim}
/div {dede:trim}

{/dede:trim}

li {dede:trim}
  • {/dede:trim}
  • /li {dede:trim}

    {/dede:trim}

    ul {dede:trim}
      {/dede:trim}
    /ul {dede:trim}

    {/dede:trim}

    font {dede:trim}{/dede:trim}
    /font {dede:trim}{/dede:trim}
    table {dede:trim} {/dede:trim}
    /table {dede:trim}

    {/dede:trim}

    tbody {dede:trim}
    /tbody {dede:trim}
    tr {dede:trim}
    /tr {dede:trim}
    td {dede:trim} {/dede:trim}
    /td {dede:trim}
    a {dede:trim}{/dede:trim}
    /a {dede:trim}{/dede:trim}
    iframe {dede:trim}<iframe(.*){/dede:trim}
    style {dede:trim}<style(.*)

    {/dede:trim}

    script {dede:trim}<script(.*){/dede:trim}
    option {dede:trim}<option(.*){/dede:trim}
    select {dede:trim}<select(.*){/dede:trim}
    object {dede:trim}<object(.*){/dede:trim}
    embed {dede:trim}{/dede:trim}
    /embed {dede:trim}{/dede:trim}
    param {dede:trim}<param(.*){/dede:trim}

    常见应用示例

    1、标题中空格的过滤:经常在采集文章的时候,标题文字里面有空格,采回来后应用很是麻烦,所以需要在过滤处添加下面正则过滤:

       {dede:trim} {/dede:trim}

    2、来源作者中连接的过滤:有的网站系统里面作者或者来源处都带有连接,直接采集的话将连接采集回来了,然后由于这两个字段有限制,通常会造成需要采集的内容没有采集回来,所以需要在过滤处添加下面正则过滤:

    保留链接中的文字:{dede:trim}]*)>{/dede:trim}

    去掉链接中的文字:{dede:trim}]*)>([^{/dede:trim}

    3、中连接以及其他广告代码的过滤:当需要对所有东西过滤的时候,直接用上面所有的代码过滤就可以,但是实际应用中,我们只需要对连接、动画、调用等进行过滤,一般的写法是{dede:trim}要过滤的内容{/dede:trim}

    FAQs

    Q1:如何设置DEDECMS的采集过滤规则?

    A1:在DEDECMS后台管理界面中,进入“采集管理”模块,选择相应的采集节点进行编辑,在编辑界面中,可以找到“过滤规则”选项,点击“添加”按钮即可输入上述过滤代码,保存后即可生效。

    如何设置Dedecms的万能采集过滤规则来优化内容采集效果?

    Q2:为什么需要使用DEDECMS的采集过滤规则?

    A2:使用采集过滤规则可以帮助站长自动化地去除不需要的内容,如广告、脚本和样式表等,从而减少垃圾信息占用空间,提高数据质量和用户体验。

    过滤规则类型 代码示例
    标题过滤 Title = RegReplace(Tid, '.*?标题.*?');
    标签过滤 Tags = RegReplace(Tid, '.*?标签.*?');
    内容过滤 Content = RegReplace(Tid, '.*?内容.*?');
    描述过滤 Description = RegReplace(Tid, '.*?描述.*?');
    缩略图过滤 Thumbnail = RegReplace(Tid, '.*?缩略图.*?');
    作者过滤 Author = RegReplace(Tid, '.*?作者.*?');
    发布时间过滤 PublishTime = RegReplace(Tid, '.*?发布时间.*?');
    分类过滤 Category = RegReplace(Tid, '.*?分类.*?');
    来源过滤 Source = RegReplace(Tid, '.*?来源.*?');
    点击量过滤 Clicks = RegReplace(Tid, '.*?点击量.*?');
    评论数过滤 Comments = RegReplace(Tid, '.*?评论数.*?');
    标签链接过滤 TagsLink = RegReplace(Tid, '.*?标签链接.*?');
    相关链接过滤 RelatedLink = RegReplace(Tid, '.*?相关链接.*?');
    分享链接过滤 ShareLink = RegReplace(Tid, '.*?分享链接.*?');
    页面链接过滤 PageLink = RegReplace(Tid, '.*?页面链接.*?');

    说明

    RegReplace 函数用于执行正则表达式替换,其中Tid 为需要过滤的内容。

    以上代码示例仅供参考,具体使用时请根据实际情况进行调整。

    原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1206281.html

    本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。

    (0)
    未希新媒体运营
    上一篇 2024-10-12 08:21
    下一篇 2024-10-12 08:23

    相关推荐

    • 如何使用DedeCMS创建并管理我的网站?

      您的网站使用DedeCMS(织梦内容管理系统)构建,这是一个流行的开源PHP网站管理平台,适用于创建和管理动态网站。如果您需要进一步的帮助,请提供更多详细信息。

      2024-11-20
      012
    • DEDECMS中的时间显示如何设置为多少分钟前?

      您的问题似乎不完整,请提供更详细的信息或上下文,以便我能更准确地回答您。如果您是在询问dedecms(一个内容管理系统)的安装、配置、使用或其他相关问题,请具体说明需要了解的内容,我会很乐意为您提供帮助。

      2024-11-08
      020
    • Dede如何查看文章数量?

      在 DedeCMS(织梦内容管理系统)中,查看文章数量的方法如下:,,1. 登录后台管理系统。,2. 进入“内容管理”模块。,3. 选择“文章管理”。,4. 在右侧列表中即可看到所有文章的标题、作者、发布时间等信息。

      2024-11-07
      019
    • 织梦DedeCMS核心目录知识有哪些要点?

      织梦DedeCMS核心目录知识大全背景介绍织梦DedeCMS是一款流行的开源内容管理系统(CMS),广泛用于企业建站和信息管理,了解其目录结构和文件功能对于开发者进行二次开发、安全管理和界面定制至关重要,本文将详细介绍织梦DedeCMS的核心目录结构及其主要文件的作用,以帮助开发者更好地理解和使用该CMS,目录……

      2024-11-02
      0313

    发表回复

    您的电子邮箱地址不会被公开。 必填项已用 * 标注

    产品购买 QQ咨询 微信咨询 SEO优化
    分享本页
    返回顶部
    云产品限时秒杀。精选云产品高防服务器,20M大带宽限量抢购 >>点击进入