如何设置Dedecms的万能采集过滤规则来优化内容采集效果?

在dedecms中,采集过滤规则可以通过编写万能采集过滤代码来实现。常用的过滤方法包括正则表达式、XPath等。具体实现方式需要根据实际需求进行编写。

在织梦CMS(DedeCMS)中,采集过滤规则是确保从互联网上抓取的数据符合网站需求的重要工具,这些规则帮助用户自动删除不需要的内容,如广告、脚本和样式表等,以下是一些常见的dedecms采集过滤规则

{/dede:trim}

{/dede:trim}

{/dede:trim}

{/dede:trim}

{/dede:trim}

过滤代码
span {dede:trim}{/dede:trim}
/span {dede:trim}{/dede:trim}
div {dede:trim}

{/dede:trim}
/div {dede:trim}

{/dede:trim}

li {dede:trim}

  • {/dede:trim}
  • /li {dede:trim}

    {/dede:trim}

    ul {dede:trim}

      {/dede:trim}
    /ul {dede:trim}

    {/dede:trim}

    font {dede:trim}{/dede:trim}
    /font {dede:trim}{/dede:trim}
    table {dede:trim}

    {/dede:trim}
    /table {dede:trim}

    {/dede:trim}

    tbody {dede:trim}

    /tbody {dede:trim}
    tr {dede:trim}

    /tr {dede:trim}
    td {dede:trim}

    {/dede:trim}
    /td {dede:trim}
    a {dede:trim}{/dede:trim}
    /a {dede:trim}{/dede:trim}
    iframe {dede:trim}<iframe(.*){/dede:trim}
    style {dede:trim}<style(.*)

    {/dede:trim}

    script {dede:trim}<script(.*){/dede:trim}
    option {dede:trim}<option(.*){/dede:trim}
    select {dede:trim}<select(.*){/dede:trim}
    object {dede:trim}<object(.*){/dede:trim}
    embed {dede:trim}{/dede:trim}
    /embed {dede:trim}{/dede:trim}
    param {dede:trim}<param(.*){/dede:trim}

    常见应用示例

    1、标题中空格的过滤:经常在采集文章的时候,标题文字里面有空格,采回来后应用很是麻烦,所以需要在过滤处添加下面正则过滤:

       {dede:trim} {/dede:trim}

    2、来源作者中连接的过滤:有的网站系统里面作者或者来源处都带有连接,直接采集的话将连接采集回来了,然后由于这两个字段有限制,通常会造成需要采集的内容没有采集回来,所以需要在过滤处添加下面正则过滤:

    保留链接中的文字:{dede:trim}]*)>{/dede:trim}

    去掉链接中的文字:{dede:trim}]*)>([^{/dede:trim}

    3、中连接以及其他广告代码的过滤:当需要对所有东西过滤的时候,直接用上面所有的代码过滤就可以,但是实际应用中,我们只需要对连接、动画、调用等进行过滤,一般的写法是{dede:trim}要过滤的内容{/dede:trim}

    FAQs

    Q1:如何设置DEDECMS的采集过滤规则?

    A1:在DEDECMS后台管理界面中,进入“采集管理”模块,选择相应的采集节点进行编辑,在编辑界面中,可以找到“过滤规则”选项,点击“添加”按钮即可输入上述过滤代码,保存后即可生效。

    如何设置Dedecms的万能采集过滤规则来优化内容采集效果?

    Q2:为什么需要使用DEDECMS的采集过滤规则?

    A2:使用采集过滤规则可以帮助站长自动化地去除不需要的内容,如广告、脚本和样式表等,从而减少垃圾信息占用空间,提高数据质量和用户体验。

    过滤规则类型 代码示例
    标题过滤 Title = RegReplace(Tid, '.*?标题.*?');
    标签过滤 Tags = RegReplace(Tid, '.*?标签.*?');
    内容过滤 Content = RegReplace(Tid, '.*?内容.*?');
    描述过滤 Description = RegReplace(Tid, '.*?描述.*?');
    缩略图过滤 Thumbnail = RegReplace(Tid, '.*?缩略图.*?');
    作者过滤 Author = RegReplace(Tid, '.*?作者.*?');
    发布时间过滤 PublishTime = RegReplace(Tid, '.*?发布时间.*?');
    分类过滤 Category = RegReplace(Tid, '.*?分类.*?');
    来源过滤 Source = RegReplace(Tid, '.*?来源.*?');
    点击量过滤 Clicks = RegReplace(Tid, '.*?点击量.*?');
    评论数过滤 Comments = RegReplace(Tid, '.*?评论数.*?');
    标签链接过滤 TagsLink = RegReplace(Tid, '.*?标签链接.*?');
    相关链接过滤 RelatedLink = RegReplace(Tid, '.*?相关链接.*?');
    分享链接过滤 ShareLink = RegReplace(Tid, '.*?分享链接.*?');
    页面链接过滤 PageLink = RegReplace(Tid, '.*?页面链接.*?');

    说明

    RegReplace 函数用于执行正则表达式替换,其中Tid 为需要过滤的内容。

    以上代码示例仅供参考,具体使用时请根据实际情况进行调整。

    原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1206281.html

    (0)
    未希的头像未希新媒体运营
    上一篇 2024-10-12 08:21
    下一篇 2024-10-12 08:23

    相关推荐

    • 如何实现DedeCMS系统列表页自动统计当前栏目的文档总数?

      在织梦DedeCMS中,要自动统计当前栏目文档总数,你可以使用系统标签来实现。具体步骤如下:,,1. 打开你需要修改的模板文件(通常是列表页模板文件,如 list_article.htm)。,2. 在需要显示文档总数的位置添加以下代码:,,“html,{dede:field name=’typeid’ function=’GetNumArchives(@me)’/},`,,这个标签会调用 GetNumArchives` 函数来获取当前栏目的文档总数。,,3. 保存模板文件并刷新页面,你应该能看到当前栏目的文档总数显示在指定位置。,,这样,你就可以在列表页上自动统计并显示当前栏目的文档总数了。

      2024-09-29
      08
    • 如何更改织梦dedecms系统中默认缩略图defaultpic.gif的存储路径?

      要修改织梦dedecms默认缩略图defaultpic.gif的路径,您可以按照以下步骤操作:,,1. 登录织梦后台管理系统。,2. 找到系统设置中的“系统基本参数”选项。,3. 在“核心设置”中找到“默认缩略图”,并点击“浏览服务器上传文件”。,4. 选择您想要替换的默认缩略图图片文件,点击确定即可完成修改。

      2024-08-29
      016
    • 如何在DedeCMS中实现文章列表只显示有缩略图的文章?

      在DedeCMS中,如果文章列表有缩略图则显示缩略图,无缩略图则不显示,可以使用以下方法:,,1. 编辑模板文件,找到输出缩略图的代码部分。,2. 在该代码前添加一个判断语句,判断文章是否有缩略图。,3. 如果有缩略图,则正常显示;如果没有缩略图,则不显示。,,具体实现代码如下:,,“php,{dede:arclist typeid=’栏目ID’}, [field:litpic function=”GetTopImg(@me)”/],,{/dede:arclist},“

      2024-10-19
      013
    • 如何正确配置DedeCMS中的时间格式和参数?

      dedecms中的时间格式与参数设置主要涉及的是模板标签的使用。{dede:field.pubdate function=”MyDate(‘Ymd H:i’,@)/} 这段代码会将发布日期格式化为“年月日 时:分”的格式。’Ymd H:i’是时间格式,@代表的是发布时间的变量。

      2024-09-01
      040

    发表回复

    您的电子邮箱地址不会被公开。 必填项已用 * 标注

    免费注册
    电话联系

    400-880-8834

    产品咨询
    产品咨询
    分享本页
    返回顶部
    云产品限时秒杀。精选云产品高防服务器,20M大带宽限量抢购  >>点击进入