如何编写DEDECMS采集的过滤规则?

DEDECMS采集教程:过滤规则的编写涉及设置关键词、排除条件和正则表达式,确保精准抓取目标内容。

DEDECMS采集教程:过滤规则的编写

中空格

在采集文章时,经常会遇到标题中含有空格的情况,这些空格在采集回来后可能会对后续处理造成不便,需要在过滤处添加正则表达式来过滤掉标题中的空格,具体实现方法如下:

{dede:trim} {/dede:trim}

过滤来源作者中的链接

有时在采集文章时,来源或作者字段中会包含链接,如果不进行过滤,直接采集这些内容可能会导致采集失败或者采集到的内容不完整,需要使用正则表达式过滤掉这些链接:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

过滤文章内容中的链接及其他广告代码

在采集文章内容时,经常会包含一些链接、广告代码等不需要的内容,可以使用以下正则表达式来过滤掉这些内容:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

过滤特定广告代码(如GG广告)

对于一些特定的广告代码,例如Google的广告代码,可以使用专门的正则表达式进行过滤:

{dede:trim}<script([^>]*)>(.*)</script>{/dede:trim}

表格:常用过滤规则汇总

过滤类型 正则表达式
标题中空格 {dede:trim} {/dede:trim}
来源作者中的链接 {dede:trim}]*)>([^<]*){/dede:trim}
文章内容中的链接及其他广告 {dede:trim}]*)>([^<]*){/dede:trim}
特定广告代码(如GG广告) {dede:trim}]*)>(.*){/dede:trim}
去除所有HTML标签 {dede:trim}]*>{/dede:trim}
去除样式和脚本标签 {dede:trim}]*)>(.*)

{/dede:trim},{dede:trim}]*)>(.*){/dede:trim}

相关问答FAQs

如何编写DEDECMS采集的过滤规则?

Q1: 如何过滤掉文章中的所有超链接?

A1: 要过滤掉文章中的所有超链接,可以使用以下正则表达式:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

Q2: 如果我只想保留链接中的文字部分,应该如何修改过滤规则?

A2: 如果你只想保留链接中的文字部分,可以采用以下正则表达式:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

序号 参数名称 说明 示例
1 类型 选择采集内容的类型,如文章、图片、视频等。 文章
2 来源 设置采集内容的来源,可以是网站地址、关键词或分类。 http://www.example.com
3 标题规则 使用正则表达式或关键词过滤标题。 ^[u4e00u9fa5]{2,10}$为210个汉字)
4 支持的关键字 title,h1,h2,h3,h4,h5,h6
5 内容规则 使用正则表达式或关键词过滤内容。 [u4e00u9fa5]{100,}至少100个汉字)
6 支持的关键字 content,article,text
7 链接规则 使用正则表达式或关键词过滤链接。 http(s)?://.*?.example.com/.(链接包含example.com)
8 支持的关键字 href,url
9 图片规则 使用正则表达式或关键词过滤图片。 src=".*?.jpg"(图片后缀为.jpg)
10 支持的关键字 img,src
11 时间规则 使用正则表达式或关键词过滤时间。 d{4}d{2}d{2}(时间格式为年月日)
12 支持的关键字 date,time
13 分类规则 使用正则表达式或关键词过滤分类。 分类1 分类2 分类3(包含分类1、分类2或分类3)
14 支持的关键字 category,class
15 标签规则 使用正则表达式或关键词过滤标签。 标签1,标签2,标签3(包含标签1、标签2或标签3)
16 支持的关键字 tag,label
17 作者规则 使用正则表达式或关键词过滤作者。 作者1 作者2 作者3(包含作者1、作者2或作者3)
18 支持的关键字 author

原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1210716.html

(0)
未希的头像未希新媒体运营
上一篇 2024-10-13
下一篇 2024-10-13

相关推荐

  • 如何实现DEDECMS中分类信息的联动类别筛选功能?

    DEDECMS分类信息按联动类别筛选的实现方法可以通过使用AJAX和JavaScript来实现。在模板中创建一个下拉列表,用于选择第一个分类。为该下拉列表添加一个onChange事件,当用户选择一个选项时,触发一个JavaScript函数。在这个函数中,使用AJAX向服务器发送请求,传递所选分类的ID。服务器端接收到请求后,根据所选分类的ID查询数据库,获取相应的子分类数据。将子分类数据返回给客户端,客户端使用JavaScript更新第二个下拉列表的内容。这样,用户在选择第一个分类后,第二个下拉列表会自动更新为对应的子分类,实现联动筛选功能。

    2024-10-07
    05
  • 如何解决Dedecms文章页模板顶部会员登录与评论部分功能冲突的问题?

    Dedecms 文章页模板顶部和评论部分会员登录冲突问题解答问题概述在Dedecms文章页模板中,顶部导航的会员登录部分与评论部分的登录模块出现了冲突,导致页面显示不正常或功能异常,问题分析1、冲突原因: – 顶部导航的会员登录模块可能使用了与评论部分的登录模块相同的ID或类名, – 两个模块可能使用了相同的C……

    2024-10-05
    05
  • 如何解决Dedecms后台登录时验证码不显示导致的无法登录问题?

    尝试清除浏览器缓存或更换浏览器,检查服务器GD库是否启用。

    2024-10-10
    07
  • 如何在dedecms问答首页显示问题的栏目链接和名称?

    在DedeCMS中,要调用问答首页的问题栏目链接及栏目名称,可以通过以下步骤实现:,,1. 在模板文件中引入标签库,例如在head标签内添加`。,,2. 在需要显示问题栏目链接及栏目名称的地方,使用channel标签进行调用。,,`html,{dede:channel type=’top’ row=’8′ col=’4′},,[field:typename /],,{/dede:channel},`,,这段代码将会在问答首页显示8个顶级栏目的链接和名称,每行显示4个。你可以根据实际需求调整row和col`参数。

    2024-10-15
    04

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

免费注册
电话联系

400-880-8834

产品咨询
产品咨询
分享本页
返回顶部
云产品限时秒杀。精选云产品高防服务器,20M大带宽限量抢购  >>点击进入