如何实现织梦dedecms的高效内容采集与过滤?

由于您没有提供具体的内容,我无法生成回答。请提供详细内容以便我能为您提供帮助。

在织梦dedecms系统中,采集过滤万能代码主要通过使用dede:trim标签来实现,以下是一些常用的过滤和替换操作:

如何实现织梦dedecms的高效内容采集与过滤?

1、去除超链接:这是最常见的过滤需求之一,可以通过以下代码实现。

过滤代码 说明
{dede:trim replace=”}<a([^>]*)>(.*)</a>{/dede:trim} 去除超链接及其内容
{dede:trim replace=”}<a([^>]*)>{/dede:trim} 去除超链接开头部分
{dede:trim replace=”}</a>{/dede:trim} 去除超链接结尾部分

2、过滤JS调用广告:为了过滤掉如Google广告等通过JS调用的广告,可以使用以下代码。

过滤代码 说明
{dede:trim replace=”}<script([^>]*)>(.*)</script>{/dede:trim} 过滤脚本标签及其内容

3、过滤div标签:如果未过滤干净div标签,可能导致发布的文章版面错位,需要对div标签进行过滤。

过滤代码 说明
{dede:trim replace=”}<div([^.]*)>{/dede:trim} 去除div标签开头部分
{dede:trim replace=”}</div>{/dede:trim} 去除div标签结尾部分
{dede:trim replace=”}<div 选择器>(.*)</div>{/dede:trim} 去除带有选择器的div标签及其内容

4、其他常用过滤规则:除了上述几种常见的过滤需求外,还有其他一些常用的过滤规则,如去除归纳、字体标签等。

{/dede:trim}

过滤代码 说明
{dede:trim}{/dede:trim} 去除归纳tbody标签
{dede:trim}
去除归纳tbody结束标签
{dede:trim}{/dede:trim} 去除归纳table标签
{dede:trim}

{/dede:trim} 去除归纳table结束标签 {dede:trim}{/dede:trim} 去除归纳行tr标签 {dede:trim}

{/dede:trim} 去除归纳行tr结束标签 {dede:trim}{/dede:trim} 去除归纳单元格td标签 {dede:trim}

{/dede:trim} 去除归纳单元格td结束标签 {dede:trim}{/dede:trim} 去除字体设置font标签 {dede:trim}{/dede:trim} 去除字体设置font结束标签

以下是关于织梦dedecms采集过滤的常见问题解答:

1、如何去除文章中的所有超链接?

答案:要去除文章中的所有超链接,可以使用以下代码:

“`html

{dede:trim replace=”}&lt;a([^&gt;]*)&gt;(.*)&lt;/a&gt;{/dede:trim}

“`

这段代码会匹配并去除所有的超链接及其内容。

2、如何过滤掉文章中的JS广告代码?

答案:要过滤掉文章中的JS广告代码,可以使用以下代码:

“`html

{dede:trim replace=”}&lt;script([^&gt;]*)&gt;(.*)&lt;/script&gt;{/dede:trim}

“`

这段代码会匹配并去除所有的<script>标签及其内容,从而过滤掉JS广告代码。

通过合理运用这些过滤代码,可以有效地去除织梦dedecms采集内容中的不需要的元素,提高内容的质量和可读性,也需要注意根据实际情况调整过滤规则,以达到最佳效果。

参数 说明 示例代码
dede/archives.php 采集入口文件 http://www.example.com/dede/archives.php
start 开始采集的起始ID start=0
end 结束采集的终止ID end=100
typeid 采集内容所属分类ID typeid=1
recoflag 推荐标志,0为不推荐,1为推荐 recoflag=1
classid 采集内容所属分类ID,与typeid作用相同 classid=1
flag 内容标记,用于过滤内容,’news’ flag=news
orderby 排序方式,’id’ orderby=id
orderway 排序方式,’desc’ orderway=desc
keywords 关键词,用于搜索内容 keywords=关键词
author 作者,用于搜索作者内容 author=作者名
title 标题,用于搜索标题内容 title=标题
content 内容,用于搜索包含特定内容的内容 content=内容关键词
orderby 排序方式,’id’ orderby=id
orderway 排序方式,’desc’ orderway=desc
source 来源,用于搜索来源内容 source=来源名称
pubdate 发布日期,格式为:YYYYMMDD pubdate=20220101
channel 频道,用于搜索频道内容 channel=频道名称
classlist 分类列表,用于搜索分类内容 classlist=1,2,3
recoflag 推荐标志,0为不推荐,1为推荐 recoflag=1
pagesize 每页显示数量 pagesize=10
page 当前页码 page=1

使用示例

$url = "http://www.example.com/dede/archives.php?start=0&end=100&typeid=1&recoflag=1&flag=news&orderby=id&orderway=desc&keywords=关键词&author=作者名&title=标题&content=内容关键词&source=来源名称&pubdate=20220101&channel=频道名称&classlist=1,2,3&recoflag=1&pagesize=10&page=1";

注意

1、以上代码仅供参考,实际使用时请根据实际情况进行调整。

2、采集过程中请遵守相关法律法规,尊重原创内容。

原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1181787.html

(0)
未希的头像未希新媒体运营
上一篇 2024-10-08 02:51
下一篇 2024-10-08 02:53

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

免费注册
电话联系

400-880-8834

产品咨询
产品咨询
分享本页
返回顶部
云产品限时秒杀。精选云产品高防服务器,20M大带宽限量抢购  >>点击进入