如何设置DedeCMS 3.1的分页文字采集过滤规则？

dede3.1分页文字采集过滤规则详说(图文教程)续四：本教程将详细讲解如何在dede3.1中设置分页文字采集过滤规则，帮助用户更高效地进行数据抓取。通过图文并茂的方式，我们将逐步引导您完成相关设置，确保您能够轻松掌握这一技能。

1、分页文字采集过滤规则

在完成文章内容匹配和分页内容匹配后，最后步骤是进行过滤操作，这包括对分页区域和文章内容的过滤，通过找到链接中的唯一性代码，可以编写出相应的过滤规则，过滤规则的编写可能相对复杂，需要多次尝试和调整才能达到预期效果。

2、范例分页区域代码

以下是一个范例分页区域的代码示例：

“`dede:trim}(.*)页次{/dede:trim}

“`

使用此代码进行采集时，虽然可以实现分页，但可能会产生一些多余的代码，需要进一步调整过滤范围，以去除不必要的内容。

3、完整的分页过滤规则

经过调整后的完整分页过滤规则如下：

“`dede:trim}(.*){/dede:trim}

“`

应用此规则后，分页成功且无多余代码，这表明过滤规则的编写需要根据具体情况灵活调整，以确保采集内容的精确性和完整性。

4、无分页内容的站点规则

对于不包含分页的内容，如“文艺部工作计划”，可以编写如下站点规则：

“`dede:item name=’天水_工作计划_1页’

imgurl=’/upimg’ imgdir=’../upimg’ language=’gb2312′ typeid=’1′ macthtype=’string’}

“`

这些规则有助于精确地获取网页内容，无论是有分页还是无分页的情况。

5、采集列表获取规则

采集列表的获取规则如下：

“`dede:list source=’var’ sourcetype=’list’

varstart=” varend=”}

{dede:url value=’http://www.tiansou.net/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html’}{/dede:url}

{dede:need}Gzjh/2007{/dede:need}

{dede:cannot}Gzjh/20071{/dede:cannot}

{dede:linkarea}[var:区域]{/dede:linkarea}

“`

这些规则确保了从指定网页中有效地提取所需内容。

6、网页内容获取规则

网页内容的获取规则包括多个部分，如文章标题、作者、发布时间等，以下是部分规则示例：

“`dede:note field=’dede_archives.title’ value='[var:内容]’ comment=’文章标题’

isunit=” isdown=”}

{dede:match}

[var:内容]天水搜索

{/dede:match}

“`

这些规则有助于从网页中提取关键信息，并将其结构化存储。

7、常见问题解答

问题1：如何确定过滤规则的范围？

解答：确定过滤规则的范围通常需要分析网页源代码，找到唯一性代码段，并根据实际采集结果进行调整，可能需要多次尝试和修改，以达到最佳效果。

问题2：如何处理分页采集中的多余代码？

解答：处理多余代码的方法是调整过滤规则的匹配范围，将过滤区域扩大或缩小，直至采集结果中不再包含多余代码，可以通过查看采集预览来辅助调整。

dede3.1的分页文字采集过滤规则涉及多个步骤和技术细节，正确设置这些规则对于提高采集效率和准确性至关重要，通过实践和不断优化，可以有效解决分页采集中遇到的各种问题。

Dede3.1分页文字采集过滤规则详说（图文教程）续四

在Dede3.1内容管理系统中，分页采集是常见的需求，尤其是在处理长篇文章或者网页内容时，本文将继续详细介绍分页文字采集的过滤规则，帮助您更好地理解和使用这些规则。

过滤规则详解

1. 过滤内容

在分页采集时，可能需要对采集到的内容进行过滤，以去除不必要的信息，以下是一些常见的过滤规则：

去除广告内容：通过正则表达式或者关键词过滤，去除页面中的广告代码和链接。

去除特殊字符：移除可能影响文章格式的特殊字符，如HTML标签、JavaScript代码等。

去除空白字符：删除文章中的空白字符，如空格、换行符等，以优化文章排版。

2. 正则表达式应用

正则表达式是进行内容过滤的有效工具，以下是一些常用的正则表达式示例：

去除HTML标签：<[^>]*>

去除JavaScript代码：<script[^>]*>[sS]*?</script>

去除广告链接：<as+[^>]*href=["'](.*?)["']

3. 关键词过滤

通过设置关键词列表，可以过滤掉包含特定关键词的内容，以下是一个简单的关键词过滤示例：

$badWords = array('广告', '推广', '链接');
foreach ($badWords as $word) {
    $content = str_replace($word, '', $content);
}

4. 内容替换

有时需要对采集到的内容进行替换，例如将特定的关键词替换为其他内容，以下是一个内容替换的示例：

$replaceWords = array(
    '旧链接' => '新链接',
    '旧内容' => '新内容'
);
foreach ($replaceWords as $old => $new) {
    $content = str_replace($old, $new, $content);
}

实例操作

以下是一个简单的分页采集实例，展示如何应用上述规则：

// 初始化采集类
$collect = new Collect();
// 设置采集源URL
$collect>SetUrl('http://example.com/article.html');
// 设置采集内容过滤规则
$collect>SetFilterRules(array(
    'removeHtml' => true, // 移除HTML标签
    'removeScript' => true, // 移除JavaScript代码
    'removeAds' => true, // 移除广告
    'removeWhitespace' => true, // 移除空白字符
    'keywords' => array('广告', '推广'), // 关键词过滤
    'replace' => array('旧链接' => '新链接', '旧内容' => '新内容') // 内容替换
));
// 执行采集
$content = $collect>Collect();
// 输出采集结果
echo $content;

通过了解和运用Dede3.1的分页文字采集过滤规则，您可以有效地处理和优化采集到的内容，在实际应用中，根据具体需求调整过滤规则，以达到最佳的效果。

原创文章，作者：未希，如若转载，请注明出处：https://www.kdun.com/ask/1141230.html

本网站发布或转载的文章及图片均来自网络，其原创性以及文中表达的观点和判断不代表本网站。如有问题，请联系客服处理。

如何设置DedeCMS 3.1的分页文字采集过滤规则？

过滤规则详解

实例操作

发表回复