在织梦CMS(DedeCMS)中,采集过滤规则是确保采集内容纯净、有效的重要工具,通过设置适当的过滤规则,可以有效地去除不必要的信息,如广告、链接、脚本等,从而保证采集内容的质量和可用性,以下是一些常见的DedeCMS采集过滤规则及其应用示例:
常用过滤规则
1、超链接过滤:
去除超链接标签,保留链接文本。
“`dede:trim replace=”}{/dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim replace=”}{/dede:trim}</a>{/dede:trim}
完全去除链接及其文本。 ```dede:trim replace=''}{/dede:trim}<a([^>]*)>(.*)</a>{/dede:trim}
2、图片过滤:
去除<img>
```dede:trim}<img(.*)>{/dede:trim}
{dede:trim}</img>{/dede:trim}
3、样式和脚本过滤: 去除CSS样式。 ```dede:trim}<style(.*)</style>{/dede:trim} {dede:trim}</style>{/dede:trim}
去除JavaScript脚本。
```dede:trim}<script(.*)</script>{/dede:trim}
{dede:trim}</script>{/dede:trim}
4、HTML标签过滤: 去除特定HTML标签,如<div>
、<ul>
等。 ```dede:trim}<div(.*)>{/dede:trim} {dede:trim}</div>{/dede:trim} {dede:trim}<ul(.*)>{/dede:trim} {dede:trim}</ul>{/dede:trim}
5、过滤:
去除视频内容。
```dede:trim}<object(.*)</object>{/dede:trim}
{dede:trim}<embed(.*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<param(.*)</param>{/dede:trim}
应用示例 示例一:标题中空格的过滤 在采集文章时,如果标题中含有空格,可以使用以下正则表达式进行过滤: ```dede:trim} {/dede:trim}
示例二:来源作者中链接的过滤
有些网站在文章的来源或作者处会带有链接,可以直接使用以下规则去除这些链接:
```dede:trim replace=''}{/dede:trim}<a([^>]*)>(.*)</a>{/dede:trim}
常见问题解答(FAQs)问题一:如何设置采集节点? 答:设置采集节点需要进入织梦CMS后台,点击“采集” > “采集节点管理” > “增加新节点”,然后根据目标网站的结构填写列表网址获取规则、文章网址匹配规则等内容字段获取规则,最后保存设置并进行测试,确保采集规则正确无误。问题二:如何处理采集到的内容中的分页问题? 答:处理分页问题需要在内容字段获取规则中设置分页内容字段,具体方法是在文章内容部分选择“分页内容字段”,然后在起始HTML和结束HTML中分别填写分页内容的开始和结束标记,这样系统会自动识别并合并分页内容,生成完整的文章。 通过合理设置和应用采集过滤规则,可以大大提高织梦CMS采集内容的质量和效率,希望以上内容能够帮助站长们更好地掌握织梦CMS的采集功能。
原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1232052.html
本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。
发表回复