在织梦CMS(DedeCMS)中,去除采集文章内容中的层标签或者多余标签是常见的需求,本文将详细阐述如何通过修改采集规则和过滤代码来实现这一目标,并提供一些实用的技巧。
去除链接标签
1、基本方法:使用{dede:trim}
标签来删除不需要的HTML标签,要去掉超链接(<a>
标签),可以使用以下代码:
{dede:trim}<a([^>]*)>{/dede:trim} {dede:trim}</a>{/dede:trim}
这种方法会分别删除开始和结束的<a>
2、保留链接文本:如果需要保留链接文本,可以稍作修改:
{dede:trim}<a([^>]*)>(.*)</a>{/dede:trim}
这样只会去掉<a>
标签,而保留其中的文本内容。
过滤其他多余标签
1、去除<div>:类似地,去除
<div>
标签也可以使用类似的方法:
{dede:trim}<div([^>]*)>{/dede:trim} {dede:trim}</div>{/dede:trim}
这样可以有效地去除<div>
标签及其内容。
2、过滤JavaScript和样式:对于脚本和样式标签,同样可以使用{dede:trim}
标签进行过滤:
{dede:trim}<script([^>]*)>(.*)</script>{/dede:trim} {dede:trim}<style([^>]*)>(.*)</style>{/dede:trim}
这些代码会分别去除<script>
和<style>
标签及其内容。
批量删除无效TAG标签
网站删除了一些文档后,数据库中会残留许多无效的TAG标签,可以通过执行SQL语句来批量删除这些无效标签:
delete FROM dede_tagindex where typeid not in (SELECT id FROM dede_arctype); delete FROM dede_taglist where typeid not in (SELECT id FROM dede_arctype);
执行完上述SQL语句后,记得在后台更新缓存,以确保所有更改生效。
相关问答FAQs
问题一:如何在织梦CMS中去除所有超链接但保留文本?
答:可以在采集规则中使用以下正则表达式:
{dede:trim}<a([^>]*)>(.*)</a>{/dede:trim}
这段代码会去除<a>
标签,但保留其中的文本内容。
问题二:如何批量删除织梦CMS数据库中的无效TAG标签?
答:可以通过执行以下SQL语句来批量删除无效的TAG标签:
delete FROM dede_tagindex where typeid not in (SELECT id FROM dede_arctype); delete FROM dede_taglist where typeid not in (SELECT id FROM dede_arctype);
执行完SQL语句后,记得在后台更新缓存,以确保所有更改生效。
步骤 | 方法 | 说明 |
1 | 登录织梦后台管理 | 在浏览器中输入织梦后台地址,输入管理员账号和密码登录。 |
2 | 进入采集配置 | 在后台管理页面,找到并点击“采集配置”模块。 |
3 | 选择采集规则 | 在采集配置模块中,选择相应的采集规则。 |
4 | 修改标签过滤规则 | 点击“标签过滤规则”选项,进入标签过滤规则设置页面。 |
5 | 添加标签过滤 | 在标签过滤规则设置页面,点击“添加标签过滤”按钮。 |
6 | 设置标签过滤参数 | 在添加标签过滤页面,输入要过滤的标签名称,例如 ,并设置过滤类型为“移除”。 |
7 | 保存设置 | 完成标签过滤参数设置后,点击“保存设置”按钮。 |
8 | 测试采集效果 | 在采集配置模块中,进行一次采集测试,查看采集效果是否符合预期。 |
9 | 重复步骤57 | 如果还有其他多余的标签需要过滤,重复步骤57,添加相应的标签过滤规则。 |
10 | 保存并退出 | 完成所有标签过滤规则设置后,点击“保存设置”按钮,然后退出后台管理。 |
通过以上步骤,您可以在织梦DedeCMS中去除采集文章内容的层标签或者多余标签,需要注意的是,根据实际采集内容的不同,可能需要调整标签过滤规则以达到最佳效果。
原创文章,作者:未希,如若转载,请注明出处:https://www.kdun.com/ask/1219334.html
本网站发布或转载的文章及图片均来自网络,其原创性以及文中表达的观点和判断不代表本网站。如有问题,请联系客服处理。
发表回复