PHP正则表达式如何高效地过滤并提取HTML标签属性？_正则表达式

php正则表达式如何高效地过滤并提取html标签属性？

利用php正则表达式高效处理html标签属性

在php中处理html内容时，常常需要提取特定标签的属性值，例如style、class、href、target、alt等。同时，我们也需要去除一些不必要的属性，例如潜在风险属性onload等，以增强安全性。

问题：

如何编写一个php函数，能够有效地过滤html代码，提取指定的属性，并去除诸如onload之类的有害属性？例如，对于12313123 ，只保留style和class属性，去除onload属性。

解决方案：

直接使用单个正则表达式匹配所有目标属性并同时去除不需要的属性，会使正则表达式过于复杂且难以维护。更有效的方法是采用两步走策略：

去除不需要的属性： 使用正则表达式去除所有以on开头的属性（例如onload、onclick等）。
提取需要的属性： (此步骤可根据需求使用正则表达式或其他方法，此处略去，因为题目重点在于去除有害属性)

以下代码演示了如何使用正则表达式去除on开头的属性：

$html = '<strong class="123" onload="asdasdas()" style="white-space: normal;">12313123 </strong><div class="ccc">aaaaa</div>
<p style="white-space: normal;">bbbbb</p>
<strong class="123" onload="asdasdas()" style="white-space: normal;">12313123 </strong>
<strong onload="\'asdasdas()\'">eeeeee </strong><a class="aaaa" href="https://www.php.cn/link/56613d94c5eec17e84ddc87eb39b72ea" target="_blank">链接链接</a><p>ffff</p>';

$pattern = '/\bon\w+=([\'"]).*?\1/mi'; // 匹配并去除所有以on开头的属性
$cleanedhtml = preg_replace($pattern, '', $html);

echo "清理后的html代码：\n" . $cleanedhtml;

登录后复制

代码解释：

/\bon\w+=([\'"]).*?\1/mi：这个正则表达式匹配以on开头的属性。
- \b: 单词边界，确保匹配的是完整的属性名。
- on\w+: 匹配on后跟一个或多个单词字符的属性名。
- ([\'"]): 捕获属性值引号（单引号或双引号）。
- .*?: 非贪婪匹配属性值内容。
- \1: 反向引用，确保属性值引号匹配。
- m: 多行模式，使^和$匹配每一行而不是整个字符串。
- i: 大小写不敏感模式。
preg_replace($pattern, '', $html): 将匹配到的部分替换为空字符串，从而去除不需要的属性。

这种两步走策略比试图用一个复杂的正则表达式完成所有操作更清晰、更易于维护，也更安全可靠。后续可以根据需求添加提取所需属性的代码。

以上就是php正则表达式如何高效地过滤并提取html标签属性？的详细内容，更多请关注代码网其它相关文章！

在计算机领域，如何准确翻译“pattern”一词？

计算机领域“pattern”的准确翻译及使用学习正则表达式时，“pattern”一词经常出现，其翻译常令人困惑。例如，句子“a query consists o... [阅读全文]

Vue中如何优雅地处理富文本渲染避免代码片段默认显示？

vue富文本渲染：巧妙隐藏代码片段使用富文本编辑器（如wangeditor）编写技术文章时，常常需要控制代码片段的显示。本文介绍两种方法，在vue项目中优雅地处... [阅读全文]

$PHP json_encode输出多余\r字符：原因是什么？如何解决？$

PHP json_encode输出多余\r字符：原因是什么？如何解决？

php json_encode 函数输出多余 \r 字符的根本原因及解决方案在使用 php 的 json_encode 函数将数组或对象编码为 json 字符串... [阅读全文]

如何在扫码搜索框中限制输入法，确保用户只能使用英文输入法？

如何在扫码搜索框中强制使用英文输入法？开发扫码搜索框时，需要确保用户只能使用英文输入法，避免中文输入法带来的输入延迟和用户体验问题（例如，中文输入法的候选词显示... [阅读全文]

如何使用正则表达式匹配到第一个闭合标签就停止？

正则表达式高效匹配：只匹配第一个闭合标签处理html或xml等标记语言时，精准提取标签内容至关重要。然而，使用正则表达式匹配嵌套标签或复杂结构时，常常面临匹... [阅读全文]

$为什么正则表达式 /#\\/((\\w)+)/.exec("/a-web/#/abc?") 的返回值中会出现第三项 'c'？$

为什么正则表达式 /#\\/((\\w)+)/.exec("/a-web/#/abc?") 的返回值中会出现第三项 'c'？

深入理解正则表达式匹配结果本文将详细解析正则表达式/#/((\w)+)/.exec("/a-web/#/abc?")的返回值，并解释其背后的逻辑。正则表达式/#... [阅读全文]


验证码：

验证码：

PHP正则表达式如何高效地过滤并提取HTML标签属性？

2025年03月30日 • 正则表达式 •我要评论

相关文章:

发表评论