substr_count函数在处理多字节字符编码时有哪些实用技巧？

gitbox 2025-06-03

在PHP中，substr_count()函数被广泛用于计算一个字符串中某个子串出现的次数。它在处理ASCII字符时非常高效，但当面对多字节字符编码（如UTF-8）时，可能会出现预料之外的结果。本文将介绍substr_count()在处理多字节字符编码时的实用技巧，并通过具体示例帮助你在开发中避坑。

一、基础用法回顾

substr_count()的基本语法如下：

<code> int substr_count ( string $haystack , string $needle [, int $offset = 0 [, int $length ]] ) </code>

该函数会返回$needle在$haystack中出现的次数。需要注意的是，它是按字节处理字符串的函数，不会识别字符边界。

二、多字节字符带来的问题

举个例子，如果你试图统计一个中文字符“你”在字符串中出现的次数，可能会出错：

<code> $str = "你好，你真的很好"; echo substr_count($str, "你"); // 输出可能不正确 </code>

原因在于，中文“你”在UTF-8中是三个字节，但substr_count()并不识别字符边界，只按字节匹配。这种情况就容易导致匹配错误或漏数。

三、使用mb_substr替代substr_count()的技巧

虽然PHP没有专门的mb_substr_count()函数，但可以通过组合mb_substr()和mb_strlen()等函数来达到类似的效果。

例如，可以使用mb_split()来拆分字符串并统计出现次数：

<code> $str = "你好，你真的很好"; $arr = mb_split("你", $str); $count = count($arr) - 1; echo $count; // 正确输出2 </code>

这样处理就避免了字节级误判的问题，适合多字节编码。

四、正则方式兼容UTF-8

另一种通用方式是使用preg_match_all()配合UTF-8修饰符：

<code> $str = "你好，你真的很好"; preg_match_all('/你/u', $str, $matches); echo count($matches[0]); // 输出2 </code>

这里的/u修饰符告诉正则引擎使用UTF-8模式处理字符串，从而确保“你”被正确识别为一个字符。

五、在URL中统计特定路径或参数出现次数

如果你在处理包含URL的字符串，且URL中包含中文路径或参数，建议使用rawurlencode()或urldecode()统一处理后再进行匹配。例如：

<code> $url = "https://gitbox.net/你好/你好.html"; $decoded = urldecode($url); preg_match_all('/你好/u', $decoded, $matches); echo count($matches[0]); // 输出2 </code>

这样可以避免中文在URL编码后的干扰，确保统计的准确性。

六、总结

substr_count()本身并不适合处理多字节字符编码，但通过以下技巧可以有效弥补：

使用mb_split()拆分再统计
使用正则表达式配合preg_match_all()与/u修饰符
对URL进行urldecode()预处理再匹配
避免直接使用substr_count()对中文、日文、韩文等多字节字符做频次分析

掌握这些技巧，在多语言网站开发、自然语言处理或处理来自gitbox.net等平台的UTF-8数据时，能够极大提高程序的准确性和稳定性。