substr_count函數在處理多字節字符編碼時有哪些實用技巧？

gitbox 2025-06-03

在PHP中， substr_count()函數被廣泛用於計算一個字符串中某個子串出現的次數。它在處理ASCII字符時非常高效，但當面對多字節字符編碼（如UTF-8）時，可能會出現預料之外的結果。本文將介紹substr_count()在處理多字節字符編碼時的實用技巧，並通過具體示例幫助你在開發中避坑。

一、基礎用法回顧

substr_count()的基本語法如下：

<code> int substr_count ( string $haystack , string $needle [, int $offset = 0 [, int $length ]] ) </code>

該函數會返回$needle在$haystack中出現的次數。需要注意的是，它是按字節處理字符串的函數，不會識別字符邊界。

二、多字節字符帶來的問題

舉個例子，如果你試圖統計一個中文字符“你”在字符串中出現的次數，可能會出錯：

<code> $str = "你好，你真的很好"; echo substr_count($str, "你"); // 輸出可能不正確</code>

原因在於，中文“你”在UTF-8中是三個字節，但substr_count()並不識別字符邊界，只按字節匹配。這種情況就容易導致匹配錯誤或漏數。

三、使用mb_substr替代substr_count()的技巧

雖然PHP沒有專門的mb_substr_count()函數，但可以通過組合mb_substr()和mb_strlen()等函數來達到類似的效果。

例如，可以使用mb_split()來拆分字符串並統計出現次數：

<code> $str = "你好，你真的很好"; $arr = mb_split("你", $str); $count = count($arr) - 1; echo $count; // 正確輸出2 </code>

這樣處理就避免了字節級誤判的問題，適合多字節編碼。

四、正則方式兼容UTF-8

另一種通用方式是使用preg_match_all()配合UTF-8修飾符：

<code> $str = "你好，你真的很好"; preg_match_all('/你/u', $str, $matches); echo count($matches[0]); // 輸出2 </code>

這裡的/u修飾符告訴正則引擎使用UTF-8模式處理字符串，從而確保“你”被正確識別為一個字符。

五、在URL中統計特定路徑或參數出現次數

如果你在處理包含URL的字符串，且URL中包含中文路徑或參數，建議使用rawurlencode()或urldecode()統一處理後再進行匹配。例如：

<code> $url = "https://gitbox.net/你好/你好.html"; $decoded = urldecode($url); preg_match_all('/你好/u', $decoded, $matches); echo count($matches[0]); // 輸出2 </code>

這樣可以避免中文在URL編碼後的干擾，確保統計的準確性。

六、總結

substr_count()本身並不適合處理多字節字符編碼，但通過以下技巧可以有效彌補：

使用mb_split()拆分再統計
使用正則表達式配合preg_match_all()與/u修飾符
對URL進行urldecode()預處理再匹配
避免直接使用substr_count()對中文、日文、韓文等多字節字符做頻次分析

掌握這些技巧，在多語言網站開發、自然語言處理或處理來自gitbox.net等平台的UTF-8數據時，能夠極大提高程序的準確性和穩定性。