如何使用mb_get_info 搭配mb_regex_encoding 設置和查看正則表達式的編碼？

gitbox 2025-05-29

在處理多字節字符串時，PHP 提供了mbstring擴展來確保字符編碼正確解析。正則表達式同樣可能會受到編碼設置的影響，尤其是當我們需要處理UTF-8、Shift-JIS 或EUC-JP 等多字節編碼的文本時。幸運的是，PHP 提供了mb_regex_encoding()和mb_get_info()函數，幫助開發者管理正則表達式的編碼設置。

一、 mb_regex_encoding()是什麼？

mb_regex_encoding()函數可以用來設置或獲取當前用於多字節正則表達式的編碼。

文法:

 mb_regex_encoding(?string $encoding = null): string|bool

如果不傳參數，它會返回當前的編碼；
如果傳入編碼參數，它會設置正則表達式的編碼，並返回之前的編碼。

二、 mb_get_info()的作用

mb_get_info()用於獲取當前mbstring環境的詳細配置信息，包括語言、內部編碼、HTTP 輸入/輸出編碼和正則表達式的編碼等。

用法：

 mb_get_info(?string $type = null): array|string|false

當$type設置為'regex_encoding'時，它會返回當前用於正則的編碼。

三、如何一起使用？

下面是一個完整的例子，展示如何使用mb_regex_encoding()設置正則編碼，並通過mb_get_info()驗證設置是否生效：

 <?php
// 設置正則表達式使用 UTF-8 編碼
$previousEncoding = mb_regex_encoding('UTF-8');

echo "原本的正则表达式編碼为：$previousEncoding\n";

// 验证当前正则表达式編碼是否为 UTF-8
$currentRegexEncoding = mb_get_info('regex_encoding');
echo "当前的正则表达式編碼为：$currentRegexEncoding\n";

// 示例正則匹配
$pattern = '\A[\p{Hiragana}ー]+\z'; // 匹配平假名字符
$subject = 'こんにちは';

if (mb_ereg($pattern, $subject)) {
    echo "匹配成功：$subject 是平假名文本\n";
} else {
    echo "匹配失敗：$subject 不符合平假名規則\n";
}
?>

在上面的例子中：

我們首先將正則表達式編碼設置為UTF-8；
然後用mb_get_info()檢查設置；
接著用mb_ereg()結合Unicode 屬性進行匹配。

確保你的PHP 安裝啟用了mbstring擴展，並且支持正則的Unicode 模式。

四、為什麼這很重要？

當處理多種語言內容，特別是涉及漢字、假名或其他特殊字符時，使用合適的編碼能避免正則匹配出現亂碼或不准確的結果。如果你使用了不支持當前文本編碼的正則表達式，很容易導致匹配失敗，甚至報錯。

五、常見問題

Q:如果我沒有顯式設置正則表達式的編碼，默認是什麼？ A:默認會使用內部字符編碼（由mb_internal_encoding()設置），但具體值可能因係統環境不同而變化，建議顯式設置。
Q:如何檢查PHP 是否支持mbstring ？ A:你可以運行phpinfo()或使用extension_loaded('mbstring')檢查。

六、進一步閱讀

PHP 官方mbstring 文檔
正則表達式與Unicode
mb_regex_encoding 說明