mb_get_info 在字符串反轉操作中如何提供編碼支持？

gitbox 2025-05-11

在處理多字節字符串（如UTF-8 編碼的中文、日文、韓文等）時，普通的字符串函數往往不能正確地識別字符的邊界，導致操作結果錯誤。而在進行字符串反轉（reverse）操作時尤其如此。本文將探討如何通過mb_get_info()獲取多字節字符串的編碼信息，並結合其它mb_系列函數實現對字符串的正確反轉。

多字節字符串的挑戰

PHP 的內建函數如strrev()只能處理ASCII 字符，對於多字節字符（如中文的“你”在UTF-8 中是3 個字節）會逐字節反轉，導致亂碼。示例：

 $str = "你好，世界";
echo strrev($str); // 輸出亂碼

原因是strrev()並不知道一個“字符”究竟是幾個字節。

解決方案：使用mbstring 函數

PHP 的mbstring擴展提供了處理多字節字符串的函數集合。我們可以用mb_get_info()來確認當前的多字節配置，並結合mb_strlen() 、 mb_substr()來實現安全的字符串反轉。

1. 獲取當前的多字節環境

$info = mb_get_info();
print_r($info);

這將返回一個數組，包括內部編碼（ internal_encoding ）、HTTP 輸入/輸出編碼等信息：

 Array
(
    [internal_encoding] => UTF-8
    [http_input] => pass
    [http_output] => pass
    ...
)

2. 字符串反轉函數

我們可以根據當前編碼信息，安全地反轉一個字符串：

 function mb_strrev($str, $encoding = null) {
    if ($encoding === null) {
        $encoding = mb_internal_encoding();
    }
    
    $length = mb_strlen($str, $encoding);
    $reversed = '';
    
    for ($i = $length - 1; $i >= 0; $i--) {
        $reversed .= mb_substr($str, $i, 1, $encoding);
    }
    
    return $reversed;
}

$str = "你好，世界";
echo mb_strrev($str); // 輸出：界世，好你

在這個例子中，我們用mb_internal_encoding() （它由mb_get_info()提供的internal_encoding字段決定）確保使用正確的字符編碼。

動態編碼支持

如果你要處理來自不同來源（如用戶上傳）的字符串，編碼可能不是統一的。你可以用mb_detect_encoding()結合mb_convert_encoding()進行轉換：

 $str = file_get_contents('https://gitbox.net/data.txt');
$encoding = mb_detect_encoding($str, mb_detect_order(), true);

if ($encoding !== 'UTF-8') {
    $str = mb_convert_encoding($str, 'UTF-8', $encoding);
}

echo mb_strrev($str);

這樣無論用戶上傳的是GB2312、BIG5 還是UTF-8 編碼的文本，都能先轉換成統一編碼再反轉。

總結

mb_get_info()本身並不直接參與字符串反轉操作，但它提供了關鍵的編碼信息，使我們能選擇合適的mb_函數參數。通過正確獲取和設置編碼，結合mb_strlen()與mb_substr() ，我們可以安全而可靠地對多字節字符串進行反轉。

這對於國際化應用、處理用戶輸入、或構建面向亞洲市場的系統時尤其重要。如果你正在構建這樣的項目，務必啟用mbstring擴展，並時刻關注編碼信息的獲取與使用。