用mb_scrub 清理字符串後，怎麼保持原編碼不變？

gitbox 2025-08-13

在處理多字節字符串時， mb_scrub是一個非常實用的函數，它可以幫助我們清理包含非法字符的字符串，防止程序在後續處理時因編碼問題崩潰。然而，很多開發者在使用mb_scrub之後會遇到一個問題：。這可能會在系統中造成編碼混亂，尤其是當你的應用依賴特定編碼（如Shift_JIS、ISO-8859-1 等）時。

那麼，如何在使用mb_scrub清理字符串之後，保持原編碼不變呢？

問題分析

我們先來看mb_scrub的基本用法：

 <span><span><span class="hljs-variable">$clean</span></span><span> = </span><span><span class="hljs-title function_ invoke__">mb_scrub</span></span><span>(</span><span><span class="hljs-variable">$dirty_string</span></span><span>);
</span></span>

如果不指定編碼，PHP 默認使用內部字符編碼（通常是UTF-8）。 mb_scrub會嘗試將字符串轉換為指定編碼，如果轉換失敗，則用U+FFFD（?）替換非法字符。但是返回值的編碼往往就是你傳入時指定的編碼，而不是原字符串的編碼。

因此，如果你的字符串原本是Shift_JIS 編碼，而你用默認的mb_scrub($str)清理它，最終你得到的是UTF-8 編碼的字符串，可能會導致亂碼或系統不兼容。

解決方案：顯式指定原編碼

要解決這個問題，你需要先檢測原始字符串的編碼，然後在調用mb_scrub時顯式傳入這個編碼。例如：

 <span><span><span class="hljs-variable">$original_encoding</span></span><span> = </span><span><span class="hljs-title function_ invoke__">mb_detect_encoding</span></span><span>(</span><span><span class="hljs-variable">$dirty_string</span></span><span>, </span><span><span class="hljs-title function_ invoke__">mb_list_encodings</span></span><span>(), </span><span><span class="hljs-literal">true</span></span><span>);
</span><span><span class="hljs-variable">$clean_string</span></span><span> = </span><span><span class="hljs-title function_ invoke__">mb_scrub</span></span><span>(</span><span><span class="hljs-variable">$dirty_string</span></span><span>, </span><span><span class="hljs-variable">$original_encoding</span></span><span>);
</span></span>

這樣， mb_scrub就會知道按什麼編碼方式去理解字符串，並且返回值也會使用相同的編碼。

注意： mb_detect_encoding的準確性依賴於字符串內容和傳入的編碼列表，有些模糊的編碼可能無法正確識別，建議根據上下文盡可能明確限定範圍。

更嚴謹的示例

<span><span><span class="hljs-function"><span class="hljs-keyword">function</span></span></span><span> </span><span><span class="hljs-title">clean_preserve_encoding</span></span><span>(</span><span><span class="hljs-params"><span class="hljs-keyword">string</span></span></span><span> </span><span><span class="hljs-variable">$input</span></span><span>): </span><span><span class="hljs-title">string</span></span><span> {
    </span><span><span class="hljs-variable">$encoding</span></span><span> = </span><span><span class="hljs-title function_ invoke__">mb_detect_encoding</span></span><span>(</span><span><span class="hljs-variable">$input</span></span><span>, [</span><span><span class="hljs-string">'SJIS'</span></span><span>, </span><span><span class="hljs-string">'UTF-8'</span></span><span>, </span><span><span class="hljs-string">'ISO-8859-1'</span></span><span>, </span><span><span class="hljs-string">'EUC-JP'</span></span><span>], </span><span><span class="hljs-literal">true</span></span><span>);
    </span><span><span class="hljs-keyword">if</span></span><span> (!</span><span><span class="hljs-variable">$encoding</span></span><span>) {
        </span><span><span class="hljs-comment">// 無法檢測編碼，默認使用 UTF-8，或拋出異常</span></span><span>
        </span><span><span class="hljs-variable">$encoding</span></span><span> = </span><span><span class="hljs-string">'UTF-8'</span></span><span>;
    }
    </span><span><span class="hljs-keyword">return</span></span><span> </span><span><span class="hljs-title function_ invoke__">mb_scrub</span></span><span>(</span><span><span class="hljs-variable">$input</span></span><span>, </span><span><span class="hljs-variable">$encoding</span></span><span>);
}
</span></span>

這個函數會盡力保留輸入字符串的編碼，即便在內容出現非法字符時也不會損壞編碼的一致性。

補充建議

始終記錄原始編碼：如果你的系統需要支持多種編碼，在數據流中記錄每段文本的編碼是一個良好的習慣。
優先使用UTF-8 ：如果你可以控制輸入輸出環境，建議盡量統一使用UTF-8 編碼，避免多編碼混用造成複雜性。
測試極端情況：特別是在處理外部數據時，應測試混合非法字節、錯誤BOM、編碼不一致等情況。

總結

使用mb_scrub清理非法字符串是安全處理多字節字符串的重要手段，但它可能在不顯式指定編碼時改變字符串的編碼格式。為避免這一問題，應在調用mb_scrub時明確指定原始編碼，從而確保清理後的字符串仍保留原有的編碼。

這樣不僅保持了數據一致性，也減少了編碼轉換帶來的副作用，是開發多語言、多編碼兼容應用時不可或缺的實踐技巧。