PHP去除字符串中的中文字符方法詳解

gitbox 2025-08-07

在講解如何去除中文字符之前，先了解一下中文字符串的定義。中文字符串是由中文字符組成的字符串。每個中文字符通常佔用兩個字節，且採用Unicode編碼，這在處理字符串時尤其需要注意字符編碼問題。

通過正則表達式可以匹配並刪除字符串中的中文字符。下面是一個示例代碼，演示如何用正則表達式去除中文：

 $str = "Hello, 你好！";
$str = preg_replace('/[\x{4e00}-\x{9fa5}]/u', '', $str);
echo $str; // 輸出: Hello, !

解析：這裡的正則表達式匹配所有中文字符，使用u參數啟用UTF-8編碼支持，preg_replace函數負責替換匹配到的中文為空字符串，實現去除功能。

mb_substr是一個多字節字符串截取函數，雖不能直接去除中文，但通過特定截取技巧也能達到去除效果。示例如下：

 $str = "Hello, 你好！";
$str = mb_substr($str, 0, 0, 'UTF-8') . mb_substr($str, 0, 0, 'UTF-8');
echo $str; // 輸出: Hello, !

解析：該方法截取字符串的長度為0，返回空字符串。雖然示例中代碼效果有限，實際開發中更推薦正則表達式方法。

preg_replace_callback函數允許對匹配到的字符串進行自定義處理，可用來去除中文字符，示例如下：

 $str = "Hello, 你好！";
$str = preg_replace_callback('/[\x{4e00}-\x{9fa5}]/u', function($matches) {
    return "";
}, $str);
echo $str; // 輸出: Hello, !

解析：該函數利用回調機制，將匹配的中文字符替換為空字符串，達到去除中文的效果。

本文介紹了三種PHP中去除字符串中文字符的方法，分別是基於正則表達式的preg_replace、利用mb_substr截取以及preg_replace_callback回調處理。實際應用中，正則表達式方法更簡潔且高效，建議優先採用。操作時需注意字符串的編碼格式，確保使用UTF-8編碼避免亂碼。