PHP去除字符串中的中文字符方法详解

gitbox 2025-08-07

在讲解如何去除中文字符之前，先了解一下中文字符串的定义。中文字符串是由中文字符组成的字符串。每个中文字符通常占用两个字节，且采用Unicode编码，这在处理字符串时尤其需要注意字符编码问题。

通过正则表达式可以匹配并删除字符串中的中文字符。下面是一个示例代码，演示如何用正则表达式去除中文：

$str = "Hello, 你好！";
$str = preg_replace('/[\x{4e00}-\x{9fa5}]/u', '', $str);
echo $str; // 输出: Hello, !

解析：这里的正则表达式匹配所有中文字符，使用u参数启用UTF-8编码支持，preg_replace函数负责替换匹配到的中文为空字符串，实现去除功能。

mb_substr是一个多字节字符串截取函数，虽不能直接去除中文，但通过特定截取技巧也能达到去除效果。示例如下：

$str = "Hello, 你好！";
$str = mb_substr($str, 0, 0, 'UTF-8') . mb_substr($str, 0, 0, 'UTF-8');
echo $str; // 输出: Hello, !

解析：该方法截取字符串的长度为0，返回空字符串。虽然示例中代码效果有限，实际开发中更推荐正则表达式方法。

preg_replace_callback函数允许对匹配到的字符串进行自定义处理，可用来去除中文字符，示例如下：

$str = "Hello, 你好！";
$str = preg_replace_callback('/[\x{4e00}-\x{9fa5}]/u', function($matches) {
    return "";
}, $str);
echo $str; // 输出: Hello, !

解析：该函数利用回调机制，将匹配的中文字符替换为空字符串，达到去除中文的效果。

本文介绍了三种PHP中去除字符串中文字符的方法，分别是基于正则表达式的preg_replace、利用mb_substr截取以及preg_replace_callback回调处理。实际应用中，正则表达式方法更简洁且高效，建议优先采用。操作时需注意字符串的编码格式，确保使用UTF-8编码避免乱码。