如何使用 mb_get_info 搭配 mb_regex_encoding 设置和查看正则表达式的编码？

gitbox 2025-05-29

在处理多字节字符串时，PHP 提供了 mbstring 扩展来确保字符编码正确解析。正则表达式同样可能会受到编码设置的影响，尤其是当我们需要处理 UTF-8、Shift-JIS 或 EUC-JP 等多字节编码的文本时。幸运的是，PHP 提供了 mb_regex_encoding() 和 mb_get_info() 函数，帮助开发者管理正则表达式的编码设置。

一、mb_regex_encoding() 是什么？

mb_regex_encoding() 函数可以用来设置或获取当前用于多字节正则表达式的编码。

语法：

mb_regex_encoding(?string $encoding = null): string|bool

如果不传参数，它会返回当前的编码；
如果传入编码参数，它会设置正则表达式的编码，并返回之前的编码。

二、mb_get_info() 的作用

mb_get_info() 用于获取当前 mbstring 环境的详细配置信息，包括语言、内部编码、HTTP 输入/输出编码和正则表达式的编码等。

用法：

mb_get_info(?string $type = null): array|string|false

当 $type 设置为 'regex_encoding' 时，它会返回当前用于正则的编码。

三、如何一起使用？

下面是一个完整的例子，展示如何使用 mb_regex_encoding() 设置正则编码，并通过 mb_get_info() 验证设置是否生效：

<?php
// 设置正则表达式使用 UTF-8 编码
$previousEncoding = mb_regex_encoding('UTF-8');

echo "原本的正则表达式编码为：$previousEncoding\n";

// 验证当前正则表达式编码是否为 UTF-8
$currentRegexEncoding = mb_get_info('regex_encoding');
echo "当前的正则表达式编码为：$currentRegexEncoding\n";

// 示例正则匹配
$pattern = '\A[\p{Hiragana}ー]+\z'; // 匹配平假名字符
$subject = 'こんにちは';

if (mb_ereg($pattern, $subject)) {
    echo "匹配成功：$subject 是平假名文本\n";
} else {
    echo "匹配失败：$subject 不符合平假名规则\n";
}
?>

在上面的例子中：

我们首先将正则表达式编码设置为 UTF-8；
然后用 mb_get_info() 检查设置；
接着用 mb_ereg() 结合 Unicode 属性进行匹配。

确保你的 PHP 安装启用了 mbstring 扩展，并且支持正则的 Unicode 模式。

四、为什么这很重要？

当处理多种语言内容，特别是涉及汉字、假名或其他特殊字符时，使用合适的编码能避免正则匹配出现乱码或不准确的结果。如果你使用了不支持当前文本编码的正则表达式，很容易导致匹配失败，甚至报错。

五、常见问题

Q: 如果我没有显式设置正则表达式的编码，默认是什么？ A: 默认会使用内部字符编码（由 mb_internal_encoding() 设置），但具体值可能因系统环境不同而变化，建议显式设置。
Q: 如何检查 PHP 是否支持 mbstring？ A: 你可以运行 phpinfo() 或使用 extension_loaded('mbstring') 检查。

六、进一步阅读

PHP 官方 mbstring 文档
正则表达式与 Unicode
mb_regex_encoding 说明