如何用 mb_get_info 函数搞定字符编码转换中的乱码问题？

gitbox 2025-05-11

在开发多语言网站或处理外部数据源时，字符编码的混乱经常让人头疼。如果编码设置不对，轻则出现乱码，重则数据丢失、功能异常。
在 PHP 中，mbstring 扩展提供了很多处理多字节字符的函数，其中 mb_get_info() 是定位编码问题的一个非常好用的利器。

什么是 mb_get_info()

mb_get_info() 是 PHP mbstring 扩展中的一个函数，用来获取当前多字节字符串处理的配置信息。
它可以返回当前的内部编码、HTTP 输入/输出编码、语言设置等内容，帮助我们快速了解脚本当前的编码环境。

函数签名非常简单：

array mb_get_info ([ string $type = "all" ] )

如果不传参数，默认返回所有配置信息。如果传一个类型，比如 "internal_encoding"，则只返回对应的信息。

为什么字符编码会导致乱码？

PHP 默认情况下对字符编码不太“敏感”，尤其是处理 UTF-8、GBK、Shift-JIS 这类多字节编码时，稍微处理不当就会出现乱码。
常见的原因有：

输入的编码和脚本处理的编码不一致
输出的编码设置错误
数据库连接时编码设置错误
服务器默认语言环境设置问题

这时候，如果你不知道当前环境具体使用了什么编码，就很难对症下药。而 mb_get_info() 正好可以帮我们查清楚。

如何用 mb_get_info() 排查乱码？

下面是一个简单的示例，演示如何用 mb_get_info() 来定位问题：

<?php
// 查看当前多字节处理的所有配置
$info = mb_get_info();
print_r($info);

// 重点查看内部编码
echo "Internal Encoding: " . mb_internal_encoding() . PHP_EOL;

// 设置编码为 UTF-8，避免乱码
mb_internal_encoding("UTF-8");

// 再次查看
echo "New Internal Encoding: " . mb_internal_encoding() . PHP_EOL;
?>

输出结果可能类似于：

Array
(
    [internal_encoding] => UTF-8
    [http_output] => UTF-8
    [http_input] => UTF-8
    [language] => neutral
    ...
)
Internal Encoding: UTF-8
New Internal Encoding: UTF-8

如果你发现 internal_encoding 不是 UTF-8（比如是 ISO-8859-1），那么大概率就是乱码源头了。
直接用 mb_internal_encoding("UTF-8") 重新设定，就可以避免继续发生乱码问题。

实战案例：防止乱码输出到网页

假设你有一个简单的接口，返回用户输入的内容到前端，像这样：

<?php
header('Content-Type: text/html; charset=UTF-8');

// 检查当前内部编码
if (mb_internal_encoding() !== 'UTF-8') {
    mb_internal_encoding('UTF-8');
}

// 假设用户输入（可能来自表单、接口等）
$user_input = "你好，世界！";

// 输出
echo htmlspecialchars($user_input, ENT_QUOTES, 'UTF-8');
?>

在这里，即使用户提交的是其他编码，比如 GB2312，服务器统一处理成 UTF-8 后输出，就可以大大降低乱码概率。
如果需要更全面的编码检测，还可以配合 mb_detect_encoding() 使用，自动识别并转换。

额外补充：文档地址

如果想了解更多 mb_get_info() 和 mbstring 的用法，可以参考官方文档：
https://gitbox.net/php/manual/zh/function.mb-get-info.php