mb_strcut函数中字节和字符有什么区别？这些知识你必须了解

gitbox 2025-05-26

在PHP开发中，处理多字节字符串是一个常见而且容易出错的环节。特别是当涉及到截取字符串时，mb_strcut函数经常被用来替代substr，以避免截取多字节字符时出现乱码问题。但很多开发者对mb_strcut中字节（byte）和字符（character）的区别存在疑惑，本文将详细解析这两者的差别，帮助你更好地理解和使用该函数。

1. mb_strcut函数简介

mb_strcut是PHP多字节字符串函数库mbstring中的一个函数，作用是截取字符串的一部分。

string mb_strcut ( string $str , int $start [, int $length = NULL [, string $encoding = mb_internal_encoding() ]] )

$str：输入字符串
$start：起始位置，单位是字节（byte）
$length：截取长度，单位也是字节（可选）
$encoding：字符串的编码，默认为内部编码

2. 字节（byte）和字符（character）的区别

字节(byte)：计算机中数据存储的基本单位，1字节=8位。一个字节可以表示一个英文字符，但对于汉字或其他多字节字符，往往需要多个字节。
字符(character)：指一个完整的“符号”，无论其占用多少字节。

例如，在UTF-8编码中，一个汉字通常占3个字节，而一个英文字符占1个字节。

3. mb_strcut以字节为单位截取

mb_strcut的关键点是它的$start和$length参数都是以字节为单位的，这与其他函数（如mb_substr）不同，后者是以字符为单位。

这就意味着，如果你想截取从第3个字符开始的5个字符，用mb_strcut需要计算每个字符占用的字节数，直接用字符索引会导致截取错误，甚至截取出半个多字节字符，造成乱码。

4. 为什么要用mb_strcut？

mb_strcut的优势在于它保证不会截断多字节字符的中间部分。截取时，mb_strcut会自动调整边界，避免截断字符的一部分，防止输出乱码。

举个例子：

<?php
$str = "你好，world！"; // "你好"两个汉字，后面是英文和感叹号
echo mb_strcut($str, 0, 6, "UTF-8"); 
?>

上面代码中，6字节长度正好是“你”和“好”两个汉字的字节数（每个汉字3字节）。mb_strcut会正确截取这两个汉字，而不会截出半个字。

如果使用substr或者以字符为单位的截取函数，可能会截断字节造成乱码。

5. 字节单位的计算示例

了解了mb_strcut的字节单位后，我们可以通过mb_strlen和mb_substr辅助计算字节数。例如：

<?php
$str = "你好，world！";
$encoding = "UTF-8";
for ($i = 0; $i < mb_strlen($str, $encoding); $i++) {
    $char = mb_substr($str, $i, 1, $encoding);
    $byteLen = strlen(mb_convert_encoding($char, "UTF-8", $encoding));
    echo "字符 {$char} 占用字节数: {$byteLen}\n";
}
?>

输出：

字符 你 占用字节数: 3
字符 好 占用字节数: 3
字符 ， 占用字节数: 3
字符 w 占用字节数: 1
字符 o 占用字节数: 1
字符 r 占用字节数: 1
字符 l 占用字节数: 1
字符 d 占用字节数: 1
字符 ！ 占用字节数: 3

这表明多字节字符在UTF-8中占用多个字节。

6. 选择mb_strcut还是mb_substr？

如果你想根据字节长度截取字符串，防止中途截断多字节字符，应该使用mb_strcut。
如果你想根据字符数量截取字符串（无论每个字符占用多少字节），应该使用mb_substr。

7. 注意事项

一定要指定正确的编码，否则字节计算可能出错。
在网络传输、数据库存储或者文件操作中，字符串字节长度往往比字符长度更重要，这时mb_strcut非常实用。
如果不熟悉字节和字符的差别，容易出现截断异常和乱码问题。

<?php
// 示例代码：用mb_strcut截取UTF-8编码字符串的前6个字节（对应两个汉字）
$str = "你好，world！";
$cutStr = mb_strcut($str, 0, 6, "UTF-8");
echo $cutStr; // 输出 "你好"
?>