如何使用 mb_strcut 函数实现字符串分页显示，方便处理大文本内容？

gitbox 2025-05-26

在处理包含多语言字符的大文本时，PHP 的字符串函数如果不支持多字节编码，很容易出现字符截断导致乱码的情况。尤其是在需要将一段大文本分页显示的场景下，如何安全地进行字符串截取成为一个关键问题。本文将介绍如何使用 mb_strcut 函数实现字符串分页显示，既保证了字符完整性，也便于前端分页展示。

为什么选择 mb_strcut 而不是 substr？

substr() 是 PHP 中常见的字符串截取函数，但它是按字节处理的，如果文本中包含中文、日文或韩文等多字节字符，substr() 很容易将字符截断，导致乱码。相比之下，mb_strcut() 则是为多字节字符集设计的函数，它可以安全地按照字节数截取字符串，同时保持字符不被截断。

mb_strcut 函数简介

mb_strcut ( string $string , int $start [, int $length [, string $encoding ]] ) : string

$string：要处理的字符串。
$start：起始字节偏移。
$length：截取的字节数。
$encoding：字符编码，一般使用 UTF-8。

注意：mb_strcut() 与 mb_substr() 不同，它是基于字节而不是字符的位置截取字符串，但会保证不截断字符本身。

实现字符串分页显示的思路

设置每页显示的最大字节数，例如 1000 字节。
使用 mb_strcut() 结合当前页码截取对应的文本。
在分页时，需结合字符总长度除以每页字节数来确定总页数。

示例代码

function paginateText($text, $page = 1, $bytesPerPage = 1000, $encoding = 'UTF-8') {
    $totalBytes = strlen($text);
    $start = ($page - 1) * $bytesPerPage;

    // 安全地截取字符串，避免字符被截断
    $paginated = mb_strcut($text, $start, $bytesPerPage, $encoding);

    // 构造分页数据
    $totalPages = ceil($totalBytes / $bytesPerPage);

    return [
        'content' => $paginated,
        'page' => $page,
        'total_pages' => $totalPages
    ];
}

应用场景示例

假设你有一个存储在数据库中的长文章，你想让用户在前端逐页阅读：

$fullText = file_get_contents('https://gitbox.net/static/long_article.txt');
$page = isset($_GET['page']) ? (int)$_GET['page'] : 1;

$result = paginateText($fullText, $page);

// 输出当前页内容
echo nl2br(htmlspecialchars($result['content']));

// 分页导航
for ($i = 1; $i <= $result['total_pages']; $i++) {
    echo "<a href=\"?page=$i\">第 $i 页</a> ";
}

注意事项

使用 mb_strcut() 时要确保文本的编码与函数的编码参数一致。
如果你希望根据字符数量而不是字节分页，应该使用 mb_substr()。
在实际使用中，可能还需配合缓存策略优化性能，尤其是在文本内容很大时。

结语

使用 mb_strcut() 进行字符串分页显示，是处理大文本内容时一种兼顾性能和编码安全的方式。通过它，可以有效防止字符被截断引发的乱码问题，为多语言网站带来更好的用户体验。希望本文能帮助你在项目中更高效地处理大文本分页问题。