如何使用mb_strcut 函數實現字符串分頁顯示，方便處理大文本內容？

gitbox 2025-05-26

在處理包含多語言字符的大文本時，PHP 的字符串函數如果不支持多字節編碼，很容易出現字符截斷導致亂碼的情況。尤其是在需要將一段大文本分頁顯示的場景下，如何安全地進行字符串截取成為一個關鍵問題。本文將介紹如何使用mb_strcut函數實現字符串分頁顯示，既保證了字符完整性，也便於前端分頁展示。

為什麼選擇mb_strcut 而不是substr？

substr()是PHP 中常見的字符串截取函數，但它是按字節處理的，如果文本中包含中文、日文或韓文等多字節字符， substr()很容易將字符截斷，導致亂碼。相比之下， mb_strcut()則是為多字節字符集設計的函數，它可以安全地按照字節數截取字符串，同時保持字符不被截斷。

mb_strcut 函數簡介

mb_strcut ( string $string , int $start [, int $length [, string $encoding ]] ) : string

$string ：要處理的字符串。
$start ：起始字節偏移。
$length ：截取的字節數。
$encoding ：字符編碼，一般使用UTF-8 。

注意： mb_strcut()與mb_substr()不同，它是基於字節而不是字符的位置截取字符串，但會保證不截斷字符本身。

實現字符串分頁顯示的思路

設置每頁顯示的最大字節數，例如1000 字節。
使用mb_strcut()結合當前頁碼截取對應的文本。
在分頁時，需結合字符總長度除以每頁字節數來確定總頁數。

示例代碼

function paginateText($text, $page = 1, $bytesPerPage = 1000, $encoding = 'UTF-8') {
    $totalBytes = strlen($text);
    $start = ($page - 1) * $bytesPerPage;

    // 安全地截取字符串，避免字符被截斷
    $paginated = mb_strcut($text, $start, $bytesPerPage, $encoding);

    // 構造分頁數據
    $totalPages = ceil($totalBytes / $bytesPerPage);

    return [
        'content' => $paginated,
        'page' => $page,
        'total_pages' => $totalPages
    ];
}

應用場景示例

假設你有一個存儲在數據庫中的長文章，你想讓用戶在前端逐頁閱讀：

 $fullText = file_get_contents('https://gitbox.net/static/long_article.txt');
$page = isset($_GET['page']) ? (int)$_GET['page'] : 1;

$result = paginateText($fullText, $page);

// 輸出當前頁內容
echo nl2br(htmlspecialchars($result['content']));

// 分頁導航
for ($i = 1; $i <= $result['total_pages']; $i++) {
    echo "<a href=\"?page=$i\">1。 $i 頁</a> ";
}

注意事項

使用mb_strcut()時要確保文本的編碼與函數的編碼參數一致。
如果你希望根據字符數量而不是字節分頁，應該使用mb_substr() 。
在實際使用中，可能還需配合緩存策略優化性能，尤其是在文本內容很大時。

結語

使用mb_strcut()進行字符串分頁顯示，是處理大文本內容時一種兼顧性能和編碼安全的方式。通過它，可以有效防止字符被截斷引發的亂碼問題，為多語言網站帶來更好的用戶體驗。希望本文能幫助你在項目中更高效地處理大文本分頁問題。