PHP strcoll 函數在不同區域設置（locale）下表現有何差異？

gitbox 2025-05-30

在開發多語言應用時，我們經常會涉及字符串比較的問題。 PHP 提供了多種方式來比較字符串，其中strcoll()函數特別有趣，因為它會根據當前的區域設置（locale）來決定比較的結果。本文將探討strcoll()在不同區域設置下的表現差異，並通過具體的代碼示例加以說明。

一、什麼是strcoll() ？

strcoll()是PHP 的一個內建函數，用於基於區域設置對兩個字符串進行比較。它返回的結果與strcmp()類似：

返回0 表示兩個字符串在當前locale 下相等；
返回小於0 表示第一個字符串在排序中排在第二個之前；
返回大於0 表示第一個字符串在排序中排在第二個之後。

與strcmp()不同的是， strcoll()會考慮locale 的規則，比如字符的排序方式、大小寫敏感性以及一些特殊字符的處理。

二、設置locale 的方法

在PHP 中，可以使用setlocale()函數設置當前的區域設置。例如：

 setlocale(LC_COLLATE, 'en_US.UTF-8');

LC_COLLATE是專門用於影響字符串比較和排序的類別。其他類別如LC_TIME 、 LC_MONETARY等影響的是時間、貨幣等格式。

三、不同區域設置下的比較差異

我們以德語和英語兩個locale 為例，看一下strcoll()的表現差異。

 setlocale(LC_COLLATE, 'en_US.UTF-8');
echo strcoll("z", "?"); // 輸出結果 A

setlocale(LC_COLLATE, 'de_DE.UTF-8');
echo strcoll("z", "?"); // 輸出結果 B

在英語中，"z" 排在"?" 之前，而在德語中，由於"?" 被視為變音字母，它可能被排在"z" 之後甚至"a" 附近。因此，輸出結果A 和B 是可能不同的。

四、實際案例：多語言排序

假設我們有一組帶有重音符號的名稱，想要根據用戶的語言偏好對其排序。代碼如下：

 $names = ["Zoe", "?nne", "Anna", "émile"];

setlocale(LC_COLLATE, 'en_US.UTF-8');
usort($names, function($a, $b) {
    return strcoll($a, $b);
});
print_r($names);

在en_US.UTF-8下，排序可能為：

 Array
(
    [0] => Anna
    [1] => émile
    [2] => Zoe
    [3] => ?nne
)

如果換成de_DE.UTF-8 ：

 setlocale(LC_COLLATE, 'de_DE.UTF-8');

則可能得到：

 Array
(
    [0] => Anna
    [1] => ?nne
    [2] => émile
    [3] => Zoe
)

五、如何獲得可用的locale？

在某些系統中，可用的locale 可能有限。可以通過在命令行運行以下命令來查看：

 locale -a

或者，在PHP 中嘗試設定locale 後用setlocale()的返回值判斷是否成功。

六、開發建議

始終檢查setlocale()的返回值，確保locale 被正確設置；
如果需要對用戶輸入進行語言敏感的排序，務必使用strcoll()而不是strcmp() ；
為了跨平台一致性，建議在應用中清晰指定所需的locale 並在服務器配置中確保支持這些設置；
如果使用strcoll()的排序結果用於前端展示（如聯繫人列表、國家名等），請在測試中模擬不同locale 以確保排序邏輯符合預期。

七、在線演示與調試

你可以使用以下地址嘗試不同locale 的排序效果：

 https://gitbox.net/locale-strcoll-demo.php

頁面支持選擇不同的locale 並輸入字符串對進行比較，方便你直觀地了解不同locale 下strcoll()的表現。

結語

strcoll()是一個非常有用但經常被忽視的函數。通過合理設置locale，它可以幫助我們實現更符合用戶語言習慣的字符串比較邏輯。在多語言項目中善用strcoll() ，可以顯著提升用戶體驗。