Position actuelle: Accueil> Derniers articles> PHP implémente un moyen simple d'extraire uniquement les caractères chinois

PHP implémente un moyen simple d'extraire uniquement les caractères chinois

gitbox 2025-08-02

Qu'est-ce que le chinois?

Le chinois est une langue populaire en Chine continentale, à Taïwan, à Singapour, en Malaisie et à d'autres régions, et son écriture repose sur des caractères chinois. Les caractères chinois sont composés de traits et de radicaux uniques et complexes, et ont une structure grammaticale relativement simple, en s'appuyant principalement sur une partie de la parole et de l'ordre des mots pour exprimer le sens.

Encodage de caractère chinois

La langue chinoise doit être codée dans les ordinateurs pour le stockage et le traitement. Les méthodes de codage couramment utilisées sont principalement:

Encodage GB2312

Encodage Unicode

Parmi eux, GB2312 est un codage à deux octets, couvrant environ 6763 caractères chinois, y compris des caractères et des symboles chinois couramment utilisés. Le codage Unicode contient tous les personnages du monde entier, et les caractères chinois occupent généralement deux octets.

Comment extraire uniquement les caractères chinois?

En PHP, des expressions régulières peuvent être utilisées pour correspondre aux caractères chinois dans la gamme Unicode, réalisant ainsi la fonction de conserver uniquement le chinois.

 // Supprimer les caractères non chinois dans le texte
function remove_non_chinese($text) {
  // Seuls les caractères chinois sont préservés
  $pattern = '/[\x{4e00}-\x{9fa5}]+/u';
  return preg_replace($pattern, '', $text);
}

Le code ci-dessus utilise la plage de codage Unicode \ x {4e00} - \ x {9fa5} pour correspondre aux caractères chinois, et l'indicateur U signifie que le mode Unicode est adopté.

Exemple description

 $text = 'Hello, Bonjour,Je suis un PHP Promoteur。';

Appeler la fonction pour supprimer les caractères non chinois:

 $chinese_only = remove_non_chinese($text);
echo $chinese_only; // Sortir:BonjourJe suis unPHPPromoteur

Les résultats en cours montrent que l'anglais et les espaces ont été filtrés avec succès, ne laissant que des caractères chinois.

Recommandations pour une utilisation

Cette méthode correspond principalement aux caractères chinois simplifiés et a un support limité pour les caractères chinois traditionnels. De plus, les marques de ponctuation telles que les périodes et les virgules seront également supprimées. Lors de l'application de l'application spécifique, l'expression régulière peut être ajustée en fonction des besoins pour s'assurer qu'il est conforme au scénario réel.