Le chinois est une langue populaire en Chine continentale, à Taïwan, à Singapour, en Malaisie et à d'autres régions, et son écriture repose sur des caractères chinois. Les caractères chinois sont composés de traits et de radicaux uniques et complexes, et ont une structure grammaticale relativement simple, en s'appuyant principalement sur une partie de la parole et de l'ordre des mots pour exprimer le sens.
La langue chinoise doit être codée dans les ordinateurs pour le stockage et le traitement. Les méthodes de codage couramment utilisées sont principalement:
Encodage GB2312
Encodage Unicode
Parmi eux, GB2312 est un codage à deux octets, couvrant environ 6763 caractères chinois, y compris des caractères et des symboles chinois couramment utilisés. Le codage Unicode contient tous les personnages du monde entier, et les caractères chinois occupent généralement deux octets.
En PHP, des expressions régulières peuvent être utilisées pour correspondre aux caractères chinois dans la gamme Unicode, réalisant ainsi la fonction de conserver uniquement le chinois.
// Supprimer les caractères non chinois dans le texte
function remove_non_chinese($text) {
// Seuls les caractères chinois sont préservés
$pattern = '/[\x{4e00}-\x{9fa5}]+/u';
return preg_replace($pattern, '', $text);
}
Le code ci-dessus utilise la plage de codage Unicode \ x {4e00} - \ x {9fa5} pour correspondre aux caractères chinois, et l'indicateur U signifie que le mode Unicode est adopté.
$text = 'Hello, Bonjour,Je suis un PHP Promoteur。';
Appeler la fonction pour supprimer les caractères non chinois:
$chinese_only = remove_non_chinese($text);
echo $chinese_only; // Sortir:BonjourJe suis unPHPPromoteur
Les résultats en cours montrent que l'anglais et les espaces ont été filtrés avec succès, ne laissant que des caractères chinois.
Cette méthode correspond principalement aux caractères chinois simplifiés et a un support limité pour les caractères chinois traditionnels. De plus, les marques de ponctuation telles que les périodes et les virgules seront également supprimées. Lors de l'application de l'application spécifique, l'expression régulière peut être ajustée en fonction des besoins pour s'assurer qu'il est conforme au scénario réel.