중국어는 중국 본토, 대만, 싱가포르, 말레이시아 및 기타 지역에서 인기있는 언어이며, 그 글은 한자에 의존합니다. 한자는 독특하고 복잡한 뇌졸중과 급진파로 구성되며 비교적 간단한 문법 구조를 가지고 있으며, 주로 말과 단어 질서의 일부에 의존하여 의미를 표현합니다.
스토리지 및 처리를 위해 중국어는 컴퓨터에 인코딩되어야합니다. 일반적으로 사용되는 인코딩 방법은 주로 다음과 같습니다.
GB2312 인코딩
유니 코드 인코딩
그 중 GB2312는 일반적으로 사용되는 중국어와 기호를 포함하여 약 6763 명의 한자를 포함하는 이중 바이트 인코딩입니다. 유니 코드 인코딩에는 전 세계의 모든 문자가 포함되어 있으며 한자는 일반적으로 두 바이트를 차지합니다.
PHP에서는 정규 표현식을 사용하여 유니 코드 범위의 한자와 일치하여 중국인 만 유지하는 기능을 실현할 수 있습니다.
// 텍스트에서 비 중국어 문자를 삭제하십시오
function remove_non_chinese($text) {
// 한자 만 보존됩니다
$pattern = '/[\x{4e00}-\x{9fa5}]+/u';
return preg_replace($pattern, '', $text);
}
위의 코드는 유니 코드 인코딩 범위 \ x {4e00}-\ x {9fa5}를 사용하여 중국어와 일치하며 플래그 u는 유니 코드 모드가 채택되었음을 의미합니다.
$text = 'Hello, 안녕하세요,나는이다 PHP 개발자。';
비 중국어 문자를 삭제하기 위해 함수 호출 :
$chinese_only = remove_non_chinese($text);
echo $chinese_only; // 산출:안녕하세요나는이다PHP개발자
실행 결과는 영어와 공간이 성공적으로 필터링되어 한자 만 남겨 두었습니다.
이 방법은 주로 단순화 된 중국어와 일치하며 중국어에 대한 지원이 제한적입니다. 또한 기간 및 쉼표와 같은 구두점 마크도 제거됩니다. 특정 응용 프로그램을 적용 할 때는 실제 시나리오를 준수하도록 요구에 따라 정규 표현식을 조정할 수 있습니다.