:文字列(UTF-8など)に適しているバイトで文字列をインターセプトして、単に文字をインターセプトすることによって引き起こされるコードの問題を回避します。
MB_STRPOS :文字列内のサブストリングの最初の発生を見つけ、文字オフセットを返します。
substrまたはstrposを使用してマルチバイト文字列を処理する場合、これらの関数は文字ではなくバイトに基づいて文字列を処理するため、文字化けまたは傍受が発生する可能性があります。 MB_SERIES関数は、そのような問題を回避するマルチバイトエンコードをサポートします。
特定のキーワードから固定長のコンテンツを傍受する必要があるUTF-8エンコードされた文字列があるとします。 MB_STRPOSを使用して最初にキーワードの位置を見つけ、次にMB_STRCUTを使用してインターセプトできます。
<?php
// サンプル文字列(中国語に含まれています)
$text = "訪問してください gitbox.net Webサイト,もっとエキサイティングなコンテンツを入手してください!";
// キーワード
$keyword = "gitbox.net";
// 查找キーワード位置
$pos = mb_strpos($text, $keyword, 0, 'UTF-8');
if ($pos !== false) {
// 从キーワード开始,傍受されたフォローアップ20バイトコンテンツ
$cutStr = mb_strcut($text, $pos, 20, 'UTF-8');
echo $cutStr;
} else {
echo "キーワード未找到。";
}
?>
上記のコードで:
MB_STRPOS文字列内のキーワードの文字位置を見つけます。
MB_STRCUTは、バイトで文字列をインターセプトし、マルチバイト文字がカットされないようにします。
複数のトラバーサルを避けてください<br> 最初にMB_STRPOSを使用して、盲目の傍受や無効な操作を避けるために正確な位置を見つけます。
文字の完全性を確保します
MB_STRCUTはバイトで傍受され、マルチバイト文字が切り捨てられないようにするのを防ぐことができます。
エンコード変換オーバーヘッドを減らします<br> 追加の変換エンコード、パフォーマンスを節約することなく、マルチバイトセキュリティ関数を直接使用します。
UTF-8などのマルチバイトエンコードされたテキストを処理する場合、 MB_SERIES関数が推奨されます。
キーワードを含む文字列を傍受するときは、最初にキーワードを見つけてから、正確なコンテンツを確保するためにそれらを傍受します。
MB_STRCUTの長さ単位はバイトであり、インターセプトの長さは実際のニーズに応じて調整する必要があることに注意してください。
この記事で導入された方法を通して、マルチバイト文字列を処理するときにプログラムの実行効率を改善しながら、データの精度を確保するだけではありません。