Wie setze und sehe ich die Codierung regulärer Ausdrücke mit MB_Get_Info mit mb_regex_encoding ein?

gitbox 2025-05-29

Beim Umgang mit Multibyte -Saiten stellt PHP Mbstring -Erweiterungen an, um sicherzustellen, dass die Charaktercodierung korrekt analysiert wird. Regelmäßige Ausdrücke können auch von Codierungseinstellungen beeinflusst werden, insbesondere wenn wir uns mit multibyten-codierten Text wie UTF-8, Shift-JIS oder EUC-JP befassen müssen. Glücklicherweise bietet PHP MB_REGEX_ENCODING () und MB_get_info () Funktionen, um Entwicklern dabei zu helfen, die Codierungseinstellungen regulärer Ausdrücke zu verwalten.

1. Was ist mb_regex_encoding () ?

Die Funktion MB_REGEX_EnDING () kann verwendet werden, um die derzeit für Multibyte -reguläre Ausdrücke verwendete Codierung einzustellen oder abzurufen.

Grammatik:

 mb_regex_encoding(?string $encoding = null): string|bool

Wenn keine Parameter übergeben werden, wird die aktuelle Codierung zurückgegeben.
Wenn ein Codierungsparameter übergeben wird, wird die Codierung des regulären Ausdrucks festgelegt und die vorherige Codierung zurückgegeben.

2. Die Rolle von mb_get_info ()

mb_get_info () wird verwendet, um detaillierte Konfigurationsinformationen in der aktuellen Mbstring -Umgebung zu erhalten, einschließlich Sprache, interner Codierung, HTTP -Eingang/Ausgabe -Codierung und regelmäßiger Expressionscodierung usw.

Verwendung:

 mb_get_info(?string $type = null): array|string|false

Wenn $ type auf 'regex_encoding' eingestellt ist, gibt es die für den reguläre verwendete Codierung zurück.

3. Wie man es zusammen benutzt?

Hier ist ein vollständiges Beispiel, das zeigt, wie die reguläre Codierung mit mb_regex_encoding () festgelegt wird, und zu überprüfen, ob die Einstellungen über mb_get_info () effektiv sind:

 <?php
// Stellen Sie regelmäßige Ausdrücke ein, um sie zu verwenden UTF-8 Codierung
$previousEncoding = mb_regex_encoding('UTF-8');

echo "原本的正则表达式Codierung为：$previousEncoding\n";

// 验证当前正则表达式Codierung是否为 UTF-8
$currentRegexEncoding = mb_get_info('regex_encoding');
echo "当前的正则表达式Codierung为：$currentRegexEncoding\n";

// Probe reguläres Match
$pattern = '\A[\p{Hiragana}ー]+\z'; // Passen Sie Hiragana -Charaktere an
$subject = 'こんにちは';

if (mb_ereg($pattern, $subject)) {
    echo "Erfolgreich übereinstimmen：$subject Es ist Hiragana -Text\n";
} else {
    echo "Match fehlgeschlagen：$subject Nicht entspricht den Hiragana -Regeln\n";
}
?>

Im obigen Beispiel:

Wir haben zuerst die reguläre Expression auf UTF-8 gesetzt.
Verwenden Sie dann mb_get_info (), um die Einstellungen zu überprüfen.
Verwenden Sie dann mb_ereg (), um das Unicode -Attribut zu entsprechen.

Stellen Sie sicher, dass Ihre PHP -Installation die Mbtring -Erweiterung aktiviert und den regulären Unicode -Modus unterstützt.

4. Warum ist das sehr wichtig?

Wenn Sie sich mit Inhalten in mehreren Sprachen befassen, insbesondere bei chinesischen Charakteren, Pseudonymen oder anderen Sonderzeichen, können die Verwendung geeigneter Codierungen verstümmelte oder ungenaue Ergebnisse bei regelmäßigen Übereinstimmungen vermeiden. Wenn Sie reguläre Ausdrücke verwenden, die die aktuelle Textcodierung nicht unterstützen, ist es einfach, übereinstimmende Fehler oder sogar Fehler zu verursachen.

5. häufig gestellte Fragen

F: Wenn ich die Codierung des regulären Ausdrucks nicht explizit festlegt, was ist der Standard? A: Die Standardkodierung für interne Zeichen wird verwendet (gesetzt von mb_internal_encoding () ), aber der spezifische Wert kann je nach Systemumgebung variieren. Daher wird empfohlen, sie explizit festzulegen.
F: Wie kann ich überprüfen, ob PHP Mbstring unterstützt? A: Sie können phpinfo () ausführen oder erweitert_load ('mbstring') zum Überprüfen.

6. Weitere Lesen

PHP -offizielle Mbtring -Dokumentation
Reguläre Ausdrücke und Unicode
mb_regex_encoding Beschreibung

Ähnlich

Neueste Artikel