MB_SCRUBを使用した後、元のエンコードを変更しておくにはどうすればよいですか？

gitbox 2025-08-13

Multibyte文字列を扱うとき、 MB_SCRUBは非常に実用的な機能であり、違法なキャラクターを含む文字列をクリーンアップし、後続の処理中にエンコードの問題によりプログラムがクラッシュするのを防ぎます。ただし、 MB_SCRUBを使用した後、多くの開発者が問題に遭遇します。これにより、特にアプリケーションが特定のエンコーディング（Shift_jis、ISO-8859-1などなど）に依存する場合、システムのエンコード混乱が発生する可能性があります。

それでは、 MB_SCRUBを使用して文字列をきれいにした後、元のエンコードを変更しておくにはどうすればよいですか？

問題分析

まず、 MB_SCRUBの基本的な使用法を見てみましょう。

 <span><span><span class="hljs-variable">$clean</span></span><span> = </span><span><span class="hljs-title function_ invoke__">mb_scrub</span></span><span>(</span><span><span class="hljs-variable">$dirty_string</span></span><span>);
</span></span>

エンコーディングが指定されていない場合、PHPはデフォルトで内部文字エンコードを使用します（通常はUTF-8）。 MB_SCRUBは、文字列を指定されたエンコードに変換しようとします。変換が失敗した場合は、違法文字をu+fffd（？）に置き換えます。ただし、元の文字列のエンコードではなく、返品値のエンコードは、多くの場合、渡すときに指定されたエンコードです。

したがって、文字列が元々Shift_jisエンコードされていて、デフォルトのMB_SCRUB（$ str）でクリーニングした場合、UTF-8エンコードされた文字列になります。

解決策：元のエンコードを明示的に指定します

この問題を解決するには、最初に元の文字列のエンコードを検出し、次にMB_SCRUBが呼び出されたときにエンコードを明示的に渡す必要があります。例えば：

 <span><span><span class="hljs-variable">$original_encoding</span></span><span> = </span><span><span class="hljs-title function_ invoke__">mb_detect_encoding</span></span><span>(</span><span><span class="hljs-variable">$dirty_string</span></span><span>, </span><span><span class="hljs-title function_ invoke__">mb_list_encodings</span></span><span>(), </span><span><span class="hljs-literal">true</span></span><span>);
</span><span><span class="hljs-variable">$clean_string</span></span><span> = </span><span><span class="hljs-title function_ invoke__">mb_scrub</span></span><span>(</span><span><span class="hljs-variable">$dirty_string</span></span><span>, </span><span><span class="hljs-variable">$original_encoding</span></span><span>);
</span></span>

このようにして、 MB_SCRUBは文字列を理解するエンコード方法を把握し、戻り値も同じエンコードを使用します。

注： MB_DETECT_ENCODINGの精度は、文字列コンテンツと渡されたエンコードされたリストに依存します。いくつかのあいまいなエンコーディングは正しく識別されない場合があります。コンテキストに基づいて、スコープを可能な限り明確に定義することをお勧めします。

より厳格な例

<span><span><span class="hljs-function"><span class="hljs-keyword">function</span></span></span><span> </span><span><span class="hljs-title">clean_preserve_encoding</span></span><span>(</span><span><span class="hljs-params"><span class="hljs-keyword">string</span></span></span><span> </span><span><span class="hljs-variable">$input</span></span><span>): </span><span><span class="hljs-title">string</span></span><span> {
    </span><span><span class="hljs-variable">$encoding</span></span><span> = </span><span><span class="hljs-title function_ invoke__">mb_detect_encoding</span></span><span>(</span><span><span class="hljs-variable">$input</span></span><span>, [</span><span><span class="hljs-string">'SJIS'</span></span><span>, </span><span><span class="hljs-string">'UTF-8'</span></span><span>, </span><span><span class="hljs-string">'ISO-8859-1'</span></span><span>, </span><span><span class="hljs-string">'EUC-JP'</span></span><span>], </span><span><span class="hljs-literal">true</span></span><span>);
    </span><span><span class="hljs-keyword">if</span></span><span> (!</span><span><span class="hljs-variable">$encoding</span></span><span>) {
        </span><span><span class="hljs-comment">// エンコーディングを検出できません，デフォルトで使用されます UTF-8，または例外をスローします</span></span><span>
        </span><span><span class="hljs-variable">$encoding</span></span><span> = </span><span><span class="hljs-string">'UTF-8'</span></span><span>;
    }
    </span><span><span class="hljs-keyword">return</span></span><span> </span><span><span class="hljs-title function_ invoke__">mb_scrub</span></span><span>(</span><span><span class="hljs-variable">$input</span></span><span>, </span><span><span class="hljs-variable">$encoding</span></span><span>);
}
</span></span>

この関数は、入力文字列のエンコードを保持するために最善を尽くし、違法な文字がコンテンツに表示された場合でも、エンコードの一貫性を損傷しません。

追加の提案

常に元のエンコードを記録します：システムが複数のエンコーディングをサポートする必要がある場合、データストリーム内の各テキストのエンコードを記録することは良い習慣です。
UTF-8に優先順位が与えられます。入力環境と出力環境を制御できる場合は、複数のエンコーディングを混合することによって引き起こされる複雑さを避けるために、UTF-8エンコードをできるだけ均一に使用することをお勧めします。
極端な状況をテストする：特に外部データを処理する場合は、混合違法バイト、間違ったbom、一貫性のないエンコードなどをテストする必要があります。

要約します

MB_SCRUBで違法な文字列を掃除することは、マルチバイト文字列の安全な取り扱いの重要な手段ですが、明示的に指定されていない場合、文字列のエンコード形式を変更する可能性があります。この問題を回避するために、 MB_SCRUBを呼び出すときに元のエンコードを明示的に指定する必要があります。

これにより、データの一貫性を維持するだけでなく、エンコード変換の副作用も減少します。これは、多言語およびマルチコーディング互換アプリケーションを開発する際に不可欠な実用的なスキルです。