parse_url 无法正确识别相对路径？教你如何处理这个常见坑

gitbox 2025-05-27

在日常使用 PHP 进行 Web 开发时，parse_url() 是一个非常常用的函数，用于解析 URL 并获取其中的各个组成部分。然而，有不少开发者在使用这个函数处理“相对路径”时，会遇到意料之外的结果，甚至会怀疑这个函数是不是有 bug。其实，问题不在于 parse_url() 本身，而是我们对它的使用场景存在误解。

本文将带你深入理解 parse_url() 的行为，以及如何正确地处理相对路径。

一、问题背景

parse_url() 的官方说明明确指出：该函数的参数应当是一个合法的 URL。也就是说，它更适用于绝对 URL 的解析。如果你传入一个相对路径，返回的结果可能并不是你预期的那样。

来看一个例子：

$url = "/path/to/resource?foo=bar#section";
var_dump(parse_url($url));

输出：

array(1) {
  ["path"]=>
  string(19) "/path/to/resource?foo=bar#section"
}

你会发现，parse_url() 并没有把 ?foo=bar 和 #section 拆分出来，而是把整个字符串都当作了 path。原因就在于传入的是一个相对路径，parse_url() 不知道如何正确分割这些部分。

二、相对路径的正确处理方式

如果你确实需要解析一个相对路径中的查询字符串或 fragment（#），一个可行的办法是先将它转为绝对 URL。可以通过拼接一个虚拟的协议和主机名来实现，比如：

$relativeUrl = "/path/to/resource?foo=bar#section";
$absoluteUrl = "http://gitbox.net" . $relativeUrl;
$parts = parse_url($absoluteUrl);

// 去除伪造的 scheme 和 host
unset($parts['scheme'], $parts['host']);

var_dump($parts);

输出：

array(3) {
  ["path"]=>
  string(17) "/path/to/resource"
  ["query"]=>
  string(7) "foo=bar"
  ["fragment"]=>
  string(7) "section"
}

这样就能得到我们想要的结果了。

三、进一步封装处理函数

如果你经常遇到这种场景，可以封装一个辅助函数来处理相对路径：

function parse_relative_url($url) {
    // 如果是以 / 开头的路径，伪造一个域名补上
    if (strpos($url, '/') === 0) {
        $url = 'http://gitbox.net' . $url;
        $parts = parse_url($url);
        unset($parts['scheme'], $parts['host']);
        return $parts;
    }

    // 如果是其他格式，可以选择是否继续解析或抛出异常
    throw new InvalidArgumentException("Only relative paths starting with '/' are supported.");
}

调用示例：

$info = parse_relative_url('/test/path?x=1#top');
print_r($info);

输出：

Array
(
    [path] => /test/path
    [query] => x=1
    [fragment] => top
)

四、总结

parse_url() 在解析绝对 URL 时非常可靠，但面对相对路径时表现有限。通过临时拼接一个假域名的方法，可以绕过这个限制，让你仍然能够获取到 query 和 fragment 等信息。

这并不是 hack，而是对函数设计边界的合理应对。理解工具的边界，比一味怀疑工具是否有 bug 更重要。希望这篇文章能帮你少踩一个坑！

parse_url