
1. 理解 curl_multi 的并发机制
curl_multi 是 php 中用于并行执行多个 curl 请求的强大工具。它通过一个主句柄(multi handle)管理多个独立的 curl 句柄(individual handle),从而允许应用程序同时发起并处理多个 http 请求,显著提高数据抓取或 api 调用的效率。其基本工作流程是:初始化一个 curl_multi 句柄,添加所有待处理的 curl 句柄,然后在一个循环中反复调用 curl_multi_exec 来执行请求,并使用 curl_multi_select 来等待 i/o 活动。
2. curl_multi_select 的行为与性能挑战
在 curl_multi 的循环中,curl_multi_exec 函数负责执行请求,而 curl_multi_select 函数则用于等待套接字活动,即等待某个 cURL 句柄完成数据传输或有新的数据可读写。理想情况下,curl_multi_select 应该阻塞执行,直到有活动发生或达到指定的超时时间。然而,在某些 PHP 版本或特定环境下,curl_multi_select 可能表现为非阻塞(即立即返回),或者其超时参数(如 0.05 秒)并未被完全尊重。
当 curl_multi_select 无法有效阻塞时,即使没有 I/O 活动,循环也会频繁地空转,导致 CPU 占用率升高,并且在两次有效的请求处理之间产生不必要的延迟,从而影响整体性能。这使得开发者难以判断请求是否以最快速度完成,以及是否存在“浪费时间”的情况。
3. 健壮的 curl_multi 循环结构
为了克服 curl_multi_select 的潜在行为问题,并确保并发请求的高效处理,推荐采用一个包含两个嵌套循环的结构。这种结构能够更精确地控制请求的执行和等待逻辑,避免空转。
0),可以继续执行 curl_multi_exec
break;
}
}
} while ($running > 0); // 只要还有请求在运行,就继续循环
$endTime = microtime(true);
echo "所有请求完成,耗时: " . round($endTime - $startTime, 4) . " 秒\n";
// 4. 获取结果并清理句柄
$results = [];
foreach ($curlHandles as $ch) {
$results[curl_getinfo($ch, CURLINFO_EFFECTIVE_URL)] = curl_multi_getcontent($ch);
curl_multi_remove_handle($mh, $ch);
curl_close($ch);
}
curl_multi_close($mh);
// 打印部分结果以验证
// foreach ($results as $url => $content) {
// echo "URL: " . $url . ", Content Length: " . strlen($content) . "\n";
// }
?>4. 代码解析与注意事项
-
外层 do...while ($running > 0) 循环:
立即学习“PHP免费学习笔记(深入)”;
- 这个循环是整个并发处理的核心。它会持续执行,直到 curl_multi_exec 返回 running 变量为 0,表示所有 cURL 句柄都已完成其传输任务。
- curl_multi_exec($mh, $running): 这是关键函数。它尝试执行所有在 multi 句柄中的 cURL 请求。$running 变量会实时更新为当前仍在进行中的请求数量。
- 错误检查:$mrc != CURLM_OK 用于捕获 curl_multi_exec 自身的错误。
-
内层 while (true) 循环与 curl_multi_select:
GStreamer应用程序开发手册 中文pdf版下载GStreamer是一个非常强大而且通用的流媒体应用程序框架。GStreamer 所具备的很多优点来源于其框架的模块化: GStreamer 能够无缝的合并新的插件。但是, 由于追求模块化和高效率,,使得GStreamer 在整个框架上变的复杂, 也同时因为复杂度的提高, 使得开发一个新的应用程序显得不是那么的简单。 这个指南试图帮助你了解GStreamer 的框架(version 0.10.3.1)以方便你在GStreamer 框架的基础上做开发。第一章节将重点关注如何开发一个简单的音频播放器, 通过
- 目的:此内部循环的目的是在没有 I/O 活动时,避免外层循环的忙等(busy-waiting)。它负责等待网络活动,或者在指定超时后继续。
- curl_multi_select($mh, $selectTimeout): 这是等待 I/O 活动的函数。
- 如果它返回 > 0,表示有句柄准备好进行 I/O 操作(例如,数据已到达或可以发送)。此时应立即跳出内层循环,让外层循环再次调用 curl_multi_exec 来处理这些活动。
- 如果返回 0,表示在 $selectTimeout 时间内没有检测到任何活动。这可能是 curl_multi_select 非阻塞行为的表现,或者确实没有活动。在这种情况下,为了防止 CPU 占用过高,我们应该使用 usleep() 暂停一小段时间。
- 如果返回 -1,表示 select 操作本身发生了错误。应进行错误处理并退出。
- usleep($selectTimeout * 1000000): 如果 curl_multi_select 返回 0(无活动),并且我们希望避免 CPU 忙等,可以引入 usleep。usleep 的参数是微秒,所以 $selectTimeout 乘以 1000000 转换为微秒。在示例中,我将其改为一个较小的固定值 10000 微秒(10毫秒),以在没有活动时提供一个短暂的暂停,避免过于频繁的空转,同时保持响应性。
-
超时参数的权衡:
- curl_multi_select 的超时参数 ($selectTimeout) 需要仔细权衡。如果设置过小(如 0.05 秒),在没有活动时可能导致频繁的 select 调用和 usleep,增加上下文切换开销。如果设置过大,可能会在有活动时延迟 curl_multi_exec 的调用,从而增加整体完成时间。
- 考虑到 PHP 中 curl_multi_select 的行为不确定性,一个较长的 $selectTimeout (例如 1.0 秒) 配合 usleep 在 selectResult === 0 时短暂暂停,是一个比较稳健的策略。
-
错误处理:
- 务必对 curl_multi_exec 和 curl_multi_select 的返回值进行检查。使用 curl_multi_strerror() 获取详细的错误信息,并根据业务需求进行日志记录或异常抛出。
-
资源清理:
- 在所有请求完成后,必须调用 curl_multi_remove_handle() 从 multi 句柄中移除每个 cURL 句柄,并调用 curl_close() 关闭每个独立的 cURL 句柄,最后调用 curl_multi_close() 关闭 multi 句柄,以释放系统资源。
5. 总结
通过采用上述的双循环结构,开发者可以更有效地管理 PHP 中的 curl_multi 并发请求。这种方法解决了 curl_multi_select 可能存在的非阻塞问题,通过在无活动时引入短暂的 usleep 来避免 CPU 忙等,从而确保请求处理的效率和系统的稳定性。虽然 API 自身的响应速度和网络延迟是影响总耗时的主要因素,但优化 curl_multi 的循环逻辑能够最大限度地减少客户端侧的等待时间,使并发请求尽可能快地完成。在实际应用中,还需根据具体的网络环境、API 特性以及服务器资源,对超时参数和 usleep 时间进行适当的调整和测试。










