
利用PHP和CURL高效抓取新闻列表及详情
本文详细阐述如何运用PHP和CURL从目标网站获取新闻列表和新闻详情。主要难点在于:目标网站新闻列表页面的链接为相对路径,需将其转换为绝对路径;以及需要二次抓取,获取新闻详情页的内容。
首先,我们用CURL获取列表页的HTML源码。以下代码演示如何用CURL获取页面内容,并用正则表达式提取新闻标题和相对路径:
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, 'http://www.xx.com/news'); // 请替换为实际的列表页URL
curl_setopt($ch, CURLOPT_REFERER, 'http://www.xx.com'); // 设置Referer,模拟浏览器访问
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36");
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0);
$html = curl_exec($ch);
curl_close($ch);
// 使用正则表达式提取新闻标题和相对路径
preg_match_all('/https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c<\/a>/', $html, $matches);
$newslist = [];
foreach ($matches[0] as $key => $value) {
$newslist[] = [
'title' => trim($matches[2][$key]),
'relative_path' => $matches[1][$key]
];
}
这段代码先用CURL获取列表页的HTML内容。然后,它使用正则表达式/https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c/匹配标签,提取href属性值(相对路径)和标签内的文本(新闻标题)。 请注意,正则表达式需要根据实际HTML结构调整。
立即学习“PHP免费学习笔记(深入)”;
接下来,我们将相对路径转换为绝对路径,并用CURL获取新闻详情页的内容:
$baseUrl = 'http://www.xx.com'; // 请替换为实际的网站根域名
foreach ($newslist as $news) {
$fullUrl = $baseUrl . $news['relative_path'];
$ch = curl_init($fullUrl);
// ... (重复之前的CURL设置) ...
$detailHtml = curl_exec($ch);
curl_close($ch);
// 使用正则表达式提取新闻内容
preg_match('/https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c<\/div>/', $detailHtml, $contentMatch); // 调整正则表达式以匹配新闻内容
$newsContent = isset($contentMatch[1]) ? trim($contentMatch[1]) : '';
// 输出新闻标题、完整路径和内容
echo "标题: " . $news['title'] . "
";
echo "链接: " . $fullUrl . "
";
echo "内容: " . $newsContent . "
";
}
这段代码遍历$newslist数组,将每个新闻的相对路径转换为绝对路径,然后用CURL获取详情页的HTML内容。接着,它使用另一个正则表达式提取新闻内容。 同样,这个正则表达式也需要根据实际HTML结构调整。最后,它输出新闻标题、完整路径和内容。
请注意,代码中使用的正则表达式仅为示例,实际应用中需根据目标网站的HTML结构修改。如果目标网站使用了复杂的HTML结构或动态加载技术,可能需要更复杂的解析方法,例如使用DOM解析器。 此外,为避免对目标网站造成过大压力,建议添加一定的延时机制。
相关文章
php做exe新手怎么选工具_不同需求工具选择指南【汇总】
php转exe用什么工具好_主流php打包工具对比推荐【汇总】
windows怎么搭建php本地环境_小白快速配置php运行环境方法【指南】
php怎么下载安装开启curl扩展_命令行启用方法【技巧】
php在Windows怎么安装_不同版本PHP安装包的选择与配置【方法】
本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门AI工具
更多











