如何用PHP和CURL高效采集新闻列表和详情？_正则表达式

如何用php和curl高效采集新闻列表和详情？

利用php和curl高效抓取新闻列表及详情

本文详细阐述如何运用php和curl从目标网站获取新闻列表和新闻详情。主要难点在于：目标网站新闻列表页面的链接为相对路径，需将其转换为绝对路径；以及需要二次抓取，获取新闻详情页的内容。

首先，我们用curl获取列表页的html源码。以下代码演示如何用curl获取页面内容，并用正则表达式提取新闻标题和相对路径：

$ch = curl_init();
curl_setopt($ch, curlopt_url, 'http://www.xx.com/news'); // 请替换为实际的列表页url
curl_setopt($ch, curlopt_referer, 'http://www.xx.com'); // 设置referer，模拟浏览器访问
curl_setopt($ch, curlopt_useragent, "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) chrome/86.0.4240.198 safari/537.36");
curl_setopt($ch, curlopt_returntransfer, 1);
curl_setopt($ch, curlopt_ssl_verifyhost, 0);
curl_setopt($ch, curlopt_ssl_verifypeer, 0);
$html = curl_exec($ch);
curl_close($ch);

// 使用正则表达式提取新闻标题和相对路径
preg_match_all('/<a href="https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c" title=".+?">https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c<\/a>/', $html, $matches);
$newslist = [];
foreach ($matches[0] as $key => $value) {
  $newslist[] = [
    'title' => trim($matches[2][$key]),
    'relative_path' => $matches[1][$key]
  ];
}

登录后复制

这段代码先用curl获取列表页的html内容。然后，它使用正则表达式/https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c/匹配标签，提取href属性值（相对路径）和标签内的文本（新闻标题）。请注意，正则表达式需要根据实际html结构调整。

接下来，我们将相对路径转换为绝对路径，并用curl获取新闻详情页的内容：

$baseurl = 'http://www.xx.com'; // 请替换为实际的网站根域名
foreach ($newslist as $news) {
    $fullurl = $baseurl . $news['relative_path'];
    $ch = curl_init($fullurl);
    // ... (重复之前的curl设置) ...
    $detailhtml = curl_exec($ch);
    curl_close($ch);

    // 使用正则表达式提取新闻内容
    preg_match('/<div class="content text-xs">https://www.php.cn/link/01bebc8e971d09cb90cf5756b340f24c<\/div>/', $detailhtml, $contentmatch); //  调整正则表达式以匹配新闻内容
    $newscontent = isset($contentmatch[1]) ? trim($contentmatch[1]) : '';

    // 输出新闻标题、完整路径和内容
    echo "标题: " . $news['title'] . "<br><br>";
    echo "链接: " . $fullurl . "<br><br>";
    echo "内容: " . $newscontent . "<br><br><br>";
}

登录后复制

这段代码遍历$newslist数组，将每个新闻的相对路径转换为绝对路径，然后用curl获取详情页的html内容。接着，它使用另一个正则表达式提取新闻内容。同样，这个正则表达式也需要根据实际html结构调整。最后，它输出新闻标题、完整路径和内容。

请注意，代码中使用的正则表达式仅为示例，实际应用中需根据目标网站的html结构修改。如果目标网站使用了复杂的html结构或动态加载技术，可能需要更复杂的解析方法，例如使用dom解析器。此外，为避免对目标网站造成过大压力，建议添加一定的延时机制。

以上就是如何用php和curl高效采集新闻列表和详情？的详细内容，更多请关注代码网其它相关文章！

Indiegogo网站URL爬取失败：如何排查代码及数据问题？

indiegogo网站产品url爬取失败及解决方案本文分析了从indiegogo网站爬取产品url失败的问题，并提供详细的排查步骤和解决方案。代码尝试从in... [阅读全文]

Linux strings命令支持正则表达式吗

strings 命令本身不支持正则表达式。strings 命令主要用于从二进制文件中提取可打印的字符串。它的基本语法如下：strings [选项] 文件...登... [阅读全文]

如何使用Composer确保代码安全：captainhook/secrets库的应用

可以通过一下地址学习composer：学习地址在团队开发中，如何确保代码仓库中的敏感信息不被泄露是一个关键问题。我曾经在一个项目中遇到过这样的困扰：团队成员不小... [阅读全文]

PHP字符串数学表达式求值：如何安全高效地计算类似'9+8'的表达式？

php字符串数学表达式求值：安全高效处理类似'9+8'的表达式在php开发中，经常需要处理包含在字符串中的数学表达式，例如字符串变量$ss = '9+8'，如何... [阅读全文]

在WonderPen中如何删除空格- WonderPen移除空格详细教程

wonderpen高效文档编辑：轻松去除多余空格wonderpen是一款功能强大的思维导图和文档编辑软件，它提供丰富的格式设置和便捷的文本处理功能，例如快速去除... [阅读全文]

如何使用正则表达式匹配非[url]标签之外的@用户名？

如何仅匹配非[url]标签内的@用户名？本文探讨如何从包含多种用户名标记的文本中，提取仅位于[url]标签之外的@用户名。文本示例如下：[url=/spac... [阅读全文]


验证码：

验证码：

如何用PHP和CURL高效采集新闻列表和详情？

2025年03月30日 • 正则表达式 •我要评论

相关文章:

发表评论