使用PHP抓取微博数据实现demo及原理解析_Php

实现目标

1. 用户发布的微博内容;

2. 用户发布的时间;

3. 用户的名称; (这里我并没有获取)

使用的工具

voku/simple_html_dom x-path

读取工具 (如果不知道怎么获取元素的xpath, 请百度这里不做赘述~)

安装:

composer require voku/simple_html_dom

实现的原理

当你去直接用file_get_contents去抓取微博的网页内容时, 你会被它的访客系统直接拦截, 所以直接用这个方法是不行的;

所以我采用了curl来获取. 当然,直接获取也是不行的, 所以我们要设置一下请求头, 微博对爬虫类的请求头是不会拒绝的,

所以你可以直接抓取到网页;

请求头设置如下:

       'user-agent: spider'

代码如下:

// 通过这段代码你可以直接获取到微博的(html)网页
    public function curlgetwbdata()
    {
        // 设置脚本超时时间
        set_time_limit(60);
        // 拉取微博地址
        $getwburl = "https://weibo.com/p/1005056447467552/home?profile_ftype=1&is_all=1#_0";
        // 设置curl 请求头
        $header = [
            'user-agent: spider'
        ];
        $ch = curl_init();                                              // 初始化curl
        curl_setopt($ch, curlopt_url, $getwburl);
        curl_setopt($ch, curlopt_returntransfer, 1);
        curl_setopt($ch, curlopt_ssl_verifypeer, false);    // 禁止 curl 验证对等证书
        curl_setopt($ch, curlopt_ssl_verifyhost, false);
        curl_setopt($ch, curlopt_followlocation, 1);
        curl_setopt($ch, curlopt_httpheader, $header);            // 设置请求头
        $wbcontent = curl_exec($ch);
        curl_close($ch);
        // 到这里我们就拿到了微博的网页
        return $wbcontent;
    }

拿到微博的网页内容之后, 我们就要对立面的数据进行提取, 因为并不是所有的数据我们都需要;

这里我们提取微博内容微博发布的时间; 现在需要使用x-path来进行提取;

x-path示例:

div[class='wb_cardwrap wb_feed_type s_bg2 wb_feed_like ']

代码如下:

// 这个方法是
public static function actionaddwbdata(string $wbcontent, string $userid)
{
    $htmldeal = new htmldomparser();    // 处理dom的对象
    $htmldeal-&gt;load($wbcontent);        // 装载文本
    // 微博vip和普通用户的class名不一致
    $wbhtml['normal'] = $htmldeal-&gt;find("div[class='wb_cardwrap wb_feed_type s_bg2 wb_feed_like ']");
    $wbhtml['vip']    = $htmldeal-&gt;find("div[class='wb_cardwrap wb_feed_type s_bg2 wb_feed_vipcover wb_feed_like ']");
    $wbnum = [];
    foreach ($wbhtml as $item =&gt; $key) {
        if (count($key) &lt;= 0) {
            continue;
        }
        $wbnum[$userid][$item] = self::dealwbcontent($key, $userid);
    }
    yii::info("抓取微博日志记录" . '----' . json_encode($wbnum));
    return $wbnum;
}

以上就是使用php抓取微博数据实现demo及原理解析的详细内容，更多关于php抓取微博数据的资料请关注代码网其它相关文章！

以PHP代码为实例详解RabbitMQ消息队列中间件的6种模式

rabbitmq 6种工作模式对rabbitmq 6种工作模式(简单模式、工作模式、订阅模式、路由模式、主题模式、rpc模式)进行场景和参数进行讲解，php代码作为实例。安装客户端…

2024年05月19日 • 编程语言

openai createChatCompletion函数使用实例

实现过程最近在尝试openai的相关函数，所以今天就来盘点盘点下 createchatcompletion 函数，听说是专门为了聊天创立的api，看看是要怎么用... [阅读全文]

PHPStudy hosts文件可能不存在或被阻止打开及同步hosts失败问题

phpstudy hosts文件可能不存在或被阻止打开，同步hosts失败在使用phpstudy建站包时，有时会遇到同步hosts失败的问题，可能是因为host... [阅读全文]

一文带你吃透什么是PHP中的序列化

1. php 中的序列化在 php 中，序列化是将数据结构或对象转换为可以存储或传输的字符串表示的过程，经过序列化之后的对象或者数据结构，就可以保存到数据库、缓... [阅读全文]

一文带你学会使用PHP接口

php 中的 interface 是一种非常重要的特性，它允许开发人员定义一组规范或者约束，以确保类之间的互操作性和兼容性。在本文中，我们将详细介绍 php 中... [阅读全文]

PHP中trait的使用和同时引入多个trait时同名方法冲突的处理方法

php的类是单一继承模式，也就是每个类只能继承一个父类（基类）。但有时需要引入更多通用（共用）的方法，同时这些方法又不适合集成到基类。那么这时，就需要使用其他方法来引入这些方法。其…

2024年05月19日 • 编程语言


验证码：

验证码：

使用PHP抓取微博数据实现demo及原理解析

2024年05月19日 • Php •我要评论

实现目标

使用的工具

实现的原理

相关文章:

以PHP代码为实例详解RabbitMQ消息队列中间件的6种模式

PHP中trait的使用和同时引入多个trait时同名方法冲突的处理方法

发表评论