https://my.oschina.net/u/4464660/blog/14317003_网络协议

一、scrapy框架简介
scrapy是一个为了爬取网站数据、提取结构性数据而编写的爬虫框架。它支持异步处理，能够快速抓取大量网页，并且易于扩展。scrapy使用twisted这个事件驱动的网络引擎，可以处理大量的并发请求，从而提高数据抓取的效率。

二、scrapy的核心组件
scrapy框架主要由以下几个核心组件构成：
1scrapy engine（引擎）：负责控制整个数据抓取过程，调度中间件和协调各个组件。
2item pipeline（项目管道）：负责处理抓取到的数据，如清洗、验证和存储。
3downloader middlewares（下载器中间件）：负责处理引擎与下载器之间的请求和响应。
4spiders（爬虫）：负责编写用于抓取网站的代码。
5scheduler（调度器）：负责接收来自引擎的请求，并分配给下载器。
6feed exports（输出格式）：负责将抓取到的数据以不同的格式导出。

三、如何使用scrapy框架进行api数据抓取而不是网页内容抓取？
使用scrapy框架进行api数据抓取与抓取网页内容的过程类似，但主要区别在于数据来源和解析方式。以下是使用scrapy抓取api数据的基本步骤：

1. 定义item
首先，定义你想要抓取的数据结构。这一步与抓取网页内容相同。

python
# myproject/items.py
import scrapy

class apiitem(scrapy.item):
    # 定义你想要抓取的字段
    title = scrapy.field()
    description = scrapy.field()
    # 其他字段...

2. 编写spider
对于api抓取，你需要编写一个spider，该spider将发送http请求到api端点，并处理返回的json或xml响应。scrapy提供了scrapy.request方法来发送请求。

python
# myproject/spiders/apispider.py
import scrapy
from myproject.items import apiitem

class apispider(scrapy.spider):
    name = 'apispider'
    allowed_domains = ['api.example.com']  # api域名
    start_urls = ['http://api.example.com/data']  # api端点

    def parse(self, response):
        # 假设api返回json格式的数据
        for item_data in response.json():
            item = apiitem()
            item['title'] = item_data.get('title')
            item['description'] = item_data.get('description')
            # 处理其他字段...
            yield item

        # 如果api支持分页，处理分页逻辑
        next_page = response.json().get('next_page')
        if next_page:
            yield scrapy.request(next_page, callback=self.parse)

3. 处理api认证
如果api需要认证（如api密钥），你可以在请求中添加认证信息。

python
headers = {
    'authorization': 'bearer your_api_key',
    # 其他可能需要的headers
}

yield scrapy.request(
    url='http://api.example.com/data',
    headers=headers,
    callback=self.parse
)

4. 配置scrapy设置
根据需要配置scrapy的设置，如请求间隔、用户代理等。

# myproject/settings.py

# 基本设置
download_delay = 1 # 请求间隔
user_agent = 'scrapy api spider (+http://www.yourdomain.com)'

# 代理设置
proxy_host = "www.16yun.cn"
proxy_port = "5445"
proxy_user = "16qmsoml"
proxy_pass = "280651"

# 启用代理中间件
downloader_middlewares = {
'scrapy.downloadermiddlewares.httpproxy.httpproxymiddleware': 110,
'scrapy.downloadermiddlewares.useragent.useragentmiddleware': none,
}

# 代理认证（如果需要）
proxy_auth_encoding = 'latin-1'

# 代理用户认证信息
downloader_middlewares_base = {
'scrapy_proxies.randomproxymiddleware': 100,
'scrapy_proxies.rotatingproxymiddleware': 200,
}

5. 运行spider
使用scrapy命令行工具运行你的spider。

bash
scrapy crawl apispider

6. 处理数据
与网页抓取一样，你可以使用item pipeline来处理抓取的数据，如清洗、验证和存储。

7. 异常处理
api抓取过程中可能会遇到各种异常，如网络错误、数据格式错误等。确保你的spider能够妥善处理这些异常。

python
def parse(self, response):
if response.status != 200:
self.logger.error('failed to load api, status code: {}'.format(response.status))
return

try:
# 处理正常响应的逻辑
except exception as e:
self.logger.error('error processing api response: {}'.format(e))

通过以上步骤，你可以使用scrapy框架高效地抓取api数据。与网页抓取相比，api抓取通常更加直接和高效，因为api返回的数据格式通常更加规范和易于解析。

【直播预告】99元的云虚拟机× 9毛9的云原生架构√

当考虑云计算资源成本时，云虚拟机的价格常常难倒不少小企业。这时，有人认为，选择云原生架构可能是一个更经济高效的选择。云原生架构可以通过容器化技术和服务器无状态设... [阅读全文]

Sealos：在公有云和私有云之间，我选择第三条路

【创造者说】 Created in the name of FOSS. 前段时间，上云和下云的争议如火如荼，公有云的价格、安全和透明度备受拷问，私有云的服务、维... [阅读全文]

99元的云虚拟机× 9毛9的云原生架构√

当前都在堆长窗口，还需要 RAG 吗？

自从谷歌的 Gemini 1.5 Pro 发布后，行业内就有不少人在背后“蛐蛐” RAG。一方面是因为，Gemini 的表现确实亮眼。根据官方发布的技术报告，... [阅读全文]

腾讯混元文生图开源模型推出小显存版本，仅需6G显存即可运行

7月4日，腾讯混元文生图大模型（混元DiT）宣布开源小显存版本，仅需6G显存即可运行，对使用个人电脑本地部署的开发者十分友好，该版本与LoRA、ControlN... [阅读全文]

为什么好好的一个开源项目，商业化却往往扑街？

数字化产品如何做商业化？为什么有些开源项目这么优秀，商业化却老是扑街？第四期《开源漫谈》，我们邀请了王晔倞（头哥）和厉启鹏（寈峰），一起来聊聊，开源项目的商业化... [阅读全文]


验证码：

验证码：

https://my.oschina.net/u/4464660/blog/14317003

2024年08月04日 • 网络协议 •我要评论

相关文章:

发表评论