python协程实现高并发的技术详解_Python

协程是实现高并发的一种非常高效的方式，特别适合处理大量i/o操作（如网络请求、文件操作）的场景。它通过在单个线程内实现多个任务的切换来避免阻塞，从而最大限度地利用cpu资源。

核心概念与简单示例

要理解协程如何实现高并发，首先要明白几个关键概念：

协程（coroutine）：一种轻量级的“微线程”，可以在执行过程中暂停（await）并在适当的时候恢复，而不是像普通函数那样一次性执行完毕。这种可挂起的能力是高并发的基石。
事件循环（event loop）：这是协程的“大脑”或调度中心。它负责在单个线程中调度和执行多个协程任务。当一个协程因等待i/o（比如网络响应）而暂停时，事件循环会立刻切换到另一个就绪的协程去执行，从而避免了cpu的空等。
async/await 关键字：async 用于声明一个函数是异步函数（即协程），await 用于在协程内部挂起自身，直到其后面的异步操作完成。

下面是一个简单的例子，演示了如何使用 asyncio 库创建两个协程，让它们“并发”地执行：

import asyncio
import time

async def say_after(delay, what):
    await asyncio.sleep(delay)  # 模拟一个耗时的i/o操作
    print(what)

async def main():
    print(f"程序开始于: {time.strftime('%x')}")

    # 使用 asyncio.gather 来并发运行两个协程
    await asyncio.gather(
        say_after(2, 'hello,'),
        say_after(1, 'world!')
    )

    print(f"程序结束于: {time.strftime('%x')}")

# 运行主协程
asyncio.run(main())

在这个例子中，虽然 hello, 任务设定等待2秒，而 world! 任务只等待1秒，但由于它们是并发执行的，总耗时大约只有2秒，而不是顺序执行时的3秒。输出将会是：

程序开始于: 12:00:00
world!
hello,
程序结束于: 12:00:02

高并发实践：网络请求

协程的真正威力体现在处理成千上万个网络请求时。下面的例子展示了如何使用 aiohttp 库异步地并发获取多个网页内容。

import asyncio
import aiohttp
import time

async def fetch_url(session, url):
    async with session.get(url) as response:
        # 注意：在实际项目中，对于大响应体，应使用 response.content.read(chunk_size) 流式读取
        html = await response.text()
        print(f"从 {url} 获取了 {len(html)} 个字符")

async def main():
    urls = [
        'https://www.python.org',
        'https://www.example.com',
        'https://httpbin.org/get',
        # ... 可以添加更多url
    ]

    # 关键：在整个抓取会话期间，复用同一个 clientsession 实例
    # 其内部维护了一个连接池，可以复用tcp连接，极大提升性能
    async with aiohttp.clientsession() as session:
        tasks = []
        for url in urls:
            # 为每个url创建一个协程任务
            task = asyncio.create_task(fetch_url(session, url))
            tasks.append(task)

        # 等待所有任务完成
        await asyncio.gather(*tasks)

# 记录耗时
start_time = time.time()
asyncio.run(main())
end_time = time.time()
print(f"总共耗时: {end_time - start_time:.2f} 秒")

这个程序几乎在同一时间发起所有请求，总耗时基本等于最慢的那个请求的耗时，而不是所有请求耗时的总和。

协程如何实现高并发：核心技术

协程实现高并发主要依赖于以下两点：

协作式多任务与事件循环

协程是协作式的，这意味着它们会主动在可能发生阻塞的地方（即 await 处）挂起自己，将控制权交还给事件循环。事件循环则不断地检查：有哪些i/o操作已经完成了？哪些协程可以恢复了？然后调度执行那些就绪的协程。这个过程在单线程内完成，完全避免了多线程带来的锁竞争和上下文切换的开销。

非阻塞i/o与连接池

协程需要与非阻塞的i/o系统调用配合才能发挥最大效能。像 aiohttp 这样的库在底层使用了操作系统的非阻塞i/o机制（如linux的 epoll）。当一个协程发起网络请求时，这个请求会以非阻塞方式立即发出，然后协程挂起。事件循环则通过i/o多路复用机制（如 select, poll, epoll）来监听大量socket（网络连接）的状态，一旦某个socket的数据准备好了，事件循环就会唤醒等待该socket的协程继续执行。同时，如第一个搜索结果强调的，连接池（connection pool）也至关重要。通过复用已经建立的tcp连接，可以避免为每个请求都进行耗时的tcp三次握手，这在高并发下能带来数量级的性能提升。

协程、多线程与多进程的对比

理解协程的适用场景很重要，下面的表格对比了三种主要的并发方式：

特性	协程 (coroutine)	多线程 (threading)	多进程 (multiprocessing)
运行模型	单线程内协作式切换	操作系统线程，抢占式调度	独立的操作系统进程
数据共享	共享内存，无需加锁（但需注意任务内状态）	共享内存，需处理线程安全（如锁）	内存不共享，需通过ipc（如队列）
开销	极小，可轻松创建数万协程	较大，线程数受限于内存和上下文切换成本	巨大，进程数通常与cpu核数相关
最佳场景	i/o密集型任务（网络、文件读写）	i/o密集型任务（但协程通常更高效）	cpu密集型任务（计算、图像处理）
编程复杂度	中等（需理解 async/await）	高（需处理复杂的同步问题）	中高（需处理进程间通信）