Python爬虫(selenium)从网站获取信息并存入数据库(mysql)_Python

简介： 在本篇博客中，我们将介绍如何使用python编写一个简单的网络爬虫，从指定网站上获取图书信息，并将这些信息存入数据库。这个项目涉及到python编程、selenium爬虫技术以及数据库操作等内容，适合对这些领域感兴趣的初学者。

1. 什么是网络爬虫？ 网络爬虫（也称为网络蜘蛛、网络机器人）是一种自动获取网页内容的程序，它模拟人的行为去各个网站抓取数据或返回数据。通过网络爬虫技术，我们可以从互联网中获取丰富的数据，为后续的数据分析和处理提供支持。

2. 项目概述： 本次项目爬取的是一个图书网站：scrape book，我们的项目包括四个主要部分：

conn.py：连接数据库模块，负责与mysql数据库建立连接。
create_table.py：创建数据表模块，创建一个名为book_info的数据表，用于存储图书信息。
insert_info.py：插入数据模块，向数据表中插入图书信息。
main.py：主程序模块，负责爬取网页数据，并调用插入数据模块将信息存入数据库。

3. 项目详解：

具体爬取内容：

爬取一个网站的前提是了解这个网站的内容，以及网页布局，最后确定自己需要爬取的内容等。

首先准备工作：

工具（主要是方便查看数据库内容）：navicat premium 是一款功能强大的数据库管理工具，提供了用户友好的图形用户界面，使数据库管理变得更加简单和直观。为了更直观的查看数据库里面各种信息，建议安装这个软件，连接也很简单，点新建连接，就会弹出如下页面，连接名随意，其他都不用改，密码就是你安装mysql时设置的密码，我的就是123456，之后的连接数据库等的password也都是这个

然后，如果没有数据库需要先创建一个数据库，具体方法有很多，可以直接用navicat premium，直接右键连接，再点新建数据库，便创建好了，也可以用代码连接并创建数据库。

#此代码为数据库的创建，如果已经有数据库，则可忽略
import pymysql

conn = pymysql.connect(
    host='localhost',
    port=3306,
    user='root',
    password='123456',
    charset='utf8mb4',
)
# 创建数据库test
create_db_sql = "create database if not exists scrape_book;"#此处创建了名为：scrape_book的数据库
cursor = conn.cursor()
cursor.execute(create_db_sql)
# 关闭游标
cursor.close()
# 关闭连接
conn.close()

接下来便是主要的代码：

conn.py：这个模块定义了一个函数connect_mysql()，用于连接mysql数据库，并返回连接对象。我们需要提供数据库的主机地址、用户名、密码、数据库名以及字符集等信息。
注意：此处是scrape_book这个数据库是已经存在的，如果没有数据库的请先创建数据库。

import pymysql

def connect_mysql():
#建立与mysql数据库的连接
    conn = pymysql.connect(
        host='localhost',
        user='root',
        password='123456',
        db='scrape_book',
        charset='utf8mb4'
    )
    return conn

create_table.py：在这个模块中，我们使用了con.py中定义的连接函数，连接到mysql数据库。然后，我们使用sql语句创建了一个名为book_info的数据表，用于存储图书信息。

import conn
def create_tables():
    conn = conn.connect_mysql()
    cursor = conn.cursor()
    # 创建数据表
    create_table_sql = '''
    create table if not exists book_info (
        `key` int auto_increment primary key,
        title varchar(50),
        score varchar(20),
        typen varchar(50),
        price varchar(20),
        author varchar(50),
        published_at varchar(50),
        page_number varchar(50),
        publisher varchar(50),
        isbm varchar(50)
    )
'''
    cursor.execute(create_table_sql)
    conn.commit()
    conn.close()
    cursor.close()
create_tables()

insert_info.py：这个模块定义了一个函数insert_info(info)，用于向数据库中插入图书信息。我们需要提供待插入的图书信息作为参数，并通过sql语句执行插入操作。

import conn

def insert_info(info):
    conn =conn.connect_mysql()
    cursor =conn.cursor()
    sql = "insert into book_info(title,score,typen,price,author,published_at,publisher,page_number,isbm) values(%s,%s,%s,%s,%s,%s,%s,%s,%s)"
    values = (info)
    cursor.execute(sql, values)
    conn.commit()
    cursor.close()
    conn.close()

main.py：这是项目的核心模块，主要负责爬取网页数据。我们使用了selenium库来模拟浏览器行为，从指定的网站获取图书信息。然后，我们调用插入数据模块将信息存入数据库。

# 导入所需的库
from selenium import webdriver
from selenium.webdriver.common.by import by
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.support.wait import webdriverwait
import time
import insert_info
# 初始化一个 chrome webdriver 实例
driver = webdriver.chrome()
driver.maximize_window()# 设置浏览器全屏
driver.get('https://spa5.scrape.center')# 打开目标网站
time.sleep(2)# 等待 2 秒，确保页面加载完成
# 定义函数，用于获取书籍信息
def get_info():
    # 初始化一个空列表，用于存放书籍的标签
    ty=[]
    # 获取书籍标签
    try:
        # 使用 xpath 定位符找到包含标签信息的按钮元素
        t = driver.find_elements(by=by.xpath, value="//button[@class='el-button el-button--primary el-button--mini']/span")
        for i in t:# 遍历按钮元素，提取其中的文本信息，将标签存入列表中
            ty.extend(i.text)
            ty.extend('/')
            # 将列表中的标签信息拼接为一个字符串，并删除最后一个字符（因为最后一个字符是多余的斜杠）
        tag =''.join(ty)[:-1]
    except:
        tag = 'n/a'
    # 获取评分信息
    try:
        score = driver.find_element(by=by.xpath, value="//span[@class='score m-r']").text
    except:
        score = 'n/a'
    # 获取书籍标题信息
    try:
        title = driver.find_element(by=by.xpath, value="//h2[@class='m-b-sm name' ]").text
    except:
        title = 'n/a'
    # 获取价格信息
    try:
        price = driver.find_element(by=by.xpath, value="//div[@class='info']/p[@class='price']").text
    except:
        price = 'n/a'
    # 获取作者信息
    try:
        author = driver.find_element(by=by.xpath, value="//div[@class='info']/p[@class='authors']").text
    except:
        author = 'n/a'
    # 获取出版日期信息
    try:
        published_at = driver.find_element(by=by.xpath,value="//div[@class='info']/p[@class='published-at']").text
    except:
        published_at='n/a'
    # 获取出版社信息
    try:
        publisher = driver.find_element(by=by.xpath,value="//div[@class='info']/p[@class='publisher']").text
    except:
        publisher = 'n/a'
    # 获取页数信息
    try:
        page_number = driver.find_element(by=by.xpath,value="//div[@class='info']/p[@class='page-number']").text
    except:
        page_number='n/a'
    # 获取isbn信息
    try:
        isbm = driver.find_element(by=by.xpath, value="//div[@class='info']/p[@class='isbn']").text
    except:
        isbm = 'n/a'
    # 将所有信息组合成一个列表并返回
    full_info = [title,score,tag,price,author,published_at, publisher,page_number,isbm]

    return full_info
# 设置一个循环，用于爬取多页数据
o = 0
while o < 10:
    o += 1
    # 等待页面元素加载完成
    webdriverwait(driver, 30).until(ec.presence_of_element_located((by.xpath, "//div[@class='top el-row']/div[@class='el-col el-col-24']/a")))
    time.sleep(3)
    book_page = driver.find_elements(by.xpath, "//div[@class='top el-row']/div[@class='el-col el-col-24']/a")
    for i in range(len(book_page)):
        # 点击链接，进入书籍详情页面
        driver.execute_script("arguments[0].click();", book_page[i])
        webdriverwait(driver, 30).until(ec.presence_of_element_located((by.xpath, "//div[@class='info']")))
        # 调用 get_info 函数获取书籍信息，并插入数据库
        insert_info.insert_info(get_info())
        #返回上一页
        driver.back()
        # 再次等待书籍列表页面加载完成
        webdriverwait(driver, 30).until(ec.presence_of_element_located((by.xpath, "//div[@class='top el-row']/div[@class='el-col el-col-24']/a")))
        book_page = driver.find_elements(by.xpath, "//div[@class='top el-row']/div[@class='el-col el-col-24']/a")
    # 等待翻页按钮加载完成
    webdriverwait(driver, 30).until(ec.presence_of_element_located((by.xpath, "//div[@class='top el-row']/div[@class='el-col el-col-24']/a")))
    # 找到并点击下一页按钮
    next_btn = driver.find_element(by.class_name, "btn-next")  # 修改为 next_btn，避免拼写错误
    driver.execute_script("arguments[0].click();", next_btn)
# 关闭浏览器
driver.close()

4. 实现过程：