当前位置: 代码网 > 服务器>网络>网络协议 > 1.认识网络爬虫

1.认识网络爬虫

2024年08月01日 网络协议 我要评论
1.认识网络爬虫网络爬虫爬虫的合法性HTTP协议请求与响应(重点)网络爬虫爬虫的全名叫网络爬虫,简称爬虫。他还有其他的名字,比如网络机器人,网络蜘蛛等等。爬虫就好像一个探测机器,它的基本操作就是模拟人的行为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。你可以这样理解,每个爬虫都是你的分身。就像孙悟空拔了一撮汗毛,吹出一堆猴子一样。你每天使用的百度,其实就是利用了这种爬虫技术:每天放出无数爬虫到各个网站,把他们的信

网络爬虫

爬虫的合法性

在使用爬虫时候,我们需要谨记三点:
1、 遵守 robots 协议(君子协议):

2、不能造成对方服务器瘫痪。

3、不能非法获利

爬虫为什么选择python:

1、简单易学。python作为动态语言更适合初学者。python可以让初学者把精力集中在编程对象和思维方法上,而不用去担心语法、类型等,并且python语法清晰简洁,调试起来比java简单的多。

2、稳定。python的强大架构可以使爬虫程序高效平稳地运行。

3、免费开源。python是floss(自由/开放源码软件)之一。使用者可以自由地发布这个软件的拷贝、阅读它的源代码、对它做改动、把它的一部分用于新的自由软件中。

4、速度快。python的底层是用c语言写的,很多标准库和第三方库也都是用c写的,运行速度非常快。

5、可拓展性。如果需要一段关键代码运行得更快,可以部分程序用c或c++编写,然后在python程序中使用它们,因此python适合一些可扩展的后台应用。

6、多线程。爬虫是一个典型的多任务处理场景,请求页面时会有较长的延迟,总体来说更多的是等待。python多线程或进程会更优化程序效率,提升整个系统下载和分析能力。

http协议

工作原理:
http协议定义web客户端如何从web服务器请求web页面,以及服务器如何把web页面传送给客户端。http协议采用了请求/响应模型。客户端向服务器发送一个请求报文,请求报文包含请求的方法、url、协议版本、请求头部和请求数据。服务器以一个状态行作为响应,响应的内容包括协议的版本、成功或者错误代码、服务器信息、响应头部和响应数据。

在这里插入图片描述

在这里插入图片描述

请求与响应(重点)

'''
请求

请求行 请求方式 (get,post)请求地址(url)-》 协议(http)

请求头 -》 放在服务器上要使用的信息,爬虫需要的重要内容(头部,cookie,)

请求体 -》一般放一些参数(get,post)



响应

状态行 -》协议 状态码 (100)

响应头 -》放在客户端上要使用的信息

响应体 —》返回客户端上的数据(html页面,json数据等)
'''

以淘宝网页版举例:

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

响应体:

在这里插入图片描述

状态码:

cookie与session id
cookie

session id

保存sessionid的方式:

悲索之人烈焰加身,堕落者不可饶恕。永恒燃烧的羽翼,带我脱离凡间的沉沦。

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com