✨✨ 欢迎大家来到景天科技苑✨✨
🎈🎈 养成好习惯,先赞后看哦~🎈🎈
http
超文本传输协议(英文:hypertext transfer protocol,缩写:http)是一种用于分布式、协作式和超媒体信息系统的应用层协议。http是万维网的数据通信的基础。
http的发展是由蒂姆·伯纳斯-李于1989年在欧洲核子研究组织(cern)所发起。
http的标准制定由万维网协会(world wide web consortium,w3c)和互联网工程任务组(internet engineering task force,ietf)进行协调,
最终发布了一系列的rfc,其中最著名的是1999年6月公布的 rfc 2616,定义了http协议中现今广泛使用的一个版本——http 1.1。
2014年12月,互联网工程任务组(ietf)的hypertext transfer protocol bis(httpbis)工作小组将http/2标准提议递交至iesg进行讨论,于2015年2月17日被批准。
http/2标准于2015年5月以rfc 7540正式发表,取代http 1.1成为http的实现标准。但没有广泛应用
查看浏览器http协议版本 点一下view source 即可查看协议版本
http协议概述
http是一个客户端终端(用户)和服务器端(网站)请求和应答的标准(tcp)。
通过使用网页浏览器、网络爬虫或者其它的工具,客户端发起一个http请求到服务器上指定端口(默认端口为80)。
我们称这个客户端为用户代理程序(user agent)。应答的服务器上存储着一些资源,比如html文件和图像。
我们称这个应答服务器为源服务器(origin server)。在用户代理和源服务器中间可能存在多个“中间层”,比如代理服务器、网关或者隧道(tunnel)。
尽管tcp/ip协议是互联网上最流行的应用,http协议中,并没有规定必须使用它或它支持的层。事实上,http可以在任何互联网协议上,或其他网络上实现。
http假定其下层协议提供可靠的传输。因此,任何能够提供这种保证的协议都可以被其使用。因此也就是其在tcp/ip协议族使用tcp作为其传输层。
通常,由http客户端发起一个请求,创建一个到服务器指定端口(默认是80端口)的tcp连接。http服务器则在那个端口监听客户端的请求。
一旦收到请求,服务器会向客户端返回一个状态,比如"http/1.1 200 ok",以及返回的内容,如请求的文件、错误消息、或者其它信息。
客户端请求信息
get /1.jpg http/1.1
host: 127.0.0.1:8001
connection: keep-alive
sec-ch-ua: "chromium";v="86", "\"not\\a;brand";v="99", "google chrome";v="86"
sec-ch-ua-mobile: ?0
user-agent: mozilla/5.0 (windows nt 10.0; win64; x64) applewebkit/537.36 (khtml, like gecko) chrome/86.0.4240.111 safari/537.36
accept: image/avif,image/webp,image/apng,image/*,*/*;q=0.8
sec-fetch-site: same-origin
sec-fetch-mode: no-cors
sec-fetch-dest: image
referer: http://127.0.0.1:8001/
accept-encoding: gzip, deflate, br
accept-language: zh-cn,zh;q=0.9
http工作原理
http协议是基于tcp/ip协议之上的应用层协议。 分为两步:请求 – 响应
http协议定义web客户端如何从web服务器请求web页面,以及服务器如何把web页面传送给客户端。
http协议采用了请求/响应模型。客户端向服务器发送一个请求报文,请求报文包含请求的方法、url、协议版本、请求头部和请求数据。
服务器以一个状态行作为响应,响应的内容包括协议的版本、成功或者错误代码、服务器信息、响应头部和响应数据。
以下是 http 请求/响应的步骤:
-
客户端连接到web服务器
一个http客户端,通常是浏览器,与web服务器的http端口(默认为80)建立一个tcp套接字连接。例如,http://www.luffycity.com。 -
发送http请求
通过tcp套接字,客户端向web服务器发送一个文本的请求报文,一个请求报文由请求行、请求头部、空行和请求数据4部分组成。 -
服务器接受请求并返回http响应
web服务器解析请求,定位请求资源。服务器将资源复本写到tcp套接字,由客户端读取。一个响应由状态行、响应头部、空行和响应数据4部分组成。 -
释放连接tcp连接
若connection 模式为close,则服务器主动关闭tcp连接,客户端被动关闭连接,释放tcp连接;若connection 模式为keepalive,则该连接会保持一段时间,在该时间内可以继续接收请求; -
客户端浏览器解析html内容
客户端浏览器首先解析状态行,查看表明请求是否成功的状态代码。然后解析每一个响应头,响应头告知以下为若干字节的html文档和文档的字符集。客户端浏览器读取响应数据html,根据html的语法对其进行格式化,并在浏览器窗口中显示。
例如:在浏览器地址栏键入url,按下回车之后会经历以下流程:
浏览器向 dns 服务器请求解析该 url 中的域名所对应的 ip 地址;
解析出 ip 地址后,根据该 ip 地址和默认端口 80,和服务器建立tcp连接;
浏览器发出读取文件(url 中域名后面部分对应的文件)的http 请求,该请求报文作为 tcp 三次握手的第三个报文的数据发送给服务器;
服务器对浏览器请求作出响应,并把对应的 html 文本发送给浏览器;
释放 tcp连接;
浏览器将该 html 文本并显示内容;
使用http协议,每当有新的请求发送时,就会有对应的新响应产 生。协议本身并不保留之前一切的请求或响应报文的信息。
这是为了更快地处理大量事务,确保协议的可伸缩性,而特意把http协议设计成 如此简单的。可是,随着web的不断发展,因无状态而导致业务处理变得棘手 的情况增多了。
比如,用户登录到一家购物网站,即使他跳转到该站的 其他页面后,也需要能继续保持登录状态。
针对这个实例,网站为了能 够掌握是谁送出的请求,需要保存用户的状态。http/1.1虽然是无状态协议,但为了实现期望的保持状态功能, 于是引入了cookie技术。
有了cookie再用http协议通信,就可以管 理状态了。有关cookie的详细内容稍后讲解。
无连接
无连接的含义是限制每次连接只处理一个请求。服务器处理完客户的请求,并收到客户的应答后,即断开连接。
采用这种方式可以节省传输时间,并且可以提高并发性能,不能和每个用户建立长久的连接,请求一次相应一次,服务端和客户端就中断了。
但是无连接有两种方式,早期的http协议是一个请求一个响应之后,直接就断开了,但是现在的http协议1.1版本不是直接就断开了,而是等几秒钟,
这几秒钟是等什么呢,等着用户有后续的操作,如果用户在这几秒钟之内有新的请求,那么还是通过之前的连接通道来收发消息,
如果过了这几秒钟用户没有发送新的请求,那么就会断开连接,这样可以提高效率,减少短时间内建立连接的次数,因为建立连接也是耗时的,
默认的好像是3秒中现在,但是这个时间是可以通过咱们后端的代码来调整的,自己网站根据自己网站用户的行为来分析统计出一个最优的等待时间。
http请求协议报文,请求数据就是请求体
请求头的键值对,说明了本次请求的详细信息 比如 host:127.0.0.1:8001 说明了本次请求的服务端的ip和端口号
其中有一个user-agent,算是需要你记住的吧,就是告诉你的服务端,我是用什么给你发送的请求。
accept 告诉服务端自己能接收的响应回来的信息格式
请求头键值对:
user-agent:chorme… 客户代理程序信息
host: 请求的服务端地址
accept: 客户端可以接受的数据类型
最后还有一行的回车换行
get方法发送的请求,请求数据不在 上面请求数据 里面,在url里面
如果用的post请求,请求数据就在 请求数据 部分
响应报文
响应报文,在响应时。头部键值对可以不用指定
所以我们自己创建的框架中,服务端发给客户端的数据,要先发送http协议信息,就不包含响应头部键值对
#发送协议数据
strvar = "http/1.1 200 0k\r\n\r\n"
conn.send(strvar.encode())
http请求方法
http/1.1协议中共定义了八种方法(也叫“动作”)来以不同方式操作指定的资源:
get请求
1 浏览器输入网址回车,就是get请求方法
2 a标签,href==‘http://www.baidu.com’ get请求方法
post请求
提交数据
1 form表单标签中用户输入的内容,点击提交按钮,一般都是用post请求
form标签,action=‘路由’ method=‘post’,默认是get
其他方法其实都可以用get和post实现,但是为了遵循规范,干不同的事情,采用不同的方法
修改服务器数据方法使用put
请求方式: get与post请求(通过form表单我们自己写写看)
get提交的数据会放在url之后,也就是请求行里面,以?分割url和传输数据,参数之间以&相连,如editbook?name=test1&id=123456.
(请求头里面那个content-type做的这种参数形式,后面讲) post方法是把提交的数据放在http包的请求体中.(上面的 请求数据 部分)
post的数据不再url上面显示,所以看着安全一些.
get提交的数据大小有限制(因为浏览器对url的长度有限制),而post方法提交的数据没有限制.
get与post请求在服务端获取请求数据方式不同,就是我们自己在服务端取请求数据的时候的方式不同了,这句废话昂。
请求数据说明: get请求方法的请求数据在请求函个的url部分,post请求携带的数据在请求数据部分.
浏览器network中查看内容解释
我们在wsgi web服务器中设置了响应头
浏览器访问查看
general部分
request url: http://127.0.0.1:8080/ 请求地址
request method: get 请求方法
status code: 200 ok 响应状态码和描述
remote address: 127.0.0.1:8080 客户端的地址(ip+port)
referrer policy: strict-origin-when-cross-origin
可以看到我们自定义的响应头
响应数据
http状态码
所有http响应的第一行都是状态行,依次是当前http版本号,3位数字组成的状态代码,以及描述状态的短语,彼此由空格分隔。
状态代码的第一个数字代表当前响应的类型:
1xx消息——请求已被服务器接收,继续处理
2xx成功——请求已成功被服务器接收、理解、并接受
3xx重定向——需要后续操作才能完成这一请求
4xx请求错误——请求含有词法错误或者无法被执行
5xx服务器错误——服务器在处理某个正确请求时发生错误
虽然 rfc 2616 中已经推荐了描述状态的短语,例如"200 ok",“404 not found”,但是web开发者仍然能够自行决定采用何种短语,用以显示本地化的状态描述或者自定义信息。
重定向
输入京东老网址 www.360buy.com,network看到301状态码,就是发生了重定向
点进去,在响应头 response headers里面可以看到,要重定向的地址,写在location
url
超文本传输协议(http)的统一资源定位符将从因特网获取信息的五个基本元素包括在一个简单的地址中:
传送协议。
层级url标记符号(为[//],固定不变)
访问资源需要的凭证信息(可省略)
服务器。(通常为域名,有时为ip地址)
端口号。(以数字方式表示,若为http的默认值“:80”可省略)
路径。(以“/”字符区别路径中的每一个目录名称)
查询。(get模式的参数,以“?”字符为起点,每个参数以“&”隔开,再以“=”分开参数名称与数据,通常以utf8的url编码,避开字符冲突的问题)
片段。以“#”字符为起点
以http://www.luffycity.com:80/news/index.html?id=250&page=1 为例, 其中:
http,是协议;
www.luffycity.com,是服务器;
80,是服务器上的默认网络端口号,默认不显示;
/news/index.html,是路径(uri:直接定位到对应的资源);
?id=250&page=1,是查询。
大多数网页浏览器不要求用户输入网页中“http://”的部分,因为绝大多数网页内容是超文本传输协议文件。
同样,“80”是超文本传输协议文件的常用端口号,因此一般也不必写明。
一般来说用户只要键入统一资源定位符的一部分(www.luffycity.com:80/news/index.html?id=250&page=1)就可以了。
由于超文本传输协议允许服务器将浏览器重定向到另一个网页地址,因此许多服务器允许用户省略网页地址中的部分,比如 www。
从技术上来说这样省略后的网页地址实际上是一个不同的网页地址,浏览器本身无法决定这个新地址是否通,服务器必须完成重定向的任务。
https
明文: 明文指的是未被加密过的原始数据。
密文:明文被某种加密算法加密之后,会变成密文,从而确保原始数据的安全。密文也可以被解密,得到原始的明文。
密钥:密钥是一种参数,它是在明文转换为密文或将密文转换为明文的算法中输入的参数。密钥分为对称密钥与非对称密钥,分别应用在对称加密和非对称加密上。
对称加密:对称加密又叫做私钥加密,即信息的发送方和接收方使用同一个密钥去加密和解密数据。
对称加密的特点是算法公开、加密和解密速度快,适合于对大数据量进行加密,常见的对称加密算法有des、3des、tdea、blowfish、rc5和idea。
其加密过程如下:明文 + 加密算法 + 私钥 => 密文
解密过程如下: 密文 + 解密算法 + 私钥 => 明文
对称加密中用到的密钥叫做私钥,私钥表示个人私有的密钥,即该密钥不能被泄露。
其加密过程中的私钥与解密过程中用到的私钥是同一个密钥,这也是称加密之所以称之为“对称”的原因。由于对称加密的算法是公开的,所以一旦私钥被泄露,那么密文就很容易被破解,所以对称加密的缺点是密钥安全管理困难。
非对称加密:非对称加密也叫做公钥加密。非对称加密与对称加密相比,其安全性更好。
对称加密的通信双方使用相同的密钥,如果一方的密钥遭泄露,那么整个通信就会被破解。
而非对称加密使用一对密钥,即公钥和私钥,且二者成对出现。私钥被自己保存,不能对外泄露。
公钥指的是公共的密钥,任何人都可以获得该密钥。用公钥或私钥中的任何一个进行加密,用另一个进行解密。
被公钥加密过的密文只能被私钥解密,过程如下:
明文 + 加密算法 + 公钥 => 密文, 密文 + 解密算法 + 私钥 => 明文
被私钥加密过的密文只能被公钥解密,过程如下:
明文 + 加密算法 + 私钥 => 密文, 密文 + 解密算法 + 公钥 => 明文
由于加密和解密使用了两个不同的密钥,这就是非对称加密“非对称”的原因。
非对称加密的缺点是加密和解密花费时间长、速度慢,只适合对少量数据进行加密。
在非对称加密中使用的主要算法有:rsa、elgamal、rabin、d-h、ecc(椭圆曲线加密算法)等。
https通信过程
https协议 = http协议 + ssl/tls协议,在https数据传输的过程中,需要用ssl/tls对数据进行加密和解密,
需要用http对加密后的数据进行传输,由此可以看出https是由http和ssl/tls一起合作完成的。
ssl的全称是secure sockets layer,即安全套接层协议,是为网络通信提供安全及数据完整性的一种安全协议。
ssl协议在1994年被netscape发明,后来各个浏览器均支持ssl,其最新的版本是3.0
tls的全称是transport layer security,即安全传输层协议,最新版本的tls(transport layer security,传输层安全协议)是ietf(internet engineering task force,internet工程任务组)制定的一种新的协议,它建立在ssl 3.0协议规范之上,是ssl 3.0的后续版本。
在tls与ssl3.0之间存在着显著的差别,主要是它们所支持的加密算法不同,所以tls与ssl3.0不能互操作。
虽然tls与ssl3.0在加密算法上不同,但是在我们理解https的过程中,我们可以把ssl和tls看做是同一个协议。
https为了兼顾安全与效率,同时使用了对称加密和非对称加密。
数据是被对称加密传输的,对称加密过程需要客户端的一个密钥,为了确保能把该密钥安全传输到服务器端,采用非对称加密对该密钥进行加密传输,
总的来说,对数据进行对称加密,对称加密所要使用的密钥通过非对称加密传输。
总结
服务器端的公钥和私钥,用来进行非对称加密
客户端生成的随机密钥,用来进行对称加密
一个https请求实际上包含了两次http传输,可以细分为8步。
1.客户端向服务器发起https请求,连接到服务器的443端口
2.服务器端有一个密钥对,即公钥和私钥,是用来进行非对称加密使用的,服务器端保存着私钥,不能将其泄露,公钥可以发送给任何人。
3.服务器将自己的公钥发送给客户端。
4.客户端收到服务器端的证书之后,会对证书进行检查,验证其合法性,如果发现发现证书有问题,那么https传输就无法继续。
严格的说,这里应该是验证服务器发送的数字证书的合法性,关于客户端如何验证数字证书的合法性,下文会进行说明。
如果公钥合格,那么客户端会生成一个随机值,这个随机值就是用于进行对称加密的密钥,我们将该密钥称之为client key,即客户端密钥,这样在概念上和服务器端的密钥容易进行区分。
然后用服务器的公钥对客户端密钥进行非对称加密,这样客户端密钥就变成密文了,至此,https中的第一次http请求结束。
5.客户端会发起https中的第二个http请求,将加密之后的客户端密钥发送给服务器。
6.服务器接收到客户端发来的密文之后,会用自己的私钥对其进行非对称解密,解密之后的明文就是客户端密钥,然后用客户端密钥对数据进行对称加密,这样数据就变成了密文。
7.然后服务器将加密后的密文发送给客户端。
8.客户端收到服务器发送来的密文,用客户端密钥对其进行对称解密,得到服务器发送的数据。这样https中的第二个http请求结束,整个https传输完成。
发表评论