WEB之http协议

2021-04-19

HTTP协议：规定了浏览器和服务器端的数据交互的格式

http是一个简单的请求-响应协议，它通常运行在TCP之上。它指定了客户端可能发送给服务器什么样的消息以及得到什么样的响应。请求和响应消息的头以ASCII码形式给出；而消息内容则具有一个类似MIME的格式。HTTP是应用层协议。

特性：

1.基于请求和响应模型：必须要先有请求，后有响应；请求和响应必须成对出现

2.简单快捷：因为发送请求的时候只需要发送请求方式和请求路径即可

版本：

HTTP1.0：该协议对每一次请求和相应进行一次建立连接和拆除（每进行一次请求建立连接，相应完毕后拆除连接）

HTTP1.1：该协议相当于TCP，双方规定了连接方式和连接类型，会一直进行请求相应

分析HTTP协议：

可以用HTTPWatch（只能在ie浏览器上使用），也可以用浏览器自带的查看HTTP协议的工具（F12就可进入）

创建一个html页面：

demo1.html

method默认为get方式，可以手动修改为post方式

demo2.html

在浏览器中输入http://localhost:8080/web_set/demo1.html

打开HTTPWatch工具，点击record。输入表单内容，提交。点击项目下的Stream查看：

GET方式的请求部分：

GET /web_test/demo2.html?name=aaa&name=man HTTP/1.1

Accept: text/html, application/xhtml+xml, /

X-HttpWatch-RID: 9561-10011

Referer: http://localhost:8080/web_test/demo1.html

Accept-Language: zh-CN

User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko

Accept-Encoding: gzip, deflate

Host: localhost:8080

DNT: 1

Connection: Keep-Alive

POST请求：

POST /web_test/demo2.html HTTP/1.1

Accept: text/html, application/xhtml+xml, /

X-HttpWatch-RID: 9561-10041

Referer: http://localhost:8080/web_test/demo1.html

Accept-Language: zh-CN

User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko

Content-Type: application/x-www-form-urlencoded

Accept-Encoding: gzip, deflate

Host: localhost:8080

Content-Length: 19

DNT: 1

Connection: Keep-Alive

Cache-Control: no-cache

name=bbb&name=woman

请求部分内容：3部分

请求行：

请求方式：有很多种，GET和POST最常见

GET：请求的参数会显示到地址栏。通常是有大小的限制。没有请求体

POST：请求的参数不会显示到地址栏（在请求体中）。POST没有大小的限制。有请求体（请求参数）。只有表单设置method=”post”才是post请求。

请求路径：一般都是固定的

协议版本：一般都是固定的

请求头:请求头的格式一般都是一个key对应一个value的，也有一个key对应多个value的情况

一些常见的请求头：

Referer ：代表网页的来源。（防盗链）

User-Agent ：获得客户端浏览器类型

请求体：只有POST请求方式才有请求体，而且请求体是POST方式请求参数

响应部分：

HTTP/1.1 200 OK

Server: Apache-Coyote/1.1

Accept-Ranges: bytes

ETag: W/“151-1484111223984”

Last-Modified: Wed, 11 Jan 2017 05:07:03 GMT

Content-Type: text/html

Content-Length: 151

Date: Wed, 11 Jan 2017 05:14:00 GMT

<!DOCTYPE html>

<html>

<head>


<meta charset="UTF-8">


<title>Insert title here</title>

</head>

<body>

<h1>Success</h1>


</body>

</html>

响应部分的内容：3部分

响应行：

协议版本

状态码：

*200* *：代表响应成功*

*302* *：需要进行重定向操作*

*304* *：需要查找本地缓存*

*404* *：请求资源不存在*

*405：请求的方式不对*

*500* *：服务器内部错误*

状态码描述

响应头:通常一个key对应一个value，也有一个key对应多个value

一些常见的响应头：

Location ：重定向的路径

Refresh ：定时刷新

Content-Disposition：文件下载的时候使用

响应体：就是显示到浏览器上页面的代码

http的三次握手和四次挥手

tcp协议建立连接要3次握手，断开连接要4次挥手，而http是基于tcp协议的，所以通常我们也这么说而已，我们日常网络访问的http用的是tcp

tcp可以提供全双工的数据流传输服务，全双工说白了，就是同一时间A可以发信息给B，B也可以发消息给A，俩人同时都可以给对方发消息；半双工就是某个时间段A可以发给B，但B不能给A，换个时间段，就反过来了；单工就是只能一个给另一个类似于汽车单行道

连接过程：

1、TCP服务器进程先创建传输控制块TCB，时刻准备接受客户进程的连接请求，此时服务器就进入了LISTEN（监听）状态；

2、TCP客户进程也是先创建传输控制块TCB，然后向服务器发出连接请求报文，这是报文首部中的同部位SYN=1，同时选择一个初始序列号 seq=x ，此时，TCP客户端进程进入了 SYN-SENT（同步已发送状态）状态。TCP规定，SYN报文段（SYN=1的报文段）不能携带数据，但需要消耗掉一个序号。

3、TCP服务器收到请求报文后，如果同意连接，则发出确认报文。确认报文中应该 ACK=1，SYN=1，确认号是ack=x+1，同时也要为自己初始化一个序列号 seq=y，此时，TCP服务器进程进入了SYN-RCVD（同步收到）状态。这个报文也不能携带数据，但是同样要消耗一个序号。

4、TCP客户进程收到确认后，还要向服务器给出确认。确认报文的ACK=1，ack=y+1，自己的序列号seq=x+1，此时，TCP连接建立，客户端进入ESTABLISHED（已建立连接）状态。TCP规定，ACK报文段可以携带数据，但是如果不携带数据则不消耗序号。

5、当服务器收到客户端的确认后也进入ESTABLISHED状态，此后双方就可以开始通信了。

这个过程理解起来，就像两人在喊话：

A：喂，有人吗，我想建立连接

B：有哇，你建立吧，等你吆

A：好哒，我来啦

为什么需要三次？

tcp的核心思想是保证数据可靠传输。可能存在第三次的时候网络中断了，导致连接并没有成功。所以无论握手多少次都不能满足传输的绝对可靠，为了效率跟相对可靠而看，3次刚刚好，所以就3次了(正好AB相互确认了一次)

连接断开过程：

1、客户端进程发出连接释放报文，并且停止发送数据。释放数据报文首部，FIN=1，其序列号为seq=u（等于前面已经传送过来的数据的最后一个字节的序号加1），此时，客户端进入FIN-WAIT-1（终止等待1）状态。 TCP规定，FIN报文段即使不携带数据，也要消耗一个序号。

2、服务器收到连接释放报文，发出确认报文，ACK=1，ack=u+1，并且带上自己的序列号seq=v，此时，服务端就进入了CLOSE-WAIT（关闭等待）状态。TCP服务器通知高层的应用进程，客户端向服务器的方向就释放了，这时候处于半关闭状态，即客户端已经没有数据要发送了，但是服务器若发送数据，客户端依然要接受。这个状态还要持续一段时间，也就是整个CLOSE-WAIT状态持续的时间。

3、客户端收到服务器的确认请求后，此时，客户端就进入FIN-WAIT-2（终止等待2）状态，等待服务器发送连接释放报文（在这之前还需要接受服务器发送的最后的数据）。

4、服务器将最后的数据发送完毕后，就向客户端发送连接释放报文，FIN=1，ack=u+1，由于在半关闭状态，服务器很可能又发送了一些数据，假定此时的序列号为seq=w，此时，服务器就进入了LAST-ACK（最后确认）状态，等待客户端的确认。

5、客户端收到服务器的连接释放报文后，必须发出确认，ACK=1，ack=w+1，而自己的序列号是seq=u+1，此时，客户端就进入了TIME-WAIT（时间等待）状态。注意此时TCP连接还没有释放，必须经过2∗MSL（最长报文段寿命）的时间后，当客户端撤销相应的TCB后，才进入CLOSED状态。

6、服务器只要收到了客户端发出的确认，立即进入CLOSED状态。同样，撤销TCB后，就结束了这次的TCP连接。可以看到，服务器结束TCP连接的时间要比客户端早一些。

建立连接要3次，断开为什么要4次呢？
因为tcp是全双工的，每个方向要单独断开，每个方向2次，所以4次。
一定4次吗，3次不行么，跟建立连接一样，服务端回复的时候顺带请求断开不可以么？
不可以，因为客户端请求服务端断开的时候，客户端向服务端发送数据的这个方向已经没有数据要发送了，但服务端可能仍有信息往客户端发送，需要的时间不好确定，不能一直不回复让客户端等着，只能先回复一个，让客户端断掉，然后服务端把数据发送完了之后再断掉服务端到客户端方向的连接；
为什么客户端最后还要等待2MSL？
MSL（Maximum Segment Lifetime），TCP允许不同的实现可以设置不同的MSL值。
第一，保证客户端发送的最后一个ACK报文能够到达服务器，因为这个ACK报文可能丢失，站在服务器的角度看来，我已经发送了FIN+ACK报文请求断开了，客户端还没有给我回应，应该是我发送的请求断开报文它没有收到，于是服务器又会重新发送一次，而客户端就能在这个2MSL时间段内收到这个重传的报文，接着给出回应报文，并且会重启2MSL计时器。
第二，防止类似与“三次握手”中提到了的“已经失效的连接请求报文段”出现在本连接中。客户端发送完最后一个确认报文后，在这个2MSL时间中，就可以使本连接持续的时间内所产生的所有报文段都从网络中消失。这样新的连接中不会出现旧连接的请求报文。

等待2MSL就一定能确认没问题么？
不，还有一个超时机制，超时了，即使没收到回复也会关闭连接。

tcp关闭连接状态转换：

（1）应用层调用close函数发起关闭连接请求

（2）发送FIN到对端，关闭写通道，自己进入FIN_WAIT1状态

（3）等待对端的确认ACK到来，接受到ACK后进入FIN_WAIT2状态；如果在超时时间内没有收到确认ACK直接进入CLOSED状态

（4）如果在FIN_WAIT1状态时收到了对端的FIN则进入CLOSING状态（双发都发出了关闭连接请求）

（5）在FIN_WAIT2接受到了对端FIN后进入TIME_WAIT状态；如果在超时时间内没有收这个FIN则直接进入CLOSED状态

（6）在TIME_WAIT状态等待2个MSL（2个报文最长存活周期）后进入CLOSED状态