TCP(Transmission Control Protocol)是一种面向连接(连接导向)的、可靠的、基于字节流的运输层通信协议,在简化的计算机网络OSI模型中,TCP完成的是第四层传输层所指定的功能。
一、TCP协议的作用
互联网由一整套协议构成,而TCP只是其中的一层,有着自己的分工。
(TCP是以太网协议和IP协议的上层协议,也是应用层协议的下层协议)
最底层的以太网协议(Ethernet)规定了电子信号如何组成数据包(packet),解决了子网内部的点对点通信。
(以太网协议解决了局域网的点对点通信)
但是,以太网协议不能解决多个局域网如何互通,而这由IP协议解决。
(IP协议可以连接多个局域网)
IP协议定义了一套自己的地址规则,称为IP地址。它实现了路由功能,允许某个局域网的A主机向另一个局域网的B主机发送消息。
(路由器是基于IP协议的,局域网之间要靠路由器连接)
其实,路由的原理很简单。市场上所有的路由器,其背后都有很多网口,要接入多根网线。路由器内部有一张路由表,规定了A段IP地址走出口一,B段地址走出口二……通过这套“指路牌”,实现了数据包的转发。
(本机的路由表注明了不同IP目的地的数据包,要发送到哪一个网口)
IP协议只是一个地址协议,并不保证数据包的完整。如果路由器丢包(比如缓存满了,新进来的数据包就会丢失),那么就需要发现丢了哪一个包,以及如何重新发送这个包,这就要依靠TCP协议来实现。
简单来说,TCP协议的作用是保证数据通信的完整性和可靠性,防止丢包。
二、TCP数据包的大小
以太网数据包(packet)的大小是固定的,最初是1518字节,后来增加到1522字节。其中,1500字节是负载(payload),22字节是头信息(head)。
IP数据包在以太网数据包的负载里面,它也有自己的头信息,最少需要20字节,所以IP数据包的负载最多为1480字节。
(IP数据包在以太网数据包里面,TCP数据包在IP数据包里面)
TCP数据包在IP数据包的负载里面,它的头信息最少也要20字节,因此TCP数据包的最大负载是1480-20=1460字节。
由于IP和TCP协议往往有额外的头信息,所以TCP负载实际为1400字节左右。因此,一条1500字节的信息需要两个TCP数据包。
HTTP/2协议的一大改进就是压缩HTTP协议的头信息,使得一个HTTP请求可以放在一个TCP数据包里面,而不是分成多个,这样就提高了速度。
(以太网数据包的负载是1500字节,TCP数据包的负载在1400字节左右)
三、TCP数据包的编号(SEQ)
一个包1400字节,那么一次性发送大量数据,就必须分成多个包,比如一个 10MB 的文件,需要发送7100多个包。
发送的时候,TCP协议为每个包编号(sequence number,简称SEQ),以便接收的一方按照顺序还原。万一发生丢包,也可以知道丢失的是哪一个包。
第一个包的编号是一个随机数,为了便于理解,这里就把它称为1号包。假定这个包的负载长度是100字节,那么可以推算出下一个包的编号应该是101。这就是说,每个数据包都可以得到两个编号:自身的编号,以及下一个包的编号。接收方由此可知,应该按照什么顺序将它们还原成原始文件。
(当前包的编号是45943,下一个数据包的编号是46183,那么这个包的负载是240字节)
四、TCP数据包的组装
收到TCP数据包以后,组装还原是操作系统完成的,应用程序不会直接处理TCP数据包。
对于应用程序来说,不用关心数据通信的细节,除非线路异常,收到的总是完整的数据。应用程序需要的数据放在TCP数据包里面,有自己的格式(比如HTTP协议)。
TCP并没有提供任何机制表示原始文件的大小,这由应用层的协议来规定,比如HTTP协议就有一个头信息Content-Length,表示信息体的大小。对于操作系统来说,就是持续地接收TCP数据包,将它们按照顺序组装好,一个包都不少。
操作系统不会去处理TCP数据包里面的数据,一旦组装好TCP数据包,就把它们转交给应用程序。TCP数据包里面有一个端口(port)参数,就是用来指定转交给监听该端口的应用程序。
(系统根据TCP数据包里面的端口,将组装好的数据转交给相应的应用程序)
应用程序收到组装好的原始数据,以浏览器为例,就会根据HTTP协议的Content-Length字段正确读出一段段的数据。
这也意味着,一次TCP通信可以包括多个HTTP通信。
五、慢启动和ACK
服务器发送数据包,当然是越快越好,最好一次性全都发出去。但是,发得太快,就有可能丢包。带宽小、路由器过热、缓存溢出等许多因素都会导致丢包;同时,线路不好的话,发得越快,丢得越多。
最理想的状态是,在线路允许的情况下,达到最高速率。但我们怎么知道,对方线路的理想速率是多少呢?答案就是:慢慢试。
TCP协议为了做到效率与可靠性的统一,设计了一个慢启动(slow start)机制。开始的时候,发送得较慢,然后根据丢包的情况,开始调整速率:如果不丢包,就加快发送速度;如果丢包,就降低发送速度。
Linux内核里面设定了(常量TCP_INIT_CWND),刚开始通信的时候,发送方一次性发送10个数据包,即“发送窗口”的大小为10。然后停下来,等待接收方的确认,再继续发送。
默认的情况下,接收方每收到两个TCP数据包,就要发送一个确认消息。“确认”的英语是acknowledgement,所以这个确认消息就简称为ACK。
ACK携带两个信息:一是期待要收到下一个数据包的编号,二是接收方的接收窗口的剩余容量。
发送方有了这两个信息,再加上自己已经发出的数据包的最新编号,就会推测出接收方大概的接收速度,从而降低或增加发送速率。这被称为“发送窗口”,而这个窗口的大小是可变的。
(每个ACK都带有下一个数据包的编号,以及接收窗口的剩余容量,双方都会发送ACK)
需要注意的是,由于TCP通信是双向的,所以双方都需要发送ACK,但两方的窗口大小很有可能是不一样的。而且ACK只是很简单的几个字段,通常与数据合并在一个数据包里面发送。
(共计4次通信)
上图一共是4次通信:第一次通信,A主机发给B主机的数据包编号是1,长度是100字节,因此第二次通信B主机的ACK编号是1+100=101,第三次通信A主机的数据包编号也是101。
同理,第二次通信B主机发给A主机的数据包编号是1,长度是200字节,因此第三次通信A主机的ACK是201,第四次通信B主机的数据包编号也是201。
即使对于带宽很大、线路很好的连接,TCP也总是从10个数据包开始慢慢试,过了一段时间才会达到最高的传输速率,这就是TCP的慢启动。
六、数据包的遗失处理
TCP协议可以保证数据通信的完整性,这是怎么做到的?
前面说过,每一个数据包都带有下一个数据包的编号。如果下一个数据包没有收到,那么ACK的编号就不会发生变化。
举例来说,现在收到了4号包,但没有收到5号包,ACK就会记录,期待收到5号包。
如果过了一段时间5号包收到了,那么下一轮ACK会更新编号;如果5号包还是没收到,但收到了6号包或7号包,那么ACK里面的编号不会变化,总是显示5号包,这会导致大量重复内容的ACK;如果发送方发现收到三个连续的重复ACK,或者超时了还没有收到任何ACK,那么就会确认丢包,即5号包遗失了,从而再次发送这个包。
通过这种机制,TCP保证了不会有数据包丢失。
(Host B没有收到100号数据包,会连续发出相同的ACK,触发Host A重发100号数据包)
**来源:嵌入式Linux
免责声明:本文系网络转载,版权归原作者所有。如有问题,请联系删帖,谢谢!
↑↑ 扫码关注更多精彩内容
|