计算机网络-传输层复习笔记
Table of Contents
传输层概述 #
传输层为不同host上的进程提供逻辑通信。所谓逻辑通信就是虽然这两个进程实体不直接相连,但是看起来好像直接可以通信。
传输层协议 #
发送方:从进程处获取消息,并分段成若干segment,对每个segment打包成TPDU,丢给网络层发出去。
接收方:从网络层拿到若干TPDU,组合恢复成消息,并传给进程。
和网络层的区别 #
传输层和网络层都提供逻辑通信。传输层是进程的逻辑通信,网络层是host的逻辑通信。
理解 #
Lee和Han是两个家庭,这两个家庭里的孩子会相互写信。Lee和Han都会负责把孩子要寄的信给邮局,并从邮局拿信分发给孩子。
在这里,房子就是host,孩子们就是进程,邮局就是网络层,Lee和Han就是传输层。
TCP和UDP #
TCP可以保证可靠连接、按序交付。可以负责拥塞、流量控制。连接建立和拆除。
UDP是尽力而为的协议。没有做可靠性的支持,只是完成传输层的基本功能。
多路复用和多路分用 #
Socket的地位 #
Socket是传输层到应用层的一个接口。
就像其他层级之间的接口那样,Socket也是担任这样一个角色。由于Socket产生的作用能明显地被我们应用,所以特别拿出来作编程实验。
多路复用 #
传输层从多个Socket接受数据,分别封装segment,丢给网络层的过程。
即:传输层把消息从应用层传给网络层的过程就是所谓多路复用。
多路分用(多路解复用) #
类比多路复用,可以得出对偶结论:传输层把消息从网络层交给应用层的过程就是多路分用。
“多路解复用”非常形象:即把复合在一起的若干个Segment分开,分别送到对应的Socket。
传输层从网络层拿到一系列segment,分别交给正确的Socket。
在段格式中的体现 #
无论是TCP还是UDP,其段头部都是以“源端口”、“目的端口”开始的。
UDP无连接的多路分用 #
段头只需要有SP和DP。传输层直接根据DP把消息送给正确的Socket即可。并用SP作为返回信息的依据。
TCP面向连接的多路分用 #
TCP的段头不仅有SP和DP,还有SIP和DIP(即伪首部中的)。利用这些,如果两个不同客户机用完全相同的SP和DP请求通信,则仍然可以区分出两者。
UDP - User Datagram Protocol 用户数据报协议 #
相对于IP,增加了多路复用和多路分用机制。增加了简单的错误校验。
为什么链路层已经能保证比特流正确传输了,UDP仍然需要错误校验机制 #
因为传输层作为端到端的协议,谁也不知道中间点到点的链路层到底有没有这种机制。并且路由器转发也可能出错。
UDP有错误校验,但是没有错误恢复 #
因此是不可靠传输和无序交付。
因为IP是"Best Effort",所以UDP也是。毕竟,UDP只是对IP的简单升级。
如果要使用UDP进行可靠传输,则需要程序员在应用层自己实现。
UDP相对于TCP的好处 #
延迟低——无需建立连接,无需控制差错
没有拥塞控制——上层可以更自由地控制发送时间和速率(对于需要掌控数据发送时间和速率的应用,UDP更合适)
空间小——头部仅8B,相比20B的TCP会小很多
实现简单——无需维持连接
UDP的应用 #
流媒体,DNS,SNMP
可靠数据传输(Rdt) #
什么是可靠 #
不错、不丢、不乱;
不出错(0-1反转)、不丢包、保持顺序。
控制信息的流向 #
在应用层和RDT之间,是单向的。因为对于应用层来说,只要操作一次就能达到完全正确的结果,故不需要多次信息流动。
在RDT和UDT之间,是双向的。因为为了保障可靠传输,一定会用到双向的控制信息交换。
各种可靠数据传输协议的前提假设 #
假设只进行单向数据传输,即发送方和接收方是明确的。(但是控制信息能双向流动。)
乌托邦协议 (Rdt1.0 可靠信道上的Rdt) #
直接收发即可。
停-等协议I( Rdt2.0 只会产生位错误的信道上的Rdt) #
在这种信道上,虽然不是可靠信道,但是仍能保证按序到达、包不丢失。
引入校验和——需要引入Checksum,以便接收方能够发现错误。
引入控制消息——需要引入接收方的ACK/NAK机制,以便显式地通知发送方是正确还是错误。
引入重传机制——发送方收到NAK,则重新发送。
停-等协议II (Rdt2.1,Rdt2.2 只会产生位错误的信道上的,ACK会坏掉的情况下的Rdt) #
Rdt2.0的缺陷在于如果ACK/NAK坏掉了,则发送方不知道怎么处理,会进入死锁。(状态机无法转移。)如何解决ACK或NAK坏掉?不能尝试纠错,因为花销较大;不能添加额外控制信息(例如:“你说什么”),因为该信息也可以像ACK一样坏掉;解决方式是只要ACK/NAK坏了,发送方就重传上一个分组。
引入序列号——重传意味着重复。因此引入序列号0、1(Seq Number)来避免重复。接收方如果发现序列号重复,则说明是重传分组,则丢弃即可。
Rdt2.2相比Rdt2.1,去掉了NAK。然后用ACK+Seq 取而代之。Rdt2.1虽然有Seq Number,但是在ACK时不指定是确认了哪个序号。Rdt2.2 在ACK时指定序号,即可代替NAK。具体做法是,只要确认上一个序号即可代表NAK。
停-等协议III (Rdt3.0 会发生丢失和位错误,不会乱序的信道上的Rdt) #
相比Rdt2.2,这里又多了一种“丢失”错误。如果丢失,无论是ACK丢失了还是数据本身就丢失,对方没收到,双方都会等待从而死锁。
引入计时器——如果发送方等待ACK超时,则重新发送上一分组。超时可能是ACK真的丢失了,也可能是网络阻塞延迟。如果是后者,就可能导致重复。但是Rdt2.X中的Seq Num完全能应付。所以Rdt3.0 成功诞生。
缺点:Rdt3.0的效率非常低。在1Gbps的线路上,只能做到33KB/s的速率。因此说明,协议如果不够好,会使得线路资源浪费。
从流水线协议到滑动窗口 #
相比Rdt的停-等协议,流水线协议是一种全新的思路。但是需要注意,停-等协议的分组一定是按序到达的,但是流水线协议的分组会出现乱序。
相比Rdt3.0,由于发送时间更多了,然而红色框子(即从刚开始发送到第一个ACK到达)的时间长度不变,故一次发多少个包,效率就提升几倍。滑动窗口协议使得同一时刻在线路上跑的分组或ACK数量>1了。然而Rdt1.0-3.0的这个数字都是1.
引入更大的Seq Number范围——因为需要区分更多的包
引入发送方和接收方缓存——因为有更多的等待确认的分组。只有确认完成,才可以把它们从缓存中删除,否则都有重传的可能。
引入窗口——窗口是固定大小的一段区间,其中包含若干连续序列号。在窗口左侧是已经确认的序列号,在窗口里面,nextseqnum指针左侧是已经发送但还没确认的序列号,在nextseqnum指针及其右侧是还未发送(即可用的)序列号。窗口的含义是当前活动序列号的范围。每次有新的确认了的序列号,窗口就向前移动,直到窗口内nextseqnum指针左侧的区域都是还未确认的序列号。窗口的大小限定了目前的活动序列号最多有多少个。在最坏情况下,待确认的序列号的总数最大值就是窗口大小。
后退N滑动窗口协议(GBN) #
引入累积确认——ACK n代表序列号<=n的分组都被ACK。注意,累积确认不是用于偷懒的。它仍然是每收到一个包就ACK一下。累积确认在正常收发时,其行为和非累积确认完全一致。它和后者的区别只有在出现错误的时候才体现出来。即:出错时,告诉发送方,从哪个序号之后就不靠谱了。
引入GBN——如果空中编号n的分组TimeOut,则重发编号>=n的所有分组。
引入发送方的缓存——存那些发出但是还没被确认的。为后退N重传做好准备。
发送方:如果目前不存在活动的可用的序号,则拒绝上层的发送请求。
接收方:只需要维持唯一的期望序号。如果当前收到的序号是这个期望值,则期望序号++,并ACK之(这里的ACK和非累积确认是一模一样的)。如果不是这个值,则直接丢弃,并重新发送ACK期望序号的上一个序号(这里终于体现累积确认和普通确认的不同了)。这里的丢弃很有讲究:因为这样,GBN的接收方就不需要任何缓存了。乱序到达被解决:因为如果包提早来了,但是显然序列号不是期望的nextseqnum,所以会直接丢掉。
选择重传滑动窗口协议(SR) #
GBN存在严重缺陷:乱序到达的分组都被浪费了。之后它们会被再次传输,非常浪费。在SR中,引入接收方窗口。这意味着接收方可以对待接受的序列号对应的分组进行管理,比GBN更聪明。由于GBN只是去关注下一个待接受的序列号,所以也可以认为是:GBN的接收方窗口大小为1.
取消GBN的累积确认机制,改为单独确认机制——这样,可以使每个包只要成功接收就是有效的。不存在GBN那种虽然到了但是被无情丢弃的情况。
引入接收方的缓存和接收方窗口——为乱序到达的分组提供空间。注意,接收方窗口和发送方窗口的base并不同步。它们也并不知道对方的窗口目前是什么状态。
使用多个计时器——GBN只用单个计时器,但是SR使用多个计时器,即对每个序列号都对应开一个计时器,计时器可以对每个特定的序号都计时。更有针对性。
网络拥塞 #
太多主机发送太快或发送了太多数据,导致网络一时间无法处理。
拥塞的表现 #
分组丢失——来的分组太多,router的缓冲区装不下(可以理解为对于router的流量控制失衡)
延迟指数级增大,有效转发占比下降——router缓存里的东西太多,想要转发需要排很长的队。
引起上游路由器转发能力的浪费——当拥塞的路由器丢失分组,也就否定了上游所有路由器的劳动成果。
什么是拥塞控制 #
站在全局的角度,降低网络的负载。大家可能都得作出一定牺牲。
理想路由器的拥塞 #
假定路由器拥有无限的缓存容量,但是其输出带宽是C。由于缓存容量无穷,故必然不会发生丢失。因此只需考虑带宽问题。
则当其输入带宽在C以下,其输出都是线性增长,且等于输入带宽。当其输入在C及其以上,输出就稳定在C了。此时路由器达到最大吞吐率。
但是,当输入带宽接近C,delay就会突然指数级上升。并当输入=C时,delay为无穷大。因为当输入带宽接近输出带宽,加之router的处理时间,router中的分组会越积越多。当输入带宽=输出带宽,意味着一定有大部分的分组永远都不会被发出去。
引出拥塞的代价1:增大delay。
实际路由器的拥塞 #
此时考虑一个拥有有限缓存,有限输出带宽C 的路由器。由于缓存有限,故如果输入过多,必然会发生丢失现象。
如果发送方能够随时得知路由器的缓存剩余量,在有剩余的时候重新发送,则仍然能保证吞吐量曲线是y=x的直线(x<=C)(因为如果>C,则缓冲区必然满,发送方也不可能发了)。采用这种方式发送,则完全可以避免丢失现象:因为缓冲区永远能放下接收到的分组!!!
但是实际上发送方并不能得知这一点。因此当发送量到达一定程度,丢失率会显著提升,则重发量相应提升。但是,单位时间内跑的分组的数量是有限的,所以实际有效吞吐率会随着重发分组数量占比的提升而大幅度下降。最终,在发送速率=C时,有效输出量一定会低于C不少。
引出拥塞的代价2:丢失现象。这也导致有效转发占比下降。
多跳实际路由器网络的拥塞 #
此时考虑一个由多个实际路由器构成的网络。当多条线路在某个路由器上进行竞争,如果数据过多,总和向C接近,则路由器开始拥塞。由于是实际路由器,其丢失率急剧上升。
但是,这里丢掉的分组不只是这个拥塞路由器的损失,这还相当于否定了其上游所有路由器的劳动成果(即其上游的所有路由器都白对这个分组进行处理了,白忙活了)。这导致上游所有路由器的等效有效输出量急剧下降。
当上游服务器的传输能力被浪费,网络的净传输能力就更差了。输入速率越大,丢失就越明显,这种效应就越明显。当输入速率继续增大,所有的资源都被浪费。此时没有人能从网络中正确接收到信息了,输出速率=0,网络彻底瘫痪。
引出拥塞的代价3:当分组被Drop,任何其上游的路由器的传输能力全部浪费。
TCP - 传输控制协议 #
TCP是点对点通信,不支持多播和组播。
TCP是全双工通信。
TCP是面向连接的通信。这种连接由双方负责维持,与途经的路由器无关。(因为TCP是传输层协议,而router是网络层。)
TCP使用Rdt传输,且采用流水线机制,利用拥塞控制和流量控制动态调整窗口大小。TCP采用了介于GBN和SR之间的一种流水线滑动窗口机制。它在发送方和接收方都有缓存(在这一点上更像SR)。
TCP的Seq和ACK #
项目 | 解释 |
---|---|
Seq Number | TCP段的第一个字节的编号(字节为单位)。在TCP建立连接时,双方的第一个序列号都是随机选取,然后双方在建立连接的过程中交换相关信息,于是获得彼此的base序列号。以后以此为base,以字节为单位进行编号即可。 |
ACK | 下一个期望接收的序列号(累积确认机制,这里更像GBN) |
TCP的Rdt概述 #
由于IP是“best effort”,不能保证可靠传输,所以TCP要负责可靠传输的实现。
TCP使用流水线滑动窗口机制,采用GBN中的累积确认和GBN中的单计时器。
TCP的重传 #
TCP在什么情况下会重传?由于确认机制类似于GBN,故和GBN一样,如果收到重复ACK或计时器超时,即重传。
但是,由于TCP在接收方也设有缓冲区,所以和SR一样,不需要重传N个了。只需要重传引起重传的那个序列号即可。
即:重传原因类似GBN,重传方式类似SR。
TCP的计时器 #
像GBN一样,TCP使用单个计时器。该计时器在重传时、ACK时会重新启动。如果发送时计时器没启动,则也需要主动启动它。
TCP的快速重传机制 #
在TCP的实现中,如果发生超时,则下次设定计时器时,计时器时间将加倍。如果分组丢失,则需要等很长时间才能重新发送。
因此,可以通过观察接收方的ACK的规律来判断是否要立即重传这个分段。即:如果接收方迟迟收不到某个分段,则根据累积确认机制,不管收到什么序号,他都会一直返回ACK没收到的那个分段之前一个的序号。如果这种ACK出现了三次了,那么发送方就可以直接判断这个分段丢了,可以立即重传。不用等到计时器超时了。
TCP流量控制 #
为什么要进行流量控制?如果发送方速度过快,以至于填满接收方的缓冲区,使得接收方来不及处理,这种情况称为淹没接收方的缓冲区。
因此,TCP段头中的接收窗口大小RcvWindow字段中表示自己的接收缓冲区还剩余多少空间。(因为序号是以字节为单位,所以字节就是Seq num,故空间剩余就是接收窗口序号剩余。)
如果发送方看到接收方给自己的段头中,RcvWindow=0,则不再发送。为避免进入死锁,发送方之后还得给接收方发一个很小的段,然后接收方回复新的RcvWindow的值(此时应该能空出来一些了)。
TCP三次握手 #
序号 | 解释 |
---|---|
第一次 | 不包含数据部分。客户端发送SYN=1的段,seq为随机指定一个最初的Seq Num。 |
第二次 | 不包含数据部分。服务端发送SYN=1,ACK=1的段,seq为随机指定一个最初的Seq Num,ack为刚才客户端seq+1. |
第三次 | 可以包含数据部分。客户端发送ACK=1的段。seq为刚才客户端seq+1.ack为刚才服务端seq+1. |
注意,这里ack都是seq+1的原因是如果不带数据,那就是默认+1的。注意!
注意,服务器端的资源分配(例如缓冲区建立)是在第二次握手时。
网络攻击——如果第三次握手,客户机没有发送,则服务器会把自己的缓冲区资源保留一段时间,然后确认不会建立连接了才释放掉(这段时间,服务器会重传第二次握手段)。因此如果有大量客户机同时给服务器发送第一次握手,却不发送第三次握手,就可以攻击服务器。
TCP四次挥手 #
序号 | 解释 |
---|---|
1 | 客户机主动向服务器发送FIN段 |
2 | 服务器发送ACK段 |
3 | 服务器发送FIN段,并等待ACK,直到等到即可关闭连接 |
4 | 客户机发送ACK段 |
TCP拥塞控制 #
拥塞是由于发送方太快地发送了过多的数据导致路由器来不及处理。因此,拥塞控制的最基本手段就是控制发送速率。
TCP的拥塞窗口 Congestion Window #
这个窗口的定义是所有已经发送但是还没被确认的序号。
通过拥塞窗口动态调整发送速率 #
发送速率=拥塞窗口大小/RTT (B/s).由于RTT看作恒定,所以可以通过调整拥塞窗口大小来动态调整发送速率。如果发生拥塞,把窗口开小点即可。
如何感知网络拥塞,从而作出拥塞窗口大小调整 #
很简单,如果出现分组的丢失,就说明网络拥塞了。
具体说,如果出现超时或者3个以上ACK(即快速重传被触发),就说明网络拥塞了。这时直接调整拥塞窗口大小即可。
AIMD方法调整拥塞窗口大小 #
AIMD,即Additive Increase & Multiplicative Decrease,加性增,乘性减。
每过一个RTT,就把拥塞窗口增大一个MSS(Max Segment Size,最大段长度)。如果某时刻探测到拥塞,则立即让拥塞窗口大小减半。
基本思想:试探性地提速,并在出现问题时以最大速度止损。
图像:以RTT为单位作为横轴,以拥塞窗口大小(单位:B)作为纵轴,可以看出AIMD的图像为锯齿状。
SS方法调整拥塞窗口大小 #
SS,即Slow Start,慢启动。初始状态时,拥塞窗口大小被初始化一个MSS的大小(因为拥塞窗口能达到的最小值也就是MSS了)。
思想:慢启动,快增长。即:初始速率很低,必然远低于引起loss的程度。但是可以让他很快地往上增长。即使用指数型增长。
一开始初始化拥塞窗口为MSS,之后每个RTT,如果上一轮的ACK都收到了,则将拥塞窗口翻倍并发送新的。
Threshold、慢启动状态和拥塞避免状态 #
Threshold被定义为上次发生Loss时,拥塞窗口大小的一半。
如果当前窗口大小<Threshold,TCP处于慢启动状态,其拥塞窗口大小以SS方式增长;
如果当前窗口大小>Threshold,TCP处于拥塞避免状态,其拥塞窗口大小以AIMD方式增长。如果此时出现Loss,则Threshold更新为本次Loss发生时,拥塞窗口大小的一半。且,此时拥塞窗口调整的方式依据情况而定,并不一定时AIMD方式了。
TCP Series 1 Tahoe 和 TCP Series 2 Reno #
这两者的区别在于当出现Loss事件,拥塞窗口大小的变化。Tahoe是直接降低到MSS,Reno是降低到Threshold。对于Tahoe来说,就是回到慢启动状态,对于Reno来说,就是直接到拥塞控制状态(从Threshold开始重新以AIMD方式增长)。
不同Loss事件会导致不同的TCP Series #
如果出现3个Duplicated ACKs, 则说明网络仍然可以传递数据,拥塞不严重,此时采用Reno方法。
如果出现Timeout,则说明网络几乎彻底瘫痪,连ACK都回不来!!此时采用Tahoe方法,彻底释放压力,重新来过。
TCP拥塞控制算法 #
Threshold = ?;
CongWin = MSS;
while(1){
while(CongWin<Threshold && 没有loss出现)
发送Segment,并且CongWin*=2;
while(没有loss出现)
发送Segment,并且CongWin+=1;
Threshold/=2;
if(收到3个 Duplicated ACKs) CongWin = Threshold;
if(Timeout) CongWin = MSS;
}
TCP的公平性 #
多个TCP连接进行竞争,其吞吐率最终会收敛于对路由器瓶颈带宽的平分。因此是公平的。具体见图集。拿两个TCP来说,纵轴是连接2,横轴是连接1,平面中任意点都可以代表他们两个的速率情况,且这个点一定位于直线Y=-X+C以下(C是路由器输出带宽,或者说是瓶颈带宽。)这个点会作AIMD增长,一旦增长到Y=-X+C以上,就会向原点方向下降。多次以往,这个点就容易落到Y=X上,或者说会收敛于Y=X上。而Y=X就是吞吐率的平分线。
但是TCP和UDP一同连接就会不公平。因为后者不讲武德,没有流量控制和拥塞控制,但是前者却会自动限流。
TCP的性能(平均吞吐率) #
设出现Timeout时,拥塞窗口大小为W,则平均吞吐率是0.75W/RTT.
这是由最大吞吐率W/RTT和减半后的吞吐率W/2RTT平均而来。