本文转自老衲五木 的新浪微博
保活功能是TCP很重要的一个特性,它在连接异常检测,异常处理上起着至关重要的作用。一个网络应用程序是否稳定可靠,连接的异常处理尤为重要。很多人反应,LwIP做客户端时,是不是很不稳定,经常会莫名掉线。老衲想说的是,应为网络,硬件,环境等等太多原因,掉线是正常的,你应该把它看作一种常态,你对连接异常的处理有哪些,处理的怎么样,这些决定了你的代码的稳定性和可用性。
服务器运行中突然断电、服务器软件异常莫名死机、通信过程中网络故障、人为拔掉网线等等,这些都属于连接异常的范畴。
LwIP内核中提供了TCP保活功能,用来随时监测连接的可用性,如果连接不可用,内核会对该连接进行异常处理(通常是多次试探,失败后断开连接,并通知一个事件给用户)。通常用户可以收到一个可读的事件,此时用户对连接任何读写操作都会立即返回错误(socket的话errno记录了具体的错误值),此时用户的正确处理应该是关闭连接,而不是循环尝试在连接上进行更多的数据发送或接收操作。当然,用户可以选择在后续某个恰当的时候重新打开连接(客户端常用的方式是重新尝试连接,连接失败则重复尝试),这些是用户应用程序设计应该考虑的问题。
那么,在LwIP中如何应用保活特性呢?如果你使用的是socket编程,那么很简单:
int opt = 1;
setsockopt(socket,SOL_SOCKET, SO_KEEPALIVE, &opt, sizeof(int));
这句就可以开启该连接上的保活功能,后续若连接异常,内核会在该socket通知一个可读事件,此时用户调用读写操作时,内核会返回错误。应用程序应及时对这种异常进行处理。
如果你使用的是rawapi编程,那流程可能比较麻烦,需要细分为两种情况:
- 如果你程序做的是服务器,那这种情况比较简单,内核已经对每个连接默认开启了保活功能,当连接异常时,内核会通知你一个err的回调。
- 如果你程序做的是客户端,这种情况下比较麻烦,内核没有默认给你打开保活功能,此时需要自己动手啦,通常在建立连接的时候这样做即可:
pcb = tcp_new();
ip_set_option(pcb,SOF_KEEPALIVE);
这样,如果你的客户端检测到连接异常,则会有一个err回调到用户程序,同样,你需要在回调中处理这个异常。也可以在这里重新发起一个连接尝试。
最后,需要指出的是,在内核中默认的一些保活参数的配置,可能并不一定能满足你应用程序的需求,比如保活开始的时间、发送保活的时间间隔、一共发送多少次保活包等等,你可以在lwipopts.h里面进行配置,比如:
#define LWIP_TCP_KEEPALIVE 1 //开启用户自定义保活时间,这个值如果为0,则系统使用默认的保活时间参数(这些参数可能不是你想要的,比如内核默认在连接双方都没有数据交互2个小时后,再发送保活探测包,对于拔网线这种异常,2小时太久了,用户期望能在越短的时间内检测出异常越好)
#define TCP_KEEPIDLE_DEFAULT 60000 //60秒内连接双方都无数据,则发起保活探测(该值默认为2小时)
#define TCP_KEEPINTVL_DEFAULT 10000 //每10秒发送一次保活探测
#define TCP_KEEPCNT_DEFAULT 9 //一共发送9次保活探测包,如果这9个包对方均无回应,则表示连接异常
|