啥叫看门狗?
看门狗也称为看门狗定时器,本质上是一种定时电路或者软件定时器机制。
工作原理:
看门狗的硬件组件是一个计数器,该计数器设置为某个值,然后递减至零。 软件有责任经常将计数设置为其原始值,以确保计数***不会达到零。 如果确实达到零,则认为软件已以某种方式发生故障,并且CPU已复位。
正常工作时,单片机或处理器或者线程,周期性设置看门狗定时器的定时值,通俗讲也称为喂狗。定时器则在后台不断的计数,如果定时时间到了且没有再次喂狗,则狗叫,意味着一些不寻常的事情发生了!此时,狗狗对外发出指令,执行相应的动作。这里所谓的动作究竟是什么?取决于实际系统的设计。常见的看门狗芯片则会发出复位信号给单片机或者处理,对于软件定时器而言,具体会有何种动作,则灵活多变,具体取决于采用何种安全策略。
能看住哪些错误呢?
栈或堆溢出,程序跑飞
某段程序异常无法返回或陷入死循环
强电磁干扰破坏数据导致系统异常,这你或许不好理解,你就想象一下军事领域,或者航空航天领域很多电子系统,常工作在强电磁干扰环境中
bug导致的系统宕机,或者死循环
多任务系统中死锁
......
原因万万千,憋慌!你还有个好狗狗在帮你,让看门狗来收拾残局吧。在一个复杂的嵌入式系统中,不可能保证没有bug,但是通过使用看门狗,您可以保证没有任何bug会无限期地挂起系统。
狗叫后该咋整?
常见的处理策略有哪些呢?
系统复位,大多数人都有的体验,系统挂了咋整,重启。不由想起了刘欢的<<重头再来>>~~~
失效安全,老外常叫fail-safe 模式。就是设备即使出现致命故障了,也别造成安全事故。粗鲁点说,就是挂了,也不要影响他人。不易理解,举个例子,一个正在下降的电梯,加入看门狗检测到程序异常了,安全的做法是赶紧停止电机转动,否则自由落体,就要凉凉啦。这在IEC61508 功能安全标准,或者医疗安全标准、汽车安全标准中都有体现。
这一种做法值得推荐,芯片复位后,利用芯片复位状态寄存器值,对由于看门狗复位事件计数,事不过三,如果连续三次此类复位,则保守做法就是将系统切换到安全状态或显示错误消息,这样可以避免无限重新启动。
....取决于具体的设计策略
如果我们**系统快速恢复,应该采用看门狗复位后的初始化比正常加电初始化短的策略。 也就是说跳过设备的一些自检。 当然,在某些系统中最好进行全面自检,因为看门狗超时的根本原因可能是通过此类硬件异常导致的。
|