故障预测技术在集成电路设计中应用 美国锐拓集团大中华区销售及技术与支持经理 李春
摘要:本文首先阐述了故障预测和故障诊断的定义,故障预测与故障诊断的区别。阐述了故障预测在半导体设计中价值。论述了故障预测在半导体设计中的应用问题,影响半导体器件寿命的因素。给出了静电损伤、热载流子等影响半导体器件寿命的故障预测方案。 关键词:故障预测;故障诊断;故障预测和健康管理;机内测试 1. 引言 电子元器件的可靠性是电子设备可靠性的基础。电子可靠性工程是提高产品质量和可靠性,降低硬件生产故障率和市场失效率的系统工程。 根据业界的分析,60%以上的生产故障是由于器件失效引起的,70%以上的市场返修也是因为器件失效引起的,而大多数公司对此却没有采用系统化的电子可靠性工程方法来解决,导致效率较低,产品质量可靠性不高。其实,通过选择合适的器件,有效地控制器件质量,合理应用器件,进行可靠性设计,达到业界领先的产品质量是可以实现的。集成电路芯片在电子系统中起到越来越重要的作用,在以珍视生命的大前提下现代的医疗设备,汽车,武器装备,航空设备等电子系统的使用,保障和维修费用越来越庞大,经济可承受性成为一个不可回避的问题。现在,故障预测和健康管理技术在电子系统中已经有广泛的应用,作为电子系统的主要部件和大脑的集成电路芯片能不能也采用故障预测和健康管理技术呢?能不能做到将故障预测的范围从部件缩小到芯片呢? 2.故障预测与故障诊断 故障是产品不能完成规定功能或性能退化不满足规定要求的状态。现在通常的做法是在故障发生后,通过故障诊断的方法找到故障原因。故障诊断是系统发生故障后,通过别的方式、手段来警戒用户,因此故障诊断是事后维修的一个依据。事后维修是以系统故障为依据,在系统出现故障后才进行维修以恢复系统的正常功能。事后维修是最原始的维修方式,可以减少一些不必要的维修费用,但当一个部件出现故障时他可能会损坏其他部件,毁坏整个系统,甚至危及人身安全。这是事后维修的局限性。 在这里提出新的概念—故障预测和健康管理。故障预测是以当前的使用状态为起点,对将来可能出现的故障进行预测,向用户及时提出警告,以便能够采取措施避免重大恶性事故发生外,对现行的系统管理和维修制度也有开创性的作用,达到及时的故障预测和有效的健康管理。Ridgetop-Group[1] 的故障预测和健康管理方案能够告诉用户当前系统的健康状态和剩余有用时间。因此故障诊断是发生在系统失效之后,故障预测和健康管理是发生在故障出现之前。下面给出Ridgetop Group 关于集成电路芯片器件和电子系统的故障预测说明图1. Ridgetop 建议如果芯片触发了故障预测报警点,说明芯片已经接近它的实际寿命,应该提前采取措施,预防重大事故发生,比如更换芯片或更换整个PCB板。 3.集成电路器件故障预测的应用 故障预测和健康管理技术已经应用在航天、民用飞机、武器、军事上,这里不在赘述。在这里将要讨论集成电路芯片器件的故障预测技术,首先应知道有哪些因素导致芯片的寿命减短或在芯片的生命周期内失效呢?ESD、TDDB(时间相关介质击穿)、NBTI(Negative Bias Temperature Instability)、电迁移、热载流子、辐射损伤等实效机理是半导体中无法回避的。既然这些半导体效应是不可避免的、不可回避的,就可以根据这些效应进行集成电路器件的寿命进行预测。可靠性的问题实际上也是对未知的问题加以控制。美国Ridgetop-Group针对静电损伤(ESD)、TDDB(Time Dependent Dielectric Breakdown)、电迁移、NBTI(Negative Bias Temperature Instability)、热载流子、辐射损伤等失效机理,做到了在宿主器件剩余20%寿命时失效。 根据故障预测的结果或故障预测的报警点可以进行预知维修,比如更换芯片或提供芯片的真正的使用寿命给芯片设计者。以至于把灾难性故障的风险降到最小,使系统或芯片器件发挥最大的效能。这里主要介绍ESD、HC、TDDB、NBTI的故障预测。 3.1 静电损伤的故障预测 静电损伤是半导体领域的难点, 很多企业使用静电腕带或离子风来减少静电效应, 静电损伤是不易被察觉的,它的影响也是不能马上就能体现出来。但是静电损伤的确是存在的,也是减少芯片器件生命周期的一个因素,也就是使对静电损伤进行故障预测成为有效使命。这里提供Ridgetop-Group关于静电损伤的故障预测单元.
请看它的示意图2.和ESD预测单元图3。
从图3.看, ESD故障预测单元是和用户的主电路在同一芯片器件里, 和主电路处在相同的环境下,环境包 括过高压、 过低压、 瞬时毛刺、 湿度、恶劣的温度及辐射。 因此ESD单元能够预测主电路的使用寿命,给出预测报警点,但是它需要占用额外的芯片管脚。 3.2 热载流子(HC)的故障预测 热载流子容易在N沟道MOS管靠近漏极处在二氧化硅或硅处形成负电荷陷阱. 热载流子效应是MOS管的一个重要失效机理,是大家所不希望的. 热载流子容易导致MOS管的Vt增加和Id减小.示意图4和图5.
目前,通过施加电应力加速MOS器件中热载流子效应的产生,并以器件的某些参数(例如阈值电压Vth、跨导gm等)变化量达到行业标注为失效判据,估算出器件在应力作用下的寿命值,再根据一定的模型推算出正常工作条件下的寿命值—既芯片的设计寿命。Ridgetop-Group 提出了用在芯片中附加热载流子单元方法来监测热载流子效应,实时监测芯片的健康状态和芯片的剩余使用寿命,使芯片的效能达到最大化。介绍一下HC单元的示意图6. 和应用图7.
如图7.HC单元与主电路被放在一起,与主电路一样受相同的外界应力影响,这些外界应力决定着芯片的寿命。当主电路在测试方式下,这个单元将触发,进入到预定的、连续的应力和测试循环,最终给出电路真正的寿命。 TDDB效应的故障预测 TDDB效应是由小几何体, 多沟道,薄栅氧化层, NMOS 衬底注入引起的, 它容易造成噪声增加,功耗增加,MOS管器件电参数不稳定,如:阑值电压漂移、跨导下降和漏电流增加等,甚至可引起MOS管失效。Ridgetop-Group TDDB 故障预测单元是利用和主电路在一起的利用JTAG 技术的TDDB物理单元加HALT 测试方法来实现的。 NBTI效应的故障预测 NBTI效应主要130纳米及以下工艺中。当栅源的电压是负电压,PMOS 容易发生NBTI效应。在氧化硅和硅的界面处,负偏压和/或温度容易造成正阱,造成Vt 增加和Id的减少。造成电性的间歇性和失效, 导致芯片可靠性和寿命降低。Ridgetop-Group TDDB 故障预测单元是利用和主电路在一起的NBTI物理单元来实现的。 对于在半导体中的金属迁移和辐射等效应,它们都在影响半导体寿命,有同样类似的单元来对金属迁移和辐射效应等进行预测,只是它们针对不同的目的,不同的问题。这些单元与客户的主电路隔离开,互不干扰,但它们实现了芯片内部的自检测试(BIST),达到要检测的目的。对于这些效应的预测,请查阅Ridgetop Group 工作网站。 4 总结 故障预测技术是可以应用在半导体设计中的,随着最终用户的要求越来越高,也要求芯片性能越来越高,如果能够预测芯片的寿命,使系统维修和芯片的替换变得更容易、更简单。上述这些半导体效应是不能避免的,但是它们是可以预知的, 因此故障预测技术可以应用在半导体设计领域,将故障预测范围缩小到芯片级,避免重大恶性事故发生。
关于美国锐拓集团(Ridgetop-Group) 美国锐拓集团是一家坐落于美国亚利桑那州的私人高科技公司,主要为关键系统提供高可靠性的解决方案;先进的工具;电子系统的故障预测和健康管理解决方案(PHM);系统的BIST解决方案; 其代表性产品包括FPGA/BGA 芯片与PCB板上焊盘连接失效的实时检测(SJ-BISTTM);电源系统寿命的故障预测(RingdownTM);高性能的半导体ADC和DAC等混合信号芯片的IP核(-55℃~ 125℃)。
随着半导体业的飞速发展,半导体器件的尺寸进入纳米级,TDDB, NBTI, ESD, 热载流子等效应正在影响半导体芯片的可靠性。为了满足用户对芯片的可靠性方面的要求 ,美国锐拓集团推出了针对TDDB,NBTI, ESD, 热载流子(HC), 金属迁移 和防辐射等半导体芯片的故障预测单元。 在纳米级芯片的生产制造过程中,半导体工艺的变化也是造成半导体芯片可靠性的重要因素, 美国锐拓集团公司提供了纳米级芯片可生产设计(nanoDFM)工具。
美国锐拓集团公司的产品主要应用于航天、航空、民用飞机、汽车电子、医疗电子、半导体设计和半导体生产等领域。美国锐拓集团公司的客户遍布美国、欧洲和日本等国家和地区。其客户包括美国宇航局(NASA)、霍尼维尔、戴姆勒-克莱斯勒、ATK/理由使命研究公司、通用动力、美国能源部等,以及其他北美、欧洲和亚洲的政府和商业公司。 http://www.ridgetop-group.com.cn
|