芯片的五種“死”法|半導體行業觀察

來源:本文由 公眾號 半導體行業觀察(ID:icbank)翻譯自「Semiconductor Engineering」,謝謝。

半導體器件包含數以億計在極端溫度和惡劣環境下工作的晶體管,因此,許多器件不能正常工作或壽命有限也就不足為奇了。有些器件永遠出不了實驗室,還有很多器件死在晶圓廠裡。人們希望大多數放到產品中的器件都能存活下來,直到它們過時,但很多事情可能會導致它們走不了那麼遠。即使是運行正常的器件也可能受到損害,以至於無法提供正確的結果。

常見危害及其原因不可勝數。它們通常分為幾個類別,下面將對此進行詳細說明。

芯片的五種“死”法|半導體行業觀察

死於設計

根據Mentor/Wilson的功能驗證研究,2018年,只有26%的ASIC實現了一次流片成功,低於此前的研究結果。成功率低的部分原因是新技術節點增加了尚未完全理解的挑戰。已經存在了一段時間的問題被納入到工具和流程中,從而使那些已知的問題不再是威脅。然而,2018年,混合信號接口、串擾、時序和IR drop,這些已知的問題導致了重新流片的增加。

芯片的五種“死”法|半導體行業觀察

圖1:導致重新流片的ASIC缺陷類型。 (來源:Wilson Research Group和西門子M

Synopsys的產品經理Kenneth Chang表示:“一些客戶的芯片失敗,是因為他們的設計過程更加特殊。一位客戶進行了block級功耗分析,然後進行了整合。 他們認為可以在這個階段修復問題。但問題是不可修復的,芯片已經失敗了。芯片失敗的原因在於舊方法不再適用於新的先進技術。”

失敗不一定是不能正常工作。Cadence公司Digital和Signoff部門產品管理總監Jerry Zhao表示:“失敗可能是因為它沒能達到性能目標,如果芯片的運行速度比預期低10%,那麼它在市場上可能沒有競爭力。”

電源正在成為一項挑戰,特別是當電源在片上的時候。Arm公司物理設計部門高級解決方案營銷經理Lisa Minwell表示:“電源供電網絡(PDN)是一個分佈式RLC網絡,可以分為三個部分:片上、封裝和電路板。片上需要更快的時鐘頻率、更低的工作電壓、更高的晶體管密度。雖然先進的finFET技術已經實現了持續的性能提升,增加的功率密度使IR drop閉合成為一項挑戰。準確建模和最小化電壓裕度是平衡電源效率和魯棒性的關鍵。”

但裕度可能是悲觀的,從而限制了競爭力。儘管發現了問題,但一些公司還是冒險繼續前進。Kenneth Chang表示:“一家大型存儲器公司的流片出現了已知的大量IR drop問題。只要看上去不太糟糕,他們就會流片,因為日程表對他們來說更重要。客戶正在學習,在這種情況下,他們的芯片並沒有失敗。如果他們沒有失敗,他們就會繼續做正在做的事情。當他們到達更先進的節點時,他們會更加被指標驅動,並且需要執行EMIR分析。”

越來越多的問題也開始同時出現。例如,功率、IR drop、發熱、時序、電遷移都是相關的,但是對於其中大部分問題的分析是分開進行的。Jerry Zhao表示:“電源噪音是一個問題。供電電壓正在下降,同時用戶希望獲得更高的性能。你無法從電池獲得太多的驅動功率,或許850 mV,但你仍然想要3GHz的性能。電源噪聲會產生重大影響,特別是當裸片有變化的情況下,這種(噪聲)會隨著時間和位置而變化。因此,不同位置的同一電池可能會因電壓下降而失效,從而導致時序延遲。你必須在電壓下降的背景下分析電池,並進行靜電電壓感應時序分析。有些路徑對電壓變化非常敏感。”

隨著問題得到更好的理解,工具可以進行更好的分析,並且可以使用設計方法來規避問題。Moortec公司營銷副總裁Ramsay Allen解釋道:“複雜性導致了更大的功率密度,而這反之又在芯片內部產生了局部熱點。柵極密度的增加還會導致供給電路的電源電壓下降更大。在整個設計過程中,高精度的溫度傳感器和電源監控器使系統能夠管理和適應這些條件,通過提供熱管理和供電異常檢測的解決方案,提高器件的可靠性和優化性能。這一點在數據中心和人工智能設計中尤為重要,在這些設計中,性能要求的提高使設計在溫度和電壓方面承受了巨大的壓力。”

死於製造

半導體器件的製造涉及到測量僅幾納米的結構。作為參照,人類DNA鏈直徑為2.5nm,而人頭髮直徑則為80,000至100,000nm。一粒塵埃可以摧毀晶圓片上的幾個裸片。如果裸片的尺寸變大,隨機失效的可能性就會增加。對於成熟的工藝節點,產率可能在80%到90%之間。然而,對於較新的節點,產率可能大大低於50%,儘管實際數字是嚴格保密的。

芯片的五種“死”法|半導體行業觀察

圖2. 晶圓缺陷圖案。(來源:Marvell Semiconductor,ITC 2015)

即使裸片沒有受到災難性的影響,也不能被認為是可操作的。製造步驟不完善,哪怕一個原子的工藝變化也會產生顯著的差異。雖然這可能不會對設計的某些部分產生影響,但如果工藝變化恰好與關鍵時序路徑吻合,則可能會使器件不符合規格。

ANSYS公司ESD/heat /reliability產品經理Karthik Srinivasan解釋說:“隨著設計逐漸演變成採用先進封裝的深亞微米技術,現有的仿真工具和設計方法無法很好地反映變化及其對可靠性的影響。這會導致設計流程出現漏洞,從而導致一些失敗。”

設計流程越來越多地允許在開發早期就考慮到變化,以最大限度地減少其影響,而冗餘等設計技術可以減少需要丟棄的“幾乎可以工作”的芯片的數量。“幾乎可以工作”的芯片對於大型存儲器陣列非常常見。分類(Binning)是經常用於處理器的另一種做法,以較高頻率運行的優良器件可以以較高價格出售,而那些只有在低頻時才能成功工作的器件則以折扣價出售。

測試的作用是找出哪些裸片功能完全。那些臨界的裸片通常會被丟棄,但一些無功能的裸片確實存在漏檢,並最終成為產品。

死於觸摸

殺死芯片有多種方法。請考慮,施加在芯片外部的0.5V電壓在1nm的介質上產生0.5mV/m的電場。這足以導致高壓電弧。現在考慮一下當你觸摸芯片的引腳時會發生什麼。

Jerry Zhao解釋說:“通常情況下,它是一個高電壓,根據引腳的接觸方式,會有不同的模型,如人體模型或電荷分佈模型(CDM)。這些模型定義了電流如何流入引腳。這是一個隨時間變化的波形。”

通常,芯片會包含靜電放電(ESD)保護。ANSYS公司的Srinivasan指出:“對於封裝內的單個裸片,他們的目標是2kJ這樣的標準。多芯片解決方案,例如HBM,標準略低。使用2.5D或3D IC的一個原因是為了性能,而ESD則是性能的障礙。你試圖最小化ESD,甚至在這些Wide I/O接口或任何類型的多芯片接口通道上消除它,這意味著你無法按照你針對單芯片的相同標準對每個芯片進行真正的測試。它們必須經過更專業的測試,因為它們的ESD保護很小,或者可能沒有ESD保護。”

即使在運行期間,ESD事件也可能導致問題。Arm公司的Minwell說:“在便攜式電子產品中,ESD可以導致許多類型的軟錯誤。在ESD事件期間,電源供電網絡(PDN)上可能會引起噪聲,原因在於某些IC(振盪器IC、CPU和其他IC)的靈敏度,或是PDN的場耦合。”

死於關聯問題

Helic公司營銷副總裁Magdy Abadir說:“軟錯誤可能以多種方式發生,如果錯誤是系統上的,它可能會使芯片看起來好像不工作。3D IC正在增加對電磁感應設計方法的需求。這是因為產生的功率密度更高和堆疊層數的增加,這就增加了產生天線的風險,它會放大整個設計過程中產生的磁場。”

電力供應不足也會造成問題。Jerry Zhao說:“芯片的功能取決於晶體管開關。這取決於供電電壓。如果它在1V下工作,它可能會下降10%或20%並仍然可以正常工作。但時序會有所不同,因此可能需要降低最大時鐘頻率。”

由於電壓降低,電路更容易受到噪聲的影響。ANSYS公司半導體事業部首席技術專家Norman Chang說:“電磁干擾(EMI)是芯片向環境發出的噪聲。噪聲源來自有源電路,它會在電源/地線和信號線上產生電流。電源線/地線將通過封裝到PCB,如果它看到封裝或PCB上有天線結構,就會引起空氣輻射,然後通過天線結構輻射到環境中產生干擾。”

但出去的東西也會進來。Norman Chang表示:“電磁敏感性(EMS)是人們不得不擔心的新問題。能量注入測試是從150kHz開始注入1W能量,一直到1GHz。在每個頻率,你會向系統注入1W的能量。如果你沒有足夠的保護,就會破壞沿路徑進入芯片的電路。我們的目標不是破壞芯片,而是測試這種噪聲是否會影響電路。或者引腳上的電壓可能過高,如果電壓太高,就會產生過電應變(electrical over-strain)。”

死於操作

此時,芯片已經到達現場並被認為是可操作的。Microchip模擬電源和接口部門首席產品營銷工程師Fionn Sheerin說:“可靠性是個大問題。在很多情況下,糟糕的熱設計並不會導致瞬間災難性的故障,甚至不會導致產品平庸。但器件壽命會變短。觀察layout中的熱點或最佳layout實踐以及良好的層次規劃可能會產生不同的效果。這也是驗證和可靠性測試真正重要之處,也是汽車應用中的功能安全問題。”

西門子Mentor事業部的產品營銷總監Joe Davis對此表示贊同:“發熱帶來的問題不僅僅是手機在口袋裡變熱。它會導致晶體管和它們之間的連接退化。這可能會影響性能和可靠性。”

熱量產生於兩個來源。Jerry Zhao表示:“首先是路由層。這是與導線中的電流有關的熱量。模擬電路比數字電路有更大的電流。因此,模擬設計者不得不擔心溫度過高是否會使連線融化。第二個來源是晶體管。當我們遷移到finFET時,一個新的現象是自熱。熱量沿著弱電阻路徑運動,從晶體管的鰭片垂直髮散。這就增加了連線中的熱量。”

當大電流和熱量聚集在一起時,電遷移效應會慢慢損壞連線。類似地,諸如負偏置溫度不穩定性(NBTI)之類的物理效應,當你有很大的電荷時,會對器件造成壓力,如果持續足夠長的時間會導致永久性損壞。

結論

本文僅包含芯片從計劃到產品,然後在產品的生命週期中所面臨的一些挑戰。

芯片在惡劣環境中運行,半導體行業已經學會了如何應對這些挑戰。但是隨著製造尺寸變小以及採用新的封裝技術時,新問題出現了。有時,這些新效應會導致器件失敗。但從歷史上看,行業很快就學會了要麼規避新問題,要麼將問題最小化的方法。


分享到:


相關文章: