王宇峰,史曉
(中國(guó)電子科技集團(tuán)公司第五十二研究所,浙江杭州 310012)
受美國(guó)貿(mào)易戰(zhàn)影響,進(jìn)口處理器的供應(yīng)已受到嚴(yán)重制約,迫使國(guó)家加速對(duì)國(guó)產(chǎn)處理器的自主研究。目前,國(guó)內(nèi)已經(jīng)形成了飛騰、龍芯、申威、兆芯等具有代表性的自主研制處理器[1-3]。
以國(guó)產(chǎn)處理器為基礎(chǔ)的產(chǎn)品,例如工控防火墻[4]、無(wú)線氣象采集系統(tǒng)[5]、計(jì)算機(jī)圖形顯示系統(tǒng)[6]等,已逐步應(yīng)用于國(guó)防、軍事、工業(yè)、航天等重要領(lǐng)域,但是對(duì)其可靠性問(wèn)題的研究相對(duì)較少。文獻(xiàn)[1]對(duì)某型國(guó)產(chǎn)處理器的可靠性環(huán)境試驗(yàn)方法與試驗(yàn)分析開展了研究,文獻(xiàn)[7]針對(duì)龍芯計(jì)算機(jī)內(nèi)存出錯(cuò)等常見故障,提出了故障診斷和可靠性增強(qiáng)方法。文中采用FMECA 方法,對(duì)飛騰最小系統(tǒng)通用模塊開展分析,并結(jié)合實(shí)際故障統(tǒng)計(jì)數(shù)據(jù),歸納總結(jié)出飛騰通用模塊中危害性較高的元器件,并提出相應(yīng)的設(shè)計(jì)改進(jìn)措施,為模塊可靠性設(shè)計(jì)工作提供指導(dǎo)意見。
FT1500A/16處理器具備高性能、低功耗特點(diǎn)[8-9]。文中基于FT1500A/16 處理器,從飛騰最小系統(tǒng)出發(fā),設(shè)計(jì)一款飛騰通用模塊,可作為通用產(chǎn)品與其他板卡搭配使用,實(shí)現(xiàn)數(shù)據(jù)處理控制功能,具備模塊化、通用化特點(diǎn),靈活度高,結(jié)構(gòu)獨(dú)立、裝拆方便,維修簡(jiǎn)易。飛騰通用模塊實(shí)物如圖1 所示。
圖1 飛騰通用模塊實(shí)物圖
飛騰通用模塊硬件設(shè)計(jì)說(shuō)明如下。
1)內(nèi) 存:FT1500A/16 處理器集成4 個(gè)DDR3 存儲(chǔ)控制器。模塊設(shè)計(jì)時(shí)單個(gè)存儲(chǔ)通道擴(kuò)展為9 片內(nèi)存芯片(8+1 片,其中1 片作為ECC 使用)。
2)電源:模塊采用典型12 V 電源輸入,在板內(nèi)實(shí)現(xiàn)電源轉(zhuǎn)換。3)時(shí)鐘:FT1500A/16處理器的參考時(shí)鐘為50 MHz。4)復(fù)位:分為上電復(fù)位和熱復(fù)位,兩種復(fù)位信號(hào)上拉后,與外部控制器互連,低電平有效。
5)外設(shè):FT1500A/16 包含豐富的外設(shè),該模塊設(shè)計(jì)對(duì)扣插座,實(shí)現(xiàn)與其他板卡的信號(hào)輸出和互聯(lián),設(shè)計(jì)各接口用途功能如下。
①2 路UART:一路為應(yīng)用串口,一路默認(rèn)調(diào)試串口;
②2路I2C:根據(jù)需要設(shè)計(jì),該模塊目前設(shè)計(jì)使用1路,用作RTC 時(shí)鐘數(shù)據(jù)通信;
③PCIE:分為PCIE0 與PCIE1,使用時(shí)均按照X8使用,其中PCIE1[0:7]接口通過(guò)PCIE 轉(zhuǎn)SATA 接口芯片掛接系統(tǒng)盤;
④LPC:掛接LPC 設(shè)備;
⑤GPIO:使用FT1500A/16 處理器中B5、B6 引腳,用于系統(tǒng)關(guān)機(jī)/重啟指示;
⑥SPI:用于啟動(dòng)加載片外固件。
FMECA 方法是一種經(jīng)典通用的可靠性分析方法,已廣泛應(yīng)用于各行各業(yè)各類型產(chǎn)品上[10-12]。通過(guò)梳理產(chǎn)品故障模式,分析其故障原因及可能的影響,采用定性或定量的方法,識(shí)別產(chǎn)品薄弱環(huán)節(jié),并進(jìn)行針對(duì)性改進(jìn),從而保證或提高產(chǎn)品可靠性,同時(shí)可對(duì)測(cè)試性、維修性、保障性、安全性等通用質(zhì)量特性分析提供必要的輸入,為產(chǎn)品研制與維修決策提供有效信息[13-15]。
文中針對(duì)飛騰通用模塊,利用工業(yè)和信息化部電子第五研究所(廣五所)研發(fā)的CARMES 軟件對(duì)其開展硬件FMECA 工作,具體步驟如下所示。
1)系統(tǒng)定義,建立基本規(guī)則與假設(shè);
2)按照約定層級(jí)建立模塊系統(tǒng)樹結(jié)構(gòu);
3)自下而上開展FMECA 定性分析,填寫故障模式、故障原因、影響等;
4)開展可靠性預(yù)計(jì)工作,對(duì)元器件級(jí)進(jìn)行預(yù)計(jì),并向上推導(dǎo)模塊級(jí)可靠性值;
5)關(guān)聯(lián)FMFCA 與可靠性預(yù)計(jì)值,進(jìn)行FMECA中的CA 工作;
6)分析FMECA 結(jié)果,識(shí)別薄弱環(huán)節(jié),提出設(shè)計(jì)改進(jìn)建議。
2.2.1 系統(tǒng)定義
依據(jù)原理圖、最小系統(tǒng)組成,將飛騰通用模塊功能電路劃分為電源管理電路、信號(hào)互聯(lián)電路、飛騰核心處理電路、DDR 存儲(chǔ)電路。其中電源管理電路實(shí)現(xiàn)模塊供電功能;信號(hào)互聯(lián)電路主要由接插件組成,負(fù)責(zé)通用模塊與外部板卡信號(hào)的互聯(lián);以FT1500A/16 處理器為核心的飛騰核心處理電路能夠進(jìn)行外部數(shù)據(jù)的接收以及實(shí)現(xiàn)核心控制功能;DDR 存儲(chǔ)電路由板上的36 顆DDR 內(nèi)存顆粒及其外圍電路構(gòu)成,負(fù)責(zé)實(shí)現(xiàn)與CPU 之間的數(shù)據(jù)交換處理。依據(jù)以上描述,繪制其功能框圖,如圖2 所示,其基本可靠性模型為串聯(lián)模型。
圖2 飛騰通用模塊功能框圖
2.2.2 基本假設(shè)與約定
1)約定層次
該方案劃分其初始約定層次為飛騰通用模塊,最低約定層次為元器件級(jí)。
2)嚴(yán)酷度類別及定義
分析中采用的嚴(yán)酷度分級(jí)定義如表1 所示。
表1 嚴(yán)酷度類別表
2.2.3 分析結(jié)果
通過(guò)CARMES 軟件完成模塊的FMEA 分析與CA 分析,得到危害性矩陣圖與產(chǎn)品危害性較高的元器件,分別如下所示。
1)危害性矩陣圖
飛騰通用模塊危害性矩陣圖如圖3所示,圖中編號(hào)對(duì)應(yīng)的故障模式名稱如表2 所示。在危害性矩陣圖中,越靠近右上角的故障模式,表示其危害性越大,因此危害性最高的故障模式為全部功能失效,需重點(diǎn)關(guān)注。
表2 故障模式編號(hào)名稱
圖3 模塊危害性矩陣圖
2)元器件級(jí)產(chǎn)品危害性排序
對(duì)元器件級(jí)產(chǎn)品危害性排序,危害性較大的排名前10的元器件如表3 所示。
表3 元器件級(jí)產(chǎn)品危害性排序
2.2.4 設(shè)計(jì)改進(jìn)措施
針對(duì)飛騰通用模塊全部功能失效這一關(guān)鍵故障模式,分析其故障原因后,發(fā)現(xiàn)該故障模式主要由復(fù)位、電源、上電時(shí)序、DDR 數(shù)據(jù)、時(shí)鐘等故障導(dǎo)致,與此相關(guān)的元器件為DDR 芯片、飛騰處理器、接插件、電源芯片以及關(guān)鍵阻容,與危害性較高的元器件高度重合。綜上對(duì)于飛騰通用模塊,提出設(shè)計(jì)改進(jìn)措施建議,具體措施如下:
1)軟硬件設(shè)計(jì)方面
電源部分設(shè)計(jì)充分考慮了輸入和輸出保護(hù),包括防浪涌設(shè)計(jì)、尖峰抑制、防反接保護(hù)、防倒灌設(shè)計(jì)等設(shè)計(jì)措施,同時(shí)對(duì)電路中的關(guān)鍵阻容感采取冗余設(shè)計(jì);在信號(hào)互聯(lián)電路中,對(duì)于復(fù)位信號(hào)、電源使能信號(hào)與電源反饋信號(hào)等關(guān)鍵信號(hào),接插件設(shè)計(jì)多點(diǎn)多線方式;對(duì)于飛騰核心電路中的關(guān)鍵阻容感,例如飛騰復(fù)位信號(hào)上拉電阻、PCIE1 與系統(tǒng)盤連接鏈路中的耦合電容、晶振供電濾波磁珠等,選用高等級(jí)器件,并采取冗余設(shè)計(jì)、降額設(shè)計(jì)等設(shè)計(jì)措施,提高其可靠性水平。
飛騰通用模塊軟件上增加ECC 校驗(yàn),減少數(shù)據(jù)傳輸錯(cuò)誤,并增加心跳包信號(hào),利用監(jiān)控電路檢查處理器是否正常工作。
另外,基于飛騰處理器平臺(tái),可以采用板級(jí)管理控制器(Baseboard Management Controller,BMC)[16]來(lái)實(shí)現(xiàn)電源控制、外掛設(shè)備等的管理,能夠?qū)δK內(nèi)電壓、溫度進(jìn)行監(jiān)控,同時(shí)通過(guò)BIOS 固件,對(duì)模塊進(jìn)行初步故障診斷。若內(nèi)存出現(xiàn)故障,通過(guò)BIOS 診斷程序可定位到哪顆內(nèi)存顆粒出現(xiàn)故障。
2)PCB 設(shè)計(jì)方面
在PCB 布局方面,飛騰等大功耗高熱流密度器件單獨(dú)放置于印制板的特定區(qū)域,且盡可能靠近模塊與機(jī)箱的導(dǎo)熱面;DDR 等普通功耗器件均布置在印制板正反面,有效利用印制板面積;電源模塊等熱敏感器件盡可能避讓大功耗器件布置。
PCB布線方面,對(duì)于DDR芯片,DDR數(shù)據(jù)線、DQS、DM做到同組同層,且組內(nèi)做等長(zhǎng);DDR 地址及控制線、clk 走線遵循Fly-by 拓?fù)洌M內(nèi)做等長(zhǎng);DDR所有走線都參考完整地平面,不跨分割走線。
將以上設(shè)計(jì)措施應(yīng)用于飛騰通用模塊,在設(shè)計(jì)階段對(duì)模塊較高風(fēng)險(xiǎn)的故障模式加以控制以降低其影響,對(duì)以飛騰通用模塊為基礎(chǔ)的產(chǎn)品使用反饋,產(chǎn)品在外場(chǎng)使用因飛騰通用模塊導(dǎo)致的故障情況比較少。
文中針對(duì)以FT1500A/16 處理器為核心的飛騰通用模塊,基于CARMES 軟件,開展了FMECA 工作,通過(guò)定性定量分析,得到模塊危害性較大的故障模式,并統(tǒng)計(jì)出危害性較高的元器件清單。同時(shí)針對(duì)其故障原因,在軟硬件設(shè)計(jì)、PCB 設(shè)計(jì)等方面給出設(shè)計(jì)改進(jìn)措施,作為飛騰通用模塊電路優(yōu)化和元器件選擇的理論基礎(chǔ),為其質(zhì)量和可靠性的提高提供寶貴經(jīng)驗(yàn),在一定程度上提高了飛騰通用模塊的可靠性、測(cè)試性水平。
在國(guó)產(chǎn)處理器可靠性研究方面,例如測(cè)試性建模、熱振仿真、故障物理等方面,仍有很多工作有待于開展,通過(guò)對(duì)國(guó)產(chǎn)處理器的可靠性研究,可為提升國(guó)產(chǎn)處理器性能的可靠性水平提供依據(jù)。