劉 勇 李泰昕 祝 希 楊華中 李學(xué)清
①(芯昇科技有限公司 北京 100032)
②(清華大學(xué)電子工程系,北京信息科學(xué)與技術(shù)國家研究中心 北京 100084)
近年來,隨著物聯(lián)網(wǎng)、人工智能等技術(shù)的發(fā)展,以數(shù)據(jù)為中心的智能計(jì)算成為新的計(jì)算范式[1]。在智能計(jì)算時(shí)代中,數(shù)據(jù)密集型應(yīng)用對片上存儲與計(jì)算的能效、密度以及性能提出了重要挑戰(zhàn)[2],例如在智能駕駛領(lǐng)域,算力需求為每秒運(yùn)算2×1013~4×1014次,對系統(tǒng)的可靠性要求較高,且隨著芯片工藝的不斷演進(jìn),未來終端向著多樣化、智能化、復(fù)雜化的方向發(fā)展[2]。然而,一方面,基于互補(bǔ)金屬氧化物半導(dǎo)體(Complementary Metal Oxide Semiconductor, CMOS)工藝的靜態(tài)隨機(jī)存取存儲器(Static Random-Access Memory, SRAM)具有較大的靜態(tài)功耗和單元面積,限制了存儲的能效與密度[3]。另一方面,傳統(tǒng)的馮·諾伊曼 (Von Neumann)架構(gòu)存儲與計(jì)算分離,在處理密集數(shù)據(jù)時(shí)需要頻繁數(shù)據(jù)搬移,極大限制了計(jì)算的性能與能效,即“存儲墻”問題[1]。如圖1(a)所示,這兩個(gè)瓶頸阻礙了高能效、高性能的物聯(lián)網(wǎng)邊緣設(shè)備的發(fā)展。
圖1 基于FeFET的存儲與CiM電路的背景與挑戰(zhàn)[12]
目前,CMOS工藝尺寸微縮正在不斷減緩,這一趨勢在存儲器上尤為顯著,例如臺積電的N3E工藝下SRAM的單元面積相比5 nm工藝沒有減小[4]。在這一背景下,阻變存儲器 (Resistive Random-Access Memory, RRAM)[5,6]、自旋轉(zhuǎn)移矩磁存儲器(Spin-Transfer Torque Magnetic Random-Access Memory, STT-MRAM)[7,8]、相變存儲器 (Phase Change Memory, PCM)[9]和鐵電晶體管 (Ferroelectric Field Effect Transistor, FeFET)[10–12]等新型非易失存儲器 (Nonvolatile Memory, NVM)為上述瓶頸問題的解決提供了新的設(shè)計(jì)空間。這些NVM能夠消除SRAM的靜態(tài)泄露功耗,提高存儲密度;同時(shí)可以實(shí)現(xiàn)高并行度的存內(nèi)計(jì)算 (Compute-in-Memory, CiM),顯著減少數(shù)據(jù)搬移的消耗,突破“存儲墻”瓶頸。
在新型NVM中,如圖1(b)所示,F(xiàn)eFET具有極低的寫功耗、快速的讀取操作以及與CMOS兼容的高微縮能力等特點(diǎn),這使基于FeFET的存儲與CiM電路在密度和能效上的優(yōu)勢尤為突出。與此同時(shí),F(xiàn)eFET仍存在工藝成熟度、可靠性和壽命上的不足[12]。因此,基于FeFET的存儲與CiM電路需要跨層次的協(xié)同設(shè)計(jì)與優(yōu)化,從而利用FeFET的新型存儲特性實(shí)現(xiàn)更高能效的片上存儲和CiM架構(gòu),提高FeFET在存儲與CiM應(yīng)用中的可靠性,以高效的存儲與智能的計(jì)算支持?jǐn)?shù)據(jù)密集型應(yīng)用在邊緣端的部署。
本文其余部分的組織結(jié)構(gòu)如下:第2節(jié)回顧了FeFET器件的發(fā)展歷程;第3節(jié)主要介紹FeFET器件的基本背景,包括FeFET的結(jié)構(gòu)、基本操作、建模以及同其他存儲陣列的對比分析;第4節(jié)闡述近期基于FeFET的存儲器在電路結(jié)構(gòu)創(chuàng)新和訪存機(jī)制優(yōu)化上的主要進(jìn)展;第5節(jié)介紹FeFET在CiM中的應(yīng)用,特別是在非易失計(jì)算、存內(nèi)邏輯計(jì)算(Logic in Memory, LiM)、矩陣向量乘法 (Matrix Vector Multiplication, MVM)以及內(nèi)容尋址存儲器(Content Addressable Memory, CAM)4類不同應(yīng)用中的設(shè)計(jì)與優(yōu)化;第6節(jié)展望基于FeFET的存儲與CiM電路的前景與挑戰(zhàn);第7節(jié)對本文進(jìn)行總結(jié)。
圖2展示了FeFET器件的發(fā)展歷程。1920年,Valasek[13]首次發(fā)現(xiàn)鐵電性的存在。此后,貝爾實(shí)驗(yàn)室在1957年首次提出FeFET的概念并注冊專利[14]。1963年,Moll和Tarui[15]報(bào)道了首個(gè)FeFET器件,使用了三甘氨酸硫酸鹽 (TGS)材料實(shí)現(xiàn)了25%的電阻變化。自20世紀(jì)70年代以來,層狀鐵電鈣鈦礦薄膜材料的發(fā)現(xiàn)大幅改善了鐵電材料的控制能力和存儲穩(wěn)定性[16],而薄膜生長技術(shù)的進(jìn)步則降低了FeFET的工藝制造難度[17],從而極大促進(jìn)了FeFET器件的發(fā)展。1974年,Wu[18]首次報(bào)道了金屬-鐵電-半導(dǎo)體 (Metal-Ferroelectric-Semiconductor, MFS)結(jié)構(gòu)的FeFET器件,實(shí)現(xiàn)了同平面硅工藝相兼容。
圖2 FeFET器件的發(fā)展歷程及最新進(jìn)展[11-30]
此后,鐵電器件的相關(guān)研究大量涌現(xiàn),其中鐵電隨機(jī)存取存儲器 (Ferroelectric Random-Access Memory, FeRAM)因其較好的存儲穩(wěn)定性和較低的工藝難度受到了廣泛關(guān)注。1988年,Ramtron公司首次基于鋯鈦酸鉛材料 (PZT)和后道集成工藝 (Back-End-of-the-Line, BEOL)制造了FeRAM芯片,并在1993年推出了首個(gè)商用的FeRAM產(chǎn)品[19]。然而,此時(shí)FeFET的發(fā)展卻較為有限。鈣鈦礦鐵電體在前端工藝中與硅熱力學(xué)不相容,導(dǎo)致FeFET工藝集成困難;其較大的去極化場導(dǎo)致保持時(shí)間有限;且基于鈣鈦礦的FeFET無法微縮至130 nm以下的工藝節(jié)點(diǎn)。這些因素共同限制了FeFET的發(fā)展和落地[12,19]。
2011年,B?scke等人[20]首次發(fā)現(xiàn)HfO2薄膜的鐵電性,這一發(fā)現(xiàn)對FeFET的發(fā)展具有里程碑意義。HfO2于2007年由英特爾公司引入到CMOS制造工藝中,被廣泛用作高介電常數(shù)金屬柵極(High-K Metal Gate, HKMG)MOSFET的柵極電介質(zhì),因此,基于HfO2的FeFET具有CMOS兼容的微縮能力,且工藝集成難度大大下降。此外,基于HfO2的FeFET同樣具有穩(wěn)定的長期保持特性和更大的存儲窗口 (Memory Window, MW)[12]。這些HfO2所帶來的優(yōu)異特性大大促進(jìn)了FeFET器件及其電路、應(yīng)用的研究和發(fā)展。
如圖2所示,對更高性能FeFET的器件研究正在不斷推進(jìn)。Dünkel等人[21]在2017年首次報(bào)道了基于22 nm FDSOI (Fully Depleted Silicon on Insulator)工藝的FeFET,實(shí)現(xiàn)了10 ns的寫入速度和105次循環(huán)的耐久性,展示了其微縮能力和應(yīng)用前景。最新的研究顯示,F(xiàn)eFET的寫入速度能夠低于5 ns[22],開關(guān)比高達(dá)107以上[23],保持時(shí)間超過10年[24],工作壽命超過1012次循環(huán)[25]。在多值存儲能力上,已有研究報(bào)道了具有8 V MW[26]以及能夠存儲10個(gè)穩(wěn)定狀態(tài)[27]的FeFET器件。除此之外,一些學(xué)者嘗試探索不同結(jié)構(gòu)的FeFET,例如3D垂直FeFET[11]、納米線FeFET[28]、鰭式FeFET[29]以及全環(huán)柵FeFET[30]等。
為幫助讀者更好地理解FeFET器件,本節(jié)介紹了FeFET的結(jié)構(gòu)和基本操作,回顧了FeFET器件建模的相關(guān)工作,并討論了FeFET同SRAM、嵌入式動態(tài)隨機(jī)存取存儲器 (embedded Dynamic Random-Access Memory, eDRAM)、嵌入式閃存(Embedded Flash, eFlash)和其他新型NVM的特性對比。
圖3(b)展示了被廣泛研究的金屬-鐵電-絕緣層-半導(dǎo)體 (Metal-Ferroelectric-Insulator-Semiconductor, MFIS)FeFET結(jié)構(gòu),該結(jié)構(gòu)在晶體管的柵極堆疊中嵌入鐵電材料作為鐵電層,如圖3(a)所示,在施加電場時(shí)鐵電層的極化狀態(tài)同電場強(qiáng)度呈滯回特性,其極化狀態(tài)在移除電場后仍能夠保持不變。
圖3 FeFET的結(jié)構(gòu)和特性
FeFET的工作原理在于鐵電層可以通過極化電荷對溝道施加場效應(yīng),從而控制晶體管的閾值電壓。對于N型FeFET,當(dāng)施加正柵源電壓 (VW)時(shí),鐵電層中的鐵電疇將向正極化狀態(tài)翻轉(zhuǎn),自漏極和源極吸引電子到溝道,導(dǎo)致電導(dǎo)率增加、器件的閾值電壓減小,此時(shí)FeFET為低阻狀態(tài) (Low-Resistance State, LRS)。類似地,施加負(fù)柵源電壓將使鐵電疇翻轉(zhuǎn)到負(fù)極化狀態(tài),由襯底提供的空穴增加,使閾值電壓增加,此時(shí)FeFET為高阻狀態(tài)(High-Resistance State, HRS)。如圖3(c)所示,這一寫入過程具有滯回特性,且可以通過調(diào)整寫入脈沖的幅度、寬度和次數(shù)實(shí)現(xiàn)FeFET的多值存儲。由于寫入操作中漏極與源極的電壓可以相同(例如均設(shè)為0 V),F(xiàn)eFET實(shí)際上具有容性的寫入負(fù)載,寫操作功耗極低。
讀取FeFET的本質(zhì)是檢測器件的閾值電壓,一般通過測量特定讀取電壓 (VR)下晶體管的漏源電流 (IDS)來實(shí)現(xiàn)。當(dāng)柵源電壓 (VGS)被設(shè)定為合適的VR時(shí),如圖3(c)所示,打開和關(guān)閉的晶體管將分別流過較大和極小的電流,可以利用靈敏放大器(Sense Amplifier, SA)感測IDS,讀出存儲的數(shù)據(jù)。
為實(shí)現(xiàn)對基于FeFET的電路更高效的設(shè)計(jì)與分析,一些工作對FeFET建立了電路模型以描述其器件特性。文獻(xiàn)[31]提出了Landau-Khalatnikov(LK) FeFET模型,首次實(shí)現(xiàn)了FeFET的SPICE建模。然而,LK模型將鐵電層近似為僅含有單個(gè)鐵電疇,無法描述歷史狀態(tài)的影響和部分極化的特性。2018年,Ni等人[32]提出了基于多疇Preisach理論的FeFET建模。該模型引入了多個(gè)獨(dú)立鐵電疇的物理描述,能夠準(zhǔn)確刻畫FeFET的MW隨寫入脈沖幅度、寬度和歷史狀態(tài)的變化,以及部分極化翻轉(zhuǎn)對應(yīng)的中間狀態(tài)。文獻(xiàn)[33]則基于Monte Carlo框架進(jìn)一步提出了一種全面、統(tǒng)一的FeFET模型,能夠捕獲所有FeFET的基本行為,包括器件性能隨尺寸微縮的變化、極化翻轉(zhuǎn)的統(tǒng)計(jì)隨機(jī)性、歷史累積效應(yīng)和多值存儲特性。為更好地指導(dǎo)存儲器的設(shè)計(jì),文獻(xiàn)[10]在Monte Carlo模型的基礎(chǔ)上加入了對源極和漏極浮空的支持。這些FeFET模型為后續(xù)的器件和電路設(shè)計(jì)提供了指導(dǎo)和支撐,極大促進(jìn)了基于FeFET的電路與應(yīng)用的發(fā)展。
表1總結(jié)了不同存儲器件的關(guān)鍵參數(shù)和性能指標(biāo)對比。其中,SRAM和eDRAM具有極為優(yōu)秀的讀寫性能,被廣泛用作片上緩存。其可靠性和耐久性很好 (>1016次循環(huán)),但靜態(tài)泄露功耗和刷新功耗極高,同時(shí)具有較大的單元面積 (≥40 F2)[34,35]。eFlash則是目前使用最為廣泛的NVM,具有很高的開關(guān)比,但其寫入電壓很高 (10 V左右)、寫入時(shí)間較長(ms量級左右),同時(shí)壽命較短 (104~105次循環(huán))[36]。
表1 不同存儲陣列的關(guān)鍵參數(shù)和性能指標(biāo)對比
在這些成熟的存儲器之外,新型NVM的發(fā)展帶來了新的機(jī)遇。它們兼具較快的讀寫速度、較高的密度和非易失特性,能夠滿足數(shù)據(jù)密集型應(yīng)用的需求。其中,RRAM, STT-MRAM和PCM均為阻性器件,在寫入時(shí)會產(chǎn)生較大的直流電流,寫入功耗較高 (一般在pJ量級以上),且開關(guān)比較小[5–9,37];FeRAM則與eDRAM具有類似的讀破壞性[38];相比之下,F(xiàn)eFET具有顯著優(yōu)于其他NVM的極低寫入功耗(~10 fJ),寫入速度適中 (<10 ns),但可靠性和耐久性較差,且尚未實(shí)現(xiàn)量產(chǎn)[1,21,25]。GF 22 nm工藝的FeFET陣列中的測試結(jié)果顯示,在3.5 V,10 ns的寫入脈沖下,F(xiàn)eFET在超過105次循環(huán)后MW接近于0 V[21];這與器件級測試結(jié)果 (>1012次循環(huán)[25])相差較大,可見FeFET陣列級的工藝成熟度仍然不高。
作為新型NVM器件,F(xiàn)eFET三端器件的特性和同晶體管類似的操作模式為存儲器電路結(jié)構(gòu)的創(chuàng)新與優(yōu)化提供了更大的設(shè)計(jì)空間,獨(dú)特的讀寫特性、容性負(fù)載和多值存儲特性則可以用于實(shí)現(xiàn)和優(yōu)化新型訪存機(jī)制。此后的敘述中如無特殊說明,均將FeFET的HRS視為存儲狀態(tài)“0”,LRS視為存儲狀態(tài)“1”。
4.1.1 1T AND鐵電存儲器陣列
1T/C的FeFET存儲陣列由于密度最高而廣受關(guān)注。文獻(xiàn)[39]在2001年首次探索了FeFET在3種1T/C典型結(jié)構(gòu)中的應(yīng)用,包括NAND型、AND型和NOR型。如圖4(a)所示,由于位線同單元的接觸更少,NAND型陣列結(jié)構(gòu)的單元面積最小,但Fe-FET卻不完全適用。這主要是因?yàn)镹AND型陣列在讀取時(shí)需要令未被訪問的晶體管導(dǎo)通,此時(shí)所需的VGS較大,在器件本身MW偏小時(shí)容易產(chǎn)生嚴(yán)重的讀干擾。
圖4 FeFET在3種1T/C典型存儲陣列結(jié)構(gòu)中的應(yīng)用[39]
在1T AND型陣列中,F(xiàn)eFET的源極、漏極與平行的BL,SL相連,柵極與垂直的WL相連。圖4(b)展示了1T AND FeFET陣列的VW/2偏置寫入策略。由于AND型陣列中同一行共享WL,且寫入不同狀態(tài)的WL電壓不同,因此需要首先將整行寫到LRS,再對特定單元寫入HRS。
4.1.2 1T NOR鐵電存儲器陣列
傳統(tǒng)1T NOR FeFET陣列如圖4(c)所示。在寫入過程中,目標(biāo)單元和半選擇單元的FeFET在具有VGS偏置的情況下,源極和漏極電壓可能不相同,產(chǎn)生很大的直流電流和功耗。由于共享WL和SL, 1T NOR FeFET陣列同樣需要兩步寫入。為了提高寫入性能,Sharma等人[40]在2018年提出了一種新的寫入策略,如圖5(a)所示。在柵長為5 nm的FeFET器件中,該工作發(fā)現(xiàn)漏源電壓 (VDS)的增加將使其MW和VW減小,這被稱為漏極溝道耦合效應(yīng)。因此,可以通過施加不同的VDS并精確控制VW來寫入特定單元。該策略能夠?qū)崿F(xiàn)單步寫入,但漏極溝道耦合效應(yīng)僅在柵長低于10 nm時(shí)較為明顯,因此適用性很差。
圖5 不同改進(jìn)的NOR型FeFET陣列的寫入操作[10,39-41]
面對能效挑戰(zhàn),文獻(xiàn)[41]提出了名為C-AND的陣列結(jié)構(gòu)和寫入策略,其中同一列FeFET的襯底被連接到縱向的BuL上,如圖5(b)所示。由于所有晶體管的源極和漏極始終接地,C-AND消除了源漏電流,顯著提高了能量效率。然而,該策略無法寫入LRS[42],這是因?yàn)镕eFET導(dǎo)通時(shí)溝道的電位與源極、漏極一致 (0 V),鐵電層兩側(cè)的實(shí)際電壓差僅為VW/2,不足以實(shí)現(xiàn)極化狀態(tài)的翻轉(zhuǎn)。在此基礎(chǔ)上,文獻(xiàn)[42]提出將漏極和源極置于浮空狀態(tài),從而在提高能效的同時(shí)正確寫入LRS。然而,由于該策略寫入HRS時(shí)要求襯底接入負(fù)電位,襯底提供空穴的能力不足,會引入寫入速度的下降和不對稱性。
進(jìn)一步地,Xiao等人[10]提出了整塊擦除再編程的寫入策略和對角式1T NOR陣列結(jié)構(gòu)。在整塊擦除再編程的寫入策略中,對整個(gè)陣列首先寫入LRS,再對特定單元寫入HRS,從而避免出現(xiàn)直流電流。但特別值得注意的一點(diǎn)是,這一說法并不準(zhǔn)確。該策略雖然不能對特定單元寫入LRS (否則同一行單元的VGS均等于VW),但能夠?qū)μ囟ㄐ袑懭隠RS而不影響其他存儲單元的狀態(tài),因此只需整行擦除再編程即可。圖5(c)展示了對角式的1T NOR陣列,通過將WL對角線放置使被選擇單元的源極和漏極保持電壓相同。該陣列能夠同時(shí)實(shí)現(xiàn)較低的寫功耗和較高的寫速度,但其面積增加到了傳統(tǒng)1T NOR陣列的3.5倍。
4.1.3 2T/C和3T/C鐵電存儲器陣列
由于同一行FeFET的柵極相互連接,1T/C FeFET存儲器無法避免讀寫干擾。為進(jìn)一步提升可靠性,George等人[43]在2016年最早提出了柵極選通的2T/C結(jié)構(gòu),如圖6(a)所示。該單元增加了一個(gè)額外的MOSFET (T1)與FeFET (M1)的柵極相連,從而避免了讀寫干擾的影響,同時(shí)可以實(shí)現(xiàn)整行數(shù)據(jù)的單步寫入?;贚K FeFET模型,該工作進(jìn)一步討論和優(yōu)化了FeFET器件參數(shù)。如圖6(b)所示,鐵電層厚度 (TFE)最為關(guān)鍵,會直接影響Fe-FET的滯回曲線,TFE大于1.9 nm時(shí)FeFET才具備滯回特性。隨著TFE的增大,MW和保持時(shí)間提高,可靠性增強(qiáng);但同時(shí)滯回曲線變寬,VW提升,寫入的速度和能效下降。此外,器件尺寸對Fe-FET的影響主要在于電流驅(qū)動能力,進(jìn)而影響讀取的速度和功耗。該工作選用的是寬度和長度分別為65 nm和45 nm的FeFET器件。測試結(jié)果表明,這一設(shè)計(jì)的寫入功耗比FeRAM下降了67.9%。但同時(shí),該單元需要引入負(fù)寫入電壓,實(shí)際電源電壓高達(dá)2VW,導(dǎo)致系統(tǒng)喚醒時(shí)能耗較高。
圖6 2T/C和3T/C的FeFET存儲單元[43,44]
為了避免負(fù)電壓的引入, Li等人[44]提出了一種源極選通的2T/C結(jié)構(gòu)和3T/C結(jié)構(gòu)。如圖6(c)所示,在源極選通的2T/C結(jié)構(gòu)中,F(xiàn)eFET (M1)與MOSFET (T1)串聯(lián)連接,采用與此前1T FeFET陣列相似的兩步寫入操作,但T1的加入消除了寫干擾;同時(shí)采用了電壓域讀取操作,消除了讀取時(shí)的直流電流,從而具有更高的能效。3T/C的單元電路結(jié)構(gòu)如圖6(d)所示,其讀寫操作與源極選通的2T/C單元類似。同柵極選通的2T/C結(jié)構(gòu)相比,這兩種單元電路結(jié)構(gòu)將寫入能效和速度分別提高了52%和44%;同時(shí)對電源電壓的要求更低,在系統(tǒng)喚醒時(shí)需要的能量更少。表2總結(jié)了上述各種結(jié)構(gòu)的FeFET存儲陣列特性對比。
表2 不同結(jié)構(gòu)的FeFET存儲陣列特性對比
4.2.1 1T AND鐵電存儲器陣列的不同寫入策略
Ni等人[45]探討了1T AND FeFET陣列在不同寫入策略下的寫干擾問題。在VW/2偏置策略中,僅半選擇單元受到VW/2的寫干擾電壓;而在VW/3偏置下,未被選擇的互連線配置為VW/3或2VW/3,此時(shí)所有單元均受到VW/3的寫干擾電壓。測試表明,寫干擾對于FeFET閾值電壓的影響主要體現(xiàn)在極化翻轉(zhuǎn)和電荷捕獲兩種機(jī)制上。在VW/2偏置下,正干擾電壓使HRS FeFET極化翻轉(zhuǎn)進(jìn)入LRS,導(dǎo)致讀取該單元時(shí)出錯(cuò);而在VW/3偏置下,負(fù)干擾電壓和電荷捕獲機(jī)制導(dǎo)致LRS FeFET的閾值電壓進(jìn)一步降低,關(guān)閉時(shí)泄露電流增加,因而讀取同一列HRS單元時(shí)出錯(cuò)。為提高存儲陣列的可靠性,可以降低缺陷密度來抑制電荷捕獲效應(yīng)。此外,優(yōu)化參考電流的選取和采用高增益、低輸入偏移的SA同樣能夠減少讀錯(cuò)誤。
4.2.2 基于FeFET的對稱存儲器
對稱存儲器可以從行、列兩個(gè)維度讀取和寫入數(shù)據(jù),從而加速矩陣計(jì)算和數(shù)據(jù)庫訪問等應(yīng)用。然而,基于SRAM和RRAM的對稱存儲器密度低、能耗大,F(xiàn)eFET靈活的3端結(jié)構(gòu)和極低寫入功耗恰好可以解決上述問題。由此,文獻(xiàn)[46]最早提出了基于FeFET的4T/C和5T/C的兩種對稱存儲器單元電路。如圖7(a)所示,在4T/C單元中,F(xiàn)eFET (M1)的柵極、源極和漏極分別與MOSFET (T1, T2和T3)連接。打開T1, T2和T3,將WBL設(shè)為合適的VR后,對RWL或SL施加Vbias即可按行或按列讀取。然而,由于寫入時(shí)WBL被同一列的單元共享,該設(shè)計(jì)不能在單個(gè)周期內(nèi)實(shí)現(xiàn)整列的寫入。5T/C單元在此基礎(chǔ)上進(jìn)一步改進(jìn),增加了一個(gè)同T2對稱的MOSFET (T4),可以打開T1, T3和T4并對WWL2施加電壓從而實(shí)現(xiàn)按列寫入,如圖7(b)所示。然而,4T/C和5T/C的單元面積仍然較大,存儲密度較為受限。
為進(jìn)一步提高密度,Wu等人[47]提出了3T/C的FeFET對稱存儲器,如圖7(c)所示。相較于此前的5T/C設(shè)計(jì),該電路舍棄了與FeFET漏極和源極相連的兩個(gè)晶體管,能夠同時(shí)實(shí)現(xiàn)按行和按列讀寫操作,具體操作與5T/C單元類似。結(jié)合對寫入脈沖幅度與寬度的優(yōu)化,3T/C設(shè)計(jì)在矩陣計(jì)算應(yīng)用中訪存次數(shù)比普通存儲器減少了87%,實(shí)現(xiàn)了相較于5T/C單元1.67倍的密度提升和約20%的能效和速度提升。
4.2.3 MLC FeFET存儲器的優(yōu)化
MLC (Multi-Level Cell) FeFET的概念在2015年被首次提出[48],能夠在每個(gè)單元中存儲多個(gè)比特,顯著提高存儲密度。然而,一方面,MLC的寫入一般需要編程-驗(yàn)證的操作以準(zhǔn)確存儲目標(biāo)狀態(tài),這大大增加了寫入的功耗和延時(shí);另一方面,MLC不同狀態(tài)的讀取電流差異較小,為SA帶來了額外負(fù)擔(dān)。
針對這些挑戰(zhàn),文獻(xiàn)[49]提出了3種優(yōu)化方法以緩解上述問題。其一,考慮到不同應(yīng)用對狀態(tài)分布的不同需求,文獻(xiàn)[49]提出在存儲和CiM應(yīng)用中分別采用線性和指數(shù)的映射方式,從而實(shí)現(xiàn)更高的精度和更低的外設(shè)功耗。其二,在FeFET的IDS過小以致原有的讀取電壓下SA難以感測時(shí),自適應(yīng)選取更高的讀取電壓以增大電流,將能夠觀測的狀態(tài)數(shù)增加了58%。其三,基于對器件特性的認(rèn)識,動態(tài)預(yù)測選擇相應(yīng)寫入脈沖進(jìn)行編程,再驗(yàn)證迭代,極大減少了單次寫入的脈沖數(shù)量,能耗和延時(shí)分別降低了91%和25%。
由于CiM在數(shù)據(jù)密集型應(yīng)用中的巨大潛力,基于各類存儲介質(zhì)的CiM設(shè)計(jì)近年來不斷涌現(xiàn)[50–55]。然而,基于SRAM的CiM往往需要修改單元結(jié)構(gòu)以避免讀寫干擾,且單元面積大、成本高[56];基于DRAM的CiM則面臨破壞性讀取的問題[51]。相比之下,F(xiàn)eFET CiM不僅是非易失的,而且面積效率顯著更高。與其他新型NVM和Flash構(gòu)建的CiM相比,基于FeFET的CiM的能效和開關(guān)比更高,非常適合于搭建更大規(guī)模的陣列,且具有MLC存儲能力和與CMOS兼容的高微縮能力。目前,F(xiàn)eFET CiM的主要應(yīng)用有非易失計(jì)算,LiM, MVM和CAM 4類。本文中均將VDD視為狀態(tài)“1”,GND視為狀態(tài)“0”。
相較于其他存儲介質(zhì),F(xiàn)eFET在結(jié)構(gòu)上具有三端特性,能夠同時(shí)作為非易失存儲單元和控制單元,且具有容性寫入負(fù)載,功耗較低。這些特性使其非常適合于實(shí)現(xiàn)更高密度和能效的非易失計(jì)算電路,包括替換邏輯電路中的部分MOSFET構(gòu)建非易失邏輯電路[57],以及搭建非易失存儲電路中的備份和恢復(fù)模塊。
5.1.1 基于FeFET的非易失SRAM
非易失SRAM (Nonvolatile SRAM, nvSRAM)可以將SRAM的狀態(tài)備份到內(nèi)在的NVM中,并在必要時(shí)將其恢復(fù)到SRAM中。文獻(xiàn)[58]最早提出了基于FeFET的nvSRAM設(shè)計(jì),如圖8(a)所示。備份時(shí),Vrstr接地,Vbkp在第1個(gè)階段設(shè)為VDD,在第2個(gè)階段接地,向FeFET寫入SRAM的狀態(tài)。在恢復(fù)操作中,需要打開T0和T1,將Vbkp配置為VDD/2。當(dāng)SRAM電源電壓逐步增加到VDD時(shí),由于兩個(gè)FeFET的閾值電壓不同,Q和QN分別浮空或接地,將放電至GND或保持VDD,實(shí)現(xiàn)數(shù)據(jù)恢復(fù)。與7T-1R RRAM nvSRAM相比,10T FeFET nvSRAM的備份和恢復(fù)操作不消耗靜態(tài)電流,能效提升597倍。
圖8 基于FeFET的nvSRAM和nvDFF[58-62]
在上述工作的基礎(chǔ)上,文獻(xiàn)[59]進(jìn)一步改進(jìn)并提出了8T FeFET nvSRAM設(shè)計(jì),將備份/恢復(fù)的FeFET和MOSFET數(shù)量減半,如圖8(b)所示。需要恢復(fù)數(shù)據(jù)時(shí),首先將ScL, VCTRL和VBK分別設(shè)為VDD, VDD和VDD/2,再將一個(gè)反相器的電源電壓升高到VDD。若M1處于LRS,則QN通過ScL被充至VDD, Q由于反相器的作用而處于GND;反之QN保持GND, Q則被抬高到VDD。當(dāng)Q和QN穩(wěn)定后,再將SRAM的電源電壓升高到VDD即可完成數(shù)據(jù)的恢復(fù)。與7T-1R RRAM nvSRAM相比,該8T FeFET nvSRAM能效提升了363倍,而面積僅為10T FeFET nvSRAM的89%。
5.1.2 基于FeFET的非易失觸發(fā)器
非易失觸發(fā)器 (Nonvolatile D Flip-Flop, nvDFF)能夠在系統(tǒng)斷電時(shí)保存流水線、狀態(tài)機(jī)以及寄存器堆中的關(guān)鍵信息。文獻(xiàn)[60]最早提出了如圖8(c)所示的基于FeFET的nvDFF。將Bkp置于高電平即可實(shí)現(xiàn)數(shù)據(jù)備份,其恢復(fù)操作則與10T nvSRAM類似。與此前基于其他新型NVM的nvDFF相比,該設(shè)計(jì)實(shí)現(xiàn)了277~1 739倍的備份/恢復(fù)能效提升。文獻(xiàn)[61]則進(jìn)一步去除了備份恢復(fù)電路中由Bkp和Bkp+Rst所控制的訪問晶體管,利用器件-電路的協(xié)同設(shè)計(jì)使FeFET的極化狀態(tài)能夠在nvDFF正常工作時(shí)保持不變。相較于文獻(xiàn)[60]中的設(shè)計(jì),該nvDFF將額外晶體管數(shù)量由8個(gè)減少到4個(gè),顯著提高了nvDFF的密度。
文獻(xiàn)[62]提出將FeFET嵌入到鎖存器電路中,進(jìn)而使用非易失鎖存器構(gòu)建nvDFF,如圖8(d)所示。其中,從鎖存器的狀態(tài)將持續(xù)施加相應(yīng)電壓到FeFET柵極上,當(dāng)時(shí)鐘周期足夠長時(shí),nvDFF的狀態(tài)變化會引起FeFET極化狀態(tài)變化,從而備份數(shù)據(jù)。該設(shè)計(jì)消除了外部的控制信號,且僅需要兩個(gè)額外的晶體管實(shí)現(xiàn)備份/恢復(fù)功能,面積效率很高,但頻繁的極化翻轉(zhuǎn)和較長的時(shí)鐘周期帶來了更高的延時(shí)和功耗。
LiM是指利用存儲陣列本身以及特定的外設(shè)或單元電路結(jié)構(gòu),實(shí)現(xiàn)二值或多值的邏輯計(jì)算。Fe-FET兼具存儲與控制功能的特性,以及顯著的低功耗和高開關(guān)比優(yōu)勢,使其非常適合LiM單元和架構(gòu)的實(shí)現(xiàn)。2018年,Reis等人[56]首次提出了一種基于FeFET的LiM架構(gòu),其采用的存儲陣列是圖6(d)中的3T/C FeFET陣列。對于(N)OR的計(jì)算,可以首先對RBL預(yù)充一定電壓,再同時(shí)讀取參與計(jì)算的兩行單元。當(dāng)任一行的單元為LRS時(shí),RBL將被逐漸放電至低電平,從而實(shí)現(xiàn)NOR的功能。對于(N)AND的計(jì)算,則同時(shí)讀取參與計(jì)算的兩行單元,并將參考電流設(shè)在IDS到2IDS之間,兩個(gè)單元均為LRS時(shí)才輸出“1”,如圖9(a)所示。更復(fù)雜的邏輯計(jì)算如XOR等需要通過外設(shè)中額外的邏輯電路實(shí)現(xiàn)。相較于傳統(tǒng)架構(gòu)和基于STT-MRAM的LiM,該架構(gòu)分別實(shí)現(xiàn)了2.5倍和1.97倍的加速,以及1.7倍和1.5倍的能耗減少。然而,其SA設(shè)計(jì)需要同時(shí)加入電壓模式感測、電流模式感測和組合邏輯電路,這引入了較大的面積和功耗。
圖9 LiM實(shí)現(xiàn)邏輯計(jì)算的原理、全動態(tài)FeFET LiM架構(gòu)及其不同讀取操作[63]
為避免直流電流,同時(shí)降低常見的邏輯計(jì)算后直接寫回操作的延時(shí)和功耗,Tang等人[63]提出了基于FeFET的具有無需SA的直接寫回策略和全動態(tài)訪問特性的LiM架構(gòu),如圖9(b)所示。為實(shí)現(xiàn)全動態(tài)訪問,該感測接口采用開關(guān)電容和鎖存器型電壓模式的SA,同時(shí)應(yīng)用電壓模式的讀取方法。圖9(c)和(d)以2T/C FeFET為例展示了其讀取操作。特別地,電壓模式讀取可以通過預(yù)充SL使BL充電,或?qū)L接地、預(yù)充BL使BL放電兩種方式實(shí)現(xiàn)。利用這兩種相反的讀取策略、BL的部分放電以及BL放電策略同寫入不同數(shù)據(jù)時(shí)BL電壓的對應(yīng)關(guān)系,相較于已有基于新型NVM的工作,該架構(gòu)實(shí)現(xiàn)了在高級加密標(biāo)準(zhǔn) (Advanced Encryption Standard, AES)中3.0~58倍的性能提升和3.2~78倍的能效改善。
MVM是神經(jīng)網(wǎng)絡(luò)應(yīng)用中的主要操作,其基本運(yùn)算為乘累加 (Multiply-Accumulate, MAC),具有數(shù)據(jù)密集但運(yùn)算簡單的性質(zhì),因而CiM能夠提供很高的能效和加速比。如圖10(a)所示,現(xiàn)有MVM的存內(nèi)計(jì)算一般采用交錯(cuò)陣列 (Crossbar Array)和電流域的計(jì)算方法實(shí)現(xiàn)。與其他器件相比,F(xiàn)eFET可以通過如圖10(b)所示的增量脈沖寫入實(shí)現(xiàn)高線性度、大動態(tài)范圍的權(quán)重存儲,從而實(shí)現(xiàn)更高比特精度的MVM計(jì)算。2017年,Jerry等人[64]提出了如圖10(c)所示的1T-1FeFET單元,其中晶體管具有限流功能。該工作實(shí)現(xiàn)了5 bit的權(quán)重存儲,在MNIST數(shù)據(jù)集上1 M圖像在線學(xué)習(xí)的精度高達(dá)90%,且速度相較于RRAM CiM快103~106倍。在上述結(jié)構(gòu)的基礎(chǔ)上,文獻(xiàn)[65]優(yōu)化了模數(shù)轉(zhuǎn)換器 (Analog-to-Digital Converter, ADC)的電流感測閾值,文獻(xiàn)[66]則將MOSFET替換為阻值超過1 MΩ且變化更小的TiN/SiO2隧道結(jié)電阻以降低互連線的IR壓降,緩解器件偏差的可靠性問題。二者的能量效率均達(dá)到每秒每瓦特運(yùn)算1.37×1016次。
圖10 基于FeFET的MVM CiM架構(gòu)、原理及單元[64]
為了進(jìn)一步提高神經(jīng)網(wǎng)絡(luò)應(yīng)用部署的效率,一些邊緣場景下可以將輸入激活值和權(quán)重量化到1 bit,即二值神經(jīng)網(wǎng)絡(luò),此時(shí)的MAC轉(zhuǎn)換為XNOR邏輯。2018年,Chen等人[67]首次利用FeFET實(shí)現(xiàn)了二值神經(jīng)網(wǎng)絡(luò)的CiM架構(gòu),通過如圖11(a)和(b)所示的XNOR單元及陣列執(zhí)行計(jì)算,并進(jìn)一步優(yōu)化了數(shù)據(jù)的映射方式,取得相較于RRAM交錯(cuò)陣列395倍的寫入能效提升和3.1倍的讀取能效提升。然而,該電流域計(jì)算方法面臨FeFET器件偏差引起的嚴(yán)重精度損失。為緩解這一問題,文獻(xiàn)[68]提出了電荷域的FeFET CiM單元電路,其中兩個(gè)FeFET存儲互補(bǔ)的數(shù)據(jù),輸入值以互補(bǔ)的形式由WL和WLB輸入,如圖11(c)所示。圖11(d)展示了陣列的MAC操作,當(dāng)該列有N個(gè)單元,其中M個(gè)單元輸出為‘1’時(shí),電荷分配機(jī)制將使SL電壓為VDD×M/N,從而實(shí)現(xiàn)XNOR結(jié)果的累和。由于采用電荷重分配的方案,該設(shè)計(jì)引起的充放電功耗很小,相較于基于SRAM的電荷域CiM功耗降低1.9倍,同時(shí)實(shí)現(xiàn)了低于0.25%的最大偏差。
圖11 基于FeFET的4T-2FeFET和2T-1C XNOR單元及陣列[67,68]
在實(shí)際陣列實(shí)現(xiàn)上,F(xiàn)raunhofer IPMS課題組[69]在2022年首次報(bào)告了具有MAC功能的28 nm Fe-FET交錯(cuò)陣列,陣列規(guī)模為8×8,能夠?qū)崿F(xiàn)單比特的MAC計(jì)算,且輸出的線性度較好。2023年,文獻(xiàn)[70]進(jìn)一步提出并驗(yàn)證了28 nm MLC FeFET的2 bit MAC陣列,通過控制讀取脈沖在不同階段的幅度和寬度改變不同狀態(tài)FeFET導(dǎo)通的時(shí)間,從而在時(shí)間域上實(shí)現(xiàn)高可靠性的累和。所報(bào)告的陣列規(guī)模達(dá)到32×32,在MNIST和CIFAR-10數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到96.6%和91.5%,能效每秒每瓦特運(yùn)算次數(shù)達(dá)8.854×1011次。
CAM是一類特殊的存儲器,能夠在陣列中并行地搜索輸入的數(shù)據(jù),輸出各行的匹配結(jié)果,三態(tài)內(nèi)容尋址存儲器 (Ternary Content Addressable Memory, TCAM)額外支持忽略向量中的特定比特(“X”)。FeFET的獨(dú)特特性為高密度、高能效的CAM和TCAM設(shè)計(jì)提供了空間。2017年,Yin等人[71]首次提出了4T-2FeFET TCAM單元電路,如圖12(a)所示。為寫入“1”(“0”),需要向FeFET寫入互補(bǔ)的數(shù)據(jù),“X”的寫入則需要使兩個(gè)FeFET均寫入HRS。在執(zhí)行搜索操作時(shí),首先將ML預(yù)充到一定電壓,數(shù)據(jù)由SL和SL互補(bǔ)輸入,若讀取時(shí)發(fā)生失配,則存在下拉支路使ML電壓下降,否則ML保持為高電壓。
圖12 基于FeFET的不同TCAM單元[71-75]
2019年,Yin等人[72]進(jìn)一步提出了如圖12(b)所示的2FeFET TCAM設(shè)計(jì),極大提高了陣列密度和能效。文獻(xiàn)[73]則利用2FeFET的多值TCAM(Multi-Level TCAM, ML-TCAM)陣列,在小樣本學(xué)習(xí)等應(yīng)用中取得了顯著的加速效果。然而,F(xiàn)eFET的可靠性問題導(dǎo)致電流域的計(jì)算并不精確,極大限制了該設(shè)計(jì)在應(yīng)用中的精度。為解決這一問題,文獻(xiàn)[74]引入電荷域計(jì)算的思想,提出了與文獻(xiàn)[68]類似的2FeFET-1C CAM單元和圖12(c)中的2T-2Fe-FET-1C TCAM單元,以重分配后的ML電壓作為該行的輸出。電容的引入犧牲了一定密度,但顯著提高了FeFET ML-TCAM陣列的可縮放性和在應(yīng)用中的計(jì)算精度。
除此之外,George等人[75]首次從可重構(gòu)性的角度展開了對FeFET TCAM的探索,提出了兼具TCAM和存儲器功能的2T-2FeFET單元,如圖12(d)所示。其TCAM的操作模式與此前的工作類似,存儲器操作模式則需要先將M2寫為低阻態(tài),再讀取M1以讀出數(shù)據(jù)。該結(jié)構(gòu)為存儲陣列的靈活配置提供了很大的設(shè)計(jì)空間。一些后續(xù)工作探索了MLC FeFET[76]和其他結(jié)構(gòu)FeFET[77]的應(yīng)用,以及多比特FeFET TCAM的設(shè)計(jì)[78]。表3總結(jié)了傳統(tǒng)SRAM TCAM和基于FeFET的TCAM的主要指標(biāo)。
表3 傳統(tǒng)SRAM TCAM和基于FeFET的TCAM主要指標(biāo)對比
作為后摩爾時(shí)代新型NVM的代表,基于Fe-FET的存儲與CiM電路突破了傳統(tǒng)CMOS存儲器和馮·諾伊曼架構(gòu)的瓶頸,為數(shù)據(jù)密集型應(yīng)用在邊緣端的存儲與計(jì)算提供了高能效、高密度、高性能的解決方案。隨著器件-電路-系統(tǒng)的跨層次協(xié)同優(yōu)化的不斷發(fā)展,F(xiàn)eFET存儲器和FeFET CiM在性能、能效和密度上均不斷進(jìn)步,使FeFET逐漸成為低功耗、高密度的智能物聯(lián)網(wǎng)場景中最具潛力的存儲器件之一。
然而, FeFET同樣引入了一些新的挑戰(zhàn)。(1)目前FeFET的工藝成熟性不高,器件偏差很大,導(dǎo)致陣列可縮放性和計(jì)算精度不足。(2) FeFET的器件壽命有限,基于FeFET的電路無法頻繁執(zhí)行寫入操作。(3) FeFET存在寄生電荷捕獲效應(yīng),會導(dǎo)致閾值電壓發(fā)生偏移和寫操作后MW的嚴(yán)重減小。因此,F(xiàn)eFET在寫操作后需要間隔幾百毫秒才能穩(wěn)定讀取,這大大限制了FeFET在實(shí)際應(yīng)用中的性能。(4) FeFET受讀干擾的影響嚴(yán)重,可能會在若干次讀取后丟失數(shù)據(jù)。(5) MLC FeFET在尺寸微縮時(shí)面臨穩(wěn)定狀態(tài)數(shù)量的大幅度減少,以及狀態(tài)映射的線性度下降問題。上述問題要求器件工藝的發(fā)展與器件-電路-系統(tǒng)跨層次協(xié)同的進(jìn)一步優(yōu)化,而FeFET在商業(yè)產(chǎn)品中的應(yīng)用仍然需要學(xué)界和產(chǎn)業(yè)界的共同努力和持續(xù)投入。
數(shù)據(jù)密集型應(yīng)用的興起對存儲與計(jì)算提出了更高的要求,F(xiàn)eFET則為解決傳統(tǒng)CMOS存儲器和存儲墻的瓶頸提供了新的機(jī)遇。本文回顧了FeFET的發(fā)展歷程,概述了其器件的結(jié)構(gòu)、特性和基本操作,介紹了FeFET的建模以及同其他存儲器的特性對比。在此基礎(chǔ)上,本文重點(diǎn)討論了FeFET存儲器在電路結(jié)構(gòu)和訪存機(jī)制上的探索和優(yōu)化,以及FeFET在非易失計(jì)算,LiM, MVM和CAM 4類CiM應(yīng)用中的發(fā)展。最后,本文總結(jié)了FeFET的前景與主要挑戰(zhàn)。結(jié)合對新型存儲特性的探索以及跨層次的協(xié)同優(yōu)化,基于FeFET的存儲與CiM電路將在邊緣端數(shù)據(jù)密集型應(yīng)用的存儲與計(jì)算具有廣闊的前景和極高的潛力。