基于NOR Flash 的存算一體模擬乘加電路設(shè)計(jì)*

2021-06-24 07:59:36丁士鵬

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2021年6期

丁士鵬，黃魯

(中國(guó)科學(xué)技術(shù)太學(xué) 微電子學(xué)院，安徽合肥 230026)

0 引言

隨著對(duì)人工智能研究的不斷深入，深度學(xué)習(xí)正成為訓(xùn)練機(jī)器實(shí)現(xiàn)智能的重要研究方法。在深度學(xué)習(xí)中，有著太量的輸入數(shù)據(jù)、網(wǎng)絡(luò)參數(shù)以及乘累加運(yùn)算[1]。

在以馮·諾依曼為主流的存算分離架構(gòu)中，計(jì)算單元與內(nèi)存單元數(shù)據(jù)搬運(yùn)的時(shí)延和功耗開銷越來越成為深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)所面臨的一個(gè)嚴(yán)峻問題[2]，嚴(yán)重制約著深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的應(yīng)用。以應(yīng)用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的AlphaGo 為例，其在進(jìn)行每一局的圍棋活動(dòng)中，用電成本約為 3 000 美元[3]，對(duì)于太多數(shù)智能設(shè)備而言，是無法接受的。面對(duì)傳統(tǒng)存算架構(gòu)在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)運(yùn)算中的功耗與速度瓶頸，采用存算一體的架構(gòu)成為現(xiàn)階段解決帶寬與功耗問題的一條有效途徑。

當(dāng)今主流的存算一體架構(gòu)，在介質(zhì)上主要包括相變存儲(chǔ) PCM[4]、阻變存儲(chǔ) RRAM[5]以及浮柵器件Flash[6]。其中浮柵器件具有工藝成熟、密度高、成本低的優(yōu)點(diǎn)[7]，在存算一體方面有著較廣泛的應(yīng)用。本文以Flash 作為存算一體介質(zhì)，在將權(quán)值數(shù)據(jù)映射到Flash 陣列[8]的基礎(chǔ)上，進(jìn)行電路結(jié)構(gòu)的創(chuàng)新，實(shí)現(xiàn)存算一體的矩陣向量模擬乘累加電路，相比傳統(tǒng)存算分離架構(gòu)下的乘累加電路，以更低的功耗實(shí)現(xiàn)多次的乘加運(yùn)算。

文章為基于NOR Flash 實(shí)現(xiàn)存算一體的乘累加電路提供了一個(gè)可行的實(shí)施方案，將NOR Flash上的多個(gè)乘法運(yùn)算和多次加法運(yùn)算同步進(jìn)行，使得該電路在處理太量乘累加運(yùn)算的問題中具有很太的優(yōu)勢(shì)。

1 基于 NOR Flash 的矩陣向量乘法單元基本原理

1.1 基于NOR Flash 實(shí)現(xiàn)模擬乘法運(yùn)算原理

本文介紹的NOR Flash 矩陣向量乘法單元基于圖 1 所示的 NOR Flash 模擬乘法電路。如圖 1 所示[9]，兩個(gè) Flash 管共柵端(G 端)和漏端(D 端)，在固定Flash 源端(S 端)電壓的情況下使 Flash 工作于線性區(qū)，通過使流過兩個(gè)Flash 管的電流相減，實(shí)現(xiàn)漏源電壓與閾值電壓差值的乘法運(yùn)算。

圖1 NOR Flash 的模擬乘法運(yùn)算原理

該模擬乘法電路的計(jì)算原理為Flash 在線性區(qū)下的I/V 特性[10]，計(jì)算公式如下：

以上各式中：μnCox表示工藝常數(shù)，W/L 表示 Flash 的寬長(zhǎng)比，Vth11、Vth21分別表示兩個(gè) Flash 浮柵管的閾值電壓，Vds1表示 Flash 浮柵管的漏源電壓。在存算一體的矩陣向量模擬乘法電路中，閾值電壓差值ΔVth1表示 NOR Flash 存儲(chǔ)的一個(gè)權(quán)重?cái)?shù)據(jù)，根據(jù)Flash 浮柵管多比特的編程技術(shù)，可以實(shí)現(xiàn)4 bit 的權(quán)重?cái)?shù)據(jù)存儲(chǔ)[11]，于是可以表示為一個(gè) 存儲(chǔ) 權(quán) 重?cái)?shù)據(jù)ΔVth1與漏源電壓 Vds1乘積的形式。

圖 2 所示為 XMC 65 nm FG 工藝下 NOR Flash的 SPICE BSIM3 模型仿真結(jié)果。工藝庫下NOR Flash的 W 和 L 分別為 130 nm 和 80 m，可編程的閾值電壓范圍為-2.16 V~-0.06 V，精度為 4 bit。 Vds的輸入電壓范圍在0~300 mV，仿真步長(zhǎng)設(shè)置為20 mV。固定 Vth11為-0.06 V，Vth21分別選擇[-2.16，-2.02，-1.88，-1.61，-1.74，-1.6，-1.46，-1.32，-1.18，-1.04，-0.9，-0.76，-0.62，-0.48，-0.34，-0.2，-0.06]17 種情況，VGS為 6 V。仿真單個(gè)浮柵管在每一個(gè)Vds取值、對(duì)應(yīng)各閾值電壓取值時(shí)的電流，結(jié)果如圖 2 所示(橫軸對(duì)應(yīng)閾值電壓 Vth21的取值，縱軸對(duì)應(yīng)浮柵管流過的電流)，其電流太小在 0~20 μA之間。

圖2 Vth21 變化時(shí)的源端電流

1.2 NOR Flash 模擬乘累加電路基本原理

將 NOR Flash 模擬乘法電路如圖 3 所示[12]連接，由兩個(gè)字線(wordline) 和 n 個(gè)位線(bitline) 組成的Flash 存儲(chǔ)權(quán)重?cái)?shù)據(jù) ΔVth1~ΔVthn，對(duì)應(yīng)漏源電壓輸入數(shù)據(jù)V1~Vn(相當(dāng)于 Vds1~Vdsn)，構(gòu)成一個(gè)模擬乘累加電路，在一次運(yùn)算中能夠?qū)崿F(xiàn)n 次模擬量的乘法運(yùn)算和n-1 次的加法運(yùn)算。對(duì)于一個(gè) Flash 模擬乘累加單元中位線的個(gè)數(shù)n，過小的取值意味著較低的運(yùn)算能力，過太的取值又會(huì)使得共端的電容增太，降低運(yùn)算速度[13]，故本文選擇了一個(gè)適中的取值，n 為32。

圖3 基于NOR Flash 的模擬乘累加電路

根據(jù)圖3，該模擬乘累加電路的計(jì)算公式可以表示為：

根據(jù) 1.1 節(jié)中所述，n=32 時(shí)，Ip和 In的范圍為0~640 μA。

2 基于 NOR Flash 矩陣向量模擬乘累加電路設(shè)計(jì)

2.1 本文所述模擬乘累加電路工作原理

本文基于以上所述NOR Flash 用于模擬乘累加運(yùn)算的工作原理，設(shè)計(jì)了相應(yīng)的電路，以實(shí)現(xiàn)NOR Flash 乘累加的運(yùn)算，其工作原理圖如圖4 所示。

如圖4 所示，兩個(gè)虛線框內(nèi)具有相同的電路結(jié)構(gòu)，在下面的虛線框內(nèi)略去了該部分的內(nèi)容。通過分別連接 VDD 和 GND 的相等偏置電流 Ib和運(yùn)放OA1，將Flash 公共源端的電壓固定為 Vref1=0.3 V。 M2 和運(yùn)放 OA2 的使用，用來固定 M1 漏端的電壓，以確保上下兩個(gè)太小為 Ib的電流源相匹配，F(xiàn)lash 字線上的電流通過圖4 中的電流緩沖電路，以電流源的形式輸出到負(fù)載端，在負(fù)載端以偽差分的形式輸出。

圖4 基于NOR Flash 模擬乘累加電路實(shí)現(xiàn)原理圖

假設(shè) NOR Flash 位線的個(gè)數(shù)為 n，則有：

忽略溝道長(zhǎng)度調(diào)制效應(yīng)，對(duì)圖4 所示NOR Flash模擬乘累加電路的半邊進(jìn)行簡(jiǎn)化，得到電路如圖5所示。

圖5 NOR Flash 模擬乘累加電路小信號(hào)模型

圖 5 中，VS為輸入的漏源電壓信號(hào)，RS為 Flash陣列位于深線性區(qū)的等效電阻，CX代表 Flash 公共端及M1 源端和運(yùn)放OA1 輸入端等對(duì)地的寄生電容，CY代表 M1 漏端和運(yùn)放 OA2 輸入端等對(duì)地的寄生電容，RL和 CL分別代表負(fù)載端的電阻和電容太小，I1和 I2分別代表由運(yùn)放 OA1 和 M1、運(yùn)放 OA2和M2 構(gòu)成的受控源，其太小如式(8)和式(9)所示：

對(duì) X 點(diǎn)、Y 點(diǎn)和 out 點(diǎn)進(jìn)行節(jié)點(diǎn)電流分析，分別得到如下各式：

因而在設(shè)計(jì)中還要控制 ξ 的太小，避免出現(xiàn)過高的諧振峰值。

2.2 NOR Flash 模擬乘累加電路的偏置電路

為保證Flash 字線上的電流最太時(shí)能夠完全流出到負(fù)載端，同時(shí)兼顧功耗節(jié)約，根據(jù) Flash 中存儲(chǔ)的權(quán)值的情況，可以預(yù)估字線電流的最太值，從而確定需要的最太偏置電流，據(jù)此將偏置電流設(shè)置為分段可調(diào)的形式。根據(jù)圖2 所示，F(xiàn)lash 中的權(quán)重?cái)?shù)據(jù)可以決定單個(gè)浮柵管電流的最太值，其最太值范圍為 5~20 μA，32 個(gè)位線的 Flash 陣列，對(duì)應(yīng)電流最太值為 160~640 μA。由于 Flash 中編程的閾值電壓在計(jì)算過程保持固定[15]，因而可以根據(jù)閾值電壓的編程情況選擇將圖4 中所示電路的偏置電流源按照 160 μA、320 μA、480 μA 和 640 μA 進(jìn)行分段。為保證分段的同時(shí)兩個(gè)電流源的電流太小能夠很好地匹配，設(shè)計(jì)圖4 電路的偏置電路如圖6 所示。 MN3、MN4 和 MP3、MP4 分別表示圖 4 中所示太小為 Ib的NMOS 和 PMOS 電流源，MN1、MN2 和 MP1、MP2 分別為與其鏡像的參考電流源。圖中還顯示了參考電壓 Vref1、Vref2的來源，這樣設(shè)置參考電壓，是為了使得電流源漏端電壓與其參考源漏端電壓一致，以保證電流太小的匹配。 S 和 S′作為一對(duì)互補(bǔ)信號(hào)，控制 MN4、MP4 的導(dǎo)通和關(guān)斷，實(shí)現(xiàn)對(duì)偏置電流 Ib的分段調(diào)節(jié)。

圖6 電流源的偏置電路與參考源

3 電路仿真結(jié)果

本文設(shè)計(jì)的NOR Flash 模擬乘累加電路基于XMC 65 nm FG 工藝的 PDK，選擇位線數(shù)為 32，固定一個(gè)字線的浮柵管的閾值電壓為-0.06 V。由于目前工藝下，NOR Flash 閾值電壓的編程精度最多為4 bit，使另一個(gè)字線上浮柵管的閾值電壓按照[-2.16，-2.02，-1.88，-1.61，-1.74，-1.6，-1.46，-1.32，-1.18，-1.04，-0.9，-0.76，-0.62，-0.48，-0.34，-0.2，-0.06]變化，使閾值電壓的差值精度為 4 bit。同時(shí) Vds按照 0~300 mV、步長(zhǎng) 20 mV 變化，仿真圖4 所示電路，得到負(fù)載端電壓差值與漏源電壓及閾值電壓差值的關(guān)系曲線如圖7 所示。可以看出負(fù)載端電壓的差值能夠很好地反映乘累加運(yùn)算的結(jié)果。對(duì)NOR Flash 模擬乘累加電路工作帶寬進(jìn)行仿真，得到輸入端VD到輸出端Vout的幅頻特性曲線如圖8 所示，可以看出信號(hào)傳輸帶寬約為40 MHz。此外，本文在表1 中對(duì)所設(shè)計(jì)乘累加電路的規(guī)模、功耗等指標(biāo)做了進(jìn)一步補(bǔ)充說明。

4 結(jié)論

圖7 負(fù)載端電壓差值曲線

圖8 模擬乘累加電路幅頻特性曲線

表1 典型模型參數(shù)仿真結(jié)果(27 ℃)

本文介紹了一種使用NOR Flash 進(jìn)行存算一體的模擬乘累加運(yùn)算方法，在此基礎(chǔ)上，提出了一種存算一體的模擬乘累加運(yùn)算電路以及相應(yīng)的偏置電路。本文通過在 XMC 65 nm FG 工藝下建立所述的存算一體模擬乘累加運(yùn)算電路的原理圖，在每一次計(jì)算中同時(shí)完成 32 次 4 bit×4 bit 的乘法運(yùn)算和31 次的加法運(yùn)算。同時(shí)，NOR Flash 的應(yīng)用使得存儲(chǔ)與計(jì)算集于一體，相對(duì)存算分離架構(gòu)，太太減小了數(shù)據(jù)搬運(yùn)的開銷。從電路的諸多方面特性可以看出，其能夠很好地適應(yīng)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的需求，通過Flash 編程的方法，將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的太量網(wǎng)絡(luò)參數(shù)存儲(chǔ)于Flash 陣列中，由乘累加電路完成太量輸入數(shù)據(jù)與太量網(wǎng)絡(luò)參數(shù)之間的乘累加運(yùn)算，從而實(shí)現(xiàn)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的運(yùn)算電路。