如今回首近些年的電腦配置,有點尷尬的是,多年以來,電腦中最短的那塊短板一直沒有變化,數(shù)據(jù)存儲始終無法跟上電腦其他配件的發(fā)展。當然,各個廠商也早就看到了這一點,為此而做出的努力并不少,只是結果……似乎并不能讓人滿意。好在近期的幾項技術和產(chǎn)品發(fā)展,終于可能改變這一現(xiàn)狀了,只是在真正的黎明到來前,混亂的市場還是需要我們來好好地捋一捋。
讓數(shù)據(jù)存儲跟上其他配件的腳步,技術早已不是問題,畢竟在半導體工業(yè)如此發(fā)達的今天,半導體存儲的速度已經(jīng)可以達到很高的水平。比如內(nèi)存顆粒就是一種特殊的半導體存儲設備,它一直在追隨著CPU、GPU的腳步,提供了滿足它們需求的高速數(shù)據(jù)存取服務。
所以,僅以半導體存儲來說,規(guī)范標準、接口速度、價格成本才是其跟上其他配件的速度腳步的關鍵。其中最重要的,較新的固態(tài)硬盤規(guī)范標準和接口速度,在當前的消費級電腦中基本是一一對應的。即基于PCIe總線的消費級SSD絕大多數(shù)使用M.2接口,而NVMe 1.x規(guī)范也與PCIe版本有明顯的對應,例如NVMe 1.3針對基于PCIe 3.0總線的產(chǎn)品,NVMe 1.4針對PCIe 4.0(圖1)。未來可能帶來巨大改變的,則是NVMe 2.0和PCIe 5.0.
●PCIe 5.0
英特爾平臺在總線配置上的急迫已經(jīng)不用贅述,11代酷睿引入PCIe 4.0,12代酷睿就提供了PCIe5 .0通道。這既有其支持標準已經(jīng)過于落后的原因,也有為基于PCIe5.0/6.0的CXL總線技術做準備的考慮,但從最基礎的原因看,快速升級的英特爾和最終決定在Zen4架構中引入PCIe 5.0的AMD一樣,當然還是對PCIe 5.0又一次翻倍的帶寬(圖2)感興趣。
③
④
在當前的電腦中,PCIe通道的主要使用者其實只有兩個,顯卡與存儲。前者可以利用更大的帶寬與CPU、內(nèi)存通信,而且還在PCIe4.0的支持下實現(xiàn)了Smart AccessMemor y(智能尋址顯存技術)(圖3)等,看似非常美好。但近期關于RTX 40的一個新消息卻讓人看到了另一個現(xiàn)實,就是實際上顯卡的GPU與板載高速顯存已經(jīng)形成了很好的循環(huán)架構,GPU和顯卡架構沒有重大變化的情況下,對接口的速度要求并不高,畢竟旗艦級RT X 30才勉強用滿PCIe3.0×16插槽帶寬,架構類似的RTX 40升級至四倍帶寬的PCIe 5.0沒有什么必要。當然,AMD的RDNA系列架構更新一些,它的最新發(fā)展型RDNA3(圖4),也就是R X7000系列是否會積極地升級到這一標準還是個未知數(shù),但至少在能否充分利用其帶寬上,筆者認為答案應該也是否定的。
相對于顯卡,存儲對PCIe 5.0通道的利用就直接得多,在允許的情況下,有多大的帶寬,就提供多高的存取速度。除此之外,PCIe 5.0還能帶來很多額外的好處,例如使用系統(tǒng)內(nèi)存做緩存的HBM(Host Memory Buffer,主機內(nèi)存緩沖)技術(圖5),在PCIe 5.0的高帶寬下,顯然會有更好的表現(xiàn)。
對玩家來說,英偉達的RTX IO和Windows11的DirectStorage可以大幅提升游戲畫面從SSD到屏幕的速度。而它們也需要更高的PCIe傳輸速度,才能讓游戲數(shù)據(jù)同時向CPU與GPU分發(fā)(圖6),達到快速解壓畫面材質(zhì)等數(shù)據(jù),加快圖像處理速度的目的。
不過這里也有兩個問題,首先是PCIe 5.0平臺的普及速度。由于當前支持PCIe 5.0的消費級平臺僅有12代酷睿及相關主板,還要去除為了降低成本而降低配置的部分入門級主板。盡管12代酷睿表現(xiàn)良好,市場占有率快速上升,但仍不足以吸引廠商推出PCIe 5.0 SSD。
第二個問題就是PCIe 5.0 SSD的開發(fā)程度了,事實大概會出乎很多人的意料。PCIe 5.0SSD其實早就出現(xiàn)在商用市場(圖7)上。即使是消費級產(chǎn)品,在年初的CES展前和展中也推出了不少相關的主控,其中有一些并非概念產(chǎn)品,而是進入了實際測試階段,按照正常的周期,它們早就應該上市,或者至少有相關消息了。至今沒有上市消息的原因則不外乎是兩個,一是前面提到的PCIe 5.0普及度問題,二是PCIe 3.0/4.0SSD仍有巨大的利益,廠商不愿意用新品來影響其市場。
從這兩個方面看,筆者預計PCIe 5.0 SSD的上市時間很可能會在暑促期間,與Zen4平臺的發(fā)布同步,以獲得最大的宣傳效果,同時也可以借助暑促和Zen4平臺的發(fā)售增加銷量。
至于實際產(chǎn)品,如果從當前已經(jīng)公布的主控能力看,我們很可能會看到上市即巔峰的14GB/s級別滿速SSD(圖8),這一速度已經(jīng)極為接近PCIe 3.0×16插槽,只是略低于DDR4 2400這一不久前的主流內(nèi)存速度(圖9)。能想象嗎?曾經(jīng)需要使用內(nèi)存虛擬硬盤軟件才能獲得的速度,很可能會在TB級別容量的SSD上獲得。當然這些旗艦級產(chǎn)品的價格肯定會相當高昂,那么我們也可以關注與之配合的8GB/s~10GB/s級別中端型號,預計價格定位應該與當前的PCIe 4.0旗艦級型號相當甚至還低一些,性價比當然更好。
除此之外,PCIe 5.0的入門級S SD也可以通過其高帶寬獲得更高速的HBM緩存助益,也許在這一類型S SD中會徹底取消板載緩存設計,代之以HBM+SLC虛擬兩級緩存,分別用于存放FTL表(Flash Translation Layer,閃存轉換層)和臨時數(shù)據(jù)。前者用于從系統(tǒng)的邏輯地址轉換為SSD上的物理地址,便于主控快速定位存取數(shù)據(jù),需要高速讀寫,并不適合放置在SLC虛擬緩存中。更有甚者,如果HBM模式得到充分開發(fā),還可以與NVMe新版本中的相應功能和混合架構CPU配合,讓CPU(特別是其中的效能核)承擔SSD主控的部分功能,讀取系統(tǒng)內(nèi)存中HBM的數(shù)據(jù),并將系統(tǒng)需求地址轉換為S SD地址再向SSD申請,進一步加快存取速度的同時還能簡化主控,降低SSD成本。
PCIe 5.0對另一方面的存儲需求也大有裨益,那就是移動存儲。其實從供電、傳輸速度等方面的能力以及配置數(shù)量等方面看,雷電接口的使用方式已經(jīng)和US B有了一定區(qū)別,其最主要的連接設備顯然是外部高速存儲(圖10)。但如今要想獲得最強的外部傳輸速率,滿速的雷電4已經(jīng)需要使用2條PCIe 4.0通道,再提速就需要4條PCIe 4.0通道支持一個雷電接口,顯然太“浪費”了。如果未來平臺PCIe 5.0通道的數(shù)量可以提升,那么在顯卡和SSD之外,就可以使用PCIe 5.0來支持雷電接口,只需單通道就能提供滿速雷電4,下一代雷電接口才有可能提升速率。
NVMe 2.0
作為一次規(guī)范標準的大版本更新,NVMe 2.0的變化非常大,在針對SSD的管理上,至少有三個值得注意的新功能。
分區(qū)命名空間(ZNS)技術可以根據(jù)數(shù)據(jù)的使用頻率,將其集中放置于存儲設備的某些區(qū)域(圖11),并且通過一種類似命名的區(qū)域管理方式劃分區(qū)域(應該是通過F T L表的能力來實現(xiàn)),從而減少對存儲數(shù)據(jù)的重寫和重新排列。這不僅能提升讀寫效率,應該還能減少額外的寫入消耗,提升SSD使用壽命。
持續(xù)性群組管理則是一種新的存儲管理機制,可以允許靈活和動態(tài)的SSD配置,可實現(xiàn)動態(tài)容量管理和混合模式NAND操作,也許未來不僅會有模擬SLC緩存,還會出現(xiàn)真正的TLC+QLC顆粒甚至再加上SLC顆粒,分別應對不同需求的混裝SSD。
關鍵值(KV)命令集將允許應用程序直接與驅(qū)動器控制器通信,無需再使用內(nèi)存地址塊。這可以降低CPU的計算負荷,但需要SSD支持相關命令集,也就是所謂的KV-SSD。
需要注意的是,與前文提到的NVMe標準與PCIe版本幾乎一一對應不同,NVMe 2.0的重大更新可能不會在第一代PCIe 5.0 SSD上全部體現(xiàn),也許有相當多的PCIe 5.0SSD實際仍采用NVMe 1.4標準。好在這種組合的應用性能應該是沒有問題的,因為面向數(shù)據(jù)中心和企業(yè)用戶的第一代,甚至很多第二代商用級PCIe 5.0 SSD(圖12)其實就采用了這種組合。
另外,NVMe 2.0的一個重大改進就是模塊化技術規(guī)范,商用產(chǎn)品當然要使用嚴格的企業(yè)級標準,這可能也是很多商用級PCIe 5.0 SSD不使用NVMe 2.0的原因。而消費級產(chǎn)品則可以放棄一些過高的要求,只使用部分NVMe 2.0技術規(guī)范,此時是否還能標稱為NVMe 2.0標準產(chǎn)品也尚未可知。
除了對SSD的支持外,NVMe 2.0還提供了一個非常引人矚目的新功能——支持“旋轉存儲介質(zhì)”,說白了就是使用旋轉磁碟的傳統(tǒng)機械硬盤。也許有些人對NVMe的這一功能感到非常奇怪,難道機械硬盤能達到600MB/s以上的傳輸率嗎?也許我們真的快要迎來這樣的產(chǎn)品了。
當主流SSD向TB級別進發(fā)時,同價位下,機械硬盤保持著4倍的容量優(yōu)勢(圖13),讓很多資金有限,數(shù)據(jù)量又很龐大的用戶難以割舍。而在高端市場上,機械硬盤更是已經(jīng)可以穩(wěn)定大量地提供16TB以上容量產(chǎn)品,但大部分S SD產(chǎn)品系列的最高容量卻停留在4T B。所以至少在可見的未來,機械硬盤仍將與SSD一起,擔負起數(shù)據(jù)存儲的大任。
至于前面提到的能讓SATA接口的速率捉襟見肘的技術,其實已經(jīng)公布了一段時間,只是因為各種原因而延誤了最終產(chǎn)品的面世,在近期我們也終于見到了它們的真容和實際表現(xiàn)。
●速度翻倍 多讀寫臂技術
傳統(tǒng)的硬盤中雖然有多個讀寫懸臂和磁頭,配合多個磁碟的上下表面數(shù)據(jù)層,但它們都固定在同一個動作機構上,不能做相對運動(圖14)。也就是說,當讀寫第一張磁碟的上表面某處數(shù)據(jù)時,第一張磁碟的下表面磁頭,以及其他所有磁碟的磁頭,可能都位于不需要的數(shù)據(jù)區(qū)域,沒有進行任何讀寫,讀寫其他存儲面的數(shù)據(jù)時也是如此。
⒁
多讀寫臂技術(Multi Actuator)就是為了擺脫這個限制而開發(fā)的,它安裝了兩組(未來可擴充為更多組)可獨立運作的懸臂,可以提供兩個并行的數(shù)據(jù)流(圖15),兩組磁頭可以同時讀取、寫入,或者一讀一寫,可極大地提升機械硬盤的吞吐能力,這與RAID 0的實際效果很相似,不過只需要單個硬盤就能實現(xiàn)。
⒂
希捷近期推出的Exos銀河系列Mach.2 14TB(Exos2 X1 4)硬盤是首款采用這一技術的產(chǎn)品(圖1 6),在7200RPM的轉速下,其最高讀寫速度達到了524MB/s,是目前世界上速度最快的機械硬盤,已經(jīng)達到高端SATASSD的水平。其接口為商用硬盤的SAS 12Gb/s,暫時還不會成為瓶頸,但當這一技術如果加入消費級產(chǎn)品中,SATA3(6Gb/s)的接口速率就很勉強了,應該是最適合NVMe2.0規(guī)范的機械硬盤產(chǎn)品。
⒃
當然,這一技術也要付出一定的代價,除了成本之外,功耗是肯定會增加的,比如Exos銀河系列Mach.2 14TB的空閑時功耗為7.2W,重負載時功耗13.5W,比20TB容量的Exos X20功耗更高。這一功耗甚至大幅超越了需要額外增加激光、微波源的新一代輔助記錄技術。
●容量大增 輔助記錄技術
近期的機械硬盤中,還出現(xiàn)了希捷(熱輔助磁記錄)和東芝FC-MAMR(微波輔助磁記錄)等提升數(shù)據(jù)存儲密度的技術,并通過這些技術推出了18TB~20TB容量產(chǎn)品(圖17)。從當前的發(fā)展趨勢看,在20TB以上的機械硬盤中,它們很可能成為必備技術。
這些技術的原理都類似,是在磁頭前方增加激光或微波模塊,通過激光加熱(圖18)或微波照射的方式,讓磁頭即將處理的位置產(chǎn)生磁場變化,降低超順磁效應,可以縮小數(shù)據(jù)位,增加數(shù)據(jù)密度,據(jù)稱可達到每平方英寸500GB的存儲容量。存儲密度的增加不僅可以使用同樣的磁碟數(shù)獲得更大容量,還可以在同樣的轉速下獲得更高的讀寫速度。
⒅左側為標準的PMR磁頭,右側為采用激光進行輔助加熱的HAMR磁頭
火速鏈接
本刊2022年第7期《超級數(shù)據(jù)中心 希捷酷狼Pro 20TB硬盤》一文詳細介紹了希捷使用HAMR技術的產(chǎn)品,感興趣的朋友可以參考。
如果說前面提到的技術與產(chǎn)品還距離我們比較遙遠,那么近期一些市場變化應該可以更好地預示著新時代,正準備裝機升級的朋友更可以直接買來體驗新時代的到來。例如3000MB/s級別的新M. 2 SSD價格進一步降低,在容量價格比、性能價格比上全面超過了SATA SSD和較早的2000MB/s級別M.2 SSD(圖19)。這些產(chǎn)品采用更高堆疊層數(shù)TLC或QLC,而且隨著技術的進步,其中的QLC顆粒的寫入壽命也已經(jīng)達到了500次左右,已經(jīng)完全夠用,還能配合HBM等技術獲得較好的持續(xù)寫入速度與IOPS。
追求高性能的用戶則可注意最新的5GB/s~7GB/s級別PCIe4.0 SSD,這些產(chǎn)品紛紛進駐高速PCIe 3.0 SSD讓出的價格位,成為中端乃至主流平臺的好選擇。