楊光 鈔蘇亞 聶敏 劉原華 張美玲
(西安郵電大學(xué)通信與信息工程學(xué)院,西安 710121)
長短期記憶(long-short term memory,LSTM)神經(jīng)網(wǎng)絡(luò)通過引入記憶單元來解決長期依賴、梯度消失和梯度爆炸問題,廣泛應(yīng)用于時間序列分析與預(yù)測.將量子計算與LSTM 神經(jīng)網(wǎng)絡(luò)結(jié)合將有助于提高其計算效率并降低模型參數(shù)個數(shù),從而顯著改善傳統(tǒng)LSTM 神經(jīng)網(wǎng)絡(luò)的性能.本文提出一種可用于圖像分類的混合量子LSTM (hybrid quantum LSTM,HQLSTM)網(wǎng)絡(luò)模型,利用變分量子電路代替經(jīng)典LSTM 網(wǎng)絡(luò)中的神經(jīng)細(xì)胞,以實現(xiàn)量子網(wǎng)絡(luò)記憶功能,同時引入Choquet 離散積分算子來增強(qiáng)數(shù)據(jù)之間的聚合程度.HQLSTM 網(wǎng)絡(luò)中的記憶細(xì)胞由多個可實現(xiàn)不同功能的變分量子電路(variation quantum circuit,VQC)構(gòu)成,每個VQC 由三部分組成: 編碼層利用角度編碼降低網(wǎng)絡(luò)模型設(shè)計的復(fù)雜度;變分層采用量子自然梯度優(yōu)化算法進(jìn)行設(shè)計,使得梯度下降方向不以特定參數(shù)為目標(biāo),從而優(yōu)化參數(shù)更新過程,提升網(wǎng)絡(luò)模型的泛化性和收斂速度;測量層利用泡利Z 門進(jìn)行測量,并將測量結(jié)果的期望值輸入到下一層實現(xiàn)對量子電路中有用信息的提取.在MNIST,FASHION-MNIST 和CIFAR 數(shù)據(jù)集上的圖像分類實驗結(jié)果表明,與經(jīng)典LSTM、量子LSTM 相比,HQLSTM 模型獲得了較高的圖片分類精度和較低的損失值.同時,HQLSTM、量子LSTM 網(wǎng)絡(luò)空間復(fù)雜度相較于經(jīng)典的LSTM 網(wǎng)絡(luò)實現(xiàn)了明顯的降低.
人工神經(jīng)網(wǎng)絡(luò)憑借其強(qiáng)大的非線性信息處理能力及泛化能力[1,2],成為一種重要的機(jī)器學(xué)習(xí)模型,被廣泛應(yīng)用于信號處理[3,4]、自然語言處理[5,6]、圖片分類等領(lǐng)域[7-9].量子計算基于量子態(tài)相干疊加、糾纏等特性,能夠提供強(qiáng)大的并行計算能力[10-17].如何將量子計算與人工神經(jīng)網(wǎng)絡(luò)相結(jié)合,充分發(fā)揮二者的優(yōu)勢,從而改進(jìn)經(jīng)典神經(jīng)網(wǎng)絡(luò)架構(gòu),提升網(wǎng)絡(luò)計算性能成為研究者們關(guān)注的一個重要方向.Kouda 等[18-21]初步提出了早期受經(jīng)典神經(jīng)網(wǎng)絡(luò)激發(fā)的量子神經(jīng)網(wǎng)絡(luò)(quantum neural network,QNN)模型,為該領(lǐng)域的研究提供了借鑒思路.2019 年,Cong 等[22]提出的量子卷積神經(jīng)網(wǎng)絡(luò)(quantum convolutional neural network,QCNN)只使用O(log(N))變分參數(shù)作為N個量子位的輸入大小從而減少了網(wǎng)絡(luò)的復(fù)雜度;2020 年,Henderson 等[23]提出了量子卷積層的概念,通過隨機(jī)量子電路增強(qiáng)了從數(shù)據(jù)中提取特征的能力,但是缺乏非線性操作來增強(qiáng)網(wǎng)絡(luò)的泛化性;2021 年,Niu 和Ma[24]提出了具有多層激活函數(shù)的QNN,增強(qiáng)了網(wǎng)絡(luò)模型的健壯性.針對二維圖片數(shù)據(jù),2022 年,Houssein 等[25]提出用隨機(jī)化量子電路構(gòu)造混合QNN 模型,在對新冠肺炎圖片分類實驗中,達(dá)到了較高的分類精度;同年,Hur 等[26]和Chen 等[27]分別提出了不同的QCNN 模型,均達(dá)到了較好的圖片分類效果.
然而以上QNN 網(wǎng)絡(luò)模型缺乏網(wǎng)絡(luò)層之間的相互關(guān)聯(lián)和記憶功能,不利于解決數(shù)據(jù)信息丟失問題,且訓(xùn)練精度有待提高.Xia 和Kais [28]提出了一種用于計算分子基態(tài)能量的混合量子-經(jīng)典神經(jīng)網(wǎng)絡(luò),利用量子測量的期望值作為下一層量子門的角度參數(shù),達(dá)到了較好的擬合效果;同年,Mari 等[29]提出了4 種在混合經(jīng)典-量子神經(jīng)網(wǎng)絡(luò)中使用轉(zhuǎn)移學(xué)習(xí)的模型結(jié)構(gòu),實現(xiàn)了較高的量子態(tài)分類精度.以上研究表明量子測量的期望值有利于從量子電路中提取有效信息.
長短期記憶(long-short term memory,LSTM)神經(jīng)網(wǎng)絡(luò)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)[30-32],其利用記憶細(xì)胞來增強(qiáng)各層之間的相互關(guān)聯(lián),解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)長期依賴以及梯度消失問題,被廣泛應(yīng)用于時間序列分析與預(yù)測領(lǐng)域.對于二維圖片數(shù)據(jù),LSTM 神經(jīng)網(wǎng)絡(luò)可增強(qiáng)其數(shù)據(jù)之間的記憶功能,從而達(dá)到充分提取圖片序列特征的效果[33,34].但是利用經(jīng)典 LSTM 網(wǎng)絡(luò)進(jìn)行圖片分類,存在訓(xùn)練參數(shù)過多、計算速度慢及破壞圖片空間特征的問題.然而利用量子強(qiáng)大并行計算能力的量子長短期記憶神經(jīng)網(wǎng)絡(luò)(quantum long-short term memory,QLSTM)可以較快提升網(wǎng)絡(luò)訓(xùn)練速度,減少網(wǎng)絡(luò)參數(shù),因此近年來得到學(xué)者們的關(guān)注.2020 年,Chen 等[35]首次提出一種QLSTM 模型用于擬合時間序列,降低了模型的復(fù)雜度,并提高其收斂速度.但是該模型只針對一維數(shù)據(jù)進(jìn)行設(shè)計,而如何面向不同維數(shù)、類型多樣的數(shù)據(jù)來構(gòu)造網(wǎng)絡(luò),并進(jìn)行網(wǎng)絡(luò)性能優(yōu)化還有待進(jìn)一步研究.
針對二維圖像分類領(lǐng)域的需求,本文提出了一種混合量子長短期記憶(hybrid quantum LSTM,HQLSTM)神經(jīng)網(wǎng)絡(luò)模型.HQLSTM 網(wǎng)絡(luò)中的每個記憶細(xì)胞由多個可實現(xiàn)不同功能的VQC(variation quantum circuit,VQC)組成,VQC 的編碼層采用角度編碼進(jìn)行圖片數(shù)據(jù)轉(zhuǎn)換,避免大量圖片數(shù)據(jù)導(dǎo)致過深的網(wǎng)絡(luò)結(jié)構(gòu);變分層利用量子自然梯度優(yōu)化算法的優(yōu)化過程進(jìn)行構(gòu)建,使網(wǎng)絡(luò)參數(shù)的優(yōu)化過程不沿任何特定的方向,確保網(wǎng)絡(luò)參數(shù)優(yōu)化更具普遍性以及更快收斂;為實現(xiàn)量子網(wǎng)絡(luò)與經(jīng)典網(wǎng)絡(luò)的連接,減少圖片數(shù)據(jù)之間關(guān)聯(lián)信息的流失,測量層將測量每一個量子比特得到的期望值作為經(jīng)典層傳入下一層作為Ry門的參數(shù),達(dá)到從量子電路中提取有效信息的目的.此外,為保留二維圖片的空間特征,本文采用Choquet 離散積分算子代替記憶細(xì)胞的求和算子,達(dá)到既能充分提取圖片序列特征又不損失圖片空間特征的目的.在實驗部分,本文采用三個公開數(shù)據(jù)集: MNIST 手寫數(shù)據(jù)集、FASHION-MNIST 服飾數(shù)據(jù)集和CIFAR彩色數(shù)據(jù)集進(jìn)行模型圖像分類性能驗證,結(jié)果表明,與經(jīng)典LSTM 及文獻(xiàn)[35]中的QLSTM 相比,本文提出的HQLSTM 實現(xiàn)了較高的分類精度,同時具有較低的空間復(fù)雜度.隨著量子計算機(jī)的不斷發(fā)展,在未來的人工智能領(lǐng)域具有積極的應(yīng)用價值.
LSTM 網(wǎng)絡(luò)模型由若干記憶細(xì)胞組成,如圖1所示.每個記憶細(xì)胞由遺忘門、輸入門、輸出門三部分組成.A t-1代表前一時刻記憶細(xì)胞的狀 態(tài),At+1代表后一時刻記憶細(xì)胞的狀態(tài).記憶細(xì)胞的數(shù)據(jù)輸入由當(dāng)前時刻的輸入數(shù)據(jù)xt以及前一個記憶細(xì)胞隱藏層輸出h t-1共同決定.通過將Choquet離散積分算子代替LSTM 記憶細(xì)胞求和項來加強(qiáng)數(shù)據(jù)之間的關(guān)聯(lián)程度.
圖1 LSTM 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1.The structure of the LSTM network model.
遺忘門通過δ激活函數(shù)使其輸出f t處于[0,1]之間,從而決定前一個記憶細(xì)胞c t-1信息遺忘程度.f t和Sigmoid 激活函數(shù)可表示為
it
輸入門主要決定當(dāng)前記憶細(xì)胞的輸入值,由 和k t共同決定.i t通過δ激活函數(shù)控制當(dāng)前記憶細(xì)胞的輸入值,kt通過 t anh 激活函數(shù)來生成當(dāng)前記憶細(xì)胞的候選量.如(2)式和(3)式所示:
當(dāng)前記憶細(xì)胞狀態(tài)Ct的更新主要由兩部分組成: 1)ft作用于C t-1決定當(dāng)前記憶細(xì)胞舊的記憶;2)i t作用于k t決定當(dāng)前記憶細(xì)胞新的記憶,舊的記憶和新的記憶共同構(gòu)成當(dāng)前記憶細(xì)胞狀態(tài)Ct.具體過程可表示為
輸出門主要用于決定當(dāng)前記憶細(xì)胞Ct對輸出ht的影響.先將當(dāng)前記憶細(xì)胞Ct作用于 t anh 激活函數(shù)進(jìn)行歸一化處理,再根據(jù)xt和h t-1計算得出Ot決定C t輸出數(shù)據(jù)對ht的影響.具體過程可表示為
其 中,δ為Sigmoid 激活函數(shù),W fx,Wix,W kx,Wox為輸入數(shù)據(jù)x t的不同權(quán)重矩陣,W fh,W ih,Wkh,W oh為前一個記憶細(xì)胞輸出數(shù)據(jù)h t-1的不同權(quán)重矩陣,b f,b i,b k,b o為不同偏移權(quán)重向量.
為利用LSTM 網(wǎng)絡(luò)的序列記憶優(yōu)勢進(jìn)行圖片分類,同時又不損失圖片空間信息,本文利用n維的Choquet 離散積分算子修改LSTM 細(xì)胞單元中的求和算子,產(chǎn)生了一個多維的信息聚合,從而使圖片的空間特征充分表達(dá),實現(xiàn)圖片中所有像素數(shù)據(jù)之間更深入關(guān)聯(lián)的目標(biāo).
一維的Choquet 離散積分算子可表示為
其中,σ代表排列體,即x σ(1)≤···≤xσ(m).Aσ(i):={σ(i),···,σ(m)},m代表一維向量的個數(shù),q代表一個常數(shù)值,|A|代表集合A中的元素個數(shù).
二維的Choquet 離散積分算子可表示為
二維的Choquet 離散積分算子過程可如圖2所示.
圖2 二維的Choquet 離散積分算子圖示Fig.2.Two-dimensional Choquet discrete integral operator diagram.
圖3 為包括3 個記憶細(xì)胞的HQLSTM 網(wǎng)絡(luò)模型結(jié)構(gòu),每一個記憶細(xì)胞同樣由遺忘門、輸入門、輸出門三部分組成.與經(jīng)典LSTM 不同之處在于,HQLSTM 網(wǎng)絡(luò)模型將經(jīng)典LSTM 中的不同權(quán)重參數(shù)矩陣更換為新構(gòu)建的具有不同參數(shù)的6 個VQC,每一個VQC 根據(jù)所處的門的位置來實現(xiàn)不同的功能.
圖3 HQLSTM 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.3.The structure of the HQLSTM network model.
圖4 給出了HQLSTM 細(xì)胞中的VQC 結(jié)構(gòu),由編碼層、變分層、測量層三部分組成.
圖4 HQLSTM 細(xì)胞中的VQC 結(jié)構(gòu)Fig.4.The overall structure of the HQLSTM network model.
3.2.1 編碼層
編碼層用于實現(xiàn)經(jīng)典數(shù)據(jù)到量子數(shù)據(jù)之間的轉(zhuǎn)換,由于本文使用量子網(wǎng)絡(luò)對大量圖片進(jìn)行分類,將會給網(wǎng)絡(luò)模型帶來較大復(fù)雜度.因此本文采用角度編碼的方式來減少網(wǎng)絡(luò)模型的深度,從而提升網(wǎng)絡(luò)模型的訓(xùn)練速度.具體過程由Ry門和H門實現(xiàn).
Ry門和H門可表示為
編碼具體過程如下: 首先,量子H門將初始化量子態(tài)|0〉?···?|0〉 轉(zhuǎn)化為糾纏態(tài),如(13)式所示:
由于直接將二維圖像數(shù)據(jù)作為序列輸入,會造成圖像空間特征的損失,因此本文在HQLSTM 每一個記憶細(xì)胞中均采用Choquet 離散積分算子對圖像數(shù)據(jù)和前一時刻HQLSTM 記憶細(xì)胞的隱藏層輸出h t-1進(jìn)行聚合,達(dá)到減少輸入數(shù)據(jù)大小、避免圖像空間特征損失以及加強(qiáng)記憶細(xì)胞間相互關(guān)聯(lián)的目的.以28 × 28 的圖像數(shù)據(jù)為例,將其加載到圖4 所示4 量子比特VQC 的詳細(xì)原理及過程如下.
步驟1為利用一副圖片內(nèi)部數(shù)據(jù)的相互關(guān)聯(lián),并減少量子比特數(shù),首先將預(yù)處理后的28 ×28 的圖像數(shù)據(jù)分割為49 份4 × 4 的圖像數(shù)據(jù),并將隱藏層的維數(shù)設(shè)為1 × 4,其后將4×4 圖像數(shù)據(jù)和1 × 4 隱藏層數(shù)據(jù)進(jìn)行拼接得到大小為5 × 4的經(jīng)典數(shù)據(jù).
步驟2為避免圖像空間特征的損失,將上一步大小為5×4 的經(jīng)典數(shù)據(jù)經(jīng)過Choquet 離散積分算子得到大小為1×4 的聚合數(shù)據(jù)加載到4 量子比特的VQC 中.Choquet 離散積分算子的具體聚合過程如下所示:
式中,4 項Choquet 離散積分均可由(9)式得到一個具體的聚合數(shù)據(jù),h t為t時刻HQLSTM 記憶細(xì)胞隱藏層的輸出.x i,j為28×28 的圖像數(shù)據(jù)中的第i行、第j列.
步驟3經(jīng)過步驟1、步驟2,一幅28 × 28 的原始圖片被轉(zhuǎn)換為49 份1 × 4 的聚合數(shù)據(jù),因此將HQLSTM 網(wǎng)絡(luò)中記憶細(xì)胞更新次數(shù)(即time_step)設(shè)置為49,并將記憶細(xì)胞的輸出值與經(jīng)典全連接層進(jìn)行連接,通過激活函數(shù)得到每一類的輸出概率值,概率值最大的即為當(dāng)前圖像的分類類別.
3.2.2 變分層
為使量子網(wǎng)絡(luò)梯度更新方向不以任何參數(shù)為目標(biāo)且具有在量子態(tài)空間定義的度量張量,從而使量子網(wǎng)絡(luò)優(yōu)化方式更具泛化性、更快收斂,因此變分層設(shè)計主要根據(jù)本文的量子自然梯度優(yōu)化算法原理,即通過變分層第1 部分的參數(shù)化單量子比特門R y的測量結(jié)果,以及經(jīng)過多個CNOT 雙量子比特門的第2 部分參數(shù)化單量子比特門R y的測量結(jié)果共同構(gòu)成Fubini-Study 度量張量g,從而完成網(wǎng)絡(luò)參數(shù)的更新,達(dá)到優(yōu)化網(wǎng)絡(luò)模型的效果.
當(dāng)N為偶數(shù)時,變分層構(gòu)造過程可表示為
當(dāng)N為奇數(shù)時,變分層構(gòu)造過程可表示為
其中,C NOTi,j代表作用于第i和第j量子位的雙量子比特門.
3.2.3 測量層
測量層用于對量子比特進(jìn)行測量操作.由于期望值能夠從量子電路中提取有用信息,因此為了能夠更大限度的保留輸入數(shù)據(jù)中的信息,本文利用泡利Z門對每一個量子比特進(jìn)行測量,再將測量得到的期望值b i作為下一層R y門的參數(shù),從而連接兩個量子電路,實現(xiàn)對量子電路中測量信息的有效利用:
其中,Z為泡利Z門,N為VQC中的量子比特數(shù),為作用于第i個量子比特上的泡利Z門測量的期望值,U0(x) 為VQC 中編碼層的單量子比特旋轉(zhuǎn)門R y,U i(θi) 為VQC 中變分層的單量子比特旋轉(zhuǎn)門R y.
3.3.1 遺忘門
利用VQC1 實現(xiàn)遺忘門操作,經(jīng)Choquet 離散積分算子處理后得到的大小為1 × 4 的經(jīng)典數(shù)據(jù)v(h,x) 經(jīng)過量子角度編碼輸入到VQC1,經(jīng)過VQC1 變分層中的各個旋轉(zhuǎn)門及CNOT 門之后,再利用泡利Z門分別對4 個量子比特進(jìn)行測量,將測量得到的1 × 4 維經(jīng)典期望值作為VQC1 的輸出.其后,通過Sigmoid 激活函數(shù)作用于該輸出,使其值處于[0,1]之間,從而得到遺忘程度f(t),f(t) 的值決定了上一時刻記憶細(xì)胞c t-1的保留與丟棄:
3.3.2 輸入門
利用VQC2 和VQC3 實現(xiàn)輸入門操作,經(jīng)Choquet 離散積分算子處理后得到的大小為1 ×4 的經(jīng)典數(shù)據(jù)v(h,x) 經(jīng)過量子角度編碼分別輸入到VQC2 和VQC3,經(jīng)過VQC2 和VQC3 變分層中的各個旋轉(zhuǎn)門及CNOT 門之后,再利用泡利Z門分別對4 個量子比特進(jìn)行測量,將測量得到的1 × 4 維經(jīng)典期望值分別作為VQC2 和VQC3的輸出.其后,通過Sigmoid 激活函數(shù)作用于VQC2的輸出,使其值處于[0,1]之間,從而得到輸入程度i t,通過tanh 激活函數(shù)作用于VQC3 的輸出,使其值處于[—1,1]之間,從而得到記憶細(xì)胞候選量kt,最終通過計 算f(t)?ct-1和i t ?kt之 和,來生成當(dāng)前記憶細(xì)胞狀態(tài)量c t:
3.3.3 輸出門
利用VQC4 實現(xiàn)輸出門操作,經(jīng)Choquet 離散積分算子處理后得到的大小為1×4 的經(jīng)典數(shù)據(jù)v(h,x) 經(jīng)過量子角度編碼輸入到VQC4,經(jīng)過VQC4 變分層中的各個旋轉(zhuǎn)門及CNOT 門之后,再利用泡利Z門分別對4 個量子比特進(jìn)行測量,將測量得到的1 × 4 維經(jīng)典期望值分別作為VQC4的輸出.其后,通過Sigmoid 激活函數(shù)作用于VQC4的輸出,使其值處于[0,1]之間,從而得到輸出程度ot.之后為保持隱藏層維度和最終輸出維度一致,將o t ?tanh(ct) 得到的1 × 4 維經(jīng)典數(shù)據(jù)分別作為VQC5 和VQC6 的輸入,與其他VQC 操作類似,最后利用泡利Z門分別對4 個量子比特進(jìn)行測量,得到的1 × 4 維經(jīng)典期望值作為VQC5和VQC6 的輸出h t和y t:
由于一般的梯度下降算法存在泛化性差且收斂速度慢的缺點,因此本文采用量子自然梯度優(yōu)化算法對VQC 角度參數(shù)進(jìn)行更新,量子態(tài)空間存在一種獨特的酉不變度量張量Fubini-Study,而量子自然梯度優(yōu)化算法利用該張量計算所得到的梯度下降算法是對自然梯度的直接量子模擬,能使梯度下降的方向不以任意一個參數(shù)為目標(biāo),具有更強(qiáng)的適用性,同時達(dá)到網(wǎng)絡(luò)模型更快收斂的目的[36].該優(yōu)化算法具體計算過程如下所示.
第1 步定義損失函數(shù)L(x;θ) 和損失函數(shù)梯度? L(x;θ) .
其中,U(θ) 為酉算子,U0(x) 為用于角度編碼的量子R y門,H為哈密頓算子,本文利用單比特量子旋轉(zhuǎn)R y門作為酉算子、泡利Z矩陣為哈密頓算子.
第2 步由于損失函數(shù)L(x;θ) 是非凸函數(shù),尋找全局最優(yōu)較為困難,因此通過(28)式的離散時間動力系統(tǒng)來迭代尋轉(zhuǎn)局部最優(yōu):
其中,η為學(xué)習(xí)率,g(θ) 為Fubini-Study 度量張量.
本文VQC 電路中Fubini-Study 度量張量的計算過程如下所示(其部分VQC 結(jié)構(gòu)如圖5 所示).
圖5 計算Fubini-Study 度量張量的部分VQC 結(jié)構(gòu)Fig.5.Calculate part of the VQC structure of the Fubini-Study metric tensor.
一般的變分量子電路可表示為
因此,本文利用(32)式g來代表Fubini-Study度量張量:
對第一個參數(shù)化量子門的層前面的v0(θ0,θ1) 的前兩個比特做測量,得到g0:
對第2 個參數(shù)化量子門的層前面的v1(θ2,θ3) 的前兩個比特做泡利y和泡利x測量,得到g1:
第3 步利用(28)式的一階最優(yōu)條件來優(yōu)化參 數(shù).將求得的Fubini-Study 度量張量g代 入(35)式即可得到更新后的參數(shù)值:
為驗證分類器的性能,本文采用3 個公開的數(shù)據(jù)集進(jìn)行實驗,分別是灰度圖像數(shù)據(jù)集MNIST和FASHION_MNIST以及RGB 圖像數(shù)據(jù)集CIFAR.圖6(a)為MNIST手寫數(shù)據(jù)樣本示例,包括數(shù)字0—9 十大類.圖6(b)為FASHION_MNIST服飾數(shù)據(jù)樣本示例,包括T 恤、牛仔褲、套衫、裙子、外套、涼鞋、襯衫、運(yùn)動鞋、包、短靴十大類.圖6(c)為CIFAR 數(shù)據(jù)樣本示例,包括飛機(jī)、汽車、鳥類、貓、鹿、狗、蛙類、馬類、船、卡車十大類.首先對3 種數(shù)據(jù)集均進(jìn)行一些必備的預(yù)處理操作,包括圖片平移、翻轉(zhuǎn)、旋轉(zhuǎn)、去噪、歸一化.之后各隨機(jī)抽取30000 樣本作為訓(xùn)練集,隨機(jī)抽取10000 樣本作為測試集,每一個灰度圖片的尺寸為28 × 28,彩色圖片尺寸為32 × 32.
圖6 數(shù)據(jù)集樣本 (a) MNIST 數(shù)據(jù)集;(b) FASHION-MNIST 數(shù)據(jù)集;(c) CIFAR 數(shù)據(jù)集Fig.6.Dataset image samples: (a) MNIST dataset;(b) FASHION_MNIST dataset;(c) CIFAR dataset.
本文實驗中LSTM,QLSTM[35]和HQLSTM網(wǎng)絡(luò)模型參數(shù)如表1 和表2 所示.
表1 LSTM 網(wǎng)絡(luò)模型參數(shù)Table 1.LSTM network model parameters.
表2 QLSTM 和HQLSTM 網(wǎng)絡(luò)模型參數(shù)Table 2.QLSTM and HQLSTM network model parameters.
為驗證本文所提出的HQLSTM 網(wǎng)絡(luò)模型的性能,采用分類精度Accuracy 和交叉熵驗證損失值Loss 兩個方法對網(wǎng)絡(luò)模型進(jìn)行評價分析.
(37)式中T i(j),i=j: 真實類別為i,正確分類為類別i的總數(shù)量.F i(j),ij: 真實類別為j,錯誤分類為i的總數(shù)量.i,j=1,2,···,N.N為總類別數(shù).(38)式中y p為預(yù)測的類別,y i為真實的類別.
本文采用LSTM,QLSTM,HQLSTM 三種網(wǎng)絡(luò)模型分別針對MNIST,FASHION-MNIST 和CIFAR 三種圖像數(shù)據(jù)集進(jìn)行分類實驗,其中MNIST,FASHION-MNIST 為灰度圖,CIFAR 為彩色圖.
4.4.1 MNIST 數(shù)據(jù)集實驗結(jié)果
圖7(a)給出了在MNIST 數(shù)據(jù)集上3 種模型的分類精度隨著迭代次數(shù)的變化情況.可以看出,當(dāng)?shù)螖?shù)大于80 后,3 種模型的分類精度趨于穩(wěn)定,而HQLSTM 模型由于深度的網(wǎng)絡(luò)記憶功能以及量子計算的并行計算能力使分類精度最高達(dá)到99.154%,LSTM 分類精度最低為97.306%.圖7(b)給出了在MNIST 數(shù)據(jù)集上3 種模型利用隨機(jī)梯度下降(stochastic gradient descent,SGD)優(yōu)化算法得到的交叉熵?fù)p失函數(shù)隨著迭代次數(shù)的變化情況.可以看出,當(dāng)?shù)螖?shù)小于10 時,3 種模型的損失值趨于一致.但當(dāng)?shù)螖?shù)大于10 后,隨著迭代次數(shù)增多,量子網(wǎng)絡(luò)模型深度記憶功能得以體 現(xiàn),HQLSTM 的損失值達(dá)到最低.圖8 為 在HQLSTM 模型中,利用本文提出的量子自然梯度優(yōu)化算法和普通批梯度下降算法兩種不同優(yōu)化算法的損失值對比,可以看出,在MNIST 數(shù)據(jù)集中,本文所采用的量子自然梯度優(yōu)化算法具有的獨特的參數(shù)更新策略使損失值下降的更快且更低.
圖7 MNIST 數(shù)據(jù)集 (a)分類精度對比;(b)損失函數(shù)值對比Fig.7.MNIST dataset: (a) Comparison of classification accuracy;(b) comparison of loss value.
圖8 不同優(yōu)化算法損失值對比Fig.8.Comparison of loss values of different optimization algorithms.
4.4.2 FASHION-MNIST 數(shù)據(jù)集實驗結(jié)果
圖9(a)給出了在FASHION-MNIST 數(shù)據(jù)集上QLSTM,LSTM,HQLSTM 三種模型分類精度隨著迭代次數(shù)的變化情況.可以看出,在更復(fù)雜的數(shù)據(jù)集中,由于HQLSTM 網(wǎng)絡(luò)模型較強(qiáng)的泛化性以及較深的網(wǎng)絡(luò)記憶功能,整個迭代過程中HQLSTM 的分類精度始終高于QLSTM 和LSTM.當(dāng)?shù)螖?shù)大于60 后,3 種網(wǎng)絡(luò)的分類精度均趨于穩(wěn)定,HQLSTM 的分類精度達(dá)到最高為98.273%,QLSTM 和LSTM 基本持平.圖9(b)給出了在FASHION-MNIST 數(shù)據(jù)集上3 種模型利用SGD優(yōu)化算法得到的交叉熵?fù)p失函數(shù)隨著迭代次數(shù)的變化情況.可以看出,HQLSTM 的損失值始終低于QLSTM 和LSTM.當(dāng)?shù)螖?shù)大于60 次后,3 種模型的損失值基于趨于穩(wěn)定,HQLSTM 的損失值達(dá)到最低,LSTM 達(dá)到最高.圖10 為在HQLSTM 模型中,普通批梯度下降算法和量子自然梯度優(yōu)化算法兩種不同優(yōu)化算法的損失值對比,可以看出,在FASHION-MNIST 數(shù)據(jù)集中,本文所采用的量子自然梯度優(yōu)化算法也同樣比普通批梯度下降算法達(dá)到的損失值更低.
圖9 FASHION-MNIST 數(shù)據(jù)集 (a) 分類精度對比;(b) 損失函數(shù)值對比Fig.9.FASHION-MNIST dataset: (a) Comparison of classification accuracy;(b) comparison of loss value.
圖10 不同優(yōu)化算法損失值對比Fig.10.Comparison of loss values of different optimization algorithms.
4.4.3 CIFAR 數(shù)據(jù)集實驗結(jié)果
為了進(jìn)一步驗證HQLSTM 對復(fù)雜彩色圖像數(shù)據(jù)集的分類效果,本節(jié)利用CIFAR 彩色圖像數(shù)據(jù)集進(jìn)行分類驗證,由于CIFAR 為三通道RGB圖像數(shù)據(jù)集且每幅圖像的大小為32 × 32,當(dāng)采用Choquet 積分算子得到1 × 4 維的輸入數(shù)據(jù)時,需要將time_step 設(shè)置為192.圖11(a)給出了在CIFAR彩色圖像數(shù)據(jù)集上LSTM,QLSTM,HQLSTM 三種模型分類精度隨著迭代次數(shù)的變化情況.可以看出,HQLSTM 的分類精度也始終高于LSTM 和QLSTM.HQLSTM 最高分類精度為98.631%,QLSTM 最高分類精度為96.334%,LSTM 最高分類精度為92.671%.圖11(b)給出了在CIFAR 彩色圖像數(shù)據(jù)集上3 種模型利用SGD 優(yōu)化算法得到的交叉熵?fù)p失函數(shù)隨著迭代次數(shù)的變化情況.可以看 出,HQLSTM 的損失值始終低于QLSTM 和LSTM.說明HQLSTM 在彩色數(shù)據(jù)集上同樣具有較快的收斂速度.因此,本文提出的HQLSTM 網(wǎng)絡(luò)模型無論對灰度圖還是RGB 圖像,均實現(xiàn)了較優(yōu)的性能.
圖11 CIFAR 彩色數(shù)據(jù)集 (a)分類精度對比;(b)損失函數(shù)值對比Fig.11.CIFAR color dataset: (a) Classification accuracy;(b) comparison of loss value.
表3 給出QLSTM[35],HQLSTM 與經(jīng)典LSTM三種網(wǎng)絡(luò)模型在MNIST,FASHION-MNIST 和CIFAR 三種圖片數(shù)據(jù)集下所實現(xiàn)的分類精度.在MNIST 數(shù)據(jù)集上,本文提出的HQLSTM 網(wǎng)絡(luò)模型達(dá)到了最高的分類精度99.154%,LSTM 和文獻(xiàn)[35]中提出的量子LSTM 網(wǎng)絡(luò)模型分類精度基本持平,分別為97.306%和97.894%;在FASHIONMNIST 數(shù)據(jù)集上,本文提出的HQLSTM 網(wǎng)絡(luò)模型也達(dá)到了最高的分類精度98.273%,QLSTM 的分類精度次之,為96.865%,LSTM 的分類精度最低為96.829%.在CIFAR 彩色數(shù)據(jù)集中,HQLSTM網(wǎng)絡(luò)模型也達(dá)到了最高的分類精度98.631%,QLSTM 的分類精度為96.334%,LSTM 的分類精度為92.671%.可以看出,不管針對灰度圖或者彩色圖,HQLSTM 均優(yōu)于其他的兩種模型,進(jìn)一步證明了HQLSTM 網(wǎng)絡(luò)模型的優(yōu)勢.
表3 不同網(wǎng)絡(luò)模型圖像分類精度比較Table 3.Comparison of image classification accuracy of different network models.
機(jī)器學(xué)習(xí)模型的復(fù)雜度通常由空間復(fù)雜度和時間復(fù)雜度來衡量,因此下面主要從這兩個方面進(jìn)行分析.
4.5.1 空間復(fù)雜度
空間復(fù)雜度取決于機(jī)器學(xué)習(xí)模型的參數(shù)數(shù)量.在長短期記憶網(wǎng)絡(luò)訓(xùn)練過程中,總的參數(shù)數(shù)量與記憶細(xì)胞數(shù)量及時間步(time_step)數(shù)有關(guān),這里以一個記憶細(xì)胞在一個時間步的參數(shù)個數(shù)為例進(jìn)行分析.
根據(jù)LSTM 網(wǎng)絡(luò)結(jié)構(gòu),將一個記憶細(xì)胞在一個time_step 的參數(shù)個數(shù)記為p1:
式中,n為輸入大小,h為隱藏層大小,m為經(jīng)過全連接層映射最終輸出大小.式中 4×((n+h)×h+h) 表示記憶細(xì)胞中所有權(quán)重參數(shù)個數(shù),h×m+m表示全連接層參數(shù)個數(shù).
對于QLSTM 網(wǎng)絡(luò),將一個記憶細(xì)胞在一個time_step 的參數(shù)個數(shù)記為p2:
其中,N為VQC 中量子比特的個數(shù),d為VQC 中變分層的深度.式中 6×(N ×d) 為6 個VQC 電路中所有的角度參數(shù)個數(shù),N ×m+m為全連接層參數(shù)個數(shù).
對于HQLSTM 網(wǎng)絡(luò),將一個記憶細(xì)胞在一個time_step 的參數(shù)個數(shù)記為p3:
在本文中,LSTM 網(wǎng)絡(luò)的隱藏層大小h等于輸入層大小n.同時,為保證QLSTM 網(wǎng)絡(luò)與HQLSTM網(wǎng)絡(luò)具有相同的糾纏程度,在具有1 層VQC 結(jié)構(gòu)的QLSTM 中,d=2,而在具有2 層VQC 結(jié)構(gòu)的HQLSTM 中,d=1.此外,3 種模型的全連接層的參數(shù)個數(shù)是相同的,因此在比較三者的空間復(fù)雜度時,忽略這一部分影響.根據(jù)(39)式—(41)式可以得到3 種模型除全連接層之外,LSTM 網(wǎng)絡(luò)的空間復(fù)雜度為O(8n2),而QLSTM 網(wǎng)絡(luò)與HQLSTM網(wǎng)絡(luò)的空間復(fù)雜度均為O(12n) .因此,相比于經(jīng)典LSTM 網(wǎng)絡(luò),量子LSTM 網(wǎng)絡(luò)的空間復(fù)雜度顯著降低.
4.5.2 時間復(fù)雜度
對于經(jīng)典機(jī)器學(xué)習(xí)模型,當(dāng)計算硬件資源能力一定的情況下,時間復(fù)雜度主要取決于模型的浮點運(yùn)算次數(shù)FLOPs (floating point operations).
根據(jù)2.1 節(jié)中的經(jīng)典LSTM 的記憶細(xì)胞結(jié)構(gòu),在一個time_step 中,一次細(xì)胞更新所需的FLOPs 主要取決于遺忘門、輸入門、輸出門中的矩陣乘、加運(yùn)算量,根據(jù) (1)—(3)式和(6)式,可得一個LSTM 記憶細(xì)胞更新的運(yùn)算量C1(FLOPs)為
在本文中,LSTM 網(wǎng)絡(luò)的隱藏層大小h等于輸入層大小n,由(42)式可以得到LSTM 網(wǎng)絡(luò)的時間復(fù)雜度為O(16n2+12n) .
對于量子機(jī)器學(xué)習(xí)模型,文獻(xiàn)[37]指出執(zhí)行量子電路算法的時間復(fù)雜度是由在給定的容錯范圍內(nèi)成功執(zhí)行該算法所需的操作數(shù)所決定.在文獻(xiàn)[38,39]中均采用量子電路中量子門的總數(shù)量衡量其時間復(fù)雜度.參照該方法,本文首先給出在一個time_step,一次細(xì)胞更新過程中,QLSTM 網(wǎng)絡(luò)及HQLSTM 網(wǎng)絡(luò)的量子門數(shù)量.
一個QLSTM 記憶細(xì)胞所需單量子比特操作數(shù)量為 1 2N+6×Nd,所需CNOT 門操作數(shù)量為6×2Nd.根據(jù)3.1 節(jié)HQLSTM 網(wǎng)絡(luò)結(jié)構(gòu),一個HQLSTM 記憶細(xì)胞所需單量子比特操作數(shù)量為24N+6×2Nd、所需CNOT 門操作數(shù)為 6×4Nd.
為保證QLSTM 網(wǎng)絡(luò)與HQLSTM 網(wǎng)絡(luò)具有相同的糾纏程度,在具有1 層VQC 結(jié)構(gòu)的QLSTM 中,d=2,而在具有2 層VQC 結(jié)構(gòu)的HQLSTM 中,d=1.此外,由于單比特量子門的操作時間遠(yuǎn)低于雙比特量子門,一般可以忽略單比特量子門的操作時間.因此可以得到QLSTM 網(wǎng)絡(luò)及HQLSTM 網(wǎng)絡(luò)的時間復(fù)雜度均為O(24n) .
盡管如此,并不能將經(jīng)典LSTM 網(wǎng)絡(luò)的時間復(fù)雜度O(16n2+12n) 與QLSTM 網(wǎng)絡(luò)及HQLSTM網(wǎng)絡(luò)的時間復(fù)雜度O(24n) 直接進(jìn)行比較,也并不能簡單地認(rèn)為量子LSTM 的時間復(fù)雜度優(yōu)于經(jīng)典LSTM.下面主要從兩個方面進(jìn)行討論.
一方面,在量子機(jī)器學(xué)習(xí)模型中,由于執(zhí)行雙量子比特門CNOT 操作所需時間較長,為其計算優(yōu)勢帶來了一定的挑戰(zhàn).例如,在離子阱量子計算機(jī)系統(tǒng)演示原型中,單量子門操作需要幾微秒,雙量子門操作需要10—100 μs.而對于普通經(jīng)典計算機(jī),一次浮點運(yùn)算約需50 ps.近年來,實現(xiàn)更快的量子操作門成為量子計算機(jī)發(fā)展的重要目標(biāo).2018 年,Watson 等[40]在天然硅鍺量子點中利用電驅(qū)動自旋共振(electrically driven spin resonance,EDSR)在280 ns 內(nèi)演示了CNOT 門操作.2022 年,Chew 等[41]實現(xiàn)了在納秒時間尺度上完成超快能量交換,這種超快相干動力學(xué)產(chǎn)生的條件相位是量子門的關(guān)鍵資源,開辟了量子模擬和量子計算在偶極-偶極相互作用設(shè)定的速度極限下運(yùn)行的路徑,Ohmori 團(tuán)隊[41]使用10 ps 的特殊激光束操縱銣原子,實現(xiàn)了6.5 ns 的雙量子比特門.以上研究的突破為提升量子機(jī)器學(xué)習(xí)模型的計算性能具十分積極的意義.
另一方面,在以VQC 為基礎(chǔ)的經(jīng)典-量子混合機(jī)器學(xué)習(xí)模型中,對特定觀測量的期望值的測量是不可缺少的環(huán)節(jié).為此,在真實量子計算機(jī)上,需要對大量的全同量子態(tài)進(jìn)行多次重復(fù)測量從而求得其期望值.這意味著對于同一組輸入數(shù)據(jù)需要執(zhí)行多次重復(fù)的量子編碼、變分與測量過程,從而造成計算時間的極大消耗,成為制約VQC 性能的關(guān)鍵瓶頸.傳統(tǒng)量子層析所需的測量復(fù)雜度為O(N4),2017 年,楊靖北等[42]提出先利用量子態(tài)密度矩陣的對角元素進(jìn)行觀測,再根據(jù)觀測結(jié)果選擇非零的非對角元素觀測算符進(jìn)行測量,可得出對d=2n維希爾伯特空間中任意n量子位中含有的l個非零本征值的疊加態(tài)進(jìn)行重構(gòu)所需最少測量次數(shù)為d+2l-3 .2020 年,Gokhale 等[43]將VQC電路所需的O(N4) 項單獨測量劃分為可同時測量的線性大小的可交換族,最后通過算法演示可將O(N4) 縮減為O(N3) .2021 年,Huang 等[44]通過設(shè)計以相干量子態(tài)為輸入且經(jīng)過希爾伯特空間映射的相干量子態(tài)為輸出的量子機(jī)器學(xué)習(xí)模型,分析得到該模型預(yù)測泡利觀測期望值的測量復(fù)雜度僅為O(n) .以上研究的展開是實現(xiàn)量子變分方法及其應(yīng)用的關(guān)鍵基礎(chǔ),也將是作者后續(xù)研究工作的重要內(nèi)容.同時,VQC 的優(yōu)勢也不容忽視.一方面,VQC 為量子神經(jīng)網(wǎng)絡(luò)提供了一個通用框架,其參數(shù)數(shù)量與經(jīng)典網(wǎng)絡(luò)相比有明顯降低,已被應(yīng)用于分類、深度強(qiáng)化學(xué)習(xí)等領(lǐng)域,另一方面,由于目前NISQ 設(shè)備仍然缺乏量子糾錯和容錯量子計算能力,而VQC 已被證明對噪聲具有魯棒性,因此VQC 可避免現(xiàn)有NISQ 設(shè)備存在的復(fù)雜量子誤差.相信隨著研究的不斷突破,未來VQC 還有廣泛的應(yīng)用空間.
量子深度學(xué)習(xí)正處于快速發(fā)展的階段,但是現(xiàn)有量子神經(jīng)網(wǎng)絡(luò)未充分利用網(wǎng)絡(luò)之間的記憶功能,因此通過網(wǎng)絡(luò)之間的記憶功能來增強(qiáng)網(wǎng)絡(luò)性能有待提高.本文提出了一種基于新的VQC 的HQLSTM網(wǎng)絡(luò)模型用于圖像分類.通過將6 個不同參數(shù)的VQC 嵌入HQLSTM 網(wǎng)絡(luò)模型中的不同位置,從而降低了經(jīng)典LSTM 網(wǎng)絡(luò)的復(fù)雜度,而且利用量子電路中的糾纏等特性加深了網(wǎng)絡(luò)模型中記憶細(xì)胞內(nèi)和記憶細(xì)胞間的關(guān)聯(lián)程度,增強(qiáng)了圖像數(shù)據(jù)特征的充分表達(dá).最后,利用量子自然梯度優(yōu)化算法,能使梯度直接在量子空間模擬,讓參數(shù)不沿特定方向更新,達(dá)到模型更快收斂的目的.同時為了不損失圖像的空間特征,本文在網(wǎng)絡(luò)模型中引入Choquet 離散積分算子進(jìn)一步聚合數(shù)據(jù)特征.通過在MNIST,FASHION-MNIST 和CIFAR 彩色圖像數(shù)據(jù)集上實驗驗證可知,HQLSTM 實現(xiàn)了較高的分類精度以及較低的空間復(fù)雜度.因此,HQLSTM模型實現(xiàn)了較好的可行性和有效性.在之后的研究工作中,也可將該模型廣泛應(yīng)用于醫(yī)療診斷、信號處理、語音識別、異常檢測等領(lǐng)域.