吳永飛,王彥博,周代數(shù),靳志偉,陳 生,孫 喆,俞 淼,楊 璇
(1.華夏銀行股份有限公司,北京 100020;2.龍盈智達(北京)科技有限公司,北京 100020;3.科學(xué)技術(shù)部中國科學(xué)技術(shù)發(fā)展戰(zhàn)略研究院,北京 100038;4.財政部中國財政科學(xué)研究院,北京 100036;5.東軟集團(北京)有限公司,北京 100094)
1981年,理查德·費曼(Richard Feynman)在麻省理工學(xué)院舉辦的第一屆計算物理會議上首次提出了量子計算機的概念。1994年,麻省理工學(xué)院的彼得·舒爾(Peter Shor)[1]提出了大整數(shù)質(zhì)因子分解的Shor算法——能夠在多項式時間復(fù)雜度求解RSA密碼體系中核心的大數(shù)質(zhì)因子分解問題。舒爾的開創(chuàng)性工作有力地促進了量子計算機和量子密碼技術(shù)的發(fā)展,成為量子信息科學(xué)發(fā)展的重要里程碑之一,掀起了國際上研究量子計算的第一輪熱潮。當(dāng)前,量子計算蓬勃發(fā)展,各類量子算法應(yīng)運而生,量子自然語言處理(Quantum Nature Language Process,QNLP)[2]作為其中一個新興的研究領(lǐng)域,已開始顯現(xiàn)出廣闊的發(fā)展前景。量子自然語言處理旨在通過利用某些量子現(xiàn)象,如疊加、糾纏、干涉等,設(shè)計和實施自然語言處理(Nature Language Process,NLP)模型,并在量子硬件上執(zhí)行與語言相關(guān)的任務(wù)。本文針對商業(yè)銀行的業(yè)務(wù)實踐,創(chuàng)新地對量子自然語言處理算法進行適應(yīng)性改進,并將其應(yīng)用于商業(yè)銀行外部的金融新聞情緒識別和內(nèi)部客戶服務(wù)評價等具體場景,為量子自然語言處理算法在金融行業(yè)的落地應(yīng)用提供新思路。
2021年,劍橋量子發(fā)布了QNLP工具包和庫,稱為“l(fā)ambeq”[3]。通過該方法可將句子轉(zhuǎn)化為量子線路,進而實現(xiàn)量子計算。量子自然語言處理算法原理具體如下:
首先,根據(jù)選擇的成分模型(Compositional Model,CM),通過組合范疇語法(Combinatory Categorial Grammar,CCG)可以獲得句子的句法樹(Parse Tree,PT)。而后,句法樹被轉(zhuǎn)換成線圖(String Diagram,SD)形式。線圖可以被看作是句子的抽象表示,反映了選擇的成分模型所定義的單詞之間的關(guān)系。線圖可以通過使用重寫規(guī)則進行簡化或以其他方式進一步轉(zhuǎn)換:例如,有的規(guī)則可用于刪除單詞之間多余的聯(lián)系,有的規(guī)則可以使線圖更適合量子處理單元的計算。隨后,根據(jù)特定的參數(shù)化方案和擬設(shè)的具體選擇,生成的線圖可以轉(zhuǎn)換為張量網(wǎng)絡(luò)(Tensor Network,TN)或量子線路(Quantum Circuit,QC)。最后,張量網(wǎng)絡(luò)可以在傳統(tǒng)計算機上進行量子模擬來得到最優(yōu)化參數(shù);而量子線路則會被量子編譯器處理,并上傳給量子計算機進行參數(shù)學(xué)習(xí)與優(yōu)化?;咎幚砹鞒淘韴D如圖1所示。
圖1 基本處理流程原理圖
比如,語句:′We are explaining how lambeq works′,通過預(yù)先訓(xùn)練好的CCG模型可以獲得其句法樹表示,如圖2所示。通過編碼可以將句法樹轉(zhuǎn)化為線圖形式。
圖2 句法樹示意圖
通過語句的圖形化表示可以展示其中單詞的含義是如何組合起來構(gòu)建整個句子的含義。每一個盒子代表了一個單詞的含義,而這些含義通過線形成的渠道來傳達。其中每個詞的標(biāo)記,則是pre-group語法的形式。
在如上示例中,主語“We”與賓語從句“how lambeq works”都被發(fā)送給了由助動詞“are”和謂語“explaining”組成的謂語,然后它們一起構(gòu)成了句子的含義。實際上,這種表達形式可以追溯到1950年代最初由Chomsky和Lambek等人開始的工作,這些工作根據(jù)復(fù)合數(shù)學(xué)模型構(gòu)建語法結(jié)構(gòu)與語義。線圖示意圖如圖3所示。
圖3 線圖示意圖
在得到線圖形式之后,有兩種選擇將其參數(shù)化。一是量子線路,將線圖轉(zhuǎn)成量子線路的形式,通過同步擾動隨機逼近算法(Simultaneous Perturbation Stochastic Approximation,SPSA)[4]來訓(xùn)練;二是張量網(wǎng)絡(luò),將線圖轉(zhuǎn)成張量網(wǎng)絡(luò)的形式,在參數(shù)化時需要給每個原子類型設(shè)定維度,在這種形式下可以通過傳統(tǒng)計算機來訓(xùn)練。
在NLP領(lǐng)域,情感分析是非常流行的一種分析技術(shù)[5],在越來越多的領(lǐng)域發(fā)揮著重要的作用,如:口碑分析、市場情緒分析、輿情監(jiān)控等。其中情緒分類的對象是一段語料中所蘊含的主體情緒,是對蘊含主觀情感色彩的文本進行分析、處理、歸納以及推理的過程。
商業(yè)銀行的日常經(jīng)營中存在大量情感分析場景。從銀行外部視角來看,金融市場上時時刻刻都有大量的新聞產(chǎn)生,特別是各大財經(jīng)網(wǎng)站、股票論壇中的消息所蘊含的觀點及情緒,不僅代表著投資者的偏好和情緒的變化,更對商業(yè)銀行金融市場業(yè)務(wù)的決策和交易產(chǎn)生重大影響,運用情感分析對其中蘊含的觀點和情緒進行識別,具有重要前瞻性指導(dǎo)意義。從銀行內(nèi)部視角來看,隨著互聯(lián)網(wǎng)的飛速發(fā)展,聚集了大量用戶的網(wǎng)絡(luò)社群媒體不再僅是單純的新聞發(fā)布平臺,而是已經(jīng)發(fā)展成為允許用戶創(chuàng)建、發(fā)表、交流內(nèi)容的平臺,其中也伴隨著大量的對于銀行服務(wù)和產(chǎn)品有價值的評論信息;此外,銀行工單數(shù)據(jù)也是價值較高的文本數(shù)據(jù)信息,其中不僅包括具體的問題描述,還包括處理方法、過程、結(jié)果以及客戶反饋等信息,該類評論信息中往往可以體現(xiàn)出客戶的批評、贊揚等多種主觀情感表現(xiàn)。這些主觀性的文本每天以指數(shù)級的速度增長,僅靠人工進行分析需要消耗大量的人力和時間。采用NLP技術(shù)將客戶評論中包含的情感進行量化分析,有利于銀行客觀評價服務(wù)質(zhì)量并進行后續(xù)的改進和提升,對商業(yè)銀行的經(jīng)營管理具有重要意義。
本文針對商業(yè)銀行外部的金融新聞情緒識別和內(nèi)部客戶服務(wù)評價具體場景,將QNLP算法引入商業(yè)銀行應(yīng)用實踐,具體實證研究如下。
本文嘗試在金融新聞標(biāo)題上使用QNLP進行情感分類。使用Financial PhraseBank數(shù)據(jù)集,它是一個英文數(shù)據(jù)集,包含金融新聞頭條以及從投資者的視角來看的情緒。實證分析從Financial PhraseBank數(shù)據(jù)集中隨機抽取情感標(biāo)簽為正面的數(shù)據(jù)樣本158個以及情感標(biāo)簽為負(fù)面的數(shù)據(jù)樣本75個,進行QNLP創(chuàng)新技術(shù)應(yīng)用,部分?jǐn)?shù)據(jù)示例如表1所示。
表1 金融新聞情緒識別數(shù)據(jù)示例
首先需要進行數(shù)據(jù)清洗,對文本去除標(biāo)點符號、去除停用詞。之后,借助自然語言處理工具包(Natural Language Toolkit,NLTK)進行詞干提取,把基于單詞的變種轉(zhuǎn)換為統(tǒng)一形式。此外,由于當(dāng)前量子計算機運算能力的限制,實證分析篩選了一些長度較短的句子以及對一些長句做了截斷處理。通過數(shù)據(jù)清洗,得到了相對“干凈”的文本數(shù)據(jù)。
清洗后的文本數(shù)據(jù)使用預(yù)先訓(xùn)練好的語法模型[6]對句子進行了語法和句法解析,并轉(zhuǎn)化為線圖形式以適配后續(xù)計算。每一個句子對應(yīng)一個線圖,通過轉(zhuǎn)化線圖完成對句子中的詞義與語法信息流的編碼。
對于獲得的線圖,需要對其進行參數(shù)化處理。有兩種方法:張量網(wǎng)絡(luò)與量子線路。
經(jīng)典方法通過將線圖實例化為張量網(wǎng)絡(luò)的方法,將其參數(shù)化并進行計算。句子中的每一條線路都被標(biāo)記為原子類型或原子類型組合。通過給原子類型分配維度,每一個詞都可以看作為在其語法類型所定義的空間中的某個狀態(tài)。之后使用交叉熵作為損失函數(shù),并使用JAX作為后端來實現(xiàn)傳統(tǒng)計算機上的有監(jiān)督機器學(xué)習(xí)訓(xùn)練模型,從而計算損失與梯度,更新參數(shù)。
量子模擬方法將線圖實例化為量子線路。通過這種方法實現(xiàn)單詞含義的量子態(tài)編碼。量子線路的參數(shù)化創(chuàng)建了語義空間,從而實現(xiàn)對單詞含義及句子含義的編碼。這時,有了量子態(tài)編碼后的句子和標(biāo)簽便可以開展有監(jiān)督量子機器學(xué)習(xí)了,從而學(xué)習(xí)參數(shù),這些參數(shù)導(dǎo)致了正確測量真標(biāo)簽。本文基于IBM Quantum Experience量子計算實驗環(huán)境,通過SPSA優(yōu)化算法學(xué)習(xí)更新參數(shù)。
實證分析使用了233條數(shù)據(jù)樣本作為訓(xùn)練集來訓(xùn)練模型,測試集由50條數(shù)據(jù)樣本構(gòu)成。同時,作為對比,使用TF-IDF作為特征提取器,之后使用Adaboost、Na?ve Bayes、Neural Network作 為 分 類 器 來 進行情感分類,并將四種方法進行了對比。從指標(biāo)來看,四種方法在相同的數(shù)據(jù)條件下進行對比,QNLP的結(jié)果展現(xiàn)出訓(xùn)練集樣本量從233下降至20,其模型效果的穩(wěn)定性最佳。實證分析結(jié)果對比如圖4所示。
圖4 實證分析結(jié)果對比
通過逐步減少訓(xùn)練集的樣本數(shù)量,Adaboost、Na?ve Bayes和Neural Network三 類 模 型 在 測 試 集 上的F1 Score呈現(xiàn)下降趨勢。然而,QNLP隨著訓(xùn)練集樣本量的下降,測試集結(jié)果表現(xiàn)穩(wěn)定,這展現(xiàn)出量子機器學(xué)習(xí)方法在小樣本學(xué)習(xí)問題上,表現(xiàn)優(yōu)于傳統(tǒng)機器學(xué)習(xí)方法。
本文針對國內(nèi)商業(yè)銀行客戶服務(wù)評價文本數(shù)據(jù),使用QNLP技術(shù)進行情感分類。數(shù)據(jù)包含用戶對銀行提供服務(wù)的評價和情感正、負(fù)面標(biāo)簽。在實證分析中,未訓(xùn)練中文的CCG模型,而是通過調(diào)用翻譯API獲取對應(yīng)的英文翻譯數(shù)據(jù),隨后的研究方法論和實驗過程與前述金融新聞情緒識別場景一致。在該場景下,脫敏處理后的部分?jǐn)?shù)據(jù)示例如表2所示。
表2 銀行客戶服務(wù)評價數(shù)據(jù)示例
通過訓(xùn)練,QNLP在銀行服務(wù)評價情感分類數(shù)據(jù)集上,當(dāng)訓(xùn)練數(shù)據(jù)樣本量為40時,測試集評價指標(biāo)如表3所示。
表3 評價指標(biāo)
隨著訓(xùn)練集樣本量從70下降至20,QNLP在銀行服務(wù)評價分析情感分類數(shù)據(jù)集上的測試結(jié)果表現(xiàn)穩(wěn)定,如圖5所示,QNLP在解決小樣本學(xué)習(xí)問題方面已初步展現(xiàn)出良好的應(yīng)用潛力。
圖5 QNLP小樣本學(xué)習(xí)模型評價指標(biāo)
綜上,通過調(diào)用翻譯API獲取對應(yīng)的英文翻譯數(shù)據(jù)的方案,使得現(xiàn)有QNLP技術(shù)能夠?qū)χ形奈谋緮?shù)據(jù)進行處理,可滿足商業(yè)銀行業(yè)務(wù)需求。
當(dāng)前,QNLP算法的快速發(fā)展,已使得其在商業(yè)銀行的多個業(yè)務(wù)場景中展現(xiàn)出了巨大應(yīng)用潛力。雖然受限于當(dāng)前量子計算機比特數(shù)目,QNLP算法暫時難以處理海量的文本數(shù)據(jù),但已展現(xiàn)出在小樣本學(xué)習(xí)方面的優(yōu)勢潛力。未來,隨著量子計算機的進一步發(fā)展以及量子比特數(shù)目的不斷增加,量子算法有望進一步與自然語言處理任務(wù)深入結(jié)合,在金融行業(yè)的非結(jié)構(gòu)化處理任務(wù)中進一步深化應(yīng)用,為量子金融科技的快速發(fā)展提出新方向。