劉雨農(nóng) 吳柯燁 權(quán)昭瑄
摘要:[目的/意義]探索一種融入數(shù)據(jù)驅(qū)動思維的人文社科專題數(shù)據(jù)庫建設主題選擇方法,為相關(guān)主體在建庫主題的遴選、比較和確定等工作提供決策參考。[方法/過程]從政策、用戶兩個維度出發(fā),提出基于政策文本與檢索數(shù)據(jù)的人文社科專題數(shù)據(jù)庫主題篩選框架。以Fulink平臺為例,基于政策文本LDA主題分類建模和檢索數(shù)據(jù)的詞頻統(tǒng)計歸類,確定專題數(shù)據(jù)庫建設備選主題,最后通過比對篩選將主題進行分類。[結(jié)果/結(jié)論]本文構(gòu)建的主題選擇框架,能夠有效提升相關(guān)主題選擇工作的全面性、準確性、科學性,為人文社科專題數(shù)據(jù)庫建設的項目規(guī)劃等提供了良好的思路。
關(guān)鍵詞:人文社科;專題數(shù)據(jù)庫;主題選擇;LDA
DOl: 10.3969/j .issn .1008 -0821 .2019 .12 .002
[中圖分類號] G250. 74 [文獻標識碼]A [文童編號]1008-0821 ( 2019) 12-0011-08
專題數(shù)據(jù)庫是針對用戶信息需求,對某一專題的信息進行收集、分析、處理、存儲并按一定的標準和規(guī)范將其數(shù)字化的信息資源庫。在人文社科領(lǐng)域,專題數(shù)據(jù)庫已成為各學科數(shù)字化轉(zhuǎn)型的基礎性工作,在數(shù)據(jù)資源開發(fā)、科研內(nèi)容創(chuàng)新、科研方法支持等方面提供了有力支持。近年來,在國家政策支持和現(xiàn)實需求的雙重作用下,我國建成了一系列人文社科專題數(shù)據(jù)庫,涉及哲學、歷史、藝術(shù)、文化等眾多科學領(lǐng)域,有力地促進了人文遺產(chǎn)和社會記錄的保存與傳播,也有效支持了相關(guān)學科的研究工作。
主題的選擇與論證是專題數(shù)據(jù)庫建設的起點和開始,決定了專題數(shù)據(jù)庫的建設方向和建設效果。然而,過去人文社科專題數(shù)據(jù)庫的主題選擇方式主要依靠建庫主體的資源優(yōu)勢和決策者的經(jīng)驗判斷,難以全面回應多方面的需求,進而限制了專題數(shù)據(jù)庫的功能實現(xiàn)以及進一步的服務延伸。為此,本文提出了一種新的主題選擇框架,通過對客觀文本和行為數(shù)據(jù)的科學分析支持人文社科專題數(shù)據(jù)庫建設,以期避免主觀性、單一化決策帶來的弊端,提高專題數(shù)據(jù)庫主題選擇的全面性、準確性與科學性。
1 文獻綜述
隨著數(shù)字人文和社會計算的推進,人文社科領(lǐng)域?qū)π畔①Y源保障提出了更高的要求,專題數(shù)據(jù)庫建設的理論和方法成為信息管理及相關(guān)人文社科學科的重要研究話題。目前,雖然針對主題選擇的專門性研究仍不多見,但在數(shù)據(jù)庫建設的綜合性研究中已被大量提及,主要涉及以下3個方面:
1.1 專題數(shù)據(jù)庫主題分布描述
經(jīng)過多年發(fā)展,國內(nèi)外建立起大量人文社科專題數(shù)據(jù)庫,主題涵蓋了歷史、經(jīng)濟、文化等眾多學科。部分學者對現(xiàn)有數(shù)據(jù)庫主體分布進行了調(diào)查研究,如劉青等以州為單位,調(diào)查了美國特色數(shù)據(jù)庫建設狀況,并將其主題歸納為政治與政策、軍事和戰(zhàn)爭、法律和法規(guī)、經(jīng)濟與就業(yè)等9個方面,同時指出,文化娛樂類專題數(shù)據(jù)庫在全美州立圖書館中占比最大[1]。何小月等將專題數(shù)據(jù)庫主題內(nèi)容劃分為學科專業(yè)、地域特色、名人特藏等7個方面,同時選擇了中美20所高校的自建數(shù)據(jù)庫進行橫向?qū)Ρ?,指出國?nèi)高校在學科專業(yè)和地域特色類數(shù)據(jù)庫建設存在短板[2]。鄂麗君將調(diào)查樣本擴展至我國所有“211工程”高校后得出了相反結(jié)論,認為學科特色和學校特色資源項目占總數(shù)比超過60%[3]。此外,陳欽明等同樣針對不同性質(zhì)的專題數(shù)據(jù)庫主題分布進行了歸納[4-5]。這些研究盡管在專題數(shù)據(jù)庫主題劃分視角和劃分粒度上存在差別,但是有助于明確人文社科專題數(shù)據(jù)庫的建設現(xiàn)狀和定位,能夠為其他專題數(shù)據(jù)庫建設主題選擇提供參考。
1.2 專題數(shù)據(jù)庫主題選擇基本原則
對于人文社科專題數(shù)據(jù)庫在實際建庫過程中產(chǎn)生的各類問題,部分學者從建庫流程的角度進行探討,認為主題選擇的不科學、不合理是這些問題產(chǎn)生的重要原因之一,并以此提出了一系列主題選擇原則。王昶認為,專題數(shù)據(jù)庫建設是一項長期工作,主題選擇應注重長期規(guī)劃性和可持續(xù)性,以長遠眼光和思路,根據(jù)現(xiàn)有條件選擇符合實際狀況的、成體系的特色主題[6]。劉青等提出主題內(nèi)容廣博化原則,認為專題數(shù)據(jù)庫主題劃分和內(nèi)容深度上盡管存在差異,但應通過統(tǒng)一平臺的整合,為用戶提供全方位多系統(tǒng)的資源和信息服務[1]。徐大平等認為地方特色專題數(shù)據(jù)庫的主題選擇重點在于突出地方文化特色、體現(xiàn)地方文獻特色,并提出了成系列小主題選擇、科學性和實用性3個原則[7]??傮w來說,這些原則可歸納為3點:第一,以需求為導向,能夠切實滿足用戶長時期的信息資源需求;第二,突出特色性,力求避免在內(nèi)容上同其他數(shù)據(jù)庫的交叉和重復;第三,具有可操作性,根據(jù)信息資源體量和人力、資金等實際情況確定主題選擇粒度,保證數(shù)據(jù)庫質(zhì)量。
1.3 專題數(shù)據(jù)庫主題選擇方法與過程
相對于專題數(shù)據(jù)庫主題選擇原則,已有研究很少涉及具體的主題選擇方法。王昶[6]提出了專題數(shù)據(jù)庫主題選擇策劃工作的3步流程:第一,開展廣泛的調(diào)查研究,初定主題選擇方向;第二,開展專家評議和讀者調(diào)研,確定主題選擇的可行性;第三,考察建庫資源與技術(shù)水平,明確主題選擇內(nèi)容。任航等[8]對長春市若干高等院校的在校藝術(shù)生進行了問卷調(diào)查,通過需求情況確定數(shù)據(jù)庫主題選擇。可以看到,當前專題數(shù)據(jù)庫的主題選擇方法依然以專家論證和問卷調(diào)查等方式為主,最終決策仍然依賴于決策者的經(jīng)驗判斷。
綜上所述,已有研究充分重視了主題選擇對專題數(shù)據(jù)庫建設的重要作用,為專題數(shù)據(jù)庫主題選擇明確了原則和方向,提供了良好的思路和方法。然而,現(xiàn)有研究成果依然存在一定不足:第一,研究大多集中于宏觀層面的原則性方針,在數(shù)據(jù)庫建設的實際過程中很難轉(zhuǎn)化為直接的、具體的行動方案,可操作性存在一定限制;第二,方法上依然以用戶調(diào)查和專家咨詢?yōu)橹?,帶有較強的主觀性,難以保證決策的科學性;第三,并未考慮不同性質(zhì)的主體在數(shù)據(jù)庫建設中的動機差異。在大數(shù)據(jù)、智慧數(shù)據(jù)的背景下,面對高速增長的數(shù)據(jù)存量和復雜化的信息需求,應在原則性、經(jīng)驗性探索的基礎上,充分發(fā)揮數(shù)據(jù)分析等技術(shù)和方法的重要作用,為數(shù)據(jù)庫建設主體的建庫決策提供支持和參考。
2 人文社科專題數(shù)據(jù)庫建設主題選擇模型構(gòu)建
本文通過前期多地、多主體訪談調(diào)研,確定了專題數(shù)據(jù)庫國家需求和用戶需求的主方向,并以客觀數(shù)據(jù)為基礎,構(gòu)建人文社科專題數(shù)據(jù)庫主題選擇框架,以期為相關(guān)決策提供支持。模型建構(gòu)路線如圖1所示:第一,從政務公開平臺中,獲取國家相關(guān)部門政策文本全文,并進行文本預處理。同時從信息服務商檢索系統(tǒng)后臺獲取特定時間段的用戶檢索數(shù)據(jù),篩選有效檢索語句;第二,提取政策文本中的實意性名詞,并進行LDA主題建模,形成若干備選主題;第三,將采集到的檢索語句分別提取關(guān)鍵詞,利用BM25算法同機構(gòu)已有文獻資源進行匹配,通過排序和歸納篩選出備選主題詞;第四,綜合比對結(jié)果,對結(jié)果進行分類。
2.1 需求調(diào)研與分析
滿足不同層面、不同對象的信息需求是數(shù)據(jù)庫長期建設運營和持續(xù)發(fā)展的核心動力。對于對象群體復雜、數(shù)據(jù)形式多樣的人文社科領(lǐng)域,專題數(shù)據(jù)庫的主題選擇更應以需求為導向。不同性質(zhì)的建庫主體由于機構(gòu)職能、服務對象等方面存在差異.專題數(shù)據(jù)庫產(chǎn)品的需求內(nèi)容和重心也存在顯著區(qū)分。如公共機構(gòu)建設的專題數(shù)據(jù)庫普遍重視公共需求,為國家發(fā)展戰(zhàn)略和公益事業(yè)提供支持;而商業(yè)性專題數(shù)據(jù)庫則更加側(cè)重于通過滿足用戶使用需求來擴大市場,實現(xiàn)自身盈利和發(fā)展。對此,本文將人文社科專題數(shù)據(jù)庫需求歸納為兩個層面:
第一,宏觀層面的國家社會需求。人文社科專題數(shù)據(jù)庫通常需要承擔部分國家、社會層面的宏觀需求,如為國家重大戰(zhàn)略部署提供數(shù)據(jù)支撐、對非物質(zhì)文化遺產(chǎn)進行保護與搶救、弘揚優(yōu)秀歷史文化傳統(tǒng)、紀念特殊事件等。尤其是對于公共性質(zhì)的建庫主體,更應在宏觀戰(zhàn)略需求的背景下,有針對性地規(guī)劃專題數(shù)據(jù)庫建設,為相關(guān)政策提供有效支持。
政策文本是政府相關(guān)部門為了實現(xiàn)特定要求,以權(quán)威形式頒布的文件,是國家、社會需求最直觀的表達和體現(xiàn)。在政府政務全面公開、自然語言處理技術(shù)快速發(fā)展的背景下,大批量政策文本的開放獲取和深度挖掘已具備可行性。對此,本文通過挖掘政策文本內(nèi)容,實現(xiàn)宏觀需求的分析。
第二,微觀層面的用戶使用需求。作為人文社科專題數(shù)據(jù)庫的直接使用者,用戶的需求相對具體和明確。如科研人員對特定專題領(lǐng)域資料的集中需求,公眾對某一主題知識的學習興趣等。但由于不同用戶使用動機、需求粒度、表達方式等存在差異,此類需求較為多元,調(diào)查和識別的難度較高。
對于用戶使用需求,過去一般采取問卷、訪談等方式,在調(diào)查對象規(guī)模和代表性上存在一定限制。當前,由于人文社科領(lǐng)域的信息爆炸式增長和碎片化分布加深了信息的獲取難度,搜索引擎逐步成為用戶對于信息搜尋的主要工具。對此,本文以搜索引擎中的檢索記錄衡量用戶的實際需求。
2.2 基于LDA的政策主題生成
LDA(Latent Dirichlet Allocation,隱含狄利克雷函數(shù))模型是一種文檔生成模型,即包含詞、主題、文檔三層結(jié)構(gòu)的貝葉斯模型。該模型通過將文檔一詞匯矩陣轉(zhuǎn)化為文檔一主題矩陣和主題一詞匯矩陣來實現(xiàn)主題的識別與生成[11]。作為一種非監(jiān)督的機器學習方法,LDA在大規(guī)模文檔中能夠有效實現(xiàn)主題識別任務。簡要來說,LDA主題生成過程可分為3個步驟,首先對語料庫中的每一篇文檔,從主題分布中抽取一個主題,其次對所抽取主題中所對應的詞分布中抽取一個詞語,最后充分闡述過程直至實現(xiàn)所有文檔和所有單詞的遍歷。如圖2表示。
2.3 基于BM25算法的資源匹配
特定主題的人文社科專題數(shù)據(jù)庫建設必須以充足的信息資源作為基礎保障。尤其是對于檢索關(guān)鍵詞,必須同資源儲備進行匹配,判斷其是否具備專題開發(fā)條件。本文基于BM25算法,通過計算、排序每個檢索詞的BM25得分,實現(xiàn)主題關(guān)鍵詞進行二次篩選。
BM25是二元獨立模型的拓展形式之一。作為一種相關(guān)性排序函數(shù),BM25模型根據(jù)計算給定檢索詞與文檔的相關(guān)性得分并累加,進而對匹配文檔進行排序。該模型由于算法設計較為靈活,被廣泛應用于搜索引擎當中。范晨熙等通過將BM25模型與開源搜索框架Lucene結(jié)合,建立了BM25相關(guān)度搜索模型[9],何喜軍等利用該模型,構(gòu)建了專利轉(zhuǎn)讓索引庫[10]。本文基于理論框架,對該模型進行了拓展與應用。
首先,對提取到的關(guān)鍵詞進行語素解析,產(chǎn)生語素qi。對于所有館藏資源的摘要文檔D,計算每個語素Qi與D的相關(guān)性評分。最后,將Qi相對于D的相關(guān)性得分加權(quán)并求和,最終得到Q與D的相關(guān)性得分。評分公式為[10]:
3 實證研究
3.1 數(shù)據(jù)來源與實驗環(huán)境
本文從可測量角度出發(fā),以福建省為例,通過政策文本衡量國家需求,通過檢索數(shù)據(jù)反應用戶需求。由于國家各級政策發(fā)布機關(guān)單位數(shù)量龐大,內(nèi)容寬泛,本文僅選取國家文化與旅游部、福建省文化與旅游廳近5年發(fā)布的各類政策文本作為實證樣本,通過爬蟲工具獲取原始文本后,手工剔除人事變動、財務審計等管理類文件,得到有效政策文本1 756條。檢索數(shù)據(jù)從FuLink(福建省高校數(shù)字圖書館)平臺后臺獲取,按照檢索排行降序順序,選擇人文社科相關(guān)的檢索條目,共計10 000條,部分記錄如表1。FULink平臺包含福建省53所成員館,擁有完善的在線系統(tǒng)和穩(wěn)定的訪問流量,檢索數(shù)據(jù)能夠反映出省域內(nèi)用戶的一般需求。
本文實驗環(huán)境為Inter Core i7 - 7700HQ、2. 8GHz、8線程CPU,8GB內(nèi)容容量的PC機,家用標準版64位Windowsl0操作系統(tǒng)。集成開發(fā)環(huán)境為JetBrains PyChrm,部分功能基于Python語言編程,所用工具包包括Jieba、Numpy、Pandas、Nltk、Sklearn、Matplotlib等。
3.2 政策文本數(shù)據(jù)處理
LDA模型需要對分類數(shù)量進行預先設定。該數(shù)值一般采用困惑度確定,計算公式如下:
其中z、d分別指訓練過的主題和測試集的各篇文檔。分母Ⅳ是測試集中出現(xiàn)的所有詞。一般來說,困惑度隨主題數(shù)K增加而下降。如圖3所示,通過計算,當K值取4時,困惑度曲線下降趨勢趨近于穩(wěn)定,此時K的取值為最佳數(shù)量。
構(gòu)建LDA模型以分析每一篇文章的話題分布,利用訓練完的模型將政策文本轉(zhuǎn)化為話題分布函數(shù),并將文本一主題向量與原文本合并,部分結(jié)果如圖4所示。
最后,根據(jù)以上結(jié)果,輸出每個主題的前若干關(guān)鍵詞,并以窗口形式展示。最終結(jié)果如圖5-8所示。
3.3 檢索記錄數(shù)據(jù)處理
通過Fulink后臺,選擇2019年檢索記錄,將輸出結(jié)果按照詞頻排序,選擇檢索次數(shù)大于1 000的關(guān)鍵詞,并將非人文社科范疇的詞語剔除。最后,將檢索詞與資源庫各類文本文檔進行匹配,篩選出命中詞匯。部分結(jié)果如表2所示。
不同于文本語料,檢索記錄多以單個檢索詞的形式表示,缺乏上下文語境,難以利用NLP技術(shù)進行主題識別。由于數(shù)據(jù)總量相對較少,因此本文選擇人工方式判斷檢索詞語義,并進行主題歸納。
3.4 備選主題分類
比對上述兩類主題分類結(jié)果,進行匯總、比對和分類,最終形成3類備選主題。
1)理想型主題選擇:教育、互聯(lián)網(wǎng)與大數(shù)據(jù)
通過比對,此類主題選擇內(nèi)容同時出現(xiàn)在政策主題和檢索主題分類中。意味著在現(xiàn)有資源的基礎上,能夠同時響應國家和用戶需求,建議優(yōu)先作為專題數(shù)據(jù)庫建設主題。
教育學與教育事業(yè)是人文社科領(lǐng)域的重要話題,大量職能部門均對教育事業(yè)發(fā)展進行了專門性部署,尤其是紅色教育、傳統(tǒng)文化教育、人文素養(yǎng)教育等方面近年來獲得了極大關(guān)注。在用戶層面,由于以高校圖書館聯(lián)盟為實證對象,用戶以高校學生為主,因此,數(shù)據(jù)庫建設主要回應以備考或個人發(fā)展為目的的需求。顯然,各類人文社科教育需要大量專門性文獻資料為支撐,因此專門性數(shù)據(jù)庫建設勢在必行。
近年來,互聯(lián)網(wǎng)與大數(shù)據(jù)為人文社科領(lǐng)域帶來了巨大的變革,尤其是網(wǎng)絡安全、電子政務、數(shù)據(jù)資產(chǎn)等議題正在引起相關(guān)部門的高度重視。此外,大數(shù)據(jù)更是為人文社科領(lǐng)域的研究提供了新的契機和方法,從檢索數(shù)據(jù)來看,人文社科對于數(shù)據(jù)科學、編程語言、計算工具等方面的資料存在大量需求。
2)政策導向型:非物質(zhì)文化遺產(chǎn)、旅游
此類主題選擇通常側(cè)重于公共性建庫主體,能夠有效回應國家政策要求,有助于發(fā)揮其公共文化服務等方面的職能。
非物質(zhì)文化遺產(chǎn)和旅游是人文社科專題數(shù)據(jù)庫的傳統(tǒng)主題選擇,從研究結(jié)果來看,非遺資源保護和旅游產(chǎn)業(yè)發(fā)展依然是當前文化及相關(guān)部門的工作重心,從中央到地方均有大量政策部署。在數(shù)據(jù)庫建設過程中,建庫主體可圍繞本地資源,進行針對性的數(shù)據(jù)采集與加工整理,著力打造出具有地方特色的文化品牌。同時,不斷拓展數(shù)據(jù)庫的開放程度,并開展宣傳推廣工作,進而服務于地方旅游產(chǎn)業(yè)。
3)用戶導向型:文學、經(jīng)濟學、語言
此類主題選擇能夠反映用戶的現(xiàn)實需求,具有良好的市場前景,一般來說更加符合商業(yè)性的建庫主體性質(zhì),而對于高校、科研院所等實際科研需求也能做到有效回應。與政策導向不同,用戶需求更為多元,其影響因素也更加復雜。在本文的實證研究中,用戶需求更多地集中于在文學、經(jīng)濟學和語言3類。其中文學作品相對于其他人文社科學術(shù)性資源來說,學科門檻較低,受眾面更廣。而經(jīng)濟學原理和方法對包括社會學、管理學、國際關(guān)系在內(nèi)的多種學科同樣實用,因此存在大量記錄。而語言方面的需求則以英語學習材料和工具書為主,這是由高校用戶對于等級考試、外文學術(shù)資源等硬性需求決定的。
4 結(jié)語
本文構(gòu)建了一種人文社科專題數(shù)據(jù)庫建設的主題選擇模型,為專題數(shù)據(jù)庫的主題選擇提供了一種全新的思路和方法。相較于以經(jīng)驗性判斷為主的常見模式,本文通過對政策文本和用戶訪問記錄進行深入挖掘和匹配,有助于進一步提高專題數(shù)據(jù)庫建設決策的科學性、實時性和前瞻性。
需要注意的是,本模型面向人文社科專題數(shù)據(jù)庫建設的決策支持,希望通過多渠道大樣本的數(shù)據(jù)分析為專題數(shù)據(jù)庫的主題選擇工作提供科學有效的備選方案,這意味著該方法無法完全替代決策工作。專題數(shù)據(jù)庫建設是一項復雜、持久的工作,不同地區(qū)和不同性質(zhì)的建庫主體均存在較大差別,也受到資金、技術(shù)、人員等因素的制約,建庫人員的經(jīng)驗和價值判斷依然具有不可替代的作用。在專題數(shù)據(jù)庫的規(guī)劃和論證過程中必須緊密結(jié)合自身實際情況,因地制宜地開展數(shù)據(jù)庫建設工作,才能形成質(zhì)量上成、功能完備、影響廣泛的數(shù)據(jù)庫產(chǎn)品。除主題選擇外,建庫方式、服務模式、推廣方法的選擇對專題數(shù)據(jù)庫的發(fā)展同樣具有重要影響。
此外,本文實證研究部分初步驗證了模型的可行性,但在政策文本數(shù)量、館藏資源類型、用戶需求類型等方面仍存在進一步拓展和精細化的空間。在未來的研究中,可通過擴充數(shù)據(jù)源的廣度和粒度,進一步提高模型的適用性和有效性。
參考文獻
[1]劉青,高波.美國州立圖書館特色數(shù)據(jù)庫建設研究[J].圖書館,2017,(3):72-80.
[2]何小月,雷錦怡,江翩翩,中美高校圖書館自建數(shù)據(jù)庫比較研究[J].圖書館學研究,2019,(6):40-48.
[3]鄂麗君.高校圖書館特色館藏建設的現(xiàn)狀分析[J].圖書館建設,2009,( 12):19-23.
[4]陳欽明.福建省高校圖書館自建閩臺特色數(shù)據(jù)庫現(xiàn)狀調(diào)查與分析[J].圖書館學研究,2018,(3):48-52.
[5]孫瑾,軍隊檔案專題數(shù)據(jù)庫建設現(xiàn)狀及存在問題——兼論數(shù)據(jù)組織階段質(zhì)量控制[J].檔案學研究,2013,(3):41-45.
[6]王昶,自建數(shù)據(jù)庫選題策劃機制研究[J].圖書館學研究,2012,(6):41-43,27.
[7]徐大平,郎菁,梁芬玲.地方特色專題數(shù)據(jù)庫選題若干問題研究——以陜西地區(qū)為例[J].情報雜志,2012,31 (2):174 -177.
[8]任航,潘逸塵高校圖書館藝術(shù)教育主題服務內(nèi)容、途徑與策略研究[J].情報科學,2018,36 (12):83-89
[9]范晨熙,黃理燦,李雪利.基于Lucene的BM25模型的評分機制的研究[J].工業(yè)控制計算機,2013,26(3):78-79.
[10]何喜軍,張婷婷,武玉英,等供需匹配視角下基于語義相似聚類的技術(shù)需求識別模型[J].系統(tǒng)工程理論與實踐,2019,39 (2):476-485.
[11]張子振,儲煜桂,吳小蘭,基于LDA的多源文獻主題及其差異研究——以“機器學習”為例[J].情報科學,2019,37(6):108-112,150
(責任編輯:郭沫含)
收稿日期:2019-10-14
基金項目:國家社會科學基金重大項目“人文社科專題數(shù)據(jù)庫建設規(guī)范化管理研究”(項目編號:18ZDA326)。
作者簡介:劉雨農(nóng)(1991-),男,博士研究生,研究方向:智慧城市、社會網(wǎng)絡。吳柯燁(1996-),男,碩士研究生,研究方向:自然語言處理。權(quán)昭瑄(1996-),男,碩士研究生,研究方向:金融大數(shù)據(jù)。