寧莉莉
摘? 要:無論在互聯(lián)網(wǎng)上還是在各高校內(nèi)部都運行著相應(yīng)的論文管理信息系統(tǒng),也能夠滿足論文的檢索查詢和管理工作。但是在這些基本的簡單信息管理功能的基礎(chǔ)上,對于論文這樣的特殊信息的管理還有著可以進一步深入挖掘的潛力和需求。首先是對于目前已經(jīng)存在的浩如煙海的論文有著進行分類管理、查詢比對以及深入的內(nèi)容挖掘分析的需求,而同時現(xiàn)有的無論是公開的還是學校內(nèi)部的論文所提供的數(shù)據(jù),完全可以進行大數(shù)據(jù)分析,以發(fā)掘出隱藏在論文內(nèi)部更加深層次的結(jié)構(gòu)和關(guān)系,為學生和研究人員確定研究方向、撰寫論文等工作提供更加有用的信息。
關(guān)鍵詞:論文管理? 內(nèi)容檢索? 數(shù)據(jù)挖掘
根據(jù)該研究的思路,在研究相關(guān)的數(shù)據(jù)分析和系統(tǒng)實現(xiàn)技術(shù)前,首先需要設(shè)計出論文管理信息系統(tǒng)所具備的最基本的功能,定義系統(tǒng)所能夠提供的論文管理服務(wù)。在這個基礎(chǔ)上才能夠為后續(xù)的技術(shù)研究設(shè)定目標。
1? 體系結(jié)構(gòu)設(shè)計
該系統(tǒng)的體系結(jié)構(gòu)采用標準的4層B/S信息管理系統(tǒng)模型,即客戶端、Web服務(wù)層、業(yè)務(wù)層、數(shù)據(jù)庫服務(wù)層。這也是目前所有互聯(lián)網(wǎng)應(yīng)用的基本結(jié)構(gòu)。該系統(tǒng)為了研究和討論方便,將采用比較流行的Django框架進行設(shè)計,Django框架將主要解決Web服務(wù)層與業(yè)務(wù)層的大部分問題,客戶端將使用jQuery框架來實現(xiàn)。系統(tǒng)的架構(gòu)完全可以基于已有的成熟開源框架,因此相對的設(shè)計十分簡單,研究的重點是系統(tǒng)功能的設(shè)計、論文信息的收集、數(shù)據(jù)的分析以及統(tǒng)計算法等技術(shù)。
對于系統(tǒng)功能的設(shè)計將主要包含兩部分內(nèi)容:系統(tǒng)功能和數(shù)據(jù)庫結(jié)構(gòu)。另外為了在系統(tǒng)中增加更加容易使用的接口,將在最后設(shè)計相關(guān)的公共訪問API接口。下面將描述系統(tǒng)的主要功能設(shè)計。
1.1 公有云平臺安全管理
在設(shè)計系統(tǒng)其他功能前,首先需要研究的是公有云平臺的安全與信任管理問題。云中的服務(wù)器可以是物理機器,也可以是虛擬機。但是該系統(tǒng)所使用的是公有云服務(wù)所提供的請求服務(wù)接口,并通過該接口完成從云中將虛擬系統(tǒng)抽取出來滿足請求。因此,在公有云平臺安全方面主要是考慮虛擬機的安全問題(云平臺安全管理模型如圖1所示)。根據(jù)云平臺的結(jié)構(gòu),以及該系統(tǒng)的特點,公有云平臺至少需要提供如下特殊安全保護云組件(見圖1)。
1.2 用戶管理
用戶管理功能為系統(tǒng)提供用戶的身份驗證的功能,同時為系統(tǒng)的用戶身份分類、論文分類管理以及學術(shù)圈組成等其他功能實現(xiàn)所需要的基本信息。用戶管理功能包括了用戶身份注冊、密碼管理和登錄驗證。所有用戶的相關(guān)信息存儲在數(shù)據(jù)庫中,通過用戶管理服務(wù)進行使用。基本的用戶管理功能相對比較簡單,數(shù)據(jù)庫結(jié)構(gòu)的設(shè)計也相對容易,用戶管理功能與論文的信息基本無關(guān),但是與整個系統(tǒng)的正常運作,以及學術(shù)圈的建立有緊密的關(guān)系。
1.3 論文編寫工具
論文編寫工具是在論文管理功能的基礎(chǔ)上,為研究人員提供一個更加方便的論文編寫工具。能夠幫助用戶編寫格式滿足要求的論文,能夠方便在研究人員之間及時地對論文的某一部分進行討論或評論,進而更加有效地形成相關(guān)研究論文。論文的編寫功能還包括了創(chuàng)建、編輯等基本功能,但這些功能都是軟件開發(fā)的實現(xiàn)問題,與信息的格式關(guān)系不大。
1.4 資料管理
資料管理功能設(shè)計來向研究人員提供記錄和整理研究資料的能力,研究人員可以將自己在研究過程中查閱過的資料(包括書籍、網(wǎng)址、論文等信息)統(tǒng)一進行管理,避免可能的遺忘和混亂,研究人員可以標識出哪些資料被用于論文,這樣在進行論文生成時就可以自動為論文生成引用列表。資料的來源主要有兩類:一類來自用戶主動的輸入;另一類則來自用戶上傳論文時系統(tǒng)后臺自動掃描后獲取的信息。
1.5 論文分析與統(tǒng)計
在完成了論文管理信息系統(tǒng)的主要可見的功能設(shè)計后,就可以進行后臺分析和統(tǒng)計功能的設(shè)計。為了給后續(xù)研究相關(guān)的算法設(shè)定一個范圍,需要首先設(shè)計出系統(tǒng)能夠為用戶提供的論文分析和統(tǒng)計的功能,然后再根據(jù)相關(guān)功能的需求研究能夠?qū)崿F(xiàn)該功能的算法。一篇論文能夠提供的數(shù)據(jù)和信息非常多,也非常復(fù)雜,通過機器目前還無法快速和完全的獲得其中所有的內(nèi)容。因此,首先需要確定系統(tǒng)準備從一篇論文中獲得的信息和數(shù)據(jù)。
2? 結(jié)語
任何一篇正式的論文,無論任何研究領(lǐng)域,都肯定包含著名稱、作者、摘要、關(guān)鍵詞和引用文獻的信息,另外雖然完全通過機器讀懂一篇論文很難,但是通過分析論文中的使用頻度最高的某些詞匯,也同時會獲得一些有用的基本信息。除了這些基本的論文信息外,通過論文檢索次數(shù)、用戶評論、論文下載次數(shù)、用戶存儲于系統(tǒng)的研究文獻等系統(tǒng)收集到的所有用戶的系統(tǒng)操作數(shù)據(jù),也同樣能夠間接的獲取到與論文相關(guān)到信息。
參考文獻
[1] 佐佐木達也,著.NoSQL數(shù)據(jù)庫入門[M].羅勇,譯.北京:人民郵電出版社,2011:1-2.
[2] Kai Hwang,Geoffrey C.Fox,Jack J.Dongarra,著.云計算與分布式系統(tǒng)[M].武永衛(wèi),泰中元,李振宇,等,譯.北京:機械工業(yè)出版社,2012:3.
[3] Drew Conway,John Myles White,著.機器學習實用案例解析[M].陳開江,劉逸哲,孟曉楠,等,譯.北京:機械工業(yè)出版社,2012:2-3.