◆梁佳笑 肖 毅 聶笑一
(湖南農業(yè)大學東方科技學院 湖南 410128)
高校每年都有數目巨大的畢業(yè)生,許多校友在社會各個領域都有非常重要的地位,對高校來說由于學生流量數目過大,對校友的信息難以掌握,但是校友資源對每所高校來說又是十分重要的。為了解決這一問題,基于大數據的校友信息網絡分析系統一直專注于校友信息管理,校友信息檢索功能是我們的基礎功能。同時,我們也對校友的信息做了許多的處理,例如校友影響力排行、校友最新動態(tài)等,可以幫助高校更好更快的了解校友信息。本系統每隔一段時間就會自動更新數據庫,保證呈現在校方面前的數據都是最新最及時的。通過數據抓取技術從全網抓取并精心篩選校友信息呈現在校方面前,使校方更加直觀看到校友的具體信息以及成就。而校友在看到信息后,也會引起對學校的懷念,從而幫助學校的建設和發(fā)展,并可以定期的回母校進行宣講。
校友信息數據分析離不開對大量高校信息和高校校友信息的抓取,本文使用CURL、PHPQuery、QueryList工具進行數據采集。本系統的設計需求旨在為校友建立一個在大數據基礎上的信息整合分析平臺,為校友的信息收集、信息管理、信息交流等提供一體化服務。本系統從各大一手網站收取最可靠的數據源,最大限度獲取各高校校友。并將校友分為政界、商界、學界,校友按人物影響力排序,自動更新校友信息,使他們更加直觀看到校友的具體信息以及成就。
本階段項目中主要運用主流的 PHP服務器端語言和javascript、Html前端技術語言來完成模型系統。本項目需要對獲取的數據進行分析,確認用戶的身份,來解決重名問題。對獲取到校友的每一項數據進行分析與人為處理來計算出校友的人物影響力,參照其人物影響力在顯示高校校友列表時對其排序。
后臺管理操作會將出現丑聞的校友數據狀態(tài)隱藏,將其從前臺頁面撤出,防止影響高校聲譽。
校友信息網絡分析系統采用MySQL搭配PHP和Apache組成良好的開發(fā)環(huán)境。MySQL是當前最為流行的關系型數據庫管理系統之一。在 WEB應用方面,MySQL是最好的 RDBMS(ReLational Database Management System,關系數據庫管理系統)應用軟件。因其體積小、速度快、總體擁有成本低,尤其是開放源碼這一特點,一般中小型系統開發(fā)都選擇MySQL作為系統數據庫。
校友信息網絡分析系統分為校友數據、WEB前端部分、后臺管理三大端口。其中校友數據主要目標是從數據源獲取數據,確保數據的真實度,適應的數據整合,保證數據量大。數據源來自政界的人民網、政府官網。商界的同花順、公司官網。學界的中國科學院官網、中國工程院官網、期刊論文。前臺部分通過模糊提示搜索高校、按省份地區(qū)檢索高校查找目的高校,目的高校分三類商界、學界、政界來展示所有校友及其信息。后臺管理主要分為數據更新和數據管理兩個部分。
數據更新是對校友數據、高校曾用名、校友職位等級進行更新。全國高校所有校友中必然會存在多人姓名相同的情況,項目需要對獲取的數據進行分析,確認用戶的身份,來解決重名問題。身份證號、指紋、虹膜這些唯一性因素是驗證身份最準確的數據,由于這些是隱私,所以我們利用非唯一因素采用多重驗證算法。人名、職位、畢業(yè)院校三大因素,分析相似度來層層驗證來確認重名校友的身份,盡最大可能地減小誤差。對于高校曾用名數據處理,本系統存庫的現全國高校名稱設置緩存與校友信息匹配出所屬高校,調用BosonNLP API將校友信息分詞得到高校舊名稱,高校舊名稱存庫,與現高校設置對應關系。
圖1 身份重名對比
圖2 高校曾用名數據更新
圖3 功能介紹
商界方面,對抓取到的企業(yè)職位和企業(yè)總市值數據進行算法分析處理。對國內傳統商業(yè)職稱與引進西方的職稱相結合進行分類,初步分為董事長級、副董級、總經理級、副總級,對抓取到的職位用編寫的程序進行自動匹配,小部分后臺管理具體分類;抓取到的13381家企業(yè), 依據企業(yè)總市值做相應處理對企業(yè)進行分層。職位分類與總市值分層計算出商界人物影響力,這樣有效解決了由于市值差距大造成影響力失衡的問題。政界方面,依據國家對干部級別標準(正國級、副國級、省部級、副部級、廳局級、副廳級等)進行分類,對抓取到的職位用編寫的程序進行自動匹配,小部分后臺管理具體分類。職位分類計算出政界影響力。學界方面,由于當前抓取學界數據較少不充分,無法準確得出影響力,所以暫為采取算法分析影響力。后期會抓取各大學術期刊網站,來獲取更多學界數據。
通過模糊提示搜索高校、按省份地區(qū)檢索高校查找目的高校,目的高校分三類商界、學界、政界展示所有校友及其信息(圖4)。
圖4 目的高校
在本校友信息網絡分析系統中,首先是利用了PHPQuery和CURL的類方法采集原始數據;下一步,對采集下來的分散數據清洗、冗余去重得到干凈數據。然后我們將校友按照商界、學界、政界分為三個部分。精準搜索各大高校校友的信息,解決好各大高校校友重名和高校曾用名的問題。本系統通過數據抓取的手段從全網抓取并精心篩選校友信息呈現在校方面前,充分挖掘和整合校友資源,使他們更加直觀看到校友的具體信息以及成就
近年來許多高校發(fā)現對自己學校的校友信息不十分了解,有的人已經成為社會中的佼佼者,但是校方卻不知情,龐大的畢業(yè)生基數讓校方無從下手。高校校友資源整合必須緊跟大數據時代的步伐,否則將落后于潮流,無法滿足新時代工作的需求。如何將大數據的理念和技術手段滲透到高校校友資源整合中,凸顯與大數據時代發(fā)展相適應的功能,提升高校校友工作信息化新水平,對于充分挖掘和整合校友資源,助力于高校和校友事業(yè)具有重要的研究價值。