謝曉默,林敏
?
基于大數(shù)據(jù)分析的大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素探究
謝曉默,林敏
(福州大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,福建福州,350116)
在收集海量創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)基礎(chǔ)上,利用大數(shù)據(jù)分析手段,從大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)獲取層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)分析層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層等三個層次,搭建大學(xué)生創(chuàng)新創(chuàng)業(yè)的大數(shù)據(jù)分析模型,嘗試用定量分析的方法探究大學(xué)生創(chuàng)新創(chuàng)業(yè)的主要影響因素的具體占比,更有針對性指導(dǎo)大學(xué)生創(chuàng)新創(chuàng)業(yè)實踐,為推動大眾創(chuàng)新、萬眾創(chuàng)業(yè)提供參考依據(jù)。
大數(shù)據(jù)分析;大學(xué)生;創(chuàng)新創(chuàng)業(yè);影響因素
當(dāng)下大數(shù)據(jù)被廣泛運用在社會各個領(lǐng)域,悄然改變著人們的生產(chǎn)方式和生活方式。哪些主客觀因素影響大學(xué)生創(chuàng)新創(chuàng)業(yè),成為當(dāng)前高校創(chuàng)業(yè)教育的重要課題。綜觀國內(nèi)外研究情況,筆者發(fā)現(xiàn)國內(nèi)關(guān)于創(chuàng)新創(chuàng)業(yè)影響因素的研究起步較晚,研究成果不是很多,研究內(nèi)容更多體現(xiàn)在微觀層面;傳統(tǒng)研究方法多是通過問卷調(diào)查的形式,普遍存在分析方法單一,主觀性較強(qiáng),效度、信度欠佳等不足[1]。
鑒于此,本研究試圖利用大數(shù)據(jù)分析具備海量的數(shù)據(jù)來源、高效的分析速率、準(zhǔn)確的結(jié)果判斷等特點[2],搭建大學(xué)生創(chuàng)新創(chuàng)業(yè)的大數(shù)據(jù)分析模 型,對當(dāng)前在校大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素展開實證研究。
隨著信息技術(shù)的高速發(fā)展,以微博、微信、門戶網(wǎng)站等為代表的互聯(lián)網(wǎng)新媒體為大學(xué)生創(chuàng)新創(chuàng)業(yè)核心影響因素的分析帶來可能性[3]。從互聯(lián)網(wǎng)豐富的大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)中提取影響因素,尤其探究對大學(xué)生創(chuàng)新創(chuàng)業(yè)影響的主要因素具有十分重大的現(xiàn)實意義。為此,本文從海量異構(gòu)創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)入手,構(gòu)建大學(xué)生創(chuàng)新創(chuàng)業(yè)的大數(shù)據(jù)分析模型,通過對大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的采集、存儲、分析,探究大學(xué)生創(chuàng)新創(chuàng)業(yè)的影響因素。
該模型如圖1所示,分為三個層次,包括大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)獲取層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)分析層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層。具體介紹如下:
主要包括采集清理和存儲兩個部分。
(1) 數(shù)據(jù)采集清理。數(shù)據(jù)的采集是大學(xué)生創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析首先需要解決的基礎(chǔ)性工作。網(wǎng)絡(luò)數(shù)據(jù)潛在分布廣、海量龐雜、多源異構(gòu),與此同時,網(wǎng)絡(luò)中90%的數(shù)據(jù)存在于深網(wǎng)(例如微博、微信、電子期刊等)中,常規(guī)采集手段的覆蓋率無法滿足創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析的需求。
針對互聯(lián)網(wǎng)數(shù)據(jù)特點以及常規(guī)采集手段存在的以上問題,本文構(gòu)建了一款基于THRIFT通信框架的分布式創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)采集方法。首先,針對數(shù)據(jù)泛在分布于互聯(lián)網(wǎng)及社交媒體的問題,構(gòu)建基于THRIFT通信框架的分布式架構(gòu),同時通過嵌入創(chuàng)新創(chuàng)業(yè)相關(guān)主題和種子URL定制、采集參數(shù)配置等模塊,實現(xiàn)可定制采集;其次,針對深網(wǎng)數(shù)據(jù),本文采用模擬用戶行為以及模擬登錄來爬取相應(yīng)信息;然后,針對數(shù)據(jù)動態(tài)增長的問題,本文采用基于BLOOM過濾器的判重方法,實現(xiàn)增量采集,使得日均采集量提升至單機(jī)的10倍以上;最后,針對海量龐雜和多源異構(gòu)問題,本文建立了基于網(wǎng)頁文本結(jié)構(gòu)的統(tǒng)一抽取框架,框架針對現(xiàn)有互聯(lián)網(wǎng)文本特點,將其分為長、短文本兩部分,并針對長、短文本的各自特點,采用不同的基于DOM樹結(jié)構(gòu)的文本抽取模型。
圖1 大學(xué)生創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析模型
(2) 創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)存儲。目前,還未存在公開的針對大學(xué)生創(chuàng)新創(chuàng)業(yè)領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)構(gòu)建方法。以往單一數(shù)據(jù)庫只能存儲結(jié)構(gòu)化數(shù)據(jù),其無法滿足對非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)(如HTML等)的存儲需求。因此,本文嘗試創(chuàng)建一個創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的統(tǒng)一表達(dá)方式。一方面,針對結(jié)構(gòu)化創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)(如信息的傾向性、信息所在領(lǐng)域等),本文利用關(guān)系數(shù)據(jù)庫進(jìn)行存儲,方便后續(xù)應(yīng)用層的查看;另一方面,對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),本文利用基于XML的多源異構(gòu)數(shù)據(jù)表示方法對抽取出的創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)進(jìn)行統(tǒng)一表達(dá)。
主要包括創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的詞性分析、語義分析,聚類分析、分類分析以及相關(guān)度分析。
(1) 創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)詞性分析、語義分析。針對互聯(lián)網(wǎng)創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)難以統(tǒng)一表達(dá)的問題,該部分主要采用WORD2VEC技術(shù)對創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)進(jìn)行詞性分析、語義分析,將其映射到統(tǒng)一的特征空間中,該部分分析的主要目的是從海量的創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)中挖掘出影響大學(xué)生創(chuàng)新創(chuàng)業(yè)的因素。
用規(guī)章管人管事 用制度治散治慢(鮑建平) ................................................................................................. 2-17
(2) 創(chuàng)新創(chuàng)業(yè)影響因素聚類分析。該部分分析主要采用SINGLEPASS聚類方法對2.2.1的數(shù)據(jù)聚集出大學(xué)生創(chuàng)新創(chuàng)業(yè)的主要影響因素。
(3) 創(chuàng)新創(chuàng)業(yè)影響因素分類分析。基于2.2.2挖掘出的影響因素對大學(xué)生創(chuàng)新創(chuàng)業(yè)的影響程度存在較大差異,因此該部分采用基于互信息的特征選擇方法,對創(chuàng)新創(chuàng)業(yè)的主要影響因素進(jìn)行特征選擇,由此將創(chuàng)新創(chuàng)業(yè)的影響因素按其影響程度大小進(jìn)行有序排列。
該層主要功能是對分析層的結(jié)果進(jìn)行可視化展示。應(yīng)用場景包括大學(xué)生創(chuàng)新創(chuàng)業(yè)熱點需求分析、大學(xué)生創(chuàng)新創(chuàng)業(yè)項目跟蹤、大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素分析等。大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層涵蓋的領(lǐng)域廣,內(nèi)容豐富,前景可觀。考慮到本文重點研究大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素分析,故而針對大學(xué)生創(chuàng)新創(chuàng)業(yè)的其他應(yīng)用方向暫不做展開。
從本文構(gòu)建的平臺出發(fā),通過采集存儲互聯(lián)網(wǎng)中海量的創(chuàng)新創(chuàng)業(yè)信息,利用大數(shù)據(jù)分析技術(shù),探究影響大學(xué)生創(chuàng)新創(chuàng)業(yè)的影響因素,根據(jù)影響因素的大小進(jìn)行排序。
底層數(shù)據(jù)的好壞關(guān)系到大數(shù)據(jù)分析質(zhì)量的高低,這要求采集的互聯(lián)網(wǎng)數(shù)據(jù)源覆蓋廣,實時性高,數(shù)據(jù)量大。
為此,在數(shù)據(jù)源的選取上,本文利用互聯(lián)網(wǎng)分布式采集系統(tǒng),從搜索引擎、門戶網(wǎng)站、微博、微信、論壇、電子報紙、電子期刊等媒介中采集信息。其中,搜索引擎涵蓋當(dāng)下主流引擎“百度搜索”“搜狗搜索”等;門戶網(wǎng)站采集涵蓋主流大門戶“新浪網(wǎng)”“鳳凰網(wǎng)”,各創(chuàng)新創(chuàng)業(yè)相關(guān)門戶網(wǎng)站如“中青在線-創(chuàng)家”以及各類名人或商界訪談門戶網(wǎng)站如“極客網(wǎng)訪談”等;微博數(shù)據(jù)來源于時下熱門社交網(wǎng)絡(luò)平臺“新浪微博”;貼吧采集目標(biāo)為主流貼吧提供商“百度”“天涯”和“貓撲”等;電子期刊采集范圍為近五年來各期刊會議所發(fā)表的與創(chuàng)新或創(chuàng)業(yè)因素相關(guān)的論文。數(shù)據(jù)來源基本達(dá)到上述要求。具體如表1所示。
表1 數(shù)據(jù)源部分列表
為了讓多源異構(gòu)信息結(jié)構(gòu)化成大數(shù)據(jù)分析方法所能利用的信息,針對門戶網(wǎng)站、搜索引擎等長文本網(wǎng)頁內(nèi)容,采用基于DOM樹的文本密度算法進(jìn)行信息抽??;針對貼吧、微博等短文本內(nèi)容,文本采用基于 DOM 樹層次特征的多記錄網(wǎng)頁抽取算法進(jìn)行網(wǎng)頁源碼的文字識別,基于以上兩項技術(shù),多源異構(gòu)網(wǎng)頁信息的識別率高于90%,能夠保證網(wǎng)頁關(guān)鍵信息不遺漏。最后,在數(shù)據(jù)分類上,以長文本、微博、貼吧、微信、期刊論文為分類依據(jù),方便接下去的大數(shù)據(jù)分析進(jìn)行有針對性的因素識別。綜上,本文對采集到的數(shù)據(jù)進(jìn)行了統(tǒng)計,結(jié)果如圖2所示。
圖2 數(shù)據(jù)源餅狀圖
通過觀察數(shù)據(jù)可知,互聯(lián)網(wǎng)數(shù)據(jù)中蘊(yùn)含大量大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素,同時,不同因素間存在一定的聯(lián)系,例如“創(chuàng)新教育”與“創(chuàng)業(yè)教育”,兩者通常描述一類事物?;谝陨嫌^察結(jié)果,本文提出了一種基于WORD2VEC的SINGLEPASS創(chuàng)新創(chuàng)業(yè)因素識別方法,該方法首先通過WORD2VEC內(nèi)在向量化文本,然后使用SINGLEPASS聚類方法聚合同類影響因子,以更加精確化描述影響因素以及減少冗余度,最后采用線性回歸的方法對各影響因素進(jìn)行權(quán)重計算,并依權(quán)數(shù)大小進(jìn)行 排序。
1. 基于WORD2VEC的SINGLEPASS創(chuàng)新創(chuàng)業(yè)因素識別
WORD2VEC可以把對文本內(nèi)容的處理簡化為向量空間中的向量運算,通過計算出向量空間上的相似度,來表示文本語義上的相似度。WORD2VEC因其效率高、效果好,被廣泛應(yīng)用在語義分析之中。同時,WORD2VEC適合于一個序列的數(shù)據(jù),在序列局部數(shù)據(jù)間存在著很強(qiáng)的關(guān)聯(lián)。因此,針對本文數(shù)據(jù)中各創(chuàng)新創(chuàng)業(yè)因素存在的相關(guān)性,WORD2VEC能夠較好地將文本數(shù)據(jù)進(jìn)行向量化。
SINGLEPASS 算法是一種流式的聚類算法,每個數(shù)據(jù)只會參與一次樣本聚類,聚類結(jié)果與數(shù)據(jù)的先后順序有一定的依賴關(guān)系。SINGLEPASS算法是一種增量算法,適合對流數(shù)據(jù)進(jìn)行挖掘,而且算法的時間效率高。因此,針對本文增量采集的創(chuàng)新創(chuàng)業(yè)數(shù)據(jù),SINGLEPASS能夠快速從各種創(chuàng)新創(chuàng)業(yè)因素中聚合得到相應(yīng)的因素類簇。
基于以上兩個方法,本文首先將采集到的創(chuàng)新創(chuàng)業(yè)影響因素相關(guān)文本數(shù)據(jù)分詞,然后過濾停用詞、常用詞等得到候選詞組集合;然后用WORD2VEC計算候選詞組集合中每一個詞組的詞向量;接著利用SINGLEPASS聚類方法對每個詞組進(jìn)行聚類,計算結(jié)果如表2所示。其中,簇類標(biāo)簽由人工給出,本文首先挑選三名有標(biāo)注經(jīng)驗并且有創(chuàng)新創(chuàng)業(yè)相關(guān)經(jīng)驗的人員分別對這些類簇打上簇類標(biāo)簽,然后利用投票的方式得到簇類名稱。
表2 部分類簇關(guān)鍵詞
2. 基于線性回歸的創(chuàng)新創(chuàng)業(yè)影響因素分析
線性回歸分析方法是確定兩種或兩種以上變量間相互之間的相關(guān)關(guān)系的一種分析方法,其廣泛應(yīng)用于大數(shù)據(jù)分類計算、特征選擇等分析領(lǐng)域。因此,利用線性回歸的方法能夠較好地滿足創(chuàng)新創(chuàng)業(yè)影響因素分析的需要。
首先,本文對采集到的數(shù)據(jù)進(jìn)行人工篩選和分類,一類為創(chuàng)新創(chuàng)業(yè)相關(guān)數(shù)據(jù),另一類為非創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)。
接著,利用3.2.1得到的結(jié)果,將每一個類簇當(dāng)作一個特征,對所有采集到的數(shù)據(jù)進(jìn)行特征向量化,本文定義每篇文檔的特征向量如下:
經(jīng)過上述步驟,所有的文檔數(shù)據(jù)就用特征向量來表示,利用線性回歸的方法對所有文檔的特征向量進(jìn)行分析,線性回歸的公式如下:
表3 部分類簇占比情況
由表3結(jié)果可知,機(jī)會、自我效能感、創(chuàng)新創(chuàng)業(yè)環(huán)境、師資力量、人格特征等對大學(xué)生創(chuàng)新創(chuàng)業(yè)都存在著影響,其影響隨著占比比例的減小而相應(yīng)減弱。
綜上,本文的研究得出了大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素的具體占比,這將更有針對性地指導(dǎo)大學(xué)生創(chuàng)新創(chuàng)業(yè)實踐。
[1] 叢明,寇福生,王詩白.“互聯(lián)網(wǎng)+”背景下的研究生創(chuàng)新創(chuàng)業(yè)能力培養(yǎng)研究與實踐[J].時代教育,2017(09): 44-45.
[2] 鄭石明.大數(shù)據(jù)驅(qū)動創(chuàng)新創(chuàng)業(yè)教育變革:理論與實踐[J].清華大學(xué)教育研究,2016(03):65-73.
[3] 藍(lán)榮聰,陳永福.大數(shù)據(jù)視域下大學(xué)生創(chuàng)新能力培養(yǎng)的思考[J].思想教育研究, 2014(11):70-72.
2018-02-08;
2018-12-11
福州大學(xué)教育管理研究專項課題研究成果“大數(shù)據(jù)在高校創(chuàng)新創(chuàng)業(yè)教育中的理論探討與實踐”(16SKZ30)
謝曉默(1962—),男,福建古田人,福州大學(xué)副研究員,主要研究方向:思想政治教育;林敏(1990—),女,福建福清人,福州大學(xué)講師,主要研究方向:思想政治理論與實踐,聯(lián)系郵箱:352914127@qq.com
G641
A
1674-893X(2018)06?0049?05
[編輯:何彩章]
創(chuàng)新與創(chuàng)業(yè)教育2018年6期