• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大數(shù)據(jù)分析的大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素探究

      2019-01-12 07:33:22謝曉默林敏
      關(guān)鍵詞:文本因素大學(xué)生

      謝曉默,林敏

      ?

      基于大數(shù)據(jù)分析的大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素探究

      謝曉默,林敏

      (福州大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,福建福州,350116)

      在收集海量創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)基礎(chǔ)上,利用大數(shù)據(jù)分析手段,從大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)獲取層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)分析層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層等三個層次,搭建大學(xué)生創(chuàng)新創(chuàng)業(yè)的大數(shù)據(jù)分析模型,嘗試用定量分析的方法探究大學(xué)生創(chuàng)新創(chuàng)業(yè)的主要影響因素的具體占比,更有針對性指導(dǎo)大學(xué)生創(chuàng)新創(chuàng)業(yè)實踐,為推動大眾創(chuàng)新、萬眾創(chuàng)業(yè)提供參考依據(jù)。

      大數(shù)據(jù)分析;大學(xué)生;創(chuàng)新創(chuàng)業(yè);影響因素

      一、前言

      當(dāng)下大數(shù)據(jù)被廣泛運用在社會各個領(lǐng)域,悄然改變著人們的生產(chǎn)方式和生活方式。哪些主客觀因素影響大學(xué)生創(chuàng)新創(chuàng)業(yè),成為當(dāng)前高校創(chuàng)業(yè)教育的重要課題。綜觀國內(nèi)外研究情況,筆者發(fā)現(xiàn)國內(nèi)關(guān)于創(chuàng)新創(chuàng)業(yè)影響因素的研究起步較晚,研究成果不是很多,研究內(nèi)容更多體現(xiàn)在微觀層面;傳統(tǒng)研究方法多是通過問卷調(diào)查的形式,普遍存在分析方法單一,主觀性較強(qiáng),效度、信度欠佳等不足[1]。

      鑒于此,本研究試圖利用大數(shù)據(jù)分析具備海量的數(shù)據(jù)來源、高效的分析速率、準(zhǔn)確的結(jié)果判斷等特點[2],搭建大學(xué)生創(chuàng)新創(chuàng)業(yè)的大數(shù)據(jù)分析模 型,對當(dāng)前在校大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素展開實證研究。

      二、大學(xué)生創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析模型構(gòu)建

      隨著信息技術(shù)的高速發(fā)展,以微博、微信、門戶網(wǎng)站等為代表的互聯(lián)網(wǎng)新媒體為大學(xué)生創(chuàng)新創(chuàng)業(yè)核心影響因素的分析帶來可能性[3]。從互聯(lián)網(wǎng)豐富的大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)中提取影響因素,尤其探究對大學(xué)生創(chuàng)新創(chuàng)業(yè)影響的主要因素具有十分重大的現(xiàn)實意義。為此,本文從海量異構(gòu)創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)入手,構(gòu)建大學(xué)生創(chuàng)新創(chuàng)業(yè)的大數(shù)據(jù)分析模型,通過對大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的采集、存儲、分析,探究大學(xué)生創(chuàng)新創(chuàng)業(yè)的影響因素。

      該模型如圖1所示,分為三個層次,包括大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)獲取層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)分析層、大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層。具體介紹如下:

      (一) 大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)獲取層

      主要包括采集清理和存儲兩個部分。

      (1) 數(shù)據(jù)采集清理。數(shù)據(jù)的采集是大學(xué)生創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析首先需要解決的基礎(chǔ)性工作。網(wǎng)絡(luò)數(shù)據(jù)潛在分布廣、海量龐雜、多源異構(gòu),與此同時,網(wǎng)絡(luò)中90%的數(shù)據(jù)存在于深網(wǎng)(例如微博、微信、電子期刊等)中,常規(guī)采集手段的覆蓋率無法滿足創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析的需求。

      針對互聯(lián)網(wǎng)數(shù)據(jù)特點以及常規(guī)采集手段存在的以上問題,本文構(gòu)建了一款基于THRIFT通信框架的分布式創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)采集方法。首先,針對數(shù)據(jù)泛在分布于互聯(lián)網(wǎng)及社交媒體的問題,構(gòu)建基于THRIFT通信框架的分布式架構(gòu),同時通過嵌入創(chuàng)新創(chuàng)業(yè)相關(guān)主題和種子URL定制、采集參數(shù)配置等模塊,實現(xiàn)可定制采集;其次,針對深網(wǎng)數(shù)據(jù),本文采用模擬用戶行為以及模擬登錄來爬取相應(yīng)信息;然后,針對數(shù)據(jù)動態(tài)增長的問題,本文采用基于BLOOM過濾器的判重方法,實現(xiàn)增量采集,使得日均采集量提升至單機(jī)的10倍以上;最后,針對海量龐雜和多源異構(gòu)問題,本文建立了基于網(wǎng)頁文本結(jié)構(gòu)的統(tǒng)一抽取框架,框架針對現(xiàn)有互聯(lián)網(wǎng)文本特點,將其分為長、短文本兩部分,并針對長、短文本的各自特點,采用不同的基于DOM樹結(jié)構(gòu)的文本抽取模型。

      圖1 大學(xué)生創(chuàng)新創(chuàng)業(yè)大數(shù)據(jù)分析模型

      (2) 創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)存儲。目前,還未存在公開的針對大學(xué)生創(chuàng)新創(chuàng)業(yè)領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)構(gòu)建方法。以往單一數(shù)據(jù)庫只能存儲結(jié)構(gòu)化數(shù)據(jù),其無法滿足對非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)(如HTML等)的存儲需求。因此,本文嘗試創(chuàng)建一個創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的統(tǒng)一表達(dá)方式。一方面,針對結(jié)構(gòu)化創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)(如信息的傾向性、信息所在領(lǐng)域等),本文利用關(guān)系數(shù)據(jù)庫進(jìn)行存儲,方便后續(xù)應(yīng)用層的查看;另一方面,對非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),本文利用基于XML的多源異構(gòu)數(shù)據(jù)表示方法對抽取出的創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)進(jìn)行統(tǒng)一表達(dá)。

      (二) 大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)分析層

      主要包括創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的詞性分析、語義分析,聚類分析、分類分析以及相關(guān)度分析。

      (1) 創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)詞性分析、語義分析。針對互聯(lián)網(wǎng)創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)難以統(tǒng)一表達(dá)的問題,該部分主要采用WORD2VEC技術(shù)對創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)進(jìn)行詞性分析、語義分析,將其映射到統(tǒng)一的特征空間中,該部分分析的主要目的是從海量的創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)中挖掘出影響大學(xué)生創(chuàng)新創(chuàng)業(yè)的因素。

      用規(guī)章管人管事 用制度治散治慢(鮑建平) ................................................................................................. 2-17

      (2) 創(chuàng)新創(chuàng)業(yè)影響因素聚類分析。該部分分析主要采用SINGLEPASS聚類方法對2.2.1的數(shù)據(jù)聚集出大學(xué)生創(chuàng)新創(chuàng)業(yè)的主要影響因素。

      (3) 創(chuàng)新創(chuàng)業(yè)影響因素分類分析。基于2.2.2挖掘出的影響因素對大學(xué)生創(chuàng)新創(chuàng)業(yè)的影響程度存在較大差異,因此該部分采用基于互信息的特征選擇方法,對創(chuàng)新創(chuàng)業(yè)的主要影響因素進(jìn)行特征選擇,由此將創(chuàng)新創(chuàng)業(yè)的影響因素按其影響程度大小進(jìn)行有序排列。

      (三) 大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層

      該層主要功能是對分析層的結(jié)果進(jìn)行可視化展示。應(yīng)用場景包括大學(xué)生創(chuàng)新創(chuàng)業(yè)熱點需求分析、大學(xué)生創(chuàng)新創(chuàng)業(yè)項目跟蹤、大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素分析等。大學(xué)生創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)應(yīng)用層涵蓋的領(lǐng)域廣,內(nèi)容豐富,前景可觀。考慮到本文重點研究大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素分析,故而針對大學(xué)生創(chuàng)新創(chuàng)業(yè)的其他應(yīng)用方向暫不做展開。

      三、基于大數(shù)據(jù)分析的大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素

      從本文構(gòu)建的平臺出發(fā),通過采集存儲互聯(lián)網(wǎng)中海量的創(chuàng)新創(chuàng)業(yè)信息,利用大數(shù)據(jù)分析技術(shù),探究影響大學(xué)生創(chuàng)新創(chuàng)業(yè)的影響因素,根據(jù)影響因素的大小進(jìn)行排序。

      (一) 創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)的采集與抽取

      底層數(shù)據(jù)的好壞關(guān)系到大數(shù)據(jù)分析質(zhì)量的高低,這要求采集的互聯(lián)網(wǎng)數(shù)據(jù)源覆蓋廣,實時性高,數(shù)據(jù)量大。

      為此,在數(shù)據(jù)源的選取上,本文利用互聯(lián)網(wǎng)分布式采集系統(tǒng),從搜索引擎、門戶網(wǎng)站、微博、微信、論壇、電子報紙、電子期刊等媒介中采集信息。其中,搜索引擎涵蓋當(dāng)下主流引擎“百度搜索”“搜狗搜索”等;門戶網(wǎng)站采集涵蓋主流大門戶“新浪網(wǎng)”“鳳凰網(wǎng)”,各創(chuàng)新創(chuàng)業(yè)相關(guān)門戶網(wǎng)站如“中青在線-創(chuàng)家”以及各類名人或商界訪談門戶網(wǎng)站如“極客網(wǎng)訪談”等;微博數(shù)據(jù)來源于時下熱門社交網(wǎng)絡(luò)平臺“新浪微博”;貼吧采集目標(biāo)為主流貼吧提供商“百度”“天涯”和“貓撲”等;電子期刊采集范圍為近五年來各期刊會議所發(fā)表的與創(chuàng)新或創(chuàng)業(yè)因素相關(guān)的論文。數(shù)據(jù)來源基本達(dá)到上述要求。具體如表1所示。

      表1 數(shù)據(jù)源部分列表

      為了讓多源異構(gòu)信息結(jié)構(gòu)化成大數(shù)據(jù)分析方法所能利用的信息,針對門戶網(wǎng)站、搜索引擎等長文本網(wǎng)頁內(nèi)容,采用基于DOM樹的文本密度算法進(jìn)行信息抽??;針對貼吧、微博等短文本內(nèi)容,文本采用基于 DOM 樹層次特征的多記錄網(wǎng)頁抽取算法進(jìn)行網(wǎng)頁源碼的文字識別,基于以上兩項技術(shù),多源異構(gòu)網(wǎng)頁信息的識別率高于90%,能夠保證網(wǎng)頁關(guān)鍵信息不遺漏。最后,在數(shù)據(jù)分類上,以長文本、微博、貼吧、微信、期刊論文為分類依據(jù),方便接下去的大數(shù)據(jù)分析進(jìn)行有針對性的因素識別。綜上,本文對采集到的數(shù)據(jù)進(jìn)行了統(tǒng)計,結(jié)果如圖2所示。

      圖2 數(shù)據(jù)源餅狀圖

      (二) 大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素分析

      通過觀察數(shù)據(jù)可知,互聯(lián)網(wǎng)數(shù)據(jù)中蘊(yùn)含大量大學(xué)生創(chuàng)新創(chuàng)業(yè)影響因素,同時,不同因素間存在一定的聯(lián)系,例如“創(chuàng)新教育”與“創(chuàng)業(yè)教育”,兩者通常描述一類事物?;谝陨嫌^察結(jié)果,本文提出了一種基于WORD2VEC的SINGLEPASS創(chuàng)新創(chuàng)業(yè)因素識別方法,該方法首先通過WORD2VEC內(nèi)在向量化文本,然后使用SINGLEPASS聚類方法聚合同類影響因子,以更加精確化描述影響因素以及減少冗余度,最后采用線性回歸的方法對各影響因素進(jìn)行權(quán)重計算,并依權(quán)數(shù)大小進(jìn)行 排序。

      1. 基于WORD2VEC的SINGLEPASS創(chuàng)新創(chuàng)業(yè)因素識別

      WORD2VEC可以把對文本內(nèi)容的處理簡化為向量空間中的向量運算,通過計算出向量空間上的相似度,來表示文本語義上的相似度。WORD2VEC因其效率高、效果好,被廣泛應(yīng)用在語義分析之中。同時,WORD2VEC適合于一個序列的數(shù)據(jù),在序列局部數(shù)據(jù)間存在著很強(qiáng)的關(guān)聯(lián)。因此,針對本文數(shù)據(jù)中各創(chuàng)新創(chuàng)業(yè)因素存在的相關(guān)性,WORD2VEC能夠較好地將文本數(shù)據(jù)進(jìn)行向量化。

      SINGLEPASS 算法是一種流式的聚類算法,每個數(shù)據(jù)只會參與一次樣本聚類,聚類結(jié)果與數(shù)據(jù)的先后順序有一定的依賴關(guān)系。SINGLEPASS算法是一種增量算法,適合對流數(shù)據(jù)進(jìn)行挖掘,而且算法的時間效率高。因此,針對本文增量采集的創(chuàng)新創(chuàng)業(yè)數(shù)據(jù),SINGLEPASS能夠快速從各種創(chuàng)新創(chuàng)業(yè)因素中聚合得到相應(yīng)的因素類簇。

      基于以上兩個方法,本文首先將采集到的創(chuàng)新創(chuàng)業(yè)影響因素相關(guān)文本數(shù)據(jù)分詞,然后過濾停用詞、常用詞等得到候選詞組集合;然后用WORD2VEC計算候選詞組集合中每一個詞組的詞向量;接著利用SINGLEPASS聚類方法對每個詞組進(jìn)行聚類,計算結(jié)果如表2所示。其中,簇類標(biāo)簽由人工給出,本文首先挑選三名有標(biāo)注經(jīng)驗并且有創(chuàng)新創(chuàng)業(yè)相關(guān)經(jīng)驗的人員分別對這些類簇打上簇類標(biāo)簽,然后利用投票的方式得到簇類名稱。

      表2 部分類簇關(guān)鍵詞

      2. 基于線性回歸的創(chuàng)新創(chuàng)業(yè)影響因素分析

      線性回歸分析方法是確定兩種或兩種以上變量間相互之間的相關(guān)關(guān)系的一種分析方法,其廣泛應(yīng)用于大數(shù)據(jù)分類計算、特征選擇等分析領(lǐng)域。因此,利用線性回歸的方法能夠較好地滿足創(chuàng)新創(chuàng)業(yè)影響因素分析的需要。

      首先,本文對采集到的數(shù)據(jù)進(jìn)行人工篩選和分類,一類為創(chuàng)新創(chuàng)業(yè)相關(guān)數(shù)據(jù),另一類為非創(chuàng)新創(chuàng)業(yè)數(shù)據(jù)。

      接著,利用3.2.1得到的結(jié)果,將每一個類簇當(dāng)作一個特征,對所有采集到的數(shù)據(jù)進(jìn)行特征向量化,本文定義每篇文檔的特征向量如下:

      經(jīng)過上述步驟,所有的文檔數(shù)據(jù)就用特征向量來表示,利用線性回歸的方法對所有文檔的特征向量進(jìn)行分析,線性回歸的公式如下:

      表3 部分類簇占比情況

      由表3結(jié)果可知,機(jī)會、自我效能感、創(chuàng)新創(chuàng)業(yè)環(huán)境、師資力量、人格特征等對大學(xué)生創(chuàng)新創(chuàng)業(yè)都存在著影響,其影響隨著占比比例的減小而相應(yīng)減弱。

      綜上,本文的研究得出了大學(xué)生創(chuàng)新創(chuàng)業(yè)主要影響因素的具體占比,這將更有針對性地指導(dǎo)大學(xué)生創(chuàng)新創(chuàng)業(yè)實踐。

      [1] 叢明,寇福生,王詩白.“互聯(lián)網(wǎng)+”背景下的研究生創(chuàng)新創(chuàng)業(yè)能力培養(yǎng)研究與實踐[J].時代教育,2017(09): 44-45.

      [2] 鄭石明.大數(shù)據(jù)驅(qū)動創(chuàng)新創(chuàng)業(yè)教育變革:理論與實踐[J].清華大學(xué)教育研究,2016(03):65-73.

      [3] 藍(lán)榮聰,陳永福.大數(shù)據(jù)視域下大學(xué)生創(chuàng)新能力培養(yǎng)的思考[J].思想教育研究, 2014(11):70-72.

      2018-02-08;

      2018-12-11

      福州大學(xué)教育管理研究專項課題研究成果“大數(shù)據(jù)在高校創(chuàng)新創(chuàng)業(yè)教育中的理論探討與實踐”(16SKZ30)

      謝曉默(1962—),男,福建古田人,福州大學(xué)副研究員,主要研究方向:思想政治教育;林敏(1990—),女,福建福清人,福州大學(xué)講師,主要研究方向:思想政治理論與實踐,聯(lián)系郵箱:352914127@qq.com

      G641

      A

      1674-893X(2018)06?0049?05

      [編輯:何彩章]

      猜你喜歡
      文本因素大學(xué)生
      解石三大因素
      中國寶玉石(2019年5期)2019-11-16 09:10:20
      在808DA上文本顯示的改善
      帶父求學(xué)的大學(xué)生
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      大學(xué)生之歌
      黃河之聲(2017年14期)2017-10-11 09:03:59
      短道速滑運動員非智力因素的培養(yǎng)
      冰雪運動(2016年4期)2016-04-16 05:54:56
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      如何快速走進(jìn)文本
      語文知識(2014年1期)2014-02-28 21:59:13
      讓大學(xué)生夢想成真
      中國火炬(2013年7期)2013-07-24 14:19:23
      他把孤兒院辦成大學(xué)生搖籃
      中國火炬(2010年9期)2010-07-25 11:45:09
      修武县| 海丰县| 晴隆县| 施秉县| 拉孜县| 柘城县| 隆化县| 云梦县| 蓬安县| 兰西县| 抚宁县| 阜城县| 普定县| 南京市| 黔西县| 遂宁市| 伊川县| 庆阳市| 通许县| 六盘水市| 浪卡子县| 胶州市| 灵寿县| 镇巴县| 东乡| 天津市| 文成县| 右玉县| 镇巴县| 浮山县| 郁南县| 建水县| 札达县| 三江| 剑阁县| 廊坊市| 土默特左旗| 阳西县| 嘉义市| 三穗县| 邢台市|