• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Python語言的學(xué)術(shù)論文數(shù)據(jù)挖掘與分析

      2021-07-27 08:09:28劉煥英
      新媒體研究 2021年5期
      關(guān)鍵詞:期刊編輯Python語言學(xué)術(shù)論文

      劉煥英

      關(guān)鍵詞 Python語言;數(shù)據(jù)挖掘;醫(yī)療人工智能;學(xué)術(shù)論文;期刊編輯

      中圖分類號 G232.1 文獻(xiàn)標(biāo)識碼 A 文章編號 2096-0360(2021)05-0021-06

      隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大數(shù)據(jù)時代的來臨,數(shù)據(jù)規(guī)模巨大,但數(shù)據(jù)存在多樣性、價值密度低及關(guān)系復(fù)雜等特點。如何從海量的信息中獲得有價值的信息變得越來越困難。近年來逐漸興起的數(shù)據(jù)挖掘與分析可以很好地解決這個問題。數(shù)據(jù)挖掘技術(shù)通過多種復(fù)雜的算法在大量的元數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)間潛在的規(guī)律及有價值的信息。近年來在金融、醫(yī)療、社交及電信領(lǐng)域取得了顯著成果,而在期刊出版領(lǐng)域應(yīng)用較少。在已有的報道中,有編輯提出把數(shù)據(jù)挖掘應(yīng)用在網(wǎng)絡(luò)投稿系統(tǒng)中,可以對稿件進(jìn)行分類送審、向作者定向征稿及相似文獻(xiàn)推薦、對投稿流程及投稿系統(tǒng)進(jìn)行質(zhì)量評價及促進(jìn)系統(tǒng)的改進(jìn)[1]。也已有編輯部利用數(shù)據(jù)挖掘為期刊的選題策劃、學(xué)者選擇、專題策劃、稿件篩選等提供更精準(zhǔn)的數(shù)據(jù)依據(jù),為期刊決策提供參考[2-5]。

      在相關(guān)的研究中,編輯們更多的是利用HADOOP、ROST News Analysis Tool 4.5等數(shù)據(jù)挖掘工具,這些工具計算力及交互性不夠強大。本文參考譚春林[6]的數(shù)據(jù)挖方法,利用Python語言進(jìn)行數(shù)據(jù)挖掘及分析。Python語言是數(shù)據(jù)挖掘領(lǐng)域最熱門的語言,具有較好的解釋性及交互性,且擁有強大的科學(xué)計算能力,能對大量科研人員成果數(shù)據(jù)進(jìn)行挖掘和分析,從而獲得有用的價值。而期刊編輯可利用Python對某一領(lǐng)域的發(fā)文情況進(jìn)行數(shù)據(jù)挖掘及分析,尋找熱門選題,指導(dǎo)期刊的選題策劃。在已有的研究中,期刊編輯領(lǐng)域利用Python來進(jìn)行數(shù)據(jù)挖掘及分析的報道較少,本文提出利用Python語言對近年來的熱點話題醫(yī)療人工智能相關(guān)的學(xué)術(shù)論文進(jìn)行挖掘和分析,為期刊編輯從事學(xué)術(shù)研究提供新思路。

      1 研究方法

      1.1 系統(tǒng)架構(gòu)

      基于Python 3.7的醫(yī)療人工智能相關(guān)學(xué)術(shù)論文的信息挖掘分析系統(tǒng),利用Selenuim來獲取相關(guān)的期刊論文,將數(shù)據(jù)清理并分析后進(jìn)行結(jié)果輸出。該系統(tǒng)主要分為三個模塊,第一個模塊是數(shù)據(jù)獲取,從中國知網(wǎng)選取相關(guān)的文本信息,其中包括作者、機構(gòu),關(guān)鍵詞、期刊、發(fā)表時間、下載及被引用次數(shù)等信息。第二個模塊是數(shù)據(jù)清洗及提取,把通知、辦法、條例等非學(xué)術(shù)論文的文章刪除。第三個模塊是數(shù)據(jù)統(tǒng)計分析,提取清理后的元數(shù)據(jù),并對元數(shù)據(jù)統(tǒng)計分析。見圖1。

      1.2 數(shù)據(jù)來源

      利用中國知網(wǎng)數(shù)據(jù)庫(https://www.cnki. net)對醫(yī)療人工智能相關(guān)題材發(fā)文情況進(jìn)行大數(shù)據(jù)挖掘和數(shù)據(jù)分析。本文從中國知網(wǎng)數(shù)據(jù)庫舊版入口,在“期刊”類目下進(jìn)行“高級檢索”,檢索條件為“全文=人工智能+醫(yī)療/醫(yī)學(xué)/醫(yī)院/健康/中醫(yī);時間=2010-2019;來源=全部期刊“。(數(shù)據(jù)采集時間為2020年5月10日)

      1.3 數(shù)據(jù)挖掘

      從網(wǎng)頁挖掘文獻(xiàn)元數(shù)據(jù)步驟如下:

      第1步:首先使用Selenuim的webdriver. get方法進(jìn)入中國知網(wǎng)首頁,然后使用Selenuim的element元素的send_keys自動輸入【賬號】與【密碼】,并使用click方法以實現(xiàn)自動點擊以登錄系統(tǒng)。

      第2步:首先使用Selenuim的webdriver.get方法進(jìn)入中國知網(wǎng)期刊 的高級檢索頁,然后使用Selenuim的e lement元素的send_keys、select_ by_value自動輸入【 人工智能】、【邏輯關(guān)系 and】、【醫(yī)療/醫(yī)學(xué)/醫(yī)院/健康/中醫(yī)】click方法以實現(xiàn)自動點擊以進(jìn)行檢索。

      第3步:使用Selenuim元素的find_element_ by_class_name獲檢索結(jié)果

      標(biāo)簽后,然后使用find_elements_by_tag_name獲取每行的與
      的標(biāo)簽,分別使用、find_element_by_ class_name與find_elements_by_xpath方法獲取文章的【 主題】、【刊名】、【發(fā)表時間】、【被引】、【下載】信息。

      第4步:循 環(huán)每行把【作者】、【機構(gòu)】、【關(guān)鍵詞】、【基金】、【分類】 存放在具體頁面中,并使用Selenuim元素的click()進(jìn)入具體頁面,并使用find_element_by_class_name與find_elements_ by_xpath獲取以上信息。

      第5步:在循環(huán)完當(dāng)前檢索結(jié)果頁后,便進(jìn)入下一頁,方法如下:

      # 循環(huán)結(jié)果集頁面

      同理,在進(jìn)入下一頁面時,使用方法獲取上述數(shù)據(jù),基本思路如下:循環(huán)檢索結(jié)果->循環(huán)每頁->循環(huán)每行(獲取【主題】、【刊名】、【發(fā)表時間】、【被引】、【下載】)->進(jìn)入每行具體頁面(獲取【作者】、【機構(gòu)】、【關(guān)鍵詞】、【基金】、【分類】)

      第6步:獲取上述信息后,便可以入庫,在這里我們使用的數(shù)據(jù)庫系統(tǒng)是MySQL 5.7。

      t_article字段信息如表1所示。

      1.4 數(shù)據(jù)清洗

      把作者為空的文章,例如:通知,辦法、條例等非學(xué)術(shù)論文刪除,方法如下:

      1.5 數(shù)據(jù)預(yù)處理

      由于作者、 機構(gòu)、關(guān)鍵詞、基金與分類信息中含有多個屬性,例如多名作者、多個關(guān)鍵詞,需要使用Python的split函數(shù)把這1行數(shù)據(jù)拆分成2行或多行數(shù)據(jù),然后使用 Python的pymysql模塊寫入MySQL,以利于我們接下來的統(tǒng)計。同理把機構(gòu)、關(guān)鍵詞、基金的屬性也進(jìn)行拆分,寫入相應(yīng)的表進(jìn)行保存。見表2。

      1.6 數(shù)據(jù)統(tǒng)計

      使用Python的pymysql模塊讀取MySQL的表,并使用Python調(diào)用MySQL的SQL查詢語言進(jìn)行統(tǒng)計,統(tǒng)計方法如下:

      # 獲取文章開始、結(jié)束時間及文章總數(shù)

      1.7 圖片制作

      使用Python的wordcloud模塊制作云圖,使用GraphPad Prism 7.0制作折線圖。

      2 結(jié)果與分析

      通過Python數(shù)據(jù)挖掘共收集到2 253條原始數(shù)據(jù),經(jīng)數(shù)據(jù)清理后,得到1 706篇醫(yī)療人工智能相關(guān)的學(xué)術(shù)論文,來源于804種期刊,所有文章共被引用6 130次,共被下載634 050次。文章共有6 695位作者,2 218個機構(gòu)參與,共有關(guān)鍵詞1 392,其中有基金支持的文章661篇。屬于自動化技術(shù)、計算機技術(shù)的有853篇,醫(yī)藥衛(wèi)生類的有568篇。

      2.1 作者及機構(gòu)分析

      1 706篇醫(yī)療人工智能學(xué)術(shù)論文中署名作者共有6 695位,去除重復(fù)后共3 951位不同的作者,其中獨立作者的文章有348篇,合作作者文章為1 358篇。署名1次的作者共有3 546人,署名2次的作者有544人,署名3次的作者有267人,署名4~7次的作者共有252人。只看作者的署名次數(shù)反映不出作者的整體貢獻(xiàn)情況,因此需要利用作者加權(quán)法進(jìn)行統(tǒng)計分析。作者加權(quán)法是指如果一篇文章有多位作者,根據(jù)作者的排名順序進(jìn)行加權(quán)統(tǒng)計,即按作者的排名遞減分配其權(quán)數(shù),再進(jìn)行統(tǒng)計分析。加權(quán)系數(shù)排名前10的作者為李燦東、于彤、李敬華、向運華、王浩、蕭毅、孟祥鋒、金征宇、譚鐵牛、劉土遠(yuǎn)。從作者統(tǒng)計角度來看,此時域范圍內(nèi)期刊發(fā)文作者大多為醫(yī)學(xué)或人工智能領(lǐng)域?qū)<摇?p>

      從摘要信息中,共挖掘到3 951位作者所在的機構(gòu),其中只出現(xiàn)了1次的機構(gòu)有1 959個;1 706篇學(xué)術(shù)論文中,由獨立作者機構(gòu)完成的論文為1 121篇,機構(gòu)合作完成的585篇,獨立作者機構(gòu)完成的文章較多。

      根據(jù)作者及機構(gòu)分析,可以得出80%的文章為多作者合作完成,53%的作者只署名一次,66%的文章為獨立作者機構(gòu)完成,其中中國中醫(yī)科學(xué)院中醫(yī)藥信息研究所是參與完成最多的機構(gòu),見表3。醫(yī)療人工智能相關(guān)學(xué)術(shù)論文高產(chǎn)機構(gòu)主要集中在研究所或者醫(yī)學(xué)院校,這些機構(gòu)為醫(yī)療人工智能領(lǐng)域的研究做出了較大的貢獻(xiàn)。

      2.2 關(guān)鍵詞分析

      對1 706篇醫(yī)療人工智能學(xué)術(shù)論文的關(guān)鍵詞進(jìn)行統(tǒng)計,共統(tǒng)計到關(guān)鍵詞的數(shù)量為5 716個,平均每篇文章的關(guān)鍵詞為3.35個,繪制出關(guān)鍵詞云圖(見圖2)。其中高頻關(guān)鍵詞171個,排在前10位的的有:人工智能(627次)、學(xué)習(xí)(120次)、大數(shù)據(jù)(105次)、機器人(82次)、應(yīng)用(55次)、深度學(xué)習(xí)(46次)、機器學(xué)習(xí)(42次)、醫(yī)療(35次)專家系統(tǒng)(34次)、醫(yī)學(xué)影像(29次)。出現(xiàn)頻次最高的關(guān)鍵詞是“人工智能”,其次是“學(xué)習(xí)”和“大數(shù)據(jù)”,這三個關(guān)鍵詞占所有關(guān)鍵詞的14%,而且絕對數(shù)量比其他關(guān)鍵詞要多。從圖2可知,這些關(guān)鍵詞有主題型關(guān)鍵詞和內(nèi)容型關(guān)鍵詞,其中主題型關(guān)鍵詞有人工智能,機器人,專家系統(tǒng)、醫(yī)學(xué)影像等,反映了學(xué)科性質(zhì)和研究領(lǐng)域;另外,內(nèi)容型關(guān)鍵詞有學(xué)習(xí)、應(yīng)用、大數(shù)據(jù)、自然語語處理等,反映了學(xué)科的研究內(nèi)容和研究工具。從關(guān)鍵詞分析來看,期刊在此時域內(nèi)載文關(guān)鍵詞傾向于人工智能、大數(shù)據(jù)、機器人、醫(yī)學(xué)影像、專家系統(tǒng)等。這是部分醫(yī)療人工智能相關(guān)的學(xué)術(shù)論文的研究熱點之一。

      2.3 刊物分析

      1 706篇醫(yī)療人工智能相關(guān)學(xué)術(shù)論文分布在804種期刊上,分布較廣泛,經(jīng)過分析可知,這些期刊主要分為三類:一類是醫(yī)學(xué)類,一類是自動化技術(shù)、計算機技術(shù)類,還有一類是綜合類期刊。其中醫(yī)學(xué)類期刊有218種,自動化技術(shù)、計算機技術(shù)類的有120種,綜合類期刊有262種。另外,醫(yī)學(xué)類期刊的載文量是462篇,自動化技術(shù)、計算機技術(shù)類的有362篇,綜合類期刊的載文量是495篇,其他期刊載文量為387篇。見圖3。

      從圖3可以看出,醫(yī)學(xué)類期刊,自動化技術(shù)、計算機技術(shù)類及綜合類期刊載文量相當(dāng),占總論文數(shù)的68%,這說明醫(yī)療人工智能領(lǐng)域的論文刊載在這三類期刊上,因為醫(yī)療人工智能帶有很強的多學(xué)科交叉的性質(zhì),涉及醫(yī)學(xué)、計算機學(xué)、語言學(xué)等學(xué)科,人工智能又是近幾年的研究熱點,因此在期刊上的分布是比較合理的。

      醫(yī)療人工智能相關(guān)學(xué)術(shù)論文發(fā)文量排名前10的刊物為:中國數(shù)字醫(yī)學(xué)(64篇)、電子技術(shù)與軟件工程(29篇)、中國醫(yī)療設(shè)備(23篇)、中國新通信(23篇)、醫(yī)學(xué)信息學(xué)雜志(16篇)、中華中醫(yī)藥雜志(15篇)、科技傳播(14篇)、人工智能(13篇)、通訊世界(11篇)、第二軍醫(yī)大學(xué)學(xué)報(9篇)。從以上結(jié)果可以看出,刊文量較多的均為醫(yī)學(xué)類期刊,其中《中華中醫(yī)藥雜志》及《第二軍醫(yī)大學(xué)學(xué)報》為核心期刊。

      2.4 分類號

      1 706篇醫(yī)療人工智能相關(guān)學(xué)術(shù)論文中,屬于自動化技術(shù)、計算機技術(shù)的有853篇,醫(yī)藥衛(wèi)生類的有568篇。其中醫(yī)療人工智能相關(guān)學(xué)術(shù)論文數(shù)量排行前10的文章類別有TP18(人工智能理論)、R-05(醫(yī)學(xué)與其他學(xué)科的關(guān)系)、TP242(機器人)、R-4(臨床醫(yī)學(xué))、F49(信息產(chǎn)業(yè)經(jīng)濟)、RTP391(計算機應(yīng)用,信息處理(信息加工)圖像識別及其裝置、R2-03(中醫(yī)現(xiàn)代化研究)、R319(醫(yī)學(xué)一般科學(xué),其他科學(xué)技術(shù)在醫(yī)學(xué)上的應(yīng)用)、R197.3(保健組織與事業(yè)(衛(wèi)生事業(yè)管理))、TP311.13(計算機軟件,程序設(shè)計方法)。還包括其他類別如語言文學(xué)、研究生教育、服務(wù)業(yè)、情報資料處理等。從分類號來看,醫(yī)療人工智能相關(guān)學(xué)術(shù)論文中,50%的文章屬于自動化技術(shù)、計算機技術(shù),33%的文章屬于醫(yī)藥衛(wèi)生類。

      2.5 發(fā)表時間分析

      通過數(shù)據(jù)挖掘統(tǒng)計出2010—2019年醫(yī)療人工智能相關(guān)學(xué)術(shù)論文的發(fā)文情況,見圖4。由結(jié)果可知,2012—2016年醫(yī)療人工智能相關(guān)學(xué)術(shù)論文發(fā)文量較平穩(wěn)上升,2017—2019年醫(yī)療人工智能相關(guān)的學(xué)術(shù)論文發(fā)文量大幅增加。從近10年來醫(yī)療人工智能相關(guān)學(xué)術(shù)論文的發(fā)文情況來看,2017—2019年發(fā)文量大幅增加,2017年的發(fā)文量為2016年的2倍,2018年發(fā)文量為2017年的2倍,2019的發(fā)文量跟2018年發(fā)文量相當(dāng)。2017年國務(wù)院印發(fā)了《新一代人工智能發(fā)展規(guī)劃》及《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018—2020)》,說明我國已在戰(zhàn)略和行動層面部署人工智能的發(fā)展目標(biāo)。標(biāo)志著人工智能發(fā)展成為國家戰(zhàn)略。故2017年起,醫(yī)療人工智能的發(fā)文量成倍增加。

      3 結(jié)論

      伴隨著我國互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)資源越來越豐富,但因大部分?jǐn)?shù)據(jù)以非結(jié)構(gòu)形式存在著,信息的收集和分析非常困難,數(shù)據(jù)的利用率較低。在進(jìn)行數(shù)據(jù)挖掘前,若使用傳統(tǒng)的人工查詢及收集的方法來對每篇論文的題目、作者、單位、期刊、關(guān)鍵詞、引用次數(shù)、下載頻次及分類號等相關(guān)信息,進(jìn)行復(fù)制粘貼,不但效率低,也無可避免發(fā)生數(shù)據(jù)遺漏及錯誤數(shù)據(jù)等問題。而使用Python數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)采集及分析準(zhǔn)確率高,速度快,具有人工收集無法比擬的優(yōu)勢。

      本研究為期刊編輯提供了期刊數(shù)據(jù)的研究方法和總體思路,從而間接提升編輯部組稿約稿工作的科學(xué)性,同時也為作者提供該研究領(lǐng)域的研究熱點及機構(gòu)等重要學(xué)科信息。本文通過中國知網(wǎng)數(shù)據(jù)庫,搭建了基于Python語言的醫(yī)療人工智能相關(guān)學(xué)術(shù)論文的數(shù)據(jù)挖掘及分析系統(tǒng),對近10年來醫(yī)療人工智能相關(guān)學(xué)術(shù)論文進(jìn)行數(shù)據(jù)挖掘,主要對題錄信息中的題名、作者、關(guān)鍵詞、機構(gòu),及對文章的發(fā)表時間、發(fā)表雜志、分類號等信息進(jìn)行分析,得出了該主題的發(fā)文特征。醫(yī)療人工智能相關(guān)學(xué)術(shù)論文在大多發(fā)表醫(yī)學(xué)類期刊,大部分屬于自動化技術(shù)、計算機技術(shù)類或醫(yī)藥衛(wèi)生類。該題材文章以多作者合作為獨立作者機構(gòu)完成居多,高頻關(guān)鍵詞有人工智能、大數(shù)據(jù)、機器人、機器人、醫(yī)學(xué)影像、專家系統(tǒng)等。

      期刊編輯可利用互聯(lián)網(wǎng)技術(shù),大數(shù)據(jù)思維進(jìn)行編輯與出版學(xué)領(lǐng)域的研究,告別傳統(tǒng)的手工檢索的方式,可以大大提高檢索效率。筆者借助Python語言對近10年來醫(yī)療人工智能相關(guān)學(xué)術(shù)論文進(jìn)行題錄分析,揭示該領(lǐng)域海量文章的內(nèi)容特征,既可為期刊編輯及作者了解最新研究熱點,也為期刊編輯從事編輯與出版學(xué)研究提供新技術(shù),是一種值得推廣的數(shù)據(jù)挖掘技術(shù)。

      參考文獻(xiàn)

      [1]張曉倩.數(shù)據(jù)挖掘在網(wǎng)絡(luò)在線投稿系統(tǒng)中的應(yīng)用[J].辦公自動化(學(xué)術(shù)版),2013,260(8):36-39.

      [2]王秀芝,宋迎法.基于文本數(shù)據(jù)挖掘的學(xué)術(shù)期刊選題策劃研究[J].煤炭高等教育,2016,34(5):122-126.

      [3]侯麗珊.基于數(shù)據(jù)挖掘的精準(zhǔn)化辦刊策略[J].中國科技期刊研究,2018,29(5):515-519.

      [4]王志鴻,楊松迎,郭敏,等.基于微信平臺的科技期刊內(nèi)容服務(wù)策略及實現(xiàn)[J].編輯學(xué)報,2018,30(5):522-524.

      [5]李雪,王占坤,崔曉健,等.科技期刊編輯新媒體出版能力的培育[J].編輯學(xué)報,2016,28(6):602-605.

      [6]譚春林,劉清海.期刊編輯發(fā)表論文情況的文本挖掘與分析[J].編輯學(xué)報,2019,31(4):407-410.

      猜你喜歡
      期刊編輯Python語言學(xué)術(shù)論文
      學(xué)術(shù)論文征集啟事
      學(xué)術(shù)論文征集啟事
      學(xué)術(shù)論文征集啟示
      學(xué)術(shù)論文征集啟事
      基于Python語言和支持向量機的字符驗證碼識別
      論Python程序設(shè)計語言
      基于Python語言的面向?qū)ο笳n程實踐教學(xué)探討
      期刊編輯應(yīng)具備的六種意識
      淺析信息時代科技期刊編輯創(chuàng)造力的提升
      科技傳播(2016年23期)2017-03-01 12:11:23
      媒介融合時代提升期刊編輯媒介素養(yǎng)的路徑探索
      金阳县| 莲花县| 日喀则市| 同仁县| 澄迈县| 鲜城| 四子王旗| 永登县| 天柱县| 普兰县| 自贡市| 内乡县| 准格尔旗| 林周县| 河南省| 孟村| 江陵县| 子长县| 霍州市| 望江县| 北流市| 永善县| 安西县| 离岛区| 高邑县| 定襄县| 阳朔县| 丹江口市| 方城县| 南城县| 武宁县| 西乌珠穆沁旗| 应用必备| 香格里拉县| 灵台县| 浪卡子县| 图片| 铁岭县| 贺兰县| 辽阳市| 育儿|