• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    5G 技術(shù)應(yīng)用于醫(yī)療領(lǐng)域發(fā)展趨勢的研究*

    2023-05-16 08:16:04黃冠維潘偉東
    科技與創(chuàng)新 2023年9期
    關(guān)鍵詞:分詞文檔詞語

    黃冠維,潘偉東

    (1.嶺南師范學(xué)院商學(xué)院,廣東 湛江524048;2.廣州京諾知識(shí)產(chǎn)權(quán)代理有限公司,廣東 廣州 510030)

    1 研究背景

    5G 技術(shù)走進(jìn)生活并快速促進(jìn)生活的發(fā)展。信息技術(shù)在醫(yī)療行業(yè)中的引入不斷提高了該行業(yè)的發(fā)展水平。5G 技術(shù)的超高速、超大型連接和超低延時(shí)可以極大地提高醫(yī)療服務(wù)的效率,同時(shí),醫(yī)療行業(yè)5G 技術(shù)的發(fā)展將促進(jìn)醫(yī)療服務(wù)的智能化。5G 技術(shù)的發(fā)展將導(dǎo)致整個(gè)網(wǎng)絡(luò)生態(tài)系統(tǒng)的變化,人工智能、虛擬現(xiàn)實(shí)、云計(jì)算、物聯(lián)網(wǎng)、大視頻等與網(wǎng)絡(luò)速度相關(guān)的領(lǐng)域?qū)l(fā)生根本性的鏈?zhǔn)阶兓瑥亩贯t(yī)療技術(shù)領(lǐng)域的發(fā)展更加實(shí)用。

    由于人口眾多和老齡化加劇,中國一直面臨著醫(yī)療費(fèi)用高、看病困難的醫(yī)療問題。中國人口在世界人口中占比大,但與之相反的是,醫(yī)療衛(wèi)生資源卻占世界的很小一部分,這說明了有限的醫(yī)療資源分布不均。解決當(dāng)前醫(yī)療行業(yè)問題的有效方法是,在借助5G 高速互聯(lián)網(wǎng)的基礎(chǔ)下,大力發(fā)展醫(yī)療服務(wù)技術(shù)。通過5G 技術(shù)的普及,“互聯(lián)網(wǎng)+醫(yī)療”的發(fā)展空間得到巨大提升。因此,第五代通訊技術(shù)(簡稱“5G”)將在醫(yī)療領(lǐng)域有更為突出的發(fā)展與應(yīng)用,如何從大量“5G+醫(yī)療”學(xué)術(shù)文獻(xiàn)中找出發(fā)展趨勢是本研究所探究的問題。本研究通過文本挖掘,通過對(duì)學(xué)術(shù)文章進(jìn)行文本分析,從知網(wǎng)上下載近3 年發(fā)表的學(xué)術(shù)文本做分詞處理并使用 詞 頻-逆 文本 頻 率 指 數(shù)(Tеrm Frеquеnсy-Invеrsе Dосumеnt Frеquеnсy,TF-IDF)算法計(jì)算詞權(quán)重;再利用支持向量機(jī)(Suрроrt Vесtоr Mасhinе,SVM)對(duì)詞頻構(gòu)建模型,對(duì)“5G+醫(yī)療”的相關(guān)研究提取出關(guān)鍵詞組并進(jìn)行分類與預(yù)測,找出未來的“5G+醫(yī)療”的趨勢脈絡(luò),以期待未來在醫(yī)療領(lǐng)域與相關(guān)產(chǎn)業(yè)中得到可持續(xù)性發(fā)展。

    2 文獻(xiàn)綜述

    2.1 文本挖掘的研究現(xiàn)狀

    在文本挖掘中,詞頻度挖掘技術(shù)是一個(gè)重要的研發(fā)方向。近年來,國內(nèi)外研究人員在這一領(lǐng)域進(jìn)行了大量研究,并致力于從海量的文本數(shù)據(jù)中發(fā)現(xiàn)更多有價(jià)值的信息,并利用這些信息創(chuàng)造更多的社會(huì)價(jià)值。國外的文本挖掘研究在早期就已得到了快速發(fā)展,且應(yīng)用化的挖掘技術(shù)有了成熟的技術(shù)手段。BARKER等[1]提出了一種基于文本詞性的關(guān)鍵詞提取的文本挖掘方法。該方法首先對(duì)文檔進(jìn)行句法分析和詞性標(biāo)注,并計(jì)算文檔中每個(gè)關(guān)鍵詞的出現(xiàn)頻率。通過計(jì)算其TF-IDF 權(quán)重?cái)?shù)值,然后輸出權(quán)重排名優(yōu)先級(jí)最高的詞語作為模型分類結(jié)果。

    有別于國外研究,受限于中文具有歧義以及語法的特殊性且較英語來說相對(duì)復(fù)雜,故研究中文的文本挖掘相對(duì)晚于國外。中國的中科院計(jì)算機(jī)技術(shù)研究所率先自主開發(fā)和研制推出了ICTCLAS 中文文本分詞系統(tǒng),并于2004 年又推出了具有詞性標(biāo)注等多種功能的改進(jìn)版NLPIR 中文分詞系統(tǒng)[2],使得這個(gè)處理系統(tǒng)不但具有簡單的現(xiàn)代漢語中文分詞處理功能,而且還具有多種不同詞性的拼音標(biāo)注等多種實(shí)用功能。同時(shí),國內(nèi)學(xué)者開發(fā)了基于Pythоn 的Jiеbа 分詞包[3],該分詞包已實(shí)現(xiàn)將中文準(zhǔn)確分詞的系統(tǒng),使中文分詞工具更具簡易性。何洋[4]將文本挖掘技術(shù)用于處理大型學(xué)術(shù)文檔集,大大減少了人工閱讀的工作量。陳旭[5]以京東商城網(wǎng)站中筆記本電腦用戶評(píng)論數(shù)據(jù)文本為基礎(chǔ),運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)進(jìn)行文本挖掘,然后用LDA 算法進(jìn)行文本主題的提取,并通過模型評(píng)估,發(fā)現(xiàn)LDA 模型能夠有限實(shí)現(xiàn)文本主題的挖掘。

    目前,國內(nèi)許多學(xué)者已經(jīng)在相關(guān)領(lǐng)域進(jìn)行了研究。王東波等[6]以醫(yī)學(xué)期刊作為基礎(chǔ),對(duì)其R7 分類下的文本,利用SVM 技術(shù)進(jìn)行自動(dòng)文本分類研究。劉敏[7]以文本挖掘?yàn)橹攸c(diǎn),以煤礦監(jiān)測數(shù)據(jù)為研究對(duì)象,利用煤礦監(jiān)測數(shù)據(jù)作為文本數(shù)據(jù)集,實(shí)現(xiàn)煤礦事故案例的自動(dòng)分類。李鋒剛等[8]為了解決傳統(tǒng)分類問題中相似度和主題統(tǒng)一性的問題,將SVM 分類模型和LDA 主題模型相結(jié)合,該方法能夠極大地解決分類問題的相似性度量和主題單一性。何夢嬌等[9]在對(duì)城市交通管理輿情相關(guān)文本的自動(dòng)數(shù)據(jù)分析進(jìn)行自動(dòng)預(yù)處理后,運(yùn)用了SVM 模型成功完成了對(duì)城市交通管理輿情相關(guān)文本的自動(dòng)分析歸類。

    2.2 自然語言處理技術(shù)

    目前,在英文文本處理方面已經(jīng)有了大量的研究成果,但由于漢語表達(dá)的復(fù)雜性和多樣性,其研究成果還沒有英文文本那么多。文本數(shù)據(jù)基本是指以短語、句子等方式呈現(xiàn)的。一般而言,文本數(shù)據(jù)中可能包含了許多毫無意義的符號(hào)。對(duì)于這些毫無實(shí)際意義的符號(hào),需要進(jìn)行預(yù)處理,否則可能會(huì)影響到文本分析結(jié)果的準(zhǔn)確性[10]。而文本挖掘的預(yù)處理可以分為文本數(shù)據(jù)庫的清洗、去除字或停用詞、詞性信息標(biāo)注以及特征詞提取[11]。

    2.2.1 文本分詞

    中文分詞的方法有3 種[12-13],分別是詞匯匹配、文本統(tǒng)計(jì)以及文本語義。

    基于詞匯匹配的分詞方法:具體分詞細(xì)分步驟是將原始語句中的每個(gè)詞匯與構(gòu)建好的語料庫進(jìn)行匹配,如果在構(gòu)建好的語料庫中匹配了相應(yīng)的詞匯,則識(shí)別該詞,并把這個(gè)詞從句子中分割,否則繼續(xù)匹配其他詞匯,直到完成整個(gè)句子的分割為止。按照語料庫匹配、句子分割的計(jì)算方式不同,可以把基于語料庫匹配的分詞歸為3 類:第一類為最大匹配法,第二類是逆向最大匹配法,第三類則是雙向匹配法。

    基于文本統(tǒng)計(jì)的分詞方法:若一個(gè)詞與相連接起來的兩個(gè)字?jǐn)?shù)次出現(xiàn)在不同的語境中,則會(huì)有一定概率地認(rèn)為這些字與相連接起來的一個(gè)詞組成了某個(gè)詞語。對(duì)于這種分詞算法,首先要選取一定的統(tǒng)計(jì)模型對(duì)單個(gè)的句子進(jìn)行分詞處理,然后據(jù)此劃分的結(jié)果計(jì)算其概率,使其得到最大概率的分詞方法,常用的算法有隱形馬爾可夫模型和條件隨機(jī)場等算法模型[14]。

    基于文本語義的分詞方法:通過語句的語義來進(jìn)行分詞處理,對(duì)拆分句子的語義進(jìn)行分析,實(shí)現(xiàn)中文文本分詞。

    比較3 種分詞方法,能夠發(fā)現(xiàn)基于統(tǒng)計(jì)的分詞方法比另外兩種分詞方法更具實(shí)用性。

    2.2.2 詞性標(biāo)注

    詞性標(biāo)注技術(shù)[15]已經(jīng)是現(xiàn)代科學(xué)自然語言處理的一項(xiàng)重要基礎(chǔ)知識(shí)技術(shù),詞性標(biāo)注是在分詞過程中,對(duì)劃分的詞語并結(jié)合句子的語境進(jìn)行的工作。通過機(jī)器對(duì)詞語進(jìn)行詞性標(biāo)注,區(qū)分文本數(shù)據(jù)句子中詞語的詞性,可以為后續(xù)文本分類工作提供更高準(zhǔn)確率的計(jì)算。例如,代表地點(diǎn)、物體和人的詞語都是名詞類別,代表動(dòng)作或描述某種狀態(tài)變化的詞語都是動(dòng)詞,用于描述、概括或描述人或事物的詞都是形容詞。

    2.2.3 去除停用詞

    文本數(shù)據(jù)在經(jīng)過了使用中文進(jìn)行分詞、詞性標(biāo)記后,得到的數(shù)據(jù)存在噪音,需要對(duì)處理后的數(shù)據(jù)集進(jìn)行降噪處理,也就是去除停用詞。根據(jù)研究需求,在處理文本分詞過程中設(shè)定停用詞,以此過濾掉一些對(duì)研究無意義的詞,如此可能提高分詞后的語料數(shù)據(jù)集的質(zhì)量與挖掘文本信息的價(jià)值[16]。

    2.2.4 特征提取

    文本數(shù)據(jù)在經(jīng)過用中文分詞、詞性標(biāo)注、去除停用詞后,剩余許多文本詞匯。如果將預(yù)處理的詞匯直接用作文本的特征,將導(dǎo)致特征向量的維數(shù)巨大。利用特征選擇的方法來減少文本詞匯的特征維度來提高模型的性能。目前流行使用的特征詞提取技術(shù)是TF-IDF 算法[17]。

    TF 是指以詞頻計(jì)算為基礎(chǔ)的算法。這種算法首先確定一個(gè)范圍,保留詞頻大于設(shè)定范圍的詞語,并刪除詞頻小于設(shè)定范圍的詞語。但是,這種方法忽略了與文本詞匯相比詞頻較低的特征詞。如果刪除了這些重要的單詞,則造成文本特征提取不準(zhǔn)確,并且后續(xù)的文本分析結(jié)果具有較大的誤差。TF 值表示某個(gè)詞語在本文檔中出現(xiàn)的頻數(shù)大小。TF 值越大,則說明該詞語在本文檔的頻數(shù)大。另一方面,它也表明該詞對(duì)整個(gè)文檔非常重要。在某種意義上,可以說該詞語反映了本文檔的主題詞。TF 值的具體計(jì)算公式如下:

    式(1)中:X(TF)ij為詞語j在k文檔中的頻數(shù);nij為在k文檔中此詞語j出現(xiàn)的頻數(shù);為文檔k中所有詞語的出現(xiàn)總數(shù)統(tǒng)計(jì)值。

    IDF 是指在整個(gè)文檔集合中某個(gè)單詞或字符串出現(xiàn)的總次數(shù),而不是僅僅計(jì)算在一篇文檔中出現(xiàn)的次數(shù),這也是與TF 算法的差異。其計(jì)算公式如下:

    式(2)中:|D|為總的文檔數(shù);|Dj|為某一特定詞語或字符串j在所有文檔|D|中出現(xiàn)的次數(shù),為包含特征詞的文檔數(shù)目。

    將公式(1)與(2)組合來進(jìn)行分析和統(tǒng)計(jì),評(píng)估某一個(gè)關(guān)鍵詞語的具體重要性有用程度。該算法的思路就是當(dāng)一個(gè)詞語的重要性與它在一個(gè)文檔中可能再次出現(xiàn)的逆文本頻率大小成正比;反之,這個(gè)詞語的重要性與它在語料庫中再次可能出現(xiàn)的逆文本頻率大小成反比。因此形成式(3):

    3 實(shí)驗(yàn)設(shè)計(jì)

    3.1 數(shù)據(jù)采集與預(yù)處理

    本研究以“5G”以及“醫(yī)療”為檢索詞將中國知網(wǎng)近3 年共65 篇學(xué)術(shù)文獻(xiàn)資料作為文本數(shù)據(jù)的信息來源,以此為初始文本數(shù)據(jù)集。之后提取的全部內(nèi)容寫入tхt 文件中,作為語料數(shù)據(jù)集。接著用Jiеbа 分詞工具來對(duì)語料數(shù)據(jù)集進(jìn)行分詞處理。對(duì)于分詞算法的選擇,本研究選用的是基于精確模式的分詞算法,并且將毫無意義的短語、單詞、標(biāo)點(diǎn)符號(hào)等設(shè)置成停用詞。最終得到12 943 組詞語,共94 747 個(gè)詞匯。

    3.2 特征提取

    透過TF-IDF 算法對(duì)樣本數(shù)據(jù)進(jìn)行特征抽取,從樣本數(shù)據(jù)中篩選出名詞、名動(dòng)詞和動(dòng)詞3 種詞,其中將排名前2 000 的單詞作為屬于“5G+醫(yī)療”的關(guān)鍵特征詞。

    4 實(shí)證分析

    4.1 模型實(shí)現(xiàn)與評(píng)估

    本研究構(gòu)建的SVM 分類模型采取二分類法,將屬于前2 000 個(gè)關(guān)鍵特征詞賦值為1(視為“5G+醫(yī)療”的關(guān)鍵詞),而非“5G+醫(yī)療”則賦值為0。透過調(diào)整核函以及控制迭代次數(shù),將總體準(zhǔn)確率超過90%以上作為停止條件來得到最佳的文本分類模型。此外,本研究還與其他算法進(jìn)行比較,隨機(jī)生成20 組文本數(shù)據(jù)集對(duì)其結(jié)果進(jìn)行平均準(zhǔn)確率的計(jì)算,其分類預(yù)測準(zhǔn)確率的結(jié)果如圖1 所示。

    圖1 分類模型的平均準(zhǔn)確率

    從圖1 中的分類準(zhǔn)確率計(jì)算結(jié)果中可以看出,4個(gè)模型的分類結(jié)果都較優(yōu)。平均準(zhǔn)確率都達(dá)到了90%以上,其中線性支持向量機(jī)模型的平均準(zhǔn)確率最大,為93.81%,核支持向量機(jī)分類的平均準(zhǔn)確率最小,為92.71%。通過對(duì)分類模型準(zhǔn)確率的評(píng)估和分析,驗(yàn)證了本文提出的分類結(jié)果的有效性。

    4.2 趨勢分析

    將分類詞與在文章詞權(quán)重大小作為文章重要程度的標(biāo)準(zhǔn),文章重要程度越大說明該篇文章對(duì)“5G+醫(yī)療”有相關(guān)發(fā)展性的描述越多,通過借鑒參考該文章內(nèi)容,綜合“5G+醫(yī)療”研究技術(shù)得出前人普遍認(rèn)同的“5G+醫(yī)療”的關(guān)鍵詞集合,能找出“5G+醫(yī)療”的發(fā)展趨勢、熱點(diǎn),是對(duì)未來研究的靈感來源。

    本研究從2 000 個(gè)關(guān)鍵特征詞中隨機(jī)抽取20 個(gè)關(guān)鍵特征詞形成詞袋,透過詞袋方式與文章題目進(jìn)行匹配,找到相對(duì)重要的學(xué)術(shù)文獻(xiàn),得出重要程度排名前五的文章如圖2 所示。

    圖2 文章重要程度排名前五的文章

    5 結(jié)論

    本研究主要集成了計(jì)算機(jī)科學(xué)、醫(yī)學(xué)以及通信科學(xué)的跨學(xué)科知識(shí)、方法與技術(shù)手段,將醫(yī)療領(lǐng)域中所涉及到的詞匯發(fā)掘較多的價(jià)值信息提煉成關(guān)鍵詞,從學(xué)術(shù)文獻(xiàn)中對(duì)其文本挖掘。大數(shù)據(jù)時(shí)代來臨,使得學(xué)科領(lǐng)域中的文本數(shù)據(jù)海量增長,精準(zhǔn)地提取文本中具有價(jià)值信息的方法對(duì)該領(lǐng)域發(fā)展方向顯得極為重要。

    由于5G 作為一種新興的通信技術(shù),在醫(yī)療領(lǐng)域中可起到快速響應(yīng)的作用。因此,本研究運(yùn)用文本挖掘?qū)Α?G+醫(yī)療”學(xué)術(shù)文本進(jìn)行分類并預(yù)測,研究發(fā)現(xiàn)5G 技術(shù)在醫(yī)療領(lǐng)域中對(duì)于遠(yuǎn)程、診斷、救治、治療等起到了關(guān)鍵作用。由此可知,在未來的醫(yī)療領(lǐng)域的相關(guān)業(yè)務(wù)功能中,5G 技術(shù)的應(yīng)用是加強(qiáng)實(shí)時(shí)性的角色。

    本研究除了進(jìn)行關(guān)鍵詞的挖掘之外,還運(yùn)用了5G技術(shù)匹配到醫(yī)療領(lǐng)域的重要學(xué)術(shù)文章,從而間接了解了醫(yī)療領(lǐng)域中的發(fā)展趨勢、研究熱點(diǎn)以及可持續(xù)發(fā)的方向。

    猜你喜歡
    分詞文檔詞語
    容易混淆的詞語
    有人一聲不吭向你扔了個(gè)文檔
    找詞語
    結(jié)巴分詞在詞云中的應(yīng)用
    詞語欣賞
    基于RI碼計(jì)算的Word復(fù)制文檔鑒別
    值得重視的分詞的特殊用法
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    一枚詞語一門靜
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    巴彦淖尔市| 剑阁县| 高雄市| 马关县| 乳源| 大城县| 正定县| 凭祥市| 汪清县| 马关县| 定南县| 奉贤区| 黄石市| 大连市| 五家渠市| 赫章县| 靖江市| 德昌县| 政和县| 岳阳县| 秦安县| 红桥区| 缙云县| 汝州市| 东乌珠穆沁旗| 天柱县| 曲阳县| 望城县| 聂拉木县| 石台县| 彩票| 沅江市| 鹤山市| 阳泉市| 天等县| 左云县| 宜君县| 邛崃市| 成安县| 武平县| 咸宁市|