王 珺 阮俊斌 葛奕辰 楊顥儀
(上海健康醫(yī)學(xué)院 上海 201318)
基于Python的文本分析技術(shù)可以看作是語(yǔ)料庫(kù)語(yǔ)言學(xué)研究的技術(shù)拓展。語(yǔ)料庫(kù)語(yǔ)言學(xué)首先以真實(shí)語(yǔ)言使用中的語(yǔ)言事實(shí)為研究對(duì)象,再借助計(jì)算機(jī)技術(shù)和統(tǒng)計(jì)學(xué)方法,對(duì)語(yǔ)言數(shù)據(jù)進(jìn)行定性定量的描寫(xiě)和概括,從而挖掘語(yǔ)言運(yùn)用中的規(guī)律[1]。文本分析技術(shù)現(xiàn)在已經(jīng)比較成熟的運(yùn)用在語(yǔ)料庫(kù)語(yǔ)言學(xué)的數(shù)據(jù)處理和分析之中?,F(xiàn)在運(yùn)用比較普遍的有文本降噪與詞頻分析、詞性標(biāo)記與分析、語(yǔ)篇詞匯密度、詞長(zhǎng)分布等,當(dāng)然還有基于無(wú)監(jiān)督的、有監(jiān)督的學(xué)習(xí)模型的文本情感分析等等。本文下面介紹的相關(guān)代碼技術(shù)基于 python3.8.2(64-bit),編輯平臺(tái)為 Anaconda2020.07自帶的Spyder平臺(tái)。
詞頻分析大致可以分為單個(gè)詞、二連詞以及多連詞的詞頻分析,其中單個(gè)詞的詞頻對(duì)于技術(shù)寫(xiě)作的幫助有待研究,本文主要介紹三連詞的詞頻分析,語(yǔ)料來(lái)自斯坦福大學(xué)整理的某影片長(zhǎng)短影片共計(jì)1000條。從實(shí)際的技術(shù)文本語(yǔ)料中整理提取數(shù)據(jù),得到該地區(qū)的用語(yǔ)習(xí)慣或者規(guī)律。雖然不同國(guó)家地區(qū)語(yǔ)言習(xí)慣自然是不同的,但是只要有足夠大的地區(qū)匹配語(yǔ)料作為數(shù)據(jù)分析的基礎(chǔ),我們能夠比較直觀的觀察結(jié)果,基于Python的NLP支持多種語(yǔ)言的處理與分析,可以滿(mǎn)足各種語(yǔ)言的數(shù)據(jù)挖掘要求。在不改變真實(shí)性和科學(xué)性的情況下,當(dāng)我們?cè)诩夹g(shù)寫(xiě)作的過(guò)程中,有意識(shí)地融入分析用于習(xí)慣之后的用詞,可以在一定程度上讓技術(shù)文本更加符合該地區(qū)的用于習(xí)慣。換而言之,可以讓比較呆板的技術(shù)文本更加接地氣,更加為目標(biāo)用戶(hù)所接受,從而提高技術(shù)傳播的效率。
2.2.1 詞性分析理論
首先,詞性是指根據(jù)的詞的特點(diǎn)劃分詞類(lèi)的依據(jù)。它是語(yǔ)言中詞的語(yǔ)法分類(lèi)之一,在語(yǔ)言學(xué)上有著重要的地位。根據(jù)所表示的實(shí)際意義以及語(yǔ)法結(jié)構(gòu),詞性可以分為實(shí)詞和虛詞;按照是否吸收其它詞性來(lái)分類(lèi),詞性能分為開(kāi)放詞類(lèi)和閉合詞類(lèi)。其中實(shí)詞有名詞、動(dòng)詞、形容詞、數(shù)量詞、代詞等,虛詞則有副詞、介詞、連詞、助詞、嘆詞、擬聲詞等等。需要注意的是,漢語(yǔ)中的許多詞的詞性在不同的語(yǔ)境中都會(huì)發(fā)生變化;英語(yǔ)中會(huì)根據(jù)語(yǔ)境變化的則是詞義。其次,詞性分析簡(jiǎn)單來(lái)說(shuō)就是一個(gè)給每個(gè)詞指定一個(gè)詞類(lèi)或者詞匯類(lèi)別標(biāo)記的過(guò)程。現(xiàn)下主流的詞性分析方法是利用語(yǔ)料庫(kù)對(duì)于詞性的規(guī)定以及特殊的統(tǒng)計(jì)法來(lái)得出文本中各詞匯的詞性。但正如上文所言,由于如漢語(yǔ)等語(yǔ)言中某類(lèi)詞的詞性會(huì)根據(jù)某種條件變化而變化,所以我們?cè)谧鲈~性分析時(shí),如果確要追求準(zhǔn)確性,那就不能只依靠現(xiàn)成的算法。然而,不同語(yǔ)種間的準(zhǔn)確語(yǔ)言轉(zhuǎn)換并非現(xiàn)在人工或者計(jì)算機(jī)技術(shù)能夠?qū)崿F(xiàn)的,我們所能做的只有盡量多地收集該語(yǔ)種的語(yǔ)料庫(kù),并在對(duì)文章進(jìn)行降噪后才進(jìn)行詞性分析的處理。因?yàn)?,越是龐大的語(yǔ)料庫(kù),就能意味著有越是龐大的詞匯量來(lái)貼合文本中的詞匯,而越是準(zhǔn)確地去使用停用詞,就能越是能除掉不需要的部分,提取出更為精簡(jiǎn)的信息。
2.2.2 詞性分析應(yīng)用
自然語(yǔ)言處理是利用人類(lèi)交流所使用的自然語(yǔ)言與機(jī)器進(jìn)行交互通訊的技術(shù),是人工智能與搜索引擎的基礎(chǔ)步驟之一。這一技術(shù)在信息檢索和技術(shù)傳播中占有舉足輕重的作用。為了能夠?qū)鞑ゼ夹g(shù)較為準(zhǔn)確地在傳播方與被傳播方之間進(jìn)行語(yǔ)言轉(zhuǎn)換從而達(dá)成信息的共享,必須保證自然語(yǔ)言處理過(guò)程的正確性、快速性及穩(wěn)定性。在現(xiàn)有的自然語(yǔ)言處理技術(shù)中,通過(guò)詞性標(biāo)注是自然語(yǔ)言處理詞法分析中一種較為成熟的技術(shù)。在Python算法中,詞性分析的簡(jiǎn)要處理步驟為去停用詞(即降噪處理)、分詞、取詞根、詞性標(biāo)注以及最后的數(shù)據(jù)處理。Python語(yǔ)言本身具有清晰簡(jiǎn)潔、易于讀取的特點(diǎn),故而在運(yùn)行時(shí)速度快且步驟較為簡(jiǎn)單,并直接在相應(yīng)文檔中生成運(yùn)算結(jié)果。值得注意的是,通過(guò)Python計(jì)算后所得出的詞性數(shù)據(jù)相加所得數(shù)據(jù)為13287字,比原文的11500字多出了1787字,這可能是由于對(duì)于詞性的界定不準(zhǔn)確所造成的。由于同一個(gè)英語(yǔ)單詞可能包含有不同的詞性與詞意,所以只有正確且唯一標(biāo)注了文章中所有的單詞詞性,才不會(huì)在數(shù)據(jù)處理時(shí)出現(xiàn)差錯(cuò)。就算是只有個(gè)位數(shù)的數(shù)據(jù)誤差也會(huì)影響到后續(xù)的自然語(yǔ)言處理過(guò)程,進(jìn)而影響被傳播者對(duì)于技術(shù)的理解。那么,如果我們想要將詞性分析應(yīng)用于技術(shù)傳播,就必須確保一個(gè)單詞對(duì)應(yīng)一個(gè)詞性。在不造成歧義地進(jìn)行技術(shù)傳播的前提之下,用戶(hù)才能在進(jìn)行信息檢索時(shí)也能夠準(zhǔn)確檢索到需要的內(nèi)容并獲取有效信息。[2]
特征文本指的是文本包含某一或者多個(gè)具體特征的文本集合,對(duì)特征文本進(jìn)行自然語(yǔ)言的處理很可能能夠得到該特征下的文本數(shù)據(jù)。其中的關(guān)鍵就是“特征”。比如文本均包含某一固定詞匯、比如文本含有某些特定情感特征等等。本文介紹的特征文本的提取就是第一種──包含某一固定詞匯。眾所周知,在進(jìn)行情感分析之前一般都需要構(gòu)建語(yǔ)料庫(kù),而爬取評(píng)論作為語(yǔ)料數(shù)據(jù)基礎(chǔ)則是常見(jiàn)的選擇[3]。當(dāng)有了一定的預(yù)料基礎(chǔ)之后,需要從中提取特征文本,這也是情感分析過(guò)程的第二個(gè)常見(jiàn)步驟。若一個(gè)詞作為技術(shù)文本的情感分析特征詞,那么這個(gè)詞首先是──instruction book(當(dāng)然其他能夠指代產(chǎn)品技術(shù)文本的詞匯也可以作為特征詞)。確定了特征詞之后,我們就可以進(jìn)行文本的提取了,這個(gè)過(guò)程難度不大,簡(jiǎn)單來(lái)講就是對(duì)集合文本分句然后遍歷,這樣可以得到我們需要的包含特征詞的相關(guān)語(yǔ)料,從而進(jìn)行下一步的分析。其次,在選擇了常用的 TextBlob和snownlp的情感分析工具進(jìn)行分析處理之后,應(yīng)當(dāng)?shù)玫絻刹糠株P(guān)于技術(shù)文本的數(shù)據(jù),一部分是積極的,另一部分則是消極的。有了這樣一份數(shù)據(jù),我們就能開(kāi)始使用它進(jìn)行我們技術(shù)寫(xiě)作的指導(dǎo)工作了,當(dāng)然對(duì)這些數(shù)據(jù)我們其實(shí)能夠進(jìn)一步處理,參考詞頻分析,可以進(jìn)一步得到關(guān)于技術(shù)文本哪一塊的內(nèi)容為消費(fèi)者最為關(guān)注的部分,從而有選擇地進(jìn)行分析。從消費(fèi)者對(duì)技術(shù)文本的消極評(píng)價(jià),能夠直觀了解技術(shù)文本那些地方需要改進(jìn),結(jié)合詞頻頻率分析,就明白處理技術(shù)文本中消費(fèi)者所關(guān)注的難題。
首先,用Python文本分析技術(shù),尋找與熒光成像技術(shù)相關(guān)的文本進(jìn)行文本詞頻、詞性分析,提煉技術(shù)文本的內(nèi)在詞性占比以及用詞規(guī)律,發(fā)掘以LED燈為激發(fā)光源的新型熒光顯微鏡,來(lái)取代傳統(tǒng)的汞燈熒光顯微鏡,設(shè)計(jì)表述為精準(zhǔn)的熒光顯微方法及提高檢測(cè)精度方式。其次,通過(guò)對(duì)于產(chǎn)品的評(píng)價(jià)說(shuō)明,憑借Python技術(shù)提取特征詞,進(jìn)而關(guān)注基于目前主流的高壓汞燈熒光顯微鏡的準(zhǔn)確度有待提升、使用壽命不長(zhǎng)以及造價(jià)高燈等問(wèn)題的產(chǎn)品評(píng)論進(jìn)行情感分析,將開(kāi)發(fā)新型的以LED為發(fā)射光源的熒光顯微鏡來(lái)取代傳統(tǒng)的高壓汞燈顯微鏡的技術(shù)優(yōu)勢(shì)顯現(xiàn)出來(lái),以完善產(chǎn)品在技術(shù)傳播過(guò)程中的可行性。其中要表明技術(shù)關(guān)鍵說(shuō)明利用LED作為檢測(cè)光源的節(jié)能效果和清晰度;LED的環(huán)保及有可持續(xù)性發(fā)展意義。此外,在制作技術(shù)文本時(shí),關(guān)注其他技術(shù)文本中提取、降噪、分詞、詞性分析的運(yùn)算結(jié)果,可利用最優(yōu)關(guān)鍵詞制作圖例,強(qiáng)調(diào)自主設(shè)計(jì)的熒光激發(fā)模塊,是根據(jù)高量子效率的染料進(jìn)行熒光波長(zhǎng)的優(yōu)化設(shè)計(jì),使被檢熒光信號(hào)亮度更強(qiáng),信號(hào)點(diǎn)更加突出,并極大的降低背景噪聲,提高檢測(cè)信號(hào)的對(duì)比度,從而提高檢測(cè)準(zhǔn)確率的功能。
本文從多連詞詞頻到詞性分析再到情感分析進(jìn)行技術(shù)協(xié)作的輔助與指導(dǎo),在國(guó)內(nèi)目前也是一種比較新穎的嘗試,不過(guò)具體的對(duì)于融入基于Python工具的文本分析技術(shù)為以開(kāi)發(fā)新型LED光源熒光顯微鏡的技術(shù)文本的提供了思路。但鑒于Python工具的升級(jí)換代,亦可能影響技術(shù)文本寫(xiě)作的方式和方法,值得進(jìn)一步研究與探索。