楊 科,鄭俊輝,洪 葉
(1.西南民族大學(xué)外國(guó)語言文學(xué)學(xué)院,四川 成都 610041;2.西南民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院, 四川 成都 610041;3.成都文理學(xué)院外國(guó)語學(xué)院,四川 成都 610401)
目前,在教育行業(yè)已廣泛地使用數(shù)據(jù)挖掘技術(shù)來解決口譯專業(yè)所面臨的問題.近五年來,從全國(guó)口譯大會(huì),到全國(guó)翻譯技術(shù)研究與教育高峰論壇,再到一系列口譯技術(shù)專欄研討,口譯領(lǐng)域的技術(shù)變革、口譯職業(yè)所面臨的技術(shù)挑戰(zhàn),以及口譯教育中的技術(shù)創(chuàng)新,已成為國(guó)內(nèi)外學(xué)者持續(xù)關(guān)注的焦點(diǎn)問題[1].目前的主要挑戰(zhàn)包括自動(dòng)翻譯工具的崛起、信息爆炸和信息過載、技術(shù)和行業(yè)術(shù)語的變化、口譯實(shí)時(shí)性要求、文化和語境的理解、教育革新的迫切需求等.早在90年代中期,口譯實(shí)踐中對(duì)ICT技術(shù)的應(yīng)用開始進(jìn)入研究視野.計(jì)算機(jī)輔助口譯(Computer Aided Interpretation, CAI)作為基于CAT的一項(xiàng)計(jì)算機(jī)輔助人工口譯的新思路,目前已在數(shù)字化新時(shí)代的背景下成為了口譯界熱門研究方向.詞性標(biāo)注與協(xié)同過濾推薦算法作為自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),為漢英口譯質(zhì)量的提高提供了新的思路和方法.
隨著計(jì)算機(jī)輔助翻譯(CAT)技術(shù)的不斷發(fā)展,口譯輔助技術(shù)在實(shí)現(xiàn)改進(jìn)方面取得顯著進(jìn)展.這些改進(jìn)主要集中在提高口譯任務(wù)的實(shí)時(shí)性、精確性和用戶體驗(yàn)上. 其中涵蓋的關(guān)鍵方面包括但不限于語音識(shí)別(ASR)準(zhǔn)確性提升、機(jī)器翻譯(MT)集成如神經(jīng)機(jī)器翻譯(NMT)進(jìn)一步優(yōu)化,以及實(shí)時(shí)翻譯建議和多模態(tài)翻譯等領(lǐng)域的創(chuàng)新.盡管這些進(jìn)步為譯員提供了更為流暢及用戶友好的工作體驗(yàn),但仍然需要謹(jǐn)慎應(yīng)對(duì)一些挑戰(zhàn),如語境的復(fù)雜性、文化差異以及特定領(lǐng)域的專業(yè)術(shù)語.口譯人員需要具備深刻的文化理解和語境分析能力,以確保翻譯的準(zhǔn)確性和自然度.順句驅(qū)動(dòng)作為漢英口譯中的一種常用技巧,可以幫助翻譯員更快地理解原文,并更準(zhǔn)確地傳達(dá)所需翻譯信息.然而,由于口語表達(dá)本身的實(shí)時(shí)性特點(diǎn),順句驅(qū)動(dòng)技巧在實(shí)際應(yīng)用中存在一些困難,如長(zhǎng)句和復(fù)雜句的處理等.為了解決這些問題,本文提出了一種基于詞性標(biāo)注規(guī)則的協(xié)同過濾算法,以技術(shù)輔助順句驅(qū)動(dòng)技巧在口譯中的應(yīng)用.
首先,詞性標(biāo)注作為一種對(duì)文本中詞匯進(jìn)行語法屬性標(biāo)注的方法,可以幫助譯者更準(zhǔn)確地理解原文的語義和結(jié)構(gòu).通過對(duì)漢英兩種語言的詞性進(jìn)行對(duì)比分析,可以發(fā)現(xiàn)它們?cè)谀承┓矫娴南嗨菩院筒町愋?從而為譯者提供更為精確的翻譯指導(dǎo).此外,詞性標(biāo)注還可以輔助譯者進(jìn)行句子結(jié)構(gòu)的轉(zhuǎn)換,使得譯文更符合目標(biāo)語言的表達(dá)習(xí)慣.其次,協(xié)同過濾推薦算法作為一種廣泛應(yīng)用于推薦系統(tǒng)的技術(shù),其主要思想是通過分析用戶的行為和偏好,發(fā)現(xiàn)用戶之間的相似性,從而為用戶推薦他們可能感興趣的內(nèi)容.在漢英口譯領(lǐng)域,我們可以將譯者視為用戶,將翻譯任務(wù)視為推薦內(nèi)容.通過構(gòu)建譯者之間的相似度矩陣,可以為每位譯者推薦與其翻譯風(fēng)格相近的任務(wù),從而提高翻譯效率和質(zhì)量.同時(shí),協(xié)同過濾推薦算法還可以根據(jù)譯者的歷史翻譯記錄和評(píng)價(jià)信息,為其提供個(gè)性化的翻譯建議和反饋,有助于譯者不斷優(yōu)化自己的翻譯策略.
協(xié)同過濾算法受益于大數(shù)據(jù).協(xié)同過濾是一種推薦系統(tǒng)算法,其主要目標(biāo)是根據(jù)用戶的歷史行為和其他用戶的行為來預(yù)測(cè)用戶可能感興趣的項(xiàng)目或內(nèi)容.大數(shù)據(jù)集提供了更多的用戶行為數(shù)據(jù)和核心名詞信息,這可以用來訓(xùn)練更精確的協(xié)同過濾模型.在真實(shí)系統(tǒng)中,用戶與核心名詞之間的交互數(shù)據(jù)通常是稀疏的,即大多數(shù)用戶只與少數(shù)核心名詞互動(dòng),大數(shù)據(jù)技術(shù)有助于處理這種稀疏性問題.同時(shí)協(xié)同過濾算法需要比較大的用戶-核心名詞矩陣來進(jìn)行計(jì)算.使用大數(shù)據(jù)技術(shù)可以更有效地處理大規(guī)模的用戶和核心名詞數(shù)據(jù),提高算法的擴(kuò)展性.該策略結(jié)合了詞性標(biāo)注和協(xié)同過濾算法,針對(duì)口譯順句驅(qū)動(dòng)中的判斷選擇核心名詞,因此能夠在一定程度上提升口譯的質(zhì)量和準(zhǔn)確性.大數(shù)據(jù)技術(shù)可以用于實(shí)時(shí)處理用戶行為數(shù)據(jù),以便及時(shí)更新推薦模型,反映用戶的最新興趣和行為.本文先后介紹了口譯順句驅(qū)動(dòng)技巧的基本概念和方法、詞性標(biāo)注和協(xié)同過濾算法的原理和應(yīng)用.最后,通過實(shí)驗(yàn)驗(yàn)證了該組合方法的有效性和應(yīng)用優(yōu)勢(shì).本文的主要?jiǎng)?chuàng)新點(diǎn)如下:
1)本文采用了融合詞性標(biāo)注與協(xié)同過濾的獨(dú)特方法研究順句驅(qū)動(dòng),這一方法有望為口譯質(zhì)量的提升提供全新的途徑.通過強(qiáng)調(diào)句子級(jí)別的推薦和詞性標(biāo)注有助于更精確地改善口譯表現(xiàn).
2)本文利用大數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù),更全面地分析口譯數(shù)據(jù),以獲得深入的見解.這是大數(shù)據(jù)與協(xié)同過濾結(jié)合的關(guān)鍵創(chuàng)新點(diǎn),能夠?yàn)樘岣呖谧g質(zhì)量帶來更強(qiáng)大的分析和洞察.
3)協(xié)同過濾算法通過分析口譯員與不同口譯資源(如翻譯工具、培訓(xùn)資料、行業(yè)論文)的關(guān)系,可以通過記錄口譯員的使用歷史和評(píng)價(jià)等信息來建立用戶-資源關(guān)系模型.
口譯質(zhì)量的提升效能的研究是對(duì)口譯質(zhì)量提升的探索性研究,也為未來更深入的口譯質(zhì)量研究領(lǐng)域提供了核心名詞推薦基礎(chǔ).
詞性標(biāo)注是在給定句子中判定每個(gè)詞的語法范疇,確定其詞性并加以標(biāo)注的過程[2].同時(shí)詞性標(biāo)注也是自然語言處理領(lǐng)域的基礎(chǔ)[3].詞性標(biāo)注(Part-of-Speech Tagging,PST)主要是各類文本基于機(jī)器學(xué)習(xí)任務(wù)(如:語義分析、指代消解等)的預(yù)處理步驟,是自然語言處理中一項(xiàng)非常重要的基礎(chǔ)性工作.詞性標(biāo)注具體方法流程見圖1.基于規(guī)則的詞性標(biāo)注方法是較早的一種詞性標(biāo)注方法,其基本思想是按兼類詞搭配關(guān)系同時(shí)利用上下文語境建造詞類消歧規(guī)則[4].技術(shù)層面看,60%的研究依然采用傳統(tǒng)的標(biāo)注、檢索和提取工具,僅40%的研究會(huì)采用一些新興的更為先進(jìn)的語料庫(kù)技術(shù)與工具[5].盡管隨著標(biāo)注語料庫(kù)的規(guī)模不斷擴(kuò)大可利用資源也日益增多,然而仍然存在一個(gè)挑戰(zhàn),即:目前仍然需要依賴人工提取規(guī)則的方法,而這一方法的效率相對(duì)較低.為此,應(yīng)運(yùn)而生了一種基于機(jī)器學(xué)習(xí)的規(guī)則自動(dòng)提取方法.其中NLTK(Natural Language Toolkit)庫(kù)是一種被廣泛應(yīng)用于自然語言處理任務(wù)的Python庫(kù).在本研究中,沒有直接單獨(dú)使用NLTK庫(kù)模塊對(duì)語言進(jìn)行預(yù)處理,而是調(diào)取漢英雙語語料后使用JIEBA庫(kù)進(jìn)行中文源語的分詞與詞性標(biāo)注,并在口譯順句驅(qū)動(dòng)視角下有機(jī)結(jié)合協(xié)同過濾推薦算法進(jìn)行算法的設(shè)計(jì)和實(shí)現(xiàn),本研究旨在利用自定義的算法和數(shù)據(jù)處理方法,以更好地適應(yīng)漢英口譯實(shí)操及學(xué)習(xí)領(lǐng)域的特定需求并進(jìn)一步解決問題.因此,本研究在方法選擇和實(shí)驗(yàn)實(shí)施上更加側(cè)重口譯順句驅(qū)動(dòng)算法的獨(dú)特性和個(gè)性化優(yōu)化.
圖1 詞性標(biāo)注方法流程圖
詞性標(biāo)注在為后續(xù)文本分析提供基本的詞匯信息方面具有重要作用,如:文本分類、實(shí)體識(shí)別和語義分析等任務(wù),從而有效提高文本處理的效率和準(zhǔn)確性.
“順句驅(qū)動(dòng)”實(shí)為順譯,譯員按照所聽到的原句順序,根據(jù)實(shí)際情況,對(duì)句子進(jìn)行切分,細(xì)化為多個(gè)信息單位,基于此,通過連詞把各個(gè)單位串聯(lián)起來,表達(dá)出對(duì)應(yīng)的語義[6].在順句生成過程中,可以結(jié)合詞性標(biāo)注結(jié)果,選擇合適的詞匯進(jìn)行填充,提高順句生成的準(zhǔn)確度,進(jìn)而提升口譯輸出的整體質(zhì)量.切分技巧(chunking)是同傳譯員的必備技巧之一,即譯員將發(fā)言人冗長(zhǎng)而復(fù)雜的句子切分為短小且意義完整的小句,而后再將這些短句連接起來,組成完整的意義.在運(yùn)用切分技巧時(shí),對(duì)源語長(zhǎng)句的切分是同聲傳譯的重點(diǎn),因此詞性標(biāo)注顯得尤為關(guān)鍵.通過詞性標(biāo)注,可以更準(zhǔn)確地理解源語言句子的語法結(jié)構(gòu)和意義,從而更好地進(jìn)行語句切分.同時(shí),詞性標(biāo)注還可以協(xié)助譯員判斷單詞的重要性和作用,從而更好地組織翻譯內(nèi)容,使翻譯更加流暢和自然.
綜上所述,詞性標(biāo)注和口譯順句驅(qū)動(dòng)之間有著密切的關(guān)聯(lián),詞性標(biāo)注是口譯順句驅(qū)動(dòng)的重要組成部分,可以幫助譯員更好地理解源語言句子的語法結(jié)構(gòu)和意義,從而更好地進(jìn)行翻譯.
基于模型的協(xié)同過濾算法是一種經(jīng)典的推薦系統(tǒng)算法,它通過建模用戶和核心名詞之間的關(guān)系,利用用戶歷史行為數(shù)據(jù)來預(yù)測(cè)用戶對(duì)未知核心名詞的喜好程度.下面將詳細(xì)介紹該算法的原理.
1) 數(shù)據(jù)表示
在基于模型的協(xié)同過濾算法中,通常使用用戶-核心名詞評(píng)分矩陣來表示用戶歷史行為數(shù)據(jù).這個(gè)矩陣由用戶數(shù)量和核心名詞數(shù)量構(gòu)成,其中每一行代表一個(gè)用戶,每一列代表一個(gè)核心名詞,而每個(gè)元素則表示用戶對(duì)核心名詞的評(píng)分.這些評(píng)分可以是真實(shí)的評(píng)分值,也可以是表示用戶行為的隱式反饋指標(biāo),比如觀看次數(shù)、點(diǎn)擊次數(shù)等.
2)權(quán)重獲取的途徑與方法
在基于模型的協(xié)同過濾推薦算法中,關(guān)于權(quán)重獲取的途徑與方法,可以采用基于TF-IDF算法的方式.TF-IDF(Term Frequency-Inverse Document Frequency,詞頻-逆文檔頻率)是一種用于信息檢索和文本挖掘的常用算法,通過計(jì)算文本中詞項(xiàng)的權(quán)重,可以應(yīng)用于口譯專業(yè)領(lǐng)域的個(gè)性化推薦.本研究使用基于TF-IDF算法進(jìn)行口譯領(lǐng)域的個(gè)性化推薦.具體而言,首先對(duì)口譯文本進(jìn)行分詞,使用分詞工具并去除停用詞等無用信息.然后,計(jì)算每個(gè)單詞在所有口譯文本中的詞頻以及其出現(xiàn)的文檔數(shù),進(jìn)而得到逆文檔頻率.通過計(jì)算單詞的TF-IDF值,即詞頻與逆文檔頻率的乘積,可以獲得每個(gè)單詞的權(quán)重.在這個(gè)過程中,對(duì)于核心名詞,可以計(jì)算其所在句子中所有單詞的TF-IDF值之和,作為核心名詞的權(quán)重.這種基于TF-IDF的權(quán)重計(jì)算方法能夠有效捕捉到核心名詞在整個(gè)口譯文本中的重要性,從而在協(xié)同過濾推薦中更準(zhǔn)確地反映用戶的喜好和關(guān)注點(diǎn).
3) 模型訓(xùn)練
在訓(xùn)練階段,算法通過分析用戶歷史行為數(shù)據(jù)來構(gòu)建一個(gè)模型.一種常見的模型訓(xùn)練方法是對(duì)矩陣進(jìn)行分解,它可以將用戶-核心名詞評(píng)分矩陣分解為三個(gè)矩陣的乘積,分別代表用戶的特征矩陣、核心名詞的特征矩陣以及評(píng)分的權(quán)重矩陣.矩陣分解是將這個(gè)評(píng)分矩陣分解為若干個(gè)低秩矩陣的乘積,通過這個(gè)過程可以提取出用戶和核心名詞的隱含特征,捕捉到用戶與核心名詞之間的關(guān)系.常見的矩陣分解方法有奇異值分解(Singular Value Decomposition,SVD)和交替最小二乘法(Alternating Least Squares,ALS).
SVD是一種經(jīng)典的矩陣分解方法,它將評(píng)分矩陣分解為如下形式:
其中,D評(píng)分矩陣,U是一個(gè)用戶特征矩陣,每一行代表一個(gè)用戶的特征向量;S是一個(gè)對(duì)角矩陣,包含評(píng)分矩陣的奇異值;V是一個(gè)核心名詞特征矩陣,每一列代表一個(gè)核心名詞的特征向量.
這種分解可以提取出用戶和核心名詞的隱含特征,從而捕捉到用戶與核心名詞之間的關(guān)系.在SVD分解中,通過計(jì)算矩陣的奇異值分解來得到特征矩陣.通常使用奇異值分解中的k個(gè)最大奇異值和相關(guān)特征向量來保留主要信息,這樣可以減少計(jì)算量并提高模型的泛化能力.
另一種常見的模型訓(xùn)練方法是交替最小二乘法(Alternating Least Squares,ALS),它通過迭代優(yōu)化用戶和核心名詞的特征向量來逼近用戶-核心名詞評(píng)分矩陣.ALS是另一種常用的矩陣分解方法,它通過迭代優(yōu)化用戶和核心名詞的特征向量來逼近評(píng)分矩陣.具體原理如下:
其中R表示用戶對(duì)核心名詞的評(píng)分矩陣,X表示用戶對(duì)隱含特征的偏好矩陣,Y表示商品所包含隱含特征的矩陣.
ALS的核心就是這樣一個(gè)假設(shè):打分矩陣是近似低秩的.換句話說,就是一個(gè)打分矩陣R可以由分解的兩個(gè)小矩陣X和Y的乘積來近似.這就是ALS的矩陣分解方法.為了讓X和Y相乘能逼近R,因此需要最小化損失函數(shù)(loss function),因此需要最小化損失函數(shù),在此定義為平方誤差和(Mean square error,MSE).
一般損失函數(shù)都會(huì)需要加入正則化項(xiàng)(Regularization item)來避免過擬合的問題,通常是用2,所以目標(biāo)函數(shù)會(huì)被修改為:
在每輪迭代中,ALS算法會(huì)固定用戶矩陣或核心名詞矩陣,然后利用最小二乘法來更新另一部分矩陣.通過交替優(yōu)化用戶和核心名詞矩陣,最終得到能夠較好擬合評(píng)分矩陣的模型.ALS算法會(huì)交替更新用戶和核心名詞的特征向量,并通過最小化均方差損失函數(shù)來優(yōu)化模型.模型訓(xùn)練的目標(biāo)是尋找到一個(gè)能夠最好地?cái)M合用戶歷史行為數(shù)據(jù)的模型,從而可以用來預(yù)測(cè)用戶對(duì)未知核心名詞的喜好.
4)預(yù)測(cè)階段:
在預(yù)測(cè)階段,算法利用訓(xùn)練階段得到的模型來預(yù)測(cè)用戶對(duì)未知核心名詞的評(píng)分.具體形式如下:
常用的相似度度量方法包括余弦相似度和皮爾遜相關(guān)系數(shù).
皮爾遜相關(guān)系數(shù):
其中,u和v分別是評(píng)分向量,和表示各個(gè)向量對(duì)應(yīng)的分量,和表示每個(gè)向量對(duì)應(yīng)的均值.
余弦相似度衡量了用戶和核心名詞之間的夾角,值越接近1表示相似度越高;而皮爾遜相關(guān)系數(shù)則衡量了用戶和核心名詞之間的線性相關(guān)性,值越接近1表示相關(guān)性越高.
根據(jù)相似度權(quán)重和用戶的歷史評(píng)分,算法可以計(jì)算出對(duì)未知核心名詞的預(yù)測(cè)評(píng)分.預(yù)測(cè)評(píng)分可以用來度量用戶對(duì)該核心名詞的喜好程度,從而為用戶推薦最相關(guān)的核心名詞.
5)推薦排序:
最后一步是根據(jù)預(yù)測(cè)評(píng)分對(duì)用戶可能感興趣的核心名詞進(jìn)行排序,并向用戶推薦與之相關(guān)的前幾個(gè)核心名詞.推薦排序可以根據(jù)預(yù)測(cè)評(píng)分的大小來進(jìn)行,通常越大表示用戶越可能對(duì)該核心名詞感興趣.
需要注意的是,在實(shí)際應(yīng)用中,基于模型的協(xié)同過濾算法還需要解決稀疏數(shù)據(jù)和冷啟動(dòng)問題.稀疏數(shù)據(jù)是指用戶-核心名詞評(píng)分矩陣中大部分元素為空,這可能導(dǎo)致無法準(zhǔn)確地預(yù)測(cè)用戶的偏好.冷啟動(dòng)問題是指對(duì)于新加入系統(tǒng)的用戶或核心名詞,由于缺乏歷史數(shù)據(jù),很難進(jìn)行準(zhǔn)確地推薦.解決這些問題是基于模型的協(xié)同過濾算法的研究重點(diǎn)之一.
推薦排序可以根據(jù)預(yù)測(cè)評(píng)分的大小來進(jìn)行.通常,預(yù)測(cè)評(píng)分越大表示用戶越可能對(duì)該核心名詞感興趣,因此可以將預(yù)測(cè)評(píng)分作為排序依據(jù)進(jìn)行推薦.
基于模型的協(xié)同過濾算法通過建模用戶和核心名詞之間的關(guān)系,利用用戶歷史行為數(shù)據(jù)來預(yù)測(cè)用戶對(duì)未知核心名詞的喜好.它通過訓(xùn)練階段構(gòu)建模型,在預(yù)測(cè)階段根據(jù)相似度計(jì)算和用戶歷史評(píng)分進(jìn)行預(yù)測(cè),并根據(jù)預(yù)測(cè)評(píng)分進(jìn)行推薦排序.該算法在推薦系統(tǒng)中得到了廣泛應(yīng)用,為用戶提供個(gè)性化的推薦服務(wù).
基于模型的協(xié)同過濾推薦算法中,計(jì)算核心名詞權(quán)重采用基于TF-IDF算法的方法.具體而言,可以通過以下步驟計(jì)算核心名詞權(quán)重:
①對(duì)口譯文本進(jìn)行分詞:使用分詞工具對(duì)口譯文本進(jìn)行分詞,并去除停用詞等無用信息.
②計(jì)算詞頻與逆文檔頻率:對(duì)于每個(gè)單詞,計(jì)算其在所有口譯文本中的詞頻以及其所出現(xiàn)的文檔數(shù).逆文檔頻率指的是單詞在所有口譯文本中出現(xiàn)的文檔次數(shù)的倒數(shù).詞頻與逆文檔頻率的乘積就是該單詞的TF-IDF值.
③ 計(jì)算核心名詞權(quán)重:對(duì)于每個(gè)核心名詞,計(jì)算其所在句子中所有單詞的TF-IDF值之和.
計(jì)算完核心名詞權(quán)重之后,可以使用該權(quán)重作為推薦系統(tǒng)的輸入特征之一,以此來為用戶推薦相關(guān)口譯文本.具體而言,在協(xié)同過濾推薦算法中,核心名詞權(quán)重可以與用戶歷史數(shù)據(jù)一起使用,用于訓(xùn)練用戶口譯習(xí)慣模型和預(yù)測(cè)用戶的口譯偏好.
現(xiàn)有研究已經(jīng)明示,不同的詞匯在句法構(gòu)建和句意整合中的作用會(huì)受到其在句法結(jié)構(gòu)中的地位以及其詞匯特性的影響,其中句中核心名詞的作用尤為顯著[7].譯員在口譯的過程中無論是交替?zhèn)髯g還是同聲傳譯,實(shí)際的聽譯過程都需要迅速判斷總領(lǐng)全句、劃分意群的關(guān)鍵名詞或名詞短語.核心名詞作為建構(gòu)源語句子的重要單元,在源語意義領(lǐng)會(huì)及譯語輸出方面起著重要作用.
以下為CATTI英語口譯語料庫(kù)中的漢英同傳語料案例:
在銀行系統(tǒng)內(nèi),大型國(guó)有銀行的貸款份額也由遠(yuǎn)超60%下降到不足40%,但是容量較小、受地方政府政策影響較大的小型地方銀行則增加了市場(chǎng)份額.幾周前,本人出席了在大溪地召開的太平洋國(guó)家衛(wèi)生部長(zhǎng)會(huì)議,目睹了氣候變化對(duì)當(dāng)?shù)厝嗣裨斐傻挠绊?一個(gè)十幾歲的少年法魯烏對(duì)氣候變化的了解令人贊嘆.他告訴我,他和他的朋友們一直在討論如果圖瓦盧被海水淹沒了他們?cè)撛趺崔k.他朋友中許多人決定與圖瓦盧共存亡,聽后深受觸動(dòng),這些孩子本該歡度童年,然而他們卻在思考是要離開家園還是與自己的家園一同走向滅亡.
基于以上示例,需要安裝jieba、snownlp庫(kù),并將文本文件命名為′corpus.txt′.
運(yùn)行下列偽代碼,將輸入文本中每個(gè)詞語的詞性標(biāo)注結(jié)果:
運(yùn)行以上代碼,可以得到以下詞性標(biāo)注結(jié)果:
[(’在’,’p’),(’銀行’,’n’),(’系統(tǒng)’,’n’),(’內(nèi)’,’f’),(’,’,’x’),(’大型’,’a’),(’國(guó)有’,’a’),(’銀行’,’n’),(’的’,’uj’),(’貸款’,’n’),(’份額’,’n’),(’也’,’d’),(’由’,’p’),(’遠(yuǎn)超’,’v’),(’60’,’x’),(’%’,’x’),(’下降’,’v’),(’到’,’v’),(’不足’,’v’),(’40’,’x’),(’%’,’x’),(’,’,’x’),(’而’,’c’),(’容量’,’n’),(’較小’,’a’),(’、’,’x’),(’受’,’v’),(’地方政府’,’n’),(’影響’,’vn’),(’較大’,’a’),(’的’,’uj’),(’小型’,’a’),(’地方’,’n’),(’銀行’,’n’),(’則’,’d’),(’增加’,’v’),(’了’,’ul’),(’市場(chǎng)’,’n’),(’份額’,’n’),(’.’,’x’)]
…………
其中,詞性標(biāo)注的含義可以參考下表1.
表1 詞性標(biāo)注含義
根據(jù)詞性標(biāo)注結(jié)果,篩選確定核心名詞.收集語料中核心名詞的權(quán)重,將不同的核心名詞進(jìn)行分組:
①意群1核心詞:金融、信貸、政府、債務(wù).
②意群2核心詞:銀行、貸款、政府、信貸、金融.
③意群3核心詞:衛(wèi)生、氣候、淹沒、滅亡.
然后基于不同的核心名詞,計(jì)算不同語料核心名詞的權(quán)重.
加權(quán)操作:根據(jù)不同核心名詞的權(quán)重對(duì)它們進(jìn)行加權(quán),得到核心名詞的總體權(quán)重[9].相較于隱式核心名詞,顯式核心名詞的權(quán)值更大,但密度也大,因此所顯核心名詞占比相對(duì)較小.在收集各類不同的語料核心名詞數(shù)據(jù)后,數(shù)據(jù)需要進(jìn)入預(yù)處理流程,主要為減噪和歸一化.
為了驗(yàn)證基于順句驅(qū)動(dòng)的協(xié)同過濾推薦算法是否在口譯質(zhì)量提升方面具有明顯優(yōu)勢(shì),首先在語料庫(kù)中進(jìn)行了初步的詞性標(biāo)注.NLTK庫(kù)可以方便地實(shí)現(xiàn)對(duì)英文的詞性標(biāo)注.深入了解詞性標(biāo)注理解和處理文本數(shù)據(jù)至關(guān)重要,并且可以為研究和應(yīng)用提供有用的信息.本文對(duì)深入研究詞性標(biāo)注可以提供更多的背景和洞察力,特別是在文本處理和語言理解方面.盡管已經(jīng)有成熟的工具庫(kù)可以進(jìn)行詞性標(biāo)注,但深入研究這一知識(shí)點(diǎn)仍然具有價(jià)值.這有助于研究者更好地理解文本數(shù)據(jù)處理的基本概念,并在需要時(shí)更好地運(yùn)用這些知識(shí).基于語料庫(kù)詞性標(biāo)注的協(xié)同過濾推薦算法基本原理為:根據(jù)語料庫(kù)對(duì)核心名詞的權(quán)重,發(fā)現(xiàn)與核心名詞和權(quán)重相似名詞.并基于核心名詞的權(quán)重歷史信息,計(jì)算出當(dāng)前核心名詞的權(quán)重,如圖2所示.
圖2 基于語料庫(kù)協(xié)同過濾推薦算法的核心名詞圖譜
1)實(shí)驗(yàn)環(huán)境配置
實(shí)驗(yàn)采用PyTorch1.4.0深度學(xué)習(xí)框架,編程環(huán)境Python3.7.9;實(shí)驗(yàn)運(yùn)行環(huán)境為Ubuntu16.04系統(tǒng);CPU為Intel Core i7-6700k CPU,內(nèi)存為32GB;GPU為TITAN V,顯存為12GB;CUDA版本為10.2.
2) 實(shí)驗(yàn)數(shù)據(jù)
實(shí)驗(yàn)所用的數(shù)據(jù)基于CATTI漢英語料中提取的一段較為典型的漢英語句,從中提取核心名詞:金融;信貸;政府;衛(wèi)生;淹沒;滅亡,債務(wù);氣候;銀行.
3) 實(shí)驗(yàn)步驟
①對(duì)句子進(jìn)行詞性標(biāo)注
使用NLTK工具對(duì)漢英語句進(jìn)行詞性標(biāo)注,將標(biāo)注結(jié)果用于后續(xù)的協(xié)同過濾推薦算法中.
②構(gòu)建相似矩陣
使用余弦相似度計(jì)算不同核心名詞之間的相似度,得到一個(gè)相似矩陣.相似矩陣中每個(gè)元素表示兩個(gè)核心名詞之間的相似度,可被用于后續(xù)的協(xié)同過濾推薦算法中.
③使用協(xié)同過濾推薦算法進(jìn)行預(yù)測(cè)
使用基于相似矩陣和偏好矩陣的協(xié)同過濾推薦算法,對(duì)下一個(gè)可能出現(xiàn)的詞進(jìn)行預(yù)測(cè).在預(yù)測(cè)時(shí),考慮以下兩種情況:
A:僅使用相似矩陣進(jìn)行預(yù)測(cè):在這種情況下,只使用相似矩陣來預(yù)測(cè)下一個(gè)可能出現(xiàn)的詞,不考慮詞性信息.
B:結(jié)合詞性標(biāo)注的協(xié)同過濾推薦算法:在這種情況下,除了使用相似矩陣,還結(jié)合了詞性標(biāo)注信息,以提高模型的準(zhǔn)確性.
計(jì)算形成如下較具代表性的核心名詞詞類的權(quán)重預(yù)測(cè)模型,見表2.
表2 核心名詞的權(quán)重表
該表格代表了一個(gè)漢英口譯順句驅(qū)動(dòng)應(yīng)用中的核心名詞權(quán)重預(yù)測(cè)模型.每一行對(duì)應(yīng)一個(gè)核心名詞,而每一列代表不同的主題,包括金融、信貸、政府、衛(wèi)生、淹沒和滅亡.表格中的數(shù)值表示了每個(gè)核心名詞在各個(gè)主題下的權(quán)重值,這些權(quán)重值是通過預(yù)測(cè)模型計(jì)算得出的.相似度列則展示了每個(gè)核心名詞與其他核心名詞之間的語義相似度,數(shù)值在0到1之間進(jìn)行了歸一化處理.這些相似度權(quán)值提供了關(guān)于核心名詞之間關(guān)聯(lián)程度的信息,以便更準(zhǔn)確地反映它們?cè)谡Z義上的相似性.
在口譯應(yīng)用中,這樣的預(yù)測(cè)模型可以用于確定在特定主題下每個(gè)核心名詞的重要性,從而幫助系統(tǒng)更好地理解口譯文本的主旨.例如,在金融主題下,“銀行”可能被賦予更高的權(quán)重,而在衛(wèi)生主題下,“氣候”可能更為關(guān)鍵.這個(gè)模型的應(yīng)用有助于提高口譯系統(tǒng)的智能水平,使其能夠根據(jù)文本內(nèi)容進(jìn)行有針對(duì)性的分析和推薦,從而更好地服務(wù)于用戶的需求.
矩陣相乘前需要先將缺失值補(bǔ)充為所有權(quán)值的平均值,否則相乘后的推薦矩陣會(huì)傾向于權(quán)重大的核心名詞,如果不想對(duì)權(quán)值進(jìn)行補(bǔ)充,可以單獨(dú)計(jì)算不使用矩陣相乘的方法[8].
根據(jù)上面的相似度表查詢出相似核心名詞,結(jié)合不同語料進(jìn)行推薦.詞類標(biāo)注自動(dòng)化不是一項(xiàng)任務(wù),需要大量的技能、知識(shí)和精力來標(biāo)注數(shù)據(jù),在標(biāo)注數(shù)據(jù)時(shí)會(huì)遇到管理大型團(tuán)隊(duì)、確保數(shù)據(jù)質(zhì)量、符合數(shù)據(jù)安全標(biāo)準(zhǔn)的問題,使標(biāo)注任務(wù)花費(fèi)更多時(shí)間而效率低下.協(xié)同過濾算法的原理簡(jiǎn)單,算法易于分布式實(shí)現(xiàn),可以處理海量數(shù)據(jù)集,可以通過增加計(jì)算節(jié)點(diǎn)很容易處理大規(guī)模數(shù)據(jù)集.利用群體行為來做決策,使用中已經(jīng)被證明可以很好地推薦多樣性、新穎性的核心關(guān)鍵詞[8-9].
可以通過準(zhǔn)確率、召回率、覆蓋率來評(píng)測(cè)推薦算法的精度[11-12].
1)召回率Recall
召回率(Recall)是分類模型評(píng)估中的一個(gè)重要指標(biāo),它衡量了模型正確預(yù)測(cè)正例(True Positive,TP)的能力,即模型能夠找出真正正例的比例.召回率的計(jì)算公式如下:
其中,TP表示模型正確預(yù)測(cè)為正例的數(shù)量,FN表示實(shí)際為正例但被模型錯(cuò)誤預(yù)測(cè)為負(fù)例(False Negative,FN)的數(shù)量.根據(jù)上述公式,召回率的取值范圍為[0,1],值越高表示模型正確預(yù)測(cè)正例的能力越強(qiáng).
2) 準(zhǔn)確度(Accuracy)
準(zhǔn)確度(Accuracy)是分類任務(wù)中常用的一個(gè)指標(biāo),它反映了在測(cè)試集中預(yù)測(cè)正確的類別的比例.準(zhǔn)確度的計(jì)算公式如下:
其中,真正類(True Positive,TP)是指模型正確預(yù)測(cè)為正類的樣本數(shù),真負(fù)類(True Negative,TN)是指模型正確預(yù)測(cè)為負(fù)類的樣本數(shù),假正類(False Positive,FP)是指模型錯(cuò)誤預(yù)測(cè)為正類的樣本數(shù),假負(fù)類(False Negative,FN)是指模型錯(cuò)誤預(yù)測(cè)為負(fù)類的樣本數(shù).
3) 覆蓋率(Coverage)
覆蓋率(Coverage)是指一定的空間中面積占比或者長(zhǎng)度占比.它可以計(jì)算某種數(shù)據(jù)所占整體數(shù)據(jù)的一種重要參數(shù).典型的計(jì)算公式如下:
其中,A為被覆蓋數(shù)據(jù)的特定情形,B為數(shù)據(jù)的原始信息.實(shí)際的計(jì)算公式是指采用實(shí)際測(cè)量的方式來計(jì)算覆蓋率,比如采用一定的比率來測(cè)量,如將尺寸等分,求出比例等.
本模型采用定性的方法,通過語料庫(kù)、順句驅(qū)動(dòng)和詞性標(biāo)注驗(yàn)證假設(shè),旨在闡釋順句驅(qū)動(dòng)和詞性標(biāo)注對(duì)口譯技能互動(dòng)機(jī)制的重要性機(jī)理、從而預(yù)測(cè)順句驅(qū)動(dòng)能力在口譯學(xué)習(xí)效果上的準(zhǔn)確性,為豐富口譯理論提供支撐,使得口譯過程的重點(diǎn)更加突出,層次更加清晰,內(nèi)容安排更科學(xué)[13].同時(shí)明確以順句驅(qū)動(dòng)為核心的口譯技能的各項(xiàng)能力維度在重要性上的差異以及這些子技能在實(shí)踐中提高的難易程度差別,從而完善口譯技能體系構(gòu)建研究[14].基于順句驅(qū)動(dòng)的詞性標(biāo)注實(shí)驗(yàn)結(jié)果見表3.
表3 HMM隱馬爾科夫詞性標(biāo)注與基于順句驅(qū)動(dòng)的詞性標(biāo)注對(duì)比表
本文實(shí)驗(yàn)采取了基于統(tǒng)計(jì)方法與規(guī)則方法相結(jié)合的詞性標(biāo)注方法.通過對(duì)比詞性賦值算法下的直接詞性標(biāo)注,可以看出基于順句驅(qū)動(dòng)的詞性標(biāo)注優(yōu)勢(shì)更為突出.
如表4所示,基于順句詞性標(biāo)注的協(xié)同過濾推薦算法與較為流行N-gram算法通過準(zhǔn)確率、召回率和覆蓋率的對(duì)比實(shí)驗(yàn)結(jié)果,可以看出基于順句的協(xié)同過濾推薦算法優(yōu)勢(shì)更為突出,豐富了人工智能時(shí)代的口譯技術(shù)發(fā)展與口譯職業(yè)及口譯教育變革的時(shí)代熱點(diǎn)議題.口譯員可以根據(jù)核心名詞權(quán)重進(jìn)行篩選和優(yōu)化,選擇更加重要、更有意義的詞語進(jìn)行優(yōu)先加工,從而提升口譯的質(zhì)量和效率,口譯核心意群更為突出.基于此實(shí)驗(yàn)結(jié)果,后續(xù)研究可考慮擴(kuò)大實(shí)驗(yàn)規(guī)模,選取更多口譯內(nèi)容,分別使用傳統(tǒng)的順句驅(qū)動(dòng)技巧和基于詞性標(biāo)注規(guī)則的順句驅(qū)動(dòng)技巧進(jìn)行口譯.然后將口譯結(jié)果輸入到基于內(nèi)容的協(xié)同過濾算法中,通過分析口譯內(nèi)容的相似度來推薦相似的口譯內(nèi)容.最后將推薦的口譯內(nèi)容與原始口譯內(nèi)容進(jìn)行比較和分析,以評(píng)估詞性標(biāo)注與協(xié)同過濾算法結(jié)合的方法對(duì)口譯質(zhì)量的實(shí)際影響.
表4 N-gram算法與基于順句詞性標(biāo)注的協(xié)同過濾推薦算法對(duì)比表
人工智能等技術(shù)已引發(fā)了口譯行業(yè)廣泛的變革和深刻的發(fā)展.本研究采用一種相對(duì)客觀的研究方法,以順句驅(qū)動(dòng)為切入點(diǎn),采取跨學(xué)科思維和方法,將翻譯學(xué)與算法相融合,并通過數(shù)字形式進(jìn)行研究分析和驗(yàn)證.自然語言處理旨在用更加智能的方式替代人工,從而能夠?qū)Υ笠?guī)模寬領(lǐng)域的自然語言信息進(jìn)行處理[15].因此,基于詞性標(biāo)注規(guī)則的協(xié)同過濾算法能夠更快速、更準(zhǔn)確地定位順句驅(qū)動(dòng)技巧在同傳過程中的應(yīng)用.本研究以口譯為研究視角,特別是同聲傳譯中的重要原則——順句驅(qū)動(dòng),分析發(fā)現(xiàn)順句驅(qū)動(dòng)在口譯的實(shí)際應(yīng)用中,將詞性標(biāo)注與協(xié)同過濾推薦算法結(jié)合會(huì)具有更為突出的優(yōu)勢(shì).基于這一結(jié)論,可以通過多維度、多途徑對(duì)互動(dòng)內(nèi)容、空間、進(jìn)程等進(jìn)行深入探討,從而提升口譯的準(zhǔn)確性,對(duì)口譯質(zhì)量的優(yōu)化設(shè)計(jì)具有顯著作用.本研究初步驗(yàn)證了該方法在不同語言和不同領(lǐng)域的口譯中的應(yīng)用,突顯了口譯順句驅(qū)動(dòng)中詞性標(biāo)注結(jié)合協(xié)同過濾推薦算法的關(guān)鍵意義.未來,可以進(jìn)一步優(yōu)化和改進(jìn)本文提出的方法,如采用更先進(jìn)的詞性標(biāo)注技術(shù)和更復(fù)雜的協(xié)同過濾算法.此外,本研究所選的方法也可以為口譯者能力評(píng)估、口譯學(xué)習(xí)者考試分?jǐn)?shù)測(cè)量、現(xiàn)場(chǎng)表現(xiàn)評(píng)估等實(shí)際效果的深入研究提供有力的基礎(chǔ).