王華樹 劉世界
摘? 要:自然語言處理技術(shù)的飛速發(fā)展,使得術(shù)語抽取軟件在翻譯、教育、語言學(xué)等領(lǐng)域成為不可或缺的資源,軟件的種類也越來越多,可為用戶提供不同的功能。然而,如何選擇合適的軟件成了亟待解決的問題。此研究參考ISO/IEC 25010: 2011和GB/T 2500.10—2016,從術(shù)語抽取軟件的特性出發(fā),選取功能適用性、兼容性、性能效率、易用性、信息安全性五個方面,探討了術(shù)語抽取軟件的動態(tài)化測評框架,并提出針對性的框架應(yīng)用建議與應(yīng)用案例,以期為用戶選擇恰當(dāng)?shù)男g(shù)語抽取軟件提供科學(xué)依據(jù)。
關(guān)鍵詞:術(shù)語抽取軟件;測評框架;術(shù)語管理;功能適用性;性能效率
中圖分類號:TP391;H083? 文獻標(biāo)識碼:A? DOI:10.12339/j.issn.1673-8578.2022.01.005
Evaluation Framework of Terminology Extraction Software//WANG Huashu, LIU Shijie
Abstract: The rapid development of natural language processing technology has made terminology extraction software (TES) an indispensable resource in translation, education, and linguistics, and there are more and more types of software that can provide users with different functions. However, how to choose an appropriate software has become an urgent problem. Referring to ISO/IEC 25010: 2011 and GB/T 2500.10—2016 standards, this study selects five aspects related to the characteristics of TES, such as functional suitability, compatibility, performance efficiency, usability, and information security, analyzes the dynamic evaluation framework of TES, and proposes recommendations and application cases for the framework to provide a scientific basis for users to choose an appropriate TES.
Keywords: terminology extraction software (TES); evaluation framework; terminology management;functional suitability; performance efficiency
引言
術(shù)語自動抽?。╝utomatic term extraction, ATE)是一項從特定領(lǐng)域的語料庫(domain-specific corpus)中提取術(shù)語的自然語言處理任務(wù),抽取的方法主要包括基于詞典、基于統(tǒng)計、基于語言規(guī)則、基于機器學(xué)習(xí)的方法及多種混合的方法[1]。近年來開發(fā)的自動術(shù)語抽取軟件在各種應(yīng)用場景中發(fā)揮著作用,例如術(shù)語篩選、同義詞庫構(gòu)建、文檔索引、技術(shù)監(jiān)視及其本體開發(fā)[2],其抽取效率對術(shù)語庫的構(gòu)建、數(shù)據(jù)的挖掘、機器翻譯詞典的編撰、機器輔助翻譯軟件效率的提升等方面有著重要的意義,備受學(xué)界關(guān)注。
術(shù)語抽取軟件的出現(xiàn)不僅提升了術(shù)語抽取效率,也在一定程度上避免了主觀性和缺乏系統(tǒng)性的風(fēng)險。然而,國內(nèi)外術(shù)語抽取軟件紛繁復(fù)雜,按照系統(tǒng)結(jié)構(gòu)來劃分,整體上可分為獨立式和集成式兩大類[3],其中獨立式包含單機版與Web版,單機版如SDL MultiTerm Extract、SynchroTerm、TermSuite、Simple Extractor,Web版如Sketch Engine、Terminus、TermoStat、語帆術(shù)語寶(LingoSail TermBox);集成式也可稱為非獨立模塊版,指依附于計算機輔助軟件本體、無法單獨使用的術(shù)語抽取模塊,如Déjà Vu中的Lexicon、Anchovy、 memoQ中的術(shù)語抽取模塊。面對如此繁雜的術(shù)語抽取軟件,用戶經(jīng)常不知如何客觀有效地去評價它們并選擇滿足自己需求的一款。此外,囿于術(shù)語抽取軟件測評涉及自然語言處理、軟件工程和計算模型構(gòu)建等領(lǐng)域的知識,測評難度較大。雖已有部分學(xué)者對術(shù)語抽取軟件測評框架進行過實驗性的研究,但仍不夠系統(tǒng)全面,得出的評測結(jié)果存在一定程度的主觀性和片面性。
1? ?研究基礎(chǔ)
在現(xiàn)有相關(guān)研究中, Sauron以及Perián-Pascual 和 Mairal-Usón的研究[4-5]被認(rèn)為較具有代表性,其主要目的是超越指標(biāo)性能測試的層面,為術(shù)語抽取軟件的比較和測評設(shè)計一個全面的框架。Sauron基于ISO/IEC 9126-1: 2001和Expert Advisory Group on Language Engineering Standards(EAGLES)評估工作組的測評方法提出了一種測評術(shù)語抽取軟件的標(biāo)準(zhǔn)化方法。Sauron從功能性(functionality)、可用性(usability)、可靠性(reliability)和效率(efficiency)4個特性(characteristic)著手,進一步將其分解為7個子特性(subcharacteristic),如準(zhǔn)確性(accuracy)、互操作性(interoperability)、易學(xué)性(learnability)、可恢復(fù)性(recoverability)、適用性(suitability)、時間響應(yīng)(time response)和可理解性(understandability)[4]。這種選擇軟件中可量化的質(zhì)量屬性來構(gòu)建測評模型的方法,在一定程度上為用戶提供了較為全面的參考。Perián-Pascual 和 Mairal-Usón同樣遵循ISO/IEC 9126-1: 2001,自行設(shè)計了一個術(shù)語抽取軟件的測評框架。兩位學(xué)者提出的測評框架側(cè)重于軟件外部質(zhì)量(external quality)標(biāo)準(zhǔn),所以選取了ISO/IEC 9126-1: 2001中的功能性、可用性和效率3個特性,進一步細(xì)分為4個子特性:適用性、精確率(precision)、可操作性(operability)和時間特性(time behavior)。并通過實證研究,使用該框架測評對比了其團隊自行研制的術(shù)語抽取軟件(DEXTER)與其他3款開源型自動術(shù)語抽取軟件[5]。兩位學(xué)者的研究實驗性地利用自行設(shè)計的框架測評了4種術(shù)語抽取工具的質(zhì)量特性,打破了理論層面的探討,為解釋測評結(jié)果的方式提供了新見解。
然而,以上學(xué)者提出的測評框架并非系統(tǒng)全面的。Sauron在對屬性(attribute)設(shè)定評分規(guī)則時表述欠妥。例如,Sauron提出,如果軟件是“用戶友好型”(user-friendly),評分記為5;如果軟件“不是非常用戶友好型”(not very user friendly),則評分記為2.5[4]。這里的“very”一詞含有比較模糊的意味,對其解讀因人而異,也就很難客觀地衡量其“用戶友好”的屬性。此外,框架中設(shè)定的每個屬性都被設(shè)定為3個標(biāo)準(zhǔn),即“good”“acceptable”“unacceptable”,每個標(biāo)準(zhǔn)對應(yīng)不同的分值[4],但是這種賦分和表態(tài)的方式得出的結(jié)果不能更好表達態(tài)度強弱,可靠性欠佳。以上兩處存在明顯缺陷,在Perián-Pascual 和Mairal-Usón的文獻回顧部分[5]也曾明確提及,再次證實了Sauron的研究存在一定的局限性。Perián-Pascual 和Mairal-Usón兩位學(xué)者在介紹選取特性時并沒有結(jié)合術(shù)語抽取軟件的特點進行深入的闡述,停留在ISO/IEC 9126-1: 2001中的宏觀概念層面。此外,他們僅基于ISO/IEC 9126-1: 2001中的軟件外部質(zhì)量標(biāo)準(zhǔn)選取了3個特性進行測評,在選取特性的客觀性方面欠佳,未將內(nèi)部質(zhì)量(internal quality)和使用質(zhì)量(quality in use)考慮在內(nèi),也未深入解釋3個特性之間的關(guān)系。因此,通過計算模型得出的結(jié)論的準(zhǔn)確性有待驗證。
綜上所述,發(fā)現(xiàn)相關(guān)研究的不足在于:選取的研究特性不全面,特性間的關(guān)聯(lián)度不強,賦分規(guī)則設(shè)定不科學(xué),概念的闡述脫離術(shù)語抽取軟件的特點。因此,本研究兼顧術(shù)語抽取軟件的功能性和非功能性特性,充分結(jié)合術(shù)語抽取軟件的特點對所選取特性的概念進行詳細(xì)闡述,采用動態(tài)化的科學(xué)評估方法,力求客觀地為用戶呈現(xiàn)一個全新的測評視角,提供一個兼具完善性和可操作性的動態(tài)測評框架。
2? 測評框架構(gòu)建
基于此,文章遵循ISO/IEC 25010: 2011[6],借鑒GB/T 2500. 10—2016[7]中的部分內(nèi)容(如信息安全性),結(jié)合軟件質(zhì)量評價的三個部分和術(shù)語抽取軟件的特性,設(shè)計了一個比較全面系統(tǒng)的動態(tài)測評框架(見圖1)。該框架選取了功能適用性、兼容性、性能效率、易用性、信息安全性5個特性,進一步分解為功能正確性、功能適合性、軟件兼容性、數(shù)據(jù)兼容性、時間特性、容量、易學(xué)性、用戶界面舒適性、保密性、完整性、信息安全性的依從性11個子特性,最后再細(xì)分為若干個屬性,以幫助用戶確定最適合他們需求的軟件。本框架中的子特性并非完全按照ISO/IEC 25010: 2011和GB/T 2500. 10—2016來選取,有一部分是根據(jù)術(shù)語抽取軟件自身的特性(如軟件兼容性、數(shù)據(jù)兼容性)來制定的。需要指出的是,術(shù)語抽取軟件的測評特性紛繁復(fù)雜,本文盡可能全面地列出測評術(shù)語抽取軟件的重要特性。下文將對這些測評指標(biāo)逐一介紹和分析,并提出測評框架的應(yīng)用建議和應(yīng)用案例。
2.1 功能適用性
功能適用性(functional suitability)是在指定條件下使用時,產(chǎn)品或系統(tǒng)提供滿足明確和隱含要求的功能的程度[6]。結(jié)合術(shù)語抽取軟件的特殊性,本框架只考慮與此密切相關(guān)的兩個子特性:功能正確性(functional correctness)和功能適合性(functional appropriateness)。
2.1.1 功能正確性
功能正確性是產(chǎn)品或系統(tǒng)提供具有所需精度的正確的結(jié)果的程度[6]。精確率(precision)、召回率(recall)和F1值(F1 measure)是評價術(shù)語抽取結(jié)果中較常用且易操作的度量標(biāo)準(zhǔn)[8],可用來測評術(shù)語抽取軟件的功能正確性。根據(jù)Vivaldi和Rodríguez構(gòu)建的計算模型(見圖2),精確率是軟件抽取的可采納的術(shù)語(accepted terms)與軟件抽取的所有候選術(shù)語(term candidates)數(shù)量的比值,用來衡量抽取的候選術(shù)語的正確性;召回率是軟件抽出的可采納的術(shù)語與所測試語料文本中黃金標(biāo)準(zhǔn)(Gold Standard)術(shù)語表所包含的術(shù)語數(shù)量的比值,用來衡量抽取的候選術(shù)語的全面性[8]。一般情況下,二者結(jié)合使用,精確率和召回率均為高值時,則表示抽取效果理想。然而,抽取的閾值(threshold value)降低或過濾條件寬松(open filter)時,將有更多符合條件的術(shù)語,此時召回率提高而精確率降低;抽取的過濾條件嚴(yán)格(closed filter)時,則會導(dǎo)致精確率提高而召回率降低[8-9],由此可以看出精確率和召回率是兩個相互制約的衡量標(biāo)準(zhǔn)。在這種情況下,Vivaldi 和Rodríguez引入了F1值的概念(見圖3),將其作為加權(quán)調(diào)和均值來綜合精確率和召回率的衡量值,削弱了二者間的明顯差異,可以客觀測評術(shù)語抽取軟件的功能正確性[8]。
2.1.2 功能適合性
功能適合性是功能促進指定的任務(wù)和目標(biāo)實現(xiàn)的程度[6],排除任何不必要的步驟,只為用戶提供必要的步驟就可以完成任務(wù)。各類術(shù)語抽取軟件提供的功能多種多樣,在測評其功能適用性時,需要考慮到系統(tǒng)是否支持多語言對、單/雙語提取、單/雙語標(biāo)注、詞長/詞頻限制、(原/譯文)停用表功能、靜噪比設(shè)置、結(jié)果篩選、術(shù)語添加/編輯、術(shù)語管理、術(shù)語分享、標(biāo)簽分類等。在滿足以上功能的同時也需評估在執(zhí)行每一項必要功能或任務(wù)時是否存在不必要的操作。
2.2 兼容性
兼容性(compatibility)是在共享相同的硬件或軟件環(huán)境的條件下,產(chǎn)品、系統(tǒng)或組件能夠與其他產(chǎn)品、系統(tǒng)或組件交換信息、執(zhí)行其所需功能的程度[6]。本框架主要考慮與兼容性最相關(guān)的兩個子特性:軟件兼容性和數(shù)據(jù)兼容性。
2.2.1 軟件兼容性
軟件兼容性包括操作系統(tǒng)兼容性、應(yīng)用軟件兼容性、瀏覽器兼容性,是測評術(shù)語抽取軟件的一個重要因素。理想的術(shù)語抽取軟件應(yīng)該具有平臺無關(guān)性,即不受操作系統(tǒng)類型的影響便可完美運行。市面上多種術(shù)語抽取軟件或抽取模塊,如SDL MultiTerm Extract、Déjà Vu中的Lexicon、memoQ中的術(shù)語提取模塊,僅支持在Windows環(huán)境下運行,比起某些能夠在Windows、macOS和Linux系統(tǒng)環(huán)境中運行的術(shù)語抽取軟件,操作系統(tǒng)兼容性便會成為一個典型的區(qū)分指標(biāo)。應(yīng)用軟件兼容性尤指組件在與其他平臺或軟件共享通用的環(huán)境和資源的條件下,能夠有效執(zhí)行其所能提供的功能的程度,如Tmxmall在線對齊界面中接入語帆術(shù)語寶的術(shù)語抽取端口,實現(xiàn)對現(xiàn)有語料的雙語提取,在一定程度上反映了術(shù)語抽取軟件的軟件兼容性。瀏覽器兼容性主要針對Web端的術(shù)語抽取平臺,是測試其在不同瀏覽器或不同分辨率的瀏覽器中能否正常運行的重要指標(biāo)。
2.2.2 數(shù)據(jù)兼容性
數(shù)據(jù)兼容性包括新舊數(shù)據(jù)轉(zhuǎn)換性、異種數(shù)據(jù)兼容性,是確保數(shù)據(jù)在不同版本和不同軟件間自由交換的重要子特性。新舊數(shù)據(jù)轉(zhuǎn)換性是指術(shù)語抽取軟件不同版本間的數(shù)據(jù)兼容,比如軟件或平臺升級或更新后可能定義了新的數(shù)據(jù)格式或文件格式,此時需要考慮到轉(zhuǎn)換過程中數(shù)據(jù)的完整性與正確性,確保對原來格式的支持及更新。異種數(shù)據(jù)兼容性是指術(shù)語抽取軟件支持?jǐn)?shù)據(jù)格式的程度,即可否完全正確導(dǎo)入、導(dǎo)出常用格式的文件以及導(dǎo)出的數(shù)據(jù)格式被其他軟件讀取的程度。例如, SDL MultiTerm Extract 支持從大量的文件格式中抽取術(shù)語,具體文件格式取決于用戶當(dāng)前所使用的項目類型,如單語術(shù)語抽取項目(Monolingual Term Extraction Project)、雙語術(shù)語抽取項目(Bilingual Term Extraction Project)、詞典編纂項目(Dictionary Compilation Project)、翻譯項目(Translation Project)和質(zhì)檢項目(QA Project)。支持的文件格式合計達20余種,如TXT、DOC、HTML、HTM、XLS、PPT、XML、TMX、RTF、ISC、PPS等。抽取后的術(shù)語數(shù)據(jù)(XML、TXT)可以直接導(dǎo)出至術(shù)語庫,免去術(shù)語數(shù)據(jù)格式轉(zhuǎn)換的步驟。語帆術(shù)語寶支持TMX、TXT和DOC(X)格式的文件導(dǎo)入,導(dǎo)出格式為XLS(X)和TBX的文件,然而還需利用SDL MultiTerm Convert將XLS(X)或TBX文件轉(zhuǎn)換為XDT和MultiTerm XML文件,方可進一步導(dǎo)入術(shù)語管理軟件(如SDL MultiTerm Desktop)。
2.3 性能效率
性能效率(performance efficiency)與指定條件下所使用的資源量有關(guān)[6],即在保證高效完成任務(wù)的前提下,所用時間越短,性能效率越高。本框架主要考慮性能效率中可量化衡量的兩個子特性:時間特性(time behavior)和容量(capacity)。
2.3.1 時間特性
時間特性是指產(chǎn)品或系統(tǒng)執(zhí)行功能時,其響應(yīng)時間、處理時間及吞吐率滿足需求的程度[6]。Perián-Pascual和Mairal-Usón曾使用一個大小為1.57MB的西班牙語料庫來根據(jù)詞權(quán)重(term weighting)的響應(yīng)時間測評4款術(shù)語抽取軟件的時間特性,進而得出性能效率的測評結(jié)果。根據(jù)結(jié)果,他們認(rèn)為主要存在兩個影響因素,即候選術(shù)語提取(candidate extraction)的方式和詞權(quán)重的復(fù)雜性[5]。至于Perián-Pascual 和 Mairal-Usón所提及的兩個因素,不易采用量化的方式去衡量,所以本研究考慮將術(shù)語抽取的時間成本作為衡量性能效率的一個重要因素,具體涉及源文檔的讀取時間、人工篩選時間和數(shù)據(jù)導(dǎo)出時間。
2.3.2 容量
容量指產(chǎn)品或系統(tǒng)參數(shù)的最大限量滿足需求的程度[6],可以作為衡量性能效率的輔助子特性。不同術(shù)語抽取軟件的容量有所不同,譬如,在語帆術(shù)語寶中,普通用戶無論是單語提取還是雙語提取,單次上傳僅支持單個文件,且文件大小不超過5M,開通會員后則支持100M的大文件上傳;在SDL MultiTerm Extract中根據(jù)所選項目類型,支持單個或批量文件上傳,文件大小不受限制; memoQ中的術(shù)語抽取模塊可以即時對翻譯文件(translation documents)、翻譯記憶庫(translation memories)或?qū)R的語料庫文件(LiveDocs corpus documents)以單文件或批量文件的形式進行術(shù)語抽取,文件大小同樣不受限制。
2.4 易用性
易用性(usability)指在指定的使用環(huán)境中,產(chǎn)品或系統(tǒng)在有效性、效率和滿意度等方面為了指定的目標(biāo)可為指定用戶使用的程度[6],本框架主要考慮與易用性密切相關(guān)的兩個子特性:易學(xué)性(learnability)、用戶界面舒適性(user interface aesthetics)。
2.4.1 易學(xué)性
易學(xué)性旨在描述用戶首次完成界面操作的難度,以及達到熟練操作時所重復(fù)的操作次數(shù),是測評術(shù)語抽取軟件易用性最重要的子特性。根據(jù)Joyce的分析,可從3個維度來分析易學(xué)性,即初次使用時的易學(xué)性(first-use learnability)、學(xué)習(xí)曲線的陡度(steepness of the learning curve)和效率飽和點(efficiency of the ultimate plateau),理想情況下三者表現(xiàn)優(yōu)異方可證明軟件易學(xué)性良好[10]。然而,也常常會面臨一種窘境,即用戶在使用一款術(shù)語抽取軟件時,每一個操作步驟都有詳細(xì)說明和解釋,用戶感覺比較容易上手,但這種情況下學(xué)習(xí)曲線較為平緩。隨著重復(fù)操作的次數(shù)增加,用戶對操作界面比較熟悉后,便會達到效率飽和點,感覺詳細(xì)的操作步驟說明會導(dǎo)致使用效率低下。因此,一款易學(xué)性良好的術(shù)語抽取軟件應(yīng)該考慮增加快捷鍵或跳過介紹等操作,旨在給用戶帶來快速的引導(dǎo)流程和較低的學(xué)習(xí)成本,讓用戶感到自信,從而提高用戶滿意度[10]。在語帆術(shù)語寶中,平臺會為每一步操作提供簡單的向?qū)Щ蛭淖终f明,比如在上傳待提取的文件時,會告知用戶平臺所支持的格式和語言對及文件大小的限制,達到了一種用戶易學(xué)性友好的效果。此外,操作界面是否提供幫助文檔或視頻(含支持語種的數(shù)量)、是否提供技術(shù)支持(例如在線客服、及時通信或郵件聯(lián)系方式)等都應(yīng)是測評術(shù)語抽取軟件易學(xué)性需要考慮的指標(biāo)。
2.4.2 用戶界面舒適性
用戶界面舒適性是指用戶界面提供令人愉悅和滿意的交互的程度[6],屬于視覺上的設(shè)計,但其重要性不亞于功能設(shè)計。舒適的用戶界面設(shè)計需要從用戶體驗的角度出發(fā),充分考慮用戶體驗的要素,把握好操作界面的人機交互、操作邏輯和界面美觀的整體設(shè)計。Garett認(rèn)為用戶體驗(user experience)是一個自下而上的層級機構(gòu),包含5個層級,分別是戰(zhàn)略層、范圍層、結(jié)構(gòu)層、框架層和表現(xiàn)層[11]。其中,框架層(skeleton)可以進一步分解為界面設(shè)計、導(dǎo)航設(shè)計和信息設(shè)計[11],目的是合理分割頁面空間,提高交互體驗,同時也方便用戶的使用和操作。因此,框架層的理念可用于測評用戶界面舒適性。具體而言,界面設(shè)計包括顏色的使用、圖形化的設(shè)計;導(dǎo)航設(shè)計用于呈現(xiàn)信息的表現(xiàn)形式;信息設(shè)計則用于提供有效的信息交流,如資訊更新、技術(shù)支持、咨詢方式。以SDL MultiTerm Extract為例,軟件整體界面顏色為灰白搭配,最上方采用圖標(biāo)和文字(重要步驟處加粗處理)的形式進行信息指引,最下方為導(dǎo)航區(qū)域,簡單幾個按鈕便可以引導(dǎo)用戶完成操作,在框架層面考慮了用戶的交互體驗,達到一種用戶界面舒適性良好的效果。
2.5 信息安全性
信息安全性指產(chǎn)品或系統(tǒng)保護信息和數(shù)據(jù)的程度,以使用戶、其他產(chǎn)品或系統(tǒng)具有與其授權(quán)類型和授權(quán)級別一致的數(shù)據(jù)訪問度[7],信息安全性高的術(shù)語抽取軟件可以保護軟/硬件、數(shù)據(jù)不因偶然或惡意原因而遭到未授權(quán)訪問、破壞、篡改和泄露。本框架主要考慮與信息安全性緊密相關(guān)的3個子特性:保密性、完整性、信息安全性的依從性。
2.5.1 保密性
保密性指產(chǎn)品或系統(tǒng)確保數(shù)據(jù)只有在被授權(quán)時才能被訪問的程度[7],不僅防止未獲得授權(quán)的人或系統(tǒng)訪問相關(guān)的信息或數(shù)據(jù),還要保證獲得授權(quán)的人或系統(tǒng)能正常訪問相關(guān)的信息或數(shù)據(jù)。以下情況均可作為測評術(shù)語抽取軟件保密性的指標(biāo),例如,登錄時是否需要每次都進行用戶身份鑒別,是否存在登錄驗證碼,是否有登錄失敗次數(shù)限制,用戶賬號密碼是否可見、可復(fù)制。
2.5.2 完整性
保密性與完整性定義相似,但二者側(cè)重點有所不同。完整性指系統(tǒng)、產(chǎn)品或組件防止未授權(quán)訪問、篡改計算機程序或數(shù)據(jù)的程度[7]。對于術(shù)語抽取軟件而言,尤指其數(shù)據(jù)的完整性,例如在進行術(shù)語管理時是否具備術(shù)語數(shù)據(jù)自動保存的功能、術(shù)語庫數(shù)據(jù)遭受破壞或篡改后是否具備恢復(fù)功能。在語帆術(shù)語寶中,如果用戶在上次操作時忘記保存或?qū)С鲂g(shù)語,再次進入操作界面時,會出現(xiàn)一條溫馨提示“系統(tǒng)檢測到你提取到的術(shù)語還未保存或?qū)С鼍庉嫽騺G棄”,在一定程度上可確保用戶術(shù)語數(shù)據(jù)的完整性,避免重復(fù)性操作。
2.5.3 信息安全性的依從性
信息安全性的依從性指產(chǎn)品或系統(tǒng)遵循與信息安全性相關(guān)的標(biāo)準(zhǔn)、約定或法規(guī)以及類似規(guī)定的程度[7],目的是核實軟件、系統(tǒng)或組件是否遵循了涉及用戶認(rèn)證安全、系統(tǒng)網(wǎng)絡(luò)安全、數(shù)據(jù)庫安全、數(shù)據(jù)采取行為等法律法規(guī)。隨著信息安全立法進程在全球持續(xù)推進,各國政府都對現(xiàn)行信息安全治理相關(guān)政策法規(guī)進行了改進和完善,如《中華人民共和國計算機信息系統(tǒng)安全保護條例》(1994)、《中華人民共和國網(wǎng)絡(luò)安全法》(2016)、《在線隱私法》(2019)、《國家安全和個人數(shù)據(jù)保護法》(2019)、《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》(2020)等。術(shù)語抽取軟件涉及數(shù)據(jù)的傳輸和儲存,小到個人隱私層面,大到國家信息安全層面,因此術(shù)語抽取軟件應(yīng)遵循信息安全性的依從性,不僅對用戶的信息或數(shù)據(jù)資產(chǎn)安全負(fù)責(zé),更要重視和貫徹國家信息安全戰(zhàn)略。術(shù)語抽取軟件是否符合或遵從相關(guān)標(biāo)準(zhǔn)、約定或法規(guī),只需檢查幫助文檔或軟件用戶服務(wù)協(xié)議即可。
3? 測評框架應(yīng)用
3.1 應(yīng)用建議
因術(shù)語抽取軟件中不同特性所涉及的具體指標(biāo)各異,故通過某個固定的方法去測評一款術(shù)語抽取軟件的全部特性是很難實現(xiàn)的,得出的結(jié)果也會欠缺說服力。因此,在實際測評時,除采用李克特量表這種評分加總式的量表,用戶還可以考慮選擇模糊綜合評價法(Fuzzy Comprehensive Evaluation,F(xiàn)CE)、層次分析法(Analytic Hierarchy Process,AHP)或混合使用的方法,將定性評價轉(zhuǎn)化為定量評價或定性和定量相結(jié)合,以科學(xué)化的方法處理模糊性強、難以量化測評的特性或子特性。在此方面,翻譯自動化用戶協(xié)會(TAUS)與都柏林城市大學(xué) Sharon O’ Brien 教授團隊合作研發(fā)的新型翻譯質(zhì)量評估系統(tǒng)(Dynamic Quality Framework,DQF)為本研究帶來一種新的評估思路,即考慮核心構(gòu)成要素,動態(tài)靈活地選擇評估方法[12],具體使用見下文應(yīng)用案例。此外,在測評軟件的功能正確性時建議嚴(yán)格制定黃金標(biāo)準(zhǔn)術(shù)語表,其精確性將直接影響術(shù)語抽取的召回率。黃金標(biāo)準(zhǔn)術(shù)語表需要先人工進行術(shù)語標(biāo)注,經(jīng)領(lǐng)域?qū)<遥╠omain specialists)審核后方可制定使用,所以在此過程中用戶可通過關(guān)注詞頻(frequency)、短語類別(phrasal category)、詞目(lemma)和原材料的缺陷(source material flaws)來提升標(biāo)注效率和黃金標(biāo)準(zhǔn)術(shù)語表的可靠性[13],進而確??陀^測評術(shù)語抽取軟件的功能適用性。
3.2 應(yīng)用案例
為綜合測評A和B兩款術(shù)語抽取軟件,本研究提供了一種動態(tài)、開放、可度量的模型示例,如表1所示。從特性出發(fā),將其分解為多個子特性,子特性繼續(xù)分解為多個度量(metrics),這樣就可以將術(shù)語抽取軟件的特點以權(quán)重的形式全面反映到度量上,形成統(tǒng)一的、可操作性的標(biāo)準(zhǔn),確保評估值在一個量綱層面。同時參考動態(tài)質(zhì)量評估框架(DQF)的理念,根據(jù)不同的度量特點,采用不同的測評方法,比如數(shù)值標(biāo)度、二值標(biāo)度、李克特五分量表等。具體而言,數(shù)值標(biāo)度是指得到的百分?jǐn)?shù)值,主要針對精確率、召回率和F1值。其中,召回率和F1值均應(yīng)在嚴(yán)格制定黃金標(biāo)準(zhǔn)術(shù)語表的前提下計算得出;二值標(biāo)度是指得到的回應(yīng)為“是”或“否”(“是”為1,“否”為0),如“是否支持靜噪比設(shè)置?”;李克特五分量表測出來的是5個回應(yīng)類別,比如“非常滿意”“滿意”“不好說”“不滿意”“非常不滿意”,每一個回應(yīng)類別對應(yīng)不同的分值。
需要注意的是,隨著后期研究的不斷深入,特性、子特性和度量都會呈現(xiàn)出動態(tài)的變化,每個部分的權(quán)重也可以隨時進行調(diào)整,達到一種測評框架復(fù)用的效果。目前模型中的權(quán)重分配僅做實驗演示,真實場景中需要根據(jù)用戶的需求和其對于各特性、子特性和度量的看法做適當(dāng)調(diào)整。假設(shè)用戶十分重視術(shù)語抽取軟件的功能適用性,對于其易用性并沒有那么重視,則可適當(dāng)增加功能適用性的權(quán)重,降低易用性的權(quán)重。對于子特性和度量的調(diào)整也可遵照這種方法操作。此處以功能適用性為例,對A和B兩款術(shù)語抽取軟件的功能適用性進行測評,如表2所示。
在該實驗?zāi)P椭?,功能適用性的權(quán)重為30%,按照百分制折合為30分,計算起來方便易操作,如A的精確率綜合得分=30*50%*30%*40%=1.8。如表2所示,A和B兩款術(shù)語抽取軟件的功能適用性以此方式便算出得分分別為15.9和20.4,則可以說明B款在功能適用性方面優(yōu)于A款。當(dāng)其他特性也按照這種方式進行計算后,最后將各特性的分值累加之后便是該款術(shù)語抽取軟件的總得分。進而根據(jù)各款術(shù)語抽取軟件的總得分情況,便可以客觀地計算出用戶的最優(yōu)選擇。
4 結(jié)語
本文通過遵循和借鑒ISO/IEC 25010: 2011、GB/T 2500. 10—2016標(biāo)準(zhǔn),選取了功能適用性、兼容性、性能效率、易用性和信息安全性等5個特性,嘗試在前人[4-5]的基礎(chǔ)上為術(shù)語抽取軟件構(gòu)建一個全面、動態(tài)、開放的測評框架。針對測評過程中需要注意的事項提出框架應(yīng)用建議,并為用戶演示了如何使用這個動態(tài)化、可度量的測評框架模型,以引導(dǎo)用戶將術(shù)語抽取軟件與術(shù)語管理過程緊密結(jié)合在一起,客觀評價術(shù)語抽取軟件。限于實驗條件等方面的原因,本文提供的測評框架還需要進一步驗證。后續(xù)研究將從用戶體驗的角度出發(fā),采用李克特五分量表、模糊綜合評價法和層次分析法相結(jié)合的方法,通過實證研究對該框架進行多輪驗證,不斷提升其科學(xué)性與可操作性。
參考文獻
[1] 王華樹, 王少爽. 翻譯場景下的術(shù)語管理: 流程、工具與趨勢[J]. 中國科技術(shù)語, 2019, 21(3): 9-14.
[2] BERNIER-COLBORNE G. Defining a gold standard for the evaluation of term extractors[C]//Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC ’12), 2012: 15-18.
[3] 王華樹. 淺議實踐中的術(shù)語管理[J]. 中國科技術(shù)語, 2013, 15(2): 11-14.
[4] SAURON V. Tearing out the terms: Evaluating terms extractors[C]//Proceedings of the Aslib Conference Translating and the Computer 24, London: The Association for Information Management, 2002: 1-18.
[5] PERIN-PASCUAL C, MAIRAL-USN R. A framework of analysis for the evaluation of automatic term extractors[J]. Vigo International Journal of Applied Linguistics, 2018: 105-125.
[6] ISO. ISO/IEC 25010:2011 Systems and Software Engineering—Systems and Software Quality Requirements and Evaluation (SQuaRE)—System and Software Quality Models[S]. Geneva: International Organization for Standardization International Electrotechnical Commission, 2011.
[7] 中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局, 中國國家標(biāo)準(zhǔn)化管理委員會. GB/T 25000.10—2016 系統(tǒng)與軟件工程: 系統(tǒng)與軟件質(zhì)量要求和評價(SQuaRE)? 第10部分: 系統(tǒng)與軟件質(zhì)量模型[S]. 北京: 中國標(biāo)準(zhǔn)出版社, 2016.
[8] VIVALDI J, RODRGUEZ H. Evaluation of terms and term Extraction Systems: A practical approach[J]. Terminology. International Journal of Theoretical and Applied Issues in Specialized Communication, 2007, 13(2): 225-248.
[9] FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi-word terms: The C-value/NC-value method[J]. International Journal on Digital Libraries, 2000, 3(2): 115-130.
[10] JOYCE A. How to Measure Learnability of a User Interface[EB/OL].? (2019-10-20)[2021-05-04]. https://www.nngroup.com/articles/measure-learnability.
[11] GARRETT J J. 用戶體驗要素: 以用戶為中心的產(chǎn)品設(shè)計[M]. 范曉燕,譯. 北京: 機械工業(yè)出版社, 2011.
[12] 王均松. 翻譯質(zhì)量評估新方向: DQF動態(tài)質(zhì)量評估框架[J]. 中國科技翻譯, 2019, 32(3): 27-29.
[13] DERIEMAEKER J. Research into the performance of the terminology extraction software Termtreffer[D]. Belgium: Ghent University, 2012: 13-17.
作者簡介:王華樹(1980—),男,博士,北京外國語大學(xué)高級翻譯學(xué)院副教授,兼任世界翻譯教育聯(lián)盟翻譯技術(shù)研究會會長、中國翻譯協(xié)會本地化服務(wù)委員會副秘書長、中國英漢語比較研究會外語教育技術(shù)專業(yè)委員會副秘書長、《中國科技術(shù)語》編委等。多年來致力于推動翻譯技術(shù)產(chǎn)學(xué)研的生態(tài)融合,在《中國翻譯》《外國語》《外語電化教學(xué)》《上海翻譯》等期刊發(fā)表論文六十余篇,主持國家級、省部級及校級科研項目十多項,出版《人工智能時代翻譯技術(shù)研究》《計算機輔助翻譯概論》《應(yīng)用程序本地化》《翻譯與本地化項目管理》等十多部著作。研究領(lǐng)域:翻譯與本地化技術(shù)、外語教育技術(shù)、術(shù)語管理。通信方式:wanghuashu@vip.qq.com。
劉世界(1994—),男,上海海事大學(xué)外國語學(xué)院2019級碩士研究生,專業(yè)為英語筆譯,曾在《外語教學(xué)》《中國ESP研究》等刊物上發(fā)表論文。研究方向:翻譯技術(shù)、術(shù)語管理、機器翻譯譯后編輯。通信方式:henryliushijie@163.com。