• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大灣區(qū)多語(yǔ)種政府新聞標(biāo)注語(yǔ)料庫(kù)建設(shè)研究

    2022-06-15 05:28:22姜嬴楊靜朱哲宇林佳瑩
    文化創(chuàng)新比較研究 2022年9期
    關(guān)鍵詞:多語(yǔ)種語(yǔ)種粵語(yǔ)

    姜嬴,楊靜,朱哲宇,林佳瑩

    (北京師范大學(xué)珠海分校,廣東珠海 519000)

    1 大灣區(qū)多語(yǔ)種語(yǔ)料庫(kù)研究必要性

    目前,粵港澳大灣區(qū)已經(jīng)存在一些語(yǔ)料庫(kù),如“香港兒童粵語(yǔ)語(yǔ)料庫(kù)”系統(tǒng)地記錄了8 個(gè)幼兒在一年內(nèi)學(xué)習(xí)和使用粵語(yǔ)情況,最終整理出177 個(gè)檔案,存儲(chǔ)記錄14 兆字節(jié)[1];“香港粵語(yǔ)語(yǔ)料庫(kù)”通過(guò)收集日常談話,針對(duì)性地提供給研究者和語(yǔ)言學(xué)習(xí)者一個(gè)反應(yīng)真實(shí)演講和對(duì)話內(nèi)容的粵語(yǔ)語(yǔ)料庫(kù)[2];“LIVAC 共時(shí)語(yǔ)料庫(kù)”語(yǔ)料來(lái)源于上海、港、澳、臺(tái),以及新加坡5 地的報(bào)紙資料,已處理逾5.7 億字,累積并持續(xù)提煉出二百多萬(wàn)詞條。

    大灣區(qū)現(xiàn)存語(yǔ)料庫(kù)多建立于20世紀(jì)90年代,部分語(yǔ)料庫(kù)在取材上、時(shí)間維度上,存在滯后現(xiàn)象且語(yǔ)種選取較為單一,無(wú)法勝任多語(yǔ)種研究的任務(wù)?;浉郯拇鬄硡^(qū)及其輻射區(qū)域存在多種語(yǔ)言文字,構(gòu)成了語(yǔ)言種類復(fù)雜多樣性、語(yǔ)言分布分層交織性、對(duì)外關(guān)系復(fù)雜性等問(wèn)題,是中國(guó)從古代到現(xiàn)代語(yǔ)言文字多樣性最發(fā)達(dá),使用量最多,同時(shí)共存時(shí)間最長(zhǎng)的地區(qū)[3],這些問(wèn)題都需要多語(yǔ)種語(yǔ)料庫(kù)的支持。

    普通話、粵語(yǔ)、英語(yǔ)為大灣區(qū)語(yǔ)言使用層次第一的3 個(gè)語(yǔ)種,覆蓋了大灣區(qū)絕大多數(shù)的地區(qū)和人口。葡萄牙語(yǔ)使用層次位于第3,被認(rèn)定為澳門地區(qū)的官方語(yǔ)言,具有一定代表性[4]。因此,該文選取這4 個(gè)語(yǔ)種作為主要研究對(duì)象,采集高度規(guī)范化的政府新聞?wù)Z料,并結(jié)合標(biāo)注語(yǔ)料庫(kù)數(shù)據(jù),嘗試為語(yǔ)言研究者提供多語(yǔ)種語(yǔ)料庫(kù)研究的思路。

    2 研究?jī)?nèi)容及方法

    該文根據(jù)研究過(guò)往的標(biāo)注經(jīng)驗(yàn),分析多語(yǔ)種分詞標(biāo)注任務(wù)中存在的差異,提出符合多語(yǔ)種語(yǔ)料庫(kù)的通用分詞標(biāo)注策略,基于項(xiàng)目研究過(guò)程中已經(jīng)搭建好的在線眾包標(biāo)注平臺(tái)收集人工檢驗(yàn)的標(biāo)注結(jié)果,對(duì)標(biāo)注結(jié)果進(jìn)行交叉檢驗(yàn),提煉出粵港澳地區(qū)新聞多語(yǔ)種語(yǔ)料庫(kù),基于編程技術(shù)訓(xùn)練分詞模型并進(jìn)行交叉驗(yàn)證,評(píng)測(cè)標(biāo)注策略是否符合實(shí)際生產(chǎn)要求,根據(jù)實(shí)驗(yàn)結(jié)果整理出多語(yǔ)種標(biāo)注規(guī)范,提出在研究多語(yǔ)種問(wèn)題上的建議,為灣區(qū)的自然語(yǔ)言研究者提供基礎(chǔ)條件和便利,促進(jìn)大灣區(qū)文化、教育事業(yè)發(fā)展。

    3 數(shù)據(jù)來(lái)源

    該研究的普通話文本來(lái)自香港律政司、行政長(zhǎng)官2018年施政報(bào)告、香港政府一站通、政府賬目及報(bào)告、香港特別行政區(qū)政府新聞公報(bào)、中國(guó)文化報(bào)、大公報(bào),粵語(yǔ)文本來(lái)自明報(bào)OL,英語(yǔ)文本來(lái)自South China Morning Post,葡萄牙語(yǔ)文本來(lái)自Revista Macau。以上均為粵港澳地區(qū)權(quán)威且文本數(shù)量較多的新聞網(wǎng)站,總共包含12 個(gè)新聞網(wǎng)站,其中有“國(guó)際”“兩岸”“中國(guó)”等50 多個(gè)板塊。自2019年3月開(kāi)始持續(xù)開(kāi)展標(biāo)注工作,已收集大量數(shù)據(jù),具體規(guī)模在6.1 節(jié)可見(jiàn)。

    4 多語(yǔ)種分詞標(biāo)注異同

    粵港澳大灣區(qū)的語(yǔ)言文字生態(tài)樣貌較為獨(dú)特,語(yǔ)言文字資源也較為豐富,漢語(yǔ)普通話、英語(yǔ)、葡萄牙語(yǔ)在不同區(qū)域都具有法定語(yǔ)言的地位,粵語(yǔ)、客家方言、閩方言等多種漢語(yǔ)方言在日常生活中也擁有廣泛的民眾基礎(chǔ)[5]。不同的語(yǔ)言文字在分詞上的規(guī)則和難度是不同的,下文舉例說(shuō)明多語(yǔ)種分詞標(biāo)注時(shí)需要注意的地方。

    4.1 是否有分隔符

    現(xiàn)代英語(yǔ)、葡語(yǔ)的基本語(yǔ)素表達(dá)形式是詞,文本中的詞天然由空格分開(kāi),分詞時(shí)主要運(yùn)用的是正則表達(dá)式和專家提供的詞庫(kù)分詞。普通話、粵語(yǔ)文本的基本組成單位并不是詞而是字,計(jì)算機(jī)可以輕而易舉地對(duì)字進(jìn)行切分,但詞與詞之間的切割則極為困難,主要是因?yàn)橹形脑~語(yǔ)在句中存在互相重疊的情況,這很容易產(chǎn)生歧義字段,以“不過(guò)度開(kāi)發(fā)生物資源”一句為例,進(jìn)行完全切分的結(jié)果如下。

    [不,不過(guò),過(guò),過(guò)度,度,開(kāi),開(kāi)發(fā),發(fā),發(fā)生,生,生物,物,物資,資,資源,源]

    完全切分并不是嚴(yán)格意義上的分詞,它輸出句中所有出現(xiàn)在詞表中的字和詞。因?yàn)橹形脑~語(yǔ)存在類似“不過(guò)”和“過(guò)度”交集現(xiàn)象,9 個(gè)字被切分成了長(zhǎng)度為16 的序列?;浾Z(yǔ)屬于漢藏語(yǔ)系漢語(yǔ)族漢語(yǔ)方言,文本結(jié)構(gòu)與普通話類似,同樣沒(méi)有分隔符做切分,這無(wú)疑增加了中文分詞的難度。

    4.2 是否有詞語(yǔ)形態(tài)變換

    對(duì)英文和葡語(yǔ)預(yù)處理時(shí)需要做詞干提取和詞性還原,而中文或者粵語(yǔ)則不需要。英文存在詞形變換,例如,動(dòng)詞do 需要根據(jù)時(shí)態(tài)的不同變換為does、doing、did、done,do homework 和doing homework 本質(zhì)上是一樣的,但對(duì)于計(jì)算機(jī)來(lái)說(shuō)是完全不同的兩個(gè)字符串。

    葡語(yǔ)的名詞和形容詞存在“陽(yáng)性”和“陰性”的區(qū)別,tempo、sol 為陽(yáng)性,can??o、lua 為陰性。普通話中的“好”在葡語(yǔ)中既可以是bom 也可以是boa,但這實(shí)際上這種區(qū)別無(wú)法被消除,因?yàn)樵~的“陰陽(yáng)性”是互相獨(dú)立的,并不會(huì)有“原型”或者“詞根”一說(shuō),也就沒(méi)有辦法降維。對(duì)分詞來(lái)說(shuō)需要注意的是葡語(yǔ)動(dòng)詞需要根據(jù)人稱變化發(fā)生對(duì)應(yīng)的變形,即“變位”,例如,estudar 根據(jù)主語(yǔ)的不同需要轉(zhuǎn)換為estudas、estudo、estuda、estudamos 或estudam,而它們的原型是相同的。

    4.3 是否需要考慮顆粒度

    在通常情況下對(duì)于普通話和粵語(yǔ)分詞來(lái)說(shuō)切分顆粒度越大,結(jié)果也就越精確,但與此同時(shí)召回率低和歧義切分問(wèn)題也必然會(huì)隨之出現(xiàn)。在實(shí)際環(huán)境,例如搜索引擎中,當(dāng)用戶希望獲取有關(guān)“自然語(yǔ)言處理”的內(nèi)容時(shí),若將其拆分為“自然”“語(yǔ)言”“處理”,那么顆粒度如此之大的分詞結(jié)果必然會(huì)造成搜索引擎返回結(jié)果數(shù)過(guò)多,導(dǎo)致不能滿足用戶預(yù)期。

    英語(yǔ)中Natural Language Processing 可以被拆分為Natural、Language、Processing,但是按照完整語(yǔ)義的角度出發(fā),同樣可以不將其分詞而是作為一個(gè)復(fù)合詞來(lái)看待,整體入庫(kù)。同樣,葡語(yǔ)中Processamento de linguagem natural 可以被拆分為Processamento、de、linguagem、natural。所以在分詞時(shí)需要根據(jù)具體環(huán)境劃分合理的顆粒度。

    綜上,普通話、粵語(yǔ)、英語(yǔ)、葡萄牙語(yǔ)之間分詞既有相同之處也有不同之處,主要可以歸納為3 個(gè)問(wèn)題:是否有分隔符、是否有形態(tài)轉(zhuǎn)換、是否需要考慮分詞顆粒度。

    5 多語(yǔ)種分詞標(biāo)注流程策略

    5.1 系統(tǒng)設(shè)計(jì)概述

    在標(biāo)注不同語(yǔ)種的語(yǔ)料時(shí)需要做分庫(kù)處理,同時(shí)對(duì)標(biāo)注人員進(jìn)行分組,同組人員完成對(duì)同一語(yǔ)種的標(biāo)注工作,方便對(duì)語(yǔ)種和語(yǔ)料進(jìn)行管理。同時(shí),系統(tǒng)內(nèi)應(yīng)設(shè)置3 種基本模塊:“標(biāo)注”模塊和“個(gè)人”模塊為系統(tǒng)內(nèi)所有種類的用戶服務(wù),“工作組管理”模塊則只為專家用戶和系統(tǒng)管理員服務(wù),普通用戶只需專注于標(biāo)注任務(wù)本身即可(見(jiàn)圖1)。

    圖1 標(biāo)注用戶流程圖

    5.2 標(biāo)注人員選擇

    語(yǔ)料庫(kù)是研究人員、學(xué)者進(jìn)行深度研究的基礎(chǔ),必須保證分詞標(biāo)注結(jié)果由專業(yè)領(lǐng)域內(nèi)的人員產(chǎn)生。比如,普通話文本標(biāo)注者最好來(lái)源于大灣區(qū)內(nèi)部的普通話母語(yǔ)者,粵語(yǔ)文本標(biāo)注者最好來(lái)源于大灣區(qū)內(nèi)部的粵語(yǔ)母語(yǔ)者,若要讓普通話母語(yǔ)者去分詞標(biāo)注粵語(yǔ)文本中的“點(diǎn)解”(粵語(yǔ)含義:為什么),標(biāo)注者雖然可以看懂文本中的每一個(gè)字,但無(wú)法理解文本本身的含義,甚至可能覺(jué)得文本出現(xiàn)了錯(cuò)誤,此時(shí)也就無(wú)法準(zhǔn)確、客觀地對(duì)文本進(jìn)行處理。

    每個(gè)語(yǔ)種都是十分具有特色的,且部分規(guī)則只有在當(dāng)?shù)亻L(zhǎng)期生活或者母語(yǔ)是該語(yǔ)種者才能知曉,為了得到準(zhǔn)確的分詞標(biāo)注結(jié)果,需要由專業(yè)人員去處理其擅長(zhǎng)的語(yǔ)種領(lǐng)域。

    5.3 系統(tǒng)角色分配

    知識(shí)領(lǐng)域的眾包分配任務(wù)需要引入“角色”的概念,多語(yǔ)種眾包標(biāo)注系統(tǒng)應(yīng)包含3 種角色:普通用戶、專家用戶和系統(tǒng)管理員。普通用戶為語(yǔ)言、歷史、教育或相關(guān)專業(yè)的本科生、碩士生或?qū)I(yè)標(biāo)注人員,負(fù)責(zé)對(duì)系統(tǒng)標(biāo)注結(jié)果進(jìn)行修改。專家用戶為擁有領(lǐng)域內(nèi)專業(yè)知識(shí)的且從事自然語(yǔ)言研究的學(xué)者、研究人員或高校教授,主要負(fù)責(zé)對(duì)普通用戶產(chǎn)生的結(jié)果進(jìn)行評(píng)估和修改。

    若標(biāo)注系統(tǒng)中只包含標(biāo)注類用戶,則無(wú)法很好地對(duì)數(shù)據(jù)、標(biāo)注過(guò)程及一些事務(wù)做管理,需要引入系統(tǒng)管理員維護(hù)后臺(tái),對(duì)語(yǔ)料、用戶、系統(tǒng)的各種狀態(tài)進(jìn)行實(shí)時(shí)監(jiān)控與管制,與分詞標(biāo)注工作的總負(fù)責(zé)人還有系統(tǒng)內(nèi)的專家用戶保持一定溝通,保證系統(tǒng)正常、高效運(yùn)作。

    5.4 三級(jí)標(biāo)注

    人工標(biāo)注時(shí)總是會(huì)存在一些難以避免的錯(cuò)誤,針對(duì)大灣區(qū)的多語(yǔ)種標(biāo)注應(yīng)采取三級(jí)標(biāo)注模式,使錯(cuò)誤率接近0%,以保障入庫(kù)數(shù)據(jù)是準(zhǔn)確的。第一階段為算法預(yù)標(biāo)注階段,指的是標(biāo)注系統(tǒng)依據(jù)現(xiàn)有的開(kāi)源分詞工具對(duì)導(dǎo)入數(shù)據(jù)庫(kù)中的生語(yǔ)料做預(yù)標(biāo)注,預(yù)標(biāo)注的準(zhǔn)確率普遍可以達(dá)到85% ~95%。在進(jìn)入第二階段眾包標(biāo)注階段時(shí),標(biāo)注用戶所需要做的只是處理5% ~15% 的系統(tǒng)標(biāo)注錯(cuò)誤,大大減少了時(shí)間成本。一條語(yǔ)料往往需要至少被兩位不同的標(biāo)注用戶所標(biāo)注以確保其正確性,若標(biāo)注結(jié)果不相同,則還會(huì)被更多的標(biāo)注用戶所標(biāo)注,這是為了保證語(yǔ)料庫(kù)的質(zhì)量,若語(yǔ)料庫(kù)的質(zhì)量無(wú)法保證,那么再多的數(shù)據(jù)量也是無(wú)效的。到了第三階段,也就是專家標(biāo)注階段,專家角色的知識(shí)水平和對(duì)于同一條語(yǔ)料的理解程度通常是超過(guò)普通標(biāo)注人員的,專家所需要重點(diǎn)處理的是第二階段所遺留下來(lái)的“疑難語(yǔ)料”,之后專家用戶也可以對(duì)普通用戶的結(jié)果做檢查和修改。經(jīng)過(guò)嚴(yán)格的三級(jí)標(biāo)注之后我們認(rèn)為所產(chǎn)出的語(yǔ)料是可信的,可以作為語(yǔ)料庫(kù)搭建的基礎(chǔ)。

    5.5 多語(yǔ)種標(biāo)注細(xì)節(jié)

    針對(duì)第4 節(jié)結(jié)尾提出的多語(yǔ)種標(biāo)注存在的3 種不同之處,在該節(jié)提供解決方案。

    (1)分割符:對(duì)于不存在天然分割的語(yǔ)種,例如,普通話和粵語(yǔ),在系統(tǒng)預(yù)標(biāo)注階段推薦采用Hanlp、NLTK 等高質(zhì)量開(kāi)源工具進(jìn)行分詞標(biāo)注預(yù)處理。對(duì)于存在天然分割的語(yǔ)種,例如,英語(yǔ)和葡語(yǔ),若僅需提供給標(biāo)注用戶預(yù)分詞結(jié)果,推薦使用正則表達(dá)式對(duì)文本進(jìn)行預(yù)處理。正則表達(dá)式分詞的優(yōu)點(diǎn)在于靈活、門檻較低且標(biāo)注效果好,以下為該研究提供的一種正則匹配規(guī)則。

    [ ,,.。??!! \f\n\t\r\v]+

    分詞測(cè)試中有3 個(gè)常見(jiàn)的指標(biāo):P 指精確率,代表預(yù)測(cè)結(jié)果中正類數(shù)量占全部結(jié)果的比率;R 指召回率,代表正類樣本被找出來(lái)的比率;F1 代表P 值和R 值的調(diào)和平均。在布朗語(yǔ)料庫(kù)(Brown Corpus)和麥克莫弗語(yǔ)料庫(kù)(MacMorpho Corpus)上進(jìn)行測(cè)試后發(fā)現(xiàn)該研究F1 值達(dá)到98.97% 和99.73%,這說(shuō)明在語(yǔ)料沒(méi)有基本格式錯(cuò)誤的情況下,通過(guò)正則匹配來(lái)初步分詞效果十分不錯(cuò)。

    (2)形態(tài)轉(zhuǎn)換:當(dāng)需要標(biāo)注的語(yǔ)種存在時(shí)態(tài)變換或根據(jù)人稱變換詞語(yǔ)形態(tài)之類的問(wèn)題時(shí),需要對(duì)語(yǔ)料進(jìn)行詞干提取或是詞性還原。詞干提取和詞性還原兩者并不相同,詞干提取由基于規(guī)則的方法實(shí)現(xiàn),主要用于信息檢索領(lǐng)域,而詞形還原基于詞典方法,在處理單詞準(zhǔn)確率較高的領(lǐng)域效果更好,例如,文本分類、情感分析等[6]。其的目的是減少回復(fù)的詞語(yǔ)數(shù)量,從而達(dá)到降低語(yǔ)言模型維度的作用,具體使用何種方式進(jìn)行預(yù)處理需要視使用場(chǎng)景而定。

    同時(shí),引入上述處理的具體位置也同樣關(guān)鍵。若在系統(tǒng)標(biāo)注階段引入,則會(huì)導(dǎo)致系統(tǒng)標(biāo)注結(jié)果不準(zhǔn)確。而且該結(jié)果是需要向標(biāo)注用戶展示的,去掉句中原本存在的一些信息后必然會(huì)影響標(biāo)注者的判斷,造成標(biāo)注的錯(cuò)誤。所以,持久化保存語(yǔ)料結(jié)果之前應(yīng)保留語(yǔ)料文本的全貌,在進(jìn)行模型訓(xùn)練之前做詞干提取或詞性還原的操作,這保證了詞語(yǔ)的序列不會(huì)改變且保留了原文本除了詞語(yǔ)形態(tài)之外的所有信息。

    (3)分詞顆粒度:通過(guò)限定標(biāo)注格式可以實(shí)現(xiàn)同時(shí)記錄不同顆粒度分詞標(biāo)注結(jié)果的效果。復(fù)合構(gòu)詞的現(xiàn)象幾乎存在于所有語(yǔ)種中,在對(duì)“中央督導(dǎo)委員會(huì)”這一復(fù)合詞進(jìn)行人工標(biāo)注時(shí),推薦采用如下的格式。

    [中央/n 督導(dǎo)/vn 委員會(huì)/ni]/nto

    中括號(hào)里的為復(fù)合詞的各個(gè)組成部分,標(biāo)注時(shí)需要為每個(gè)部分進(jìn)行分詞和詞性標(biāo)注,而中括號(hào)外的詞性為整個(gè)復(fù)合詞的詞性,這樣可以同時(shí)得到不同顆粒度的結(jié)果,方便對(duì)模型進(jìn)行調(diào)整,但是需要標(biāo)注人員付出更多的精力和耐心。

    5.6 結(jié)果存儲(chǔ)策略

    同一條語(yǔ)料會(huì)被分配到不同的普通標(biāo)注用戶手中,且在三級(jí)標(biāo)注階段中的第二階段我們規(guī)定一條語(yǔ)料應(yīng)至少分配給兩人以上進(jìn)行標(biāo)注,所以在數(shù)據(jù)入庫(kù)時(shí)必然會(huì)存在多種結(jié)果。為了保證結(jié)果的全面性和準(zhǔn)確性,需要將語(yǔ)料的id 與標(biāo)注用戶的id 聯(lián)系起來(lái)同時(shí)存儲(chǔ),而不是進(jìn)行覆蓋式存儲(chǔ)或者整合式存儲(chǔ)。

    同時(shí),考慮到標(biāo)注用戶的專業(yè)性問(wèn)題,若一條語(yǔ)料被專家用戶修改或者標(biāo)注后,直接將其作為該語(yǔ)料的分詞標(biāo)注結(jié)果,在提取分詞標(biāo)注和進(jìn)行訓(xùn)練時(shí)應(yīng)優(yōu)先考慮該類結(jié)果,而非普通標(biāo)注用戶的結(jié)果。

    5.7 質(zhì)量保障

    聘用標(biāo)注用戶時(shí)應(yīng)首先進(jìn)行考核,判斷其是否能夠勝任標(biāo)注任務(wù),考核的結(jié)果將作為初步任務(wù)分配的依據(jù),將不同難度的標(biāo)注任務(wù)分配給不同水平的標(biāo)注者。標(biāo)注期間應(yīng)隱式地對(duì)標(biāo)注者再次進(jìn)行評(píng)估,并根據(jù)結(jié)果重新為其分配適合的標(biāo)注任務(wù)。當(dāng)標(biāo)注者完成任務(wù)數(shù)量達(dá)到閾值時(shí)應(yīng)及時(shí)給予不同程度的獎(jiǎng)勵(lì),對(duì)于完成質(zhì)量差的用戶則及時(shí)解聘。

    6 實(shí)驗(yàn)

    6.1 詞典

    在生成詞典和詞性標(biāo)注時(shí),中文和粵語(yǔ)標(biāo)注集采用《ICTPOS 3.0 漢語(yǔ)詞性標(biāo)記集》和《現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)加工規(guī)范——詞語(yǔ)切分與詞性標(biāo)注》 的兼容版本,英文標(biāo)注采用的標(biāo)注集為Penn Treebank Tagset,葡萄牙語(yǔ)標(biāo)注采用的標(biāo)注集為Universal Tagset。

    詞語(yǔ)種數(shù)指語(yǔ)料庫(kù)中有多少個(gè)不重復(fù)的詞語(yǔ),總頻次指的是所有詞語(yǔ)的詞頻之和,分別可以用來(lái)衡量語(yǔ)料庫(kù)應(yīng)用的豐富程度和規(guī)模大小[7],詞典統(tǒng)計(jì)信息如表1所示。

    表1 詞典統(tǒng)計(jì)

    6.2 分詞標(biāo)注評(píng)測(cè)

    使用Hanlp 提供的NatureDictionaryMaker 接口將已標(biāo)注語(yǔ)料生成二元語(yǔ)法模型,接著對(duì)不同語(yǔ)種語(yǔ)料庫(kù)做K 折交叉驗(yàn)證。

    在K 值取10 的情況下,普通話和粵語(yǔ)的F1 均值達(dá)到了91%以上,英語(yǔ)和葡萄牙語(yǔ),F(xiàn)1 均值達(dá)到了99% 以上。觀察圖2可知該文給出的多語(yǔ)種標(biāo)注策略是切實(shí)可行的。

    圖2 交叉驗(yàn)證結(jié)果

    7 結(jié)語(yǔ)

    該文給出多語(yǔ)種語(yǔ)料庫(kù)研究的流程和策略,通過(guò)實(shí)驗(yàn)結(jié)果和統(tǒng)計(jì)信息,展現(xiàn)研究總體進(jìn)度和策略可信度。同時(shí),該研究經(jīng)過(guò)了長(zhǎng)時(shí)間的語(yǔ)料標(biāo)注收集和多種多樣的分詞實(shí)驗(yàn),為粵港澳地區(qū)新聞媒體文本處理提供了較為豐富的數(shù)據(jù)。后續(xù)會(huì)繼續(xù)采集粵港澳地區(qū)各種類型、各種語(yǔ)種的語(yǔ)料,屆時(shí)數(shù)據(jù)量和分詞標(biāo)注的效果將會(huì)大大提升,我們會(huì)將語(yǔ)料庫(kù)本體和分詞器代碼打包發(fā)送到開(kāi)源平臺(tái),以供感興趣的學(xué)者深入研究,為粵港澳地區(qū)語(yǔ)言研究事業(yè)以及教育事業(yè)獻(xiàn)力。

    猜你喜歡
    多語(yǔ)種語(yǔ)種粵語(yǔ)
    粵語(yǔ)學(xué)堂
    都市人(2023年6期)2023-09-22 20:29:13
    語(yǔ)聯(lián)世界,言通天下
    廣府人
    ——粵語(yǔ)·女獨(dú)·伴唱
    《波斯語(yǔ)課》:兩個(gè)人的小語(yǔ)種
    粵語(yǔ)對(duì)話莊文強(qiáng) 如何平衡雙雄故事
    電影(2018年10期)2018-10-26 01:55:40
    “一帶一路”背景下我國(guó)的外語(yǔ)語(yǔ)種規(guī)劃
    優(yōu)雅古風(fēng)與經(jīng)典流行的全新演繹 童麗《粵語(yǔ)十大金曲Ⅱ》
    多語(yǔ)種《中級(jí)軍事漢語(yǔ)》教材的編寫(xiě)思路與指導(dǎo)思想
    北美“新清史”研究的基石何在——是多語(yǔ)種史料考辨互證的實(shí)證學(xué)術(shù)還是意識(shí)形態(tài)化的應(yīng)時(shí)之學(xué)?(上)
    從英語(yǔ)碩士到法國(guó)博士——我的留學(xué)規(guī)劃和多語(yǔ)種學(xué)習(xí)之路
    国产成人精品无人区| 欧美日韩精品网址| 1024视频免费在线观看| 69av精品久久久久久| 午夜亚洲福利在线播放| 久久精品国产亚洲av高清一级| 日韩欧美免费精品| 中文字幕另类日韩欧美亚洲嫩草| 老汉色av国产亚洲站长工具| 国产欧美日韩精品亚洲av| 琪琪午夜伦伦电影理论片6080| 国产三级黄色录像| 香蕉丝袜av| 99riav亚洲国产免费| 亚洲黑人精品在线| 国产亚洲欧美精品永久| 欧美国产精品va在线观看不卡| 男女午夜视频在线观看| 男女之事视频高清在线观看| 欧美另类亚洲清纯唯美| 久热爱精品视频在线9| 美女午夜性视频免费| 中文字幕另类日韩欧美亚洲嫩草| 成熟少妇高潮喷水视频| 国产精品一区二区精品视频观看| 一区福利在线观看| 日韩高清综合在线| 欧美一级a爱片免费观看看 | 宅男免费午夜| 免费搜索国产男女视频| 国产av一区在线观看免费| 老司机在亚洲福利影院| 国产私拍福利视频在线观看| 18美女黄网站色大片免费观看| 日韩有码中文字幕| 丝袜美腿诱惑在线| 亚洲九九香蕉| 听说在线观看完整版免费高清| 亚洲熟妇熟女久久| 香蕉av资源在线| www.999成人在线观看| 老汉色av国产亚洲站长工具| 欧美日韩乱码在线| 日韩高清综合在线| 欧美性猛交黑人性爽| 自线自在国产av| 国产精品久久久人人做人人爽| 女生性感内裤真人,穿戴方法视频| 18禁美女被吸乳视频| 久99久视频精品免费| 国产精品永久免费网站| 欧美一级a爱片免费观看看 | 色综合婷婷激情| 搞女人的毛片| 女人高潮潮喷娇喘18禁视频| 国产av不卡久久| 成人手机av| 狂野欧美激情性xxxx| 制服人妻中文乱码| 亚洲国产欧美网| 一进一出抽搐gif免费好疼| 久热这里只有精品99| 黄色视频,在线免费观看| 午夜精品久久久久久毛片777| 午夜久久久久精精品| 亚洲国产日韩欧美精品在线观看 | 深夜精品福利| 香蕉丝袜av| 免费看十八禁软件| 日韩一卡2卡3卡4卡2021年| 中出人妻视频一区二区| 日日爽夜夜爽网站| 欧美精品亚洲一区二区| 99re在线观看精品视频| 999精品在线视频| 精品乱码久久久久久99久播| 1024视频免费在线观看| 老司机福利观看| 91九色精品人成在线观看| 亚洲色图av天堂| 亚洲国产毛片av蜜桃av| videosex国产| 久久久精品欧美日韩精品| 国产熟女午夜一区二区三区| 成熟少妇高潮喷水视频| 中文字幕精品免费在线观看视频| 亚洲精品在线观看二区| 亚洲人成77777在线视频| 99精品久久久久人妻精品| 国产成人一区二区三区免费视频网站| 欧美大码av| 亚洲av五月六月丁香网| 亚洲美女黄片视频| 欧美性猛交╳xxx乱大交人| 18美女黄网站色大片免费观看| 桃色一区二区三区在线观看| 午夜日韩欧美国产| 伊人久久大香线蕉亚洲五| 国产欧美日韩精品亚洲av| 90打野战视频偷拍视频| 欧美乱妇无乱码| 欧美久久黑人一区二区| 精品少妇一区二区三区视频日本电影| 女人高潮潮喷娇喘18禁视频| 一个人免费在线观看的高清视频| 真人一进一出gif抽搐免费| √禁漫天堂资源中文www| 久久午夜综合久久蜜桃| 日本 欧美在线| 国产三级在线视频| av在线天堂中文字幕| 欧美日韩福利视频一区二区| 怎么达到女性高潮| 老司机深夜福利视频在线观看| 日本免费一区二区三区高清不卡| 亚洲片人在线观看| 狠狠狠狠99中文字幕| av片东京热男人的天堂| 亚洲av片天天在线观看| 精品电影一区二区在线| 在线天堂中文资源库| 久久九九热精品免费| 国产高清videossex| 欧美不卡视频在线免费观看 | 在线播放国产精品三级| 日本一本二区三区精品| 最新美女视频免费是黄的| 欧美 亚洲 国产 日韩一| 国产乱人伦免费视频| 男女下面进入的视频免费午夜 | 一进一出抽搐动态| 精品无人区乱码1区二区| 日本三级黄在线观看| 午夜久久久久精精品| 精品卡一卡二卡四卡免费| 女同久久另类99精品国产91| 精品人妻1区二区| 国产av一区二区精品久久| a级毛片a级免费在线| 亚洲黑人精品在线| 国内精品久久久久久久电影| 亚洲天堂国产精品一区在线| 久久精品亚洲精品国产色婷小说| 久久久久久免费高清国产稀缺| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲成av片中文字幕在线观看| 国产高清有码在线观看视频 | 免费搜索国产男女视频| 国产精华一区二区三区| 午夜福利成人在线免费观看| 窝窝影院91人妻| 精品国产超薄肉色丝袜足j| 亚洲,欧美精品.| 大香蕉久久成人网| 亚洲欧洲精品一区二区精品久久久| 无限看片的www在线观看| 欧美+亚洲+日韩+国产| 欧美黑人精品巨大| 成人午夜高清在线视频 | 老汉色∧v一级毛片| 亚洲精品色激情综合| 在线观看免费日韩欧美大片| 在线av久久热| 亚洲av片天天在线观看| 好男人电影高清在线观看| 久久久国产精品麻豆| 亚洲人成电影免费在线| 中文字幕av电影在线播放| 亚洲精品国产区一区二| 88av欧美| 一本一本综合久久| 欧美久久黑人一区二区| 亚洲电影在线观看av| 国产不卡一卡二| 嫩草影院精品99| 亚洲免费av在线视频| 久久久久久久久免费视频了| 久久国产精品影院| 亚洲欧美日韩无卡精品| 天天添夜夜摸| 1024手机看黄色片| 国产精品 欧美亚洲| 久久久久免费精品人妻一区二区 | 国产91精品成人一区二区三区| 久久久久久久精品吃奶| 可以免费在线观看a视频的电影网站| 级片在线观看| 黑人操中国人逼视频| 久久精品91蜜桃| 男女做爰动态图高潮gif福利片| 欧美日韩亚洲综合一区二区三区_| 制服诱惑二区| 亚洲天堂国产精品一区在线| 成人国产综合亚洲| 亚洲国产毛片av蜜桃av| 久久久精品欧美日韩精品| 国产极品粉嫩免费观看在线| 啦啦啦观看免费观看视频高清| 侵犯人妻中文字幕一二三四区| 在线观看一区二区三区| 免费女性裸体啪啪无遮挡网站| 欧美色欧美亚洲另类二区| 99国产精品99久久久久| 国产精品久久久久久亚洲av鲁大| 俺也久久电影网| 久久久久免费精品人妻一区二区 | 精品欧美一区二区三区在线| ponron亚洲| av视频在线观看入口| 我的亚洲天堂| 亚洲自拍偷在线| 午夜免费激情av| 久久精品亚洲精品国产色婷小说| 久久香蕉国产精品| 成人国语在线视频| 亚洲国产精品合色在线| 熟妇人妻久久中文字幕3abv| 成人精品一区二区免费| 国产精品亚洲美女久久久| 不卡一级毛片| 亚洲精品色激情综合| 在线观看午夜福利视频| 欧洲精品卡2卡3卡4卡5卡区| 曰老女人黄片| 欧美av亚洲av综合av国产av| 久久人妻福利社区极品人妻图片| 黄色丝袜av网址大全| 中文在线观看免费www的网站 | 国产精品永久免费网站| 婷婷精品国产亚洲av在线| 久久精品成人免费网站| 国产精品乱码一区二三区的特点| 亚洲狠狠婷婷综合久久图片| 国产激情欧美一区二区| 在线免费观看的www视频| 国产单亲对白刺激| 神马国产精品三级电影在线观看 | 观看免费一级毛片| 日韩欧美一区视频在线观看| 免费看日本二区| 成人av一区二区三区在线看| 午夜福利视频1000在线观看| 久热爱精品视频在线9| 久久中文字幕人妻熟女| 黑人欧美特级aaaaaa片| 一进一出好大好爽视频| 一卡2卡三卡四卡精品乱码亚洲| 久久久久久九九精品二区国产 | 在线播放国产精品三级| 亚洲国产看品久久| 女人被狂操c到高潮| 每晚都被弄得嗷嗷叫到高潮| 国产亚洲av嫩草精品影院| 久久久久国产精品人妻aⅴ院| 久久久久久久午夜电影| 夜夜躁狠狠躁天天躁| 精品国产一区二区三区四区第35| 十分钟在线观看高清视频www| 亚洲专区国产一区二区| www.999成人在线观看| 国产三级黄色录像| 亚洲 欧美 日韩 在线 免费| 亚洲第一av免费看| av欧美777| 久久九九热精品免费| 久久午夜综合久久蜜桃| ponron亚洲| 成在线人永久免费视频| 性欧美人与动物交配| 韩国av一区二区三区四区| 天天躁狠狠躁夜夜躁狠狠躁| 免费看美女性在线毛片视频| 午夜激情福利司机影院| 亚洲va日本ⅴa欧美va伊人久久| 成人三级黄色视频| 国产精品 国内视频| 国产高清videossex| 少妇粗大呻吟视频| 欧美日韩中文字幕国产精品一区二区三区| 18禁黄网站禁片午夜丰满| 国产成人精品久久二区二区免费| 亚洲全国av大片| 啪啪无遮挡十八禁网站| 最新美女视频免费是黄的| 国产精品综合久久久久久久免费| 亚洲精品国产精品久久久不卡| 欧美色欧美亚洲另类二区| 欧美乱色亚洲激情| 亚洲片人在线观看| 国产真实乱freesex| 国产亚洲精品一区二区www| 精品人妻1区二区| 亚洲av第一区精品v没综合| 久久久精品国产亚洲av高清涩受| 国产在线精品亚洲第一网站| 亚洲精品一卡2卡三卡4卡5卡| 亚洲国产毛片av蜜桃av| 亚洲国产精品成人综合色| 人妻久久中文字幕网| 麻豆成人av在线观看| 亚洲第一青青草原| 欧美人与性动交α欧美精品济南到| 看免费av毛片| 欧美+亚洲+日韩+国产| 国产亚洲精品久久久久5区| 色综合欧美亚洲国产小说| 麻豆成人av在线观看| 中文字幕人妻丝袜一区二区| 黄色片一级片一级黄色片| netflix在线观看网站| 美女大奶头视频| 精品国产乱码久久久久久男人| 99久久综合精品五月天人人| 一边摸一边做爽爽视频免费| 久久久精品欧美日韩精品| 日本在线视频免费播放| 两个人免费观看高清视频| 国产成人欧美在线观看| 中文亚洲av片在线观看爽| 天天添夜夜摸| 性欧美人与动物交配| 最近最新中文字幕大全免费视频| 精品午夜福利视频在线观看一区| 在线观看66精品国产| 国产精品久久久久久精品电影 | 三级毛片av免费| 久久久久免费精品人妻一区二区 | 国产一区二区三区在线臀色熟女| 欧美黄色淫秽网站| 婷婷亚洲欧美| 亚洲男人天堂网一区| 可以在线观看的亚洲视频| 亚洲国产日韩欧美精品在线观看 | 免费人成视频x8x8入口观看| 一本精品99久久精品77| 大型黄色视频在线免费观看| 最近最新中文字幕大全免费视频| 91大片在线观看| 国产精品久久久久久亚洲av鲁大| 国产精品av久久久久免费| 伦理电影免费视频| 国产一级毛片七仙女欲春2 | 婷婷精品国产亚洲av在线| 免费电影在线观看免费观看| 琪琪午夜伦伦电影理论片6080| 狂野欧美激情性xxxx| 亚洲人成网站在线播放欧美日韩| 国产一区二区在线av高清观看| 99久久综合精品五月天人人| 欧美亚洲日本最大视频资源| 男女之事视频高清在线观看| 久久青草综合色| 亚洲第一av免费看| 最近在线观看免费完整版| 久久久久久久久中文| 久久99热这里只有精品18| 欧美日韩一级在线毛片| 曰老女人黄片| 色综合站精品国产| 欧洲精品卡2卡3卡4卡5卡区| 色在线成人网| av福利片在线| 亚洲中文字幕一区二区三区有码在线看 | 欧美日韩瑟瑟在线播放| 免费观看人在逋| 久久精品国产综合久久久| 国产精品爽爽va在线观看网站 | 国产欧美日韩精品亚洲av| 午夜免费鲁丝| 19禁男女啪啪无遮挡网站| 脱女人内裤的视频| 午夜福利免费观看在线| 久久精品亚洲精品国产色婷小说| 日日干狠狠操夜夜爽| 欧美精品啪啪一区二区三区| a级毛片在线看网站| 国产黄片美女视频| 嫁个100分男人电影在线观看| 亚洲国产高清在线一区二区三 | 亚洲av五月六月丁香网| 丝袜人妻中文字幕| 亚洲中文字幕一区二区三区有码在线看 | 国产免费av片在线观看野外av| 狂野欧美激情性xxxx| 搡老岳熟女国产| 久久草成人影院| 亚洲国产看品久久| 国产人伦9x9x在线观看| 十八禁网站免费在线| 99精品在免费线老司机午夜| 国产三级黄色录像| 精品第一国产精品| av在线播放免费不卡| √禁漫天堂资源中文www| 久久人人精品亚洲av| 给我免费播放毛片高清在线观看| 亚洲五月色婷婷综合| 黄片大片在线免费观看| 亚洲国产欧美日韩在线播放| 亚洲人成伊人成综合网2020| 无遮挡黄片免费观看| 亚洲成国产人片在线观看| 啦啦啦免费观看视频1| 亚洲国产中文字幕在线视频| 日韩欧美三级三区| 国产激情偷乱视频一区二区| 免费看美女性在线毛片视频| 激情在线观看视频在线高清| 黄片大片在线免费观看| 999久久久国产精品视频| 老司机午夜十八禁免费视频| 欧美在线黄色| 久久午夜综合久久蜜桃| 国产午夜精品久久久久久| 国产精品野战在线观看| www.999成人在线观看| 亚洲成国产人片在线观看| 久久草成人影院| 欧美亚洲日本最大视频资源| 搡老妇女老女人老熟妇| 国产人伦9x9x在线观看| 日本五十路高清| 两性夫妻黄色片| 在线十欧美十亚洲十日本专区| 亚洲av日韩精品久久久久久密| 国产在线精品亚洲第一网站| 日本 av在线| 夜夜夜夜夜久久久久| 老汉色∧v一级毛片| 麻豆av在线久日| 欧美乱色亚洲激情| 色综合站精品国产| 国产精品一区二区免费欧美| 国产高清有码在线观看视频 | 成人一区二区视频在线观看| 亚洲性夜色夜夜综合| 超碰成人久久| 中亚洲国语对白在线视频| 亚洲一区二区三区不卡视频| 久久久久久大精品| 成人一区二区视频在线观看| xxx96com| 国产又色又爽无遮挡免费看| 国产日本99.免费观看| 妹子高潮喷水视频| av超薄肉色丝袜交足视频| 亚洲 欧美一区二区三区| 十八禁网站免费在线| 男女那种视频在线观看| 欧美午夜高清在线| 精品久久久久久久久久久久久 | 一夜夜www| 中文资源天堂在线| 欧美性猛交黑人性爽| 在线播放国产精品三级| 精品人妻1区二区| 91国产中文字幕| 中文资源天堂在线| 国产精品久久久久久精品电影 | 国内少妇人妻偷人精品xxx网站 | 国产精品免费一区二区三区在线| 中文字幕最新亚洲高清| 一a级毛片在线观看| 色综合欧美亚洲国产小说| 欧美av亚洲av综合av国产av| 精品一区二区三区四区五区乱码| 国内少妇人妻偷人精品xxx网站 | 99re在线观看精品视频| 国产麻豆成人av免费视频| 免费无遮挡裸体视频| 国产精品九九99| 久久久久国产一级毛片高清牌| 日韩中文字幕欧美一区二区| 国产一区二区在线av高清观看| 精品久久久久久成人av| 国产主播在线观看一区二区| 亚洲国产精品久久男人天堂| 两个人免费观看高清视频| 欧美中文日本在线观看视频| 欧美亚洲日本最大视频资源| 国产一区二区激情短视频| 欧美人与性动交α欧美精品济南到| 久久 成人 亚洲| 欧美激情极品国产一区二区三区| 国产视频内射| 欧美绝顶高潮抽搐喷水| 男女下面进入的视频免费午夜 | 欧美日韩一级在线毛片| 成人精品一区二区免费| 久久久水蜜桃国产精品网| 日韩大尺度精品在线看网址| 精品人妻1区二区| 51午夜福利影视在线观看| 老司机福利观看| 少妇 在线观看| 88av欧美| 人人妻人人澡人人看| 国产亚洲精品av在线| 亚洲第一av免费看| 色精品久久人妻99蜜桃| 亚洲人成网站高清观看| 日韩免费av在线播放| 成在线人永久免费视频| 精品日产1卡2卡| 亚洲专区国产一区二区| 制服丝袜大香蕉在线| 精品一区二区三区四区五区乱码| 亚洲一区二区三区不卡视频| av在线播放免费不卡| 久久久久国内视频| 久久青草综合色| 亚洲真实伦在线观看| 成人午夜高清在线视频 | 男人舔奶头视频| 制服丝袜大香蕉在线| 日本三级黄在线观看| 999久久久精品免费观看国产| 国产一区二区在线av高清观看| av片东京热男人的天堂| 免费无遮挡裸体视频| 国产精品一区二区三区四区久久 | 国产激情久久老熟女| 夜夜看夜夜爽夜夜摸| 女生性感内裤真人,穿戴方法视频| xxxwww97欧美| 国产精品98久久久久久宅男小说| 亚洲熟妇中文字幕五十中出| 国产日本99.免费观看| 精品福利观看| 欧美激情极品国产一区二区三区| 亚洲成国产人片在线观看| 黑人巨大精品欧美一区二区mp4| 久久精品影院6| 国产单亲对白刺激| 亚洲熟女毛片儿| 国产一区二区三区在线臀色熟女| 国产精品久久电影中文字幕| 悠悠久久av| 狠狠狠狠99中文字幕| 精品一区二区三区av网在线观看| av天堂在线播放| 视频在线观看一区二区三区| 国产激情偷乱视频一区二区| avwww免费| 可以在线观看的亚洲视频| 色婷婷久久久亚洲欧美| www.999成人在线观看| 亚洲成国产人片在线观看| 夜夜看夜夜爽夜夜摸| 免费看美女性在线毛片视频| 久久热在线av| 男女午夜视频在线观看| a在线观看视频网站| 国产熟女xx| 88av欧美| 国产亚洲欧美精品永久| 日韩欧美 国产精品| 亚洲国产精品成人综合色| 亚洲精品av麻豆狂野| 国内揄拍国产精品人妻在线 | 精品午夜福利视频在线观看一区| 在线观看免费视频日本深夜| 久久婷婷人人爽人人干人人爱| 99热6这里只有精品| 亚洲人成网站在线播放欧美日韩| 国产精品自产拍在线观看55亚洲| 欧美大码av| 美女大奶头视频| 欧美日韩福利视频一区二区| 欧美日韩精品网址| 久久久精品欧美日韩精品| 九色国产91popny在线| 丁香欧美五月| 别揉我奶头~嗯~啊~动态视频| 成年版毛片免费区| 天天添夜夜摸| 高潮久久久久久久久久久不卡| 国产一区在线观看成人免费| 日韩有码中文字幕| 亚洲熟女毛片儿| 日日干狠狠操夜夜爽| 成人精品一区二区免费| 国产精品免费一区二区三区在线| 久久草成人影院| 欧美+亚洲+日韩+国产| 青草久久国产| 国产乱人伦免费视频| 欧美激情高清一区二区三区| 免费在线观看日本一区| 久久婷婷人人爽人人干人人爱| 国产区一区二久久| 丝袜在线中文字幕| 在线观看午夜福利视频| 日本熟妇午夜| 黄色视频,在线免费观看| 国产激情欧美一区二区| 免费av毛片视频| 免费看日本二区| av天堂在线播放| 在线观看免费午夜福利视频| 亚洲成人免费电影在线观看| 最近最新中文字幕大全免费视频| 看黄色毛片网站| 在线天堂中文资源库| 精品第一国产精品| 久久99热这里只有精品18| 特大巨黑吊av在线直播 | 免费看十八禁软件| 欧美日韩精品网址| 国产高清有码在线观看视频 | 大型av网站在线播放| 国产成人av激情在线播放| 国产真人三级小视频在线观看| 精品一区二区三区四区五区乱码| 在线观看免费视频日本深夜|