• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Web藏文文本資源挖掘與利用研究

    2015-04-25 08:24:08劉匯丹諾明花馬龍龍賀也平
    中文信息學(xué)報(bào) 2015年1期
    關(guān)鍵詞:藏文語(yǔ)料語(yǔ)料庫(kù)

    劉匯丹,諾明花,馬龍龍,吳 健,賀也平

    (1. 中國(guó)科學(xué)院 軟件研究所,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100049)

    ?

    Web藏文文本資源挖掘與利用研究

    劉匯丹1,2,諾明花1,2,馬龍龍1,吳 健1,賀也平1

    (1. 中國(guó)科學(xué)院 軟件研究所,北京 100190;2. 中國(guó)科學(xué)院大學(xué),北京 100049)

    該文結(jié)合鏈接分析技術(shù)和藏文編碼識(shí)別技術(shù),使用網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上藏文文本資源的挖掘,分析了Web藏文文本資源的分布情況。統(tǒng)計(jì)數(shù)據(jù)顯示,國(guó)內(nèi)藏文網(wǎng)站50%以上在青海?。患s87%的藏文網(wǎng)頁(yè)集中分布在31個(gè)大型網(wǎng)站中;人們正在逐步棄用舊有藏文編碼,使用Unicode編碼來(lái)制作網(wǎng)頁(yè)。利用HTML標(biāo)記、欄目歸屬、標(biāo)點(diǎn)符號(hào)等自然標(biāo)注信息對(duì)這些文本進(jìn)行抽取,可以構(gòu)建篇章語(yǔ)料和文本分類(lèi)語(yǔ)料,可以抽取互聯(lián)網(wǎng)藏文詞庫(kù),進(jìn)行詞頻統(tǒng)計(jì)和訓(xùn)練藏文語(yǔ)言模型,結(jié)合雙語(yǔ)詞典和搜索引擎技術(shù)抽取雙語(yǔ)平行語(yǔ)料。這些語(yǔ)料可用于藏文分詞、命名實(shí)體識(shí)別、信息檢索、統(tǒng)計(jì)機(jī)器翻譯等研究領(lǐng)域。

    Web; 語(yǔ)料;文本挖掘;信息抽取;藏文信息處理;中文信息處理

    1 引言

    互聯(lián)網(wǎng)海量的網(wǎng)頁(yè)為藏文語(yǔ)料庫(kù)建設(shè)提供了大量文本資源,為了對(duì)從互聯(lián)網(wǎng)提取藏文語(yǔ)料提供依據(jù),本文考察互聯(lián)網(wǎng)上Web藏文文本資源的分布情況,并分析其潛在的利用價(jià)值。

    本文接下來(lái)的部分首先介紹相關(guān)領(lǐng)域研究現(xiàn)狀,其次介紹結(jié)合鏈接分析技術(shù)和藏文編碼識(shí)別技術(shù)、使用網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上Web文本資源的挖掘的方法,然后介紹我們對(duì)現(xiàn)有Web藏文文本資源的分布情況的考察分析結(jié)果,之后對(duì)現(xiàn)有Web藏文文本在藏文自然語(yǔ)言處理研究中的潛在利用價(jià)值進(jìn)行分析,最后對(duì)全文進(jìn)行總結(jié)。

    2 研究現(xiàn)狀

    由于諸多客觀(guān)因素的制約,導(dǎo)致了藏文語(yǔ)料庫(kù)匱乏的現(xiàn)狀,僅有的語(yǔ)料資源規(guī)模也很小,國(guó)內(nèi)曾報(bào)道的藏文分詞語(yǔ)料庫(kù)大多只有千余句[1-4],最多的也只有萬(wàn)余句[5-6]。

    目前藏文語(yǔ)料的來(lái)源主要是政府文件、電子版書(shū)籍、報(bào)刊和部分源于互聯(lián)網(wǎng)上的文本,而在語(yǔ)料庫(kù)的建設(shè)和處理上大多依賴(lài)于人工方式[7-9]。這種原始語(yǔ)料庫(kù)的獲取方式大大限制了藏文語(yǔ)料庫(kù)尤其是漢藏雙語(yǔ)語(yǔ)料庫(kù)的建設(shè)效率,不但制約了語(yǔ)料庫(kù)的規(guī)模,更難以達(dá)到時(shí)效性的要求。中國(guó)科學(xué)院軟件研究所從2009年7月份開(kāi)始從相關(guān)單位搜集整理漢藏雙語(yǔ)對(duì)照文本,歷時(shí)近3年,獲得的漢藏雙語(yǔ)對(duì)齊語(yǔ)料卻僅有約36萬(wàn)句對(duì),與期望值相去甚遠(yuǎn),由此,藏文語(yǔ)料庫(kù)建設(shè)的難度和成本可見(jiàn)一斑。

    與此同時(shí),相關(guān)人員開(kāi)始將目光轉(zhuǎn)向互聯(lián)網(wǎng),研究從藏文網(wǎng)頁(yè)獲取文本資源的方法[10-13]。然而,這些研究局限于對(duì)一定范圍內(nèi)的藏文網(wǎng)頁(yè)信息獲取。目前,互聯(lián)網(wǎng)網(wǎng)上有哪些藏文文本資源,它們存在的形式和分布狀況是怎樣的,可以用在藏文信息處理研究的哪些方面,等等,還未見(jiàn)有相關(guān)的報(bào)道。本文將通過(guò)對(duì)互聯(lián)網(wǎng)藏文文本資源的考察,回答這些問(wèn)題。

    3 研究方法

    在我們的研究工作中,我們首先開(kāi)發(fā)了一套“互聯(lián)網(wǎng)藏文文本資源挖掘系統(tǒng)”,采用鏈接分析的方法,利用網(wǎng)絡(luò)爬蟲(chóng)根據(jù)預(yù)先指定的種子URL集合從互聯(lián)網(wǎng)上采集網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)進(jìn)行編碼檢測(cè),根據(jù)檢測(cè)結(jié)果判斷頁(yè)面內(nèi)是否包含藏文文本,將包含藏文文本的網(wǎng)頁(yè)統(tǒng)一存放,并按照預(yù)先設(shè)定的方式組織管理。然后,由人工對(duì)采集到的藏文網(wǎng)頁(yè)進(jìn)行統(tǒng)一分析,考察其分布情況。我們的“互聯(lián)網(wǎng)藏文文本資源挖掘系統(tǒng)”的前端界面如圖1所示。

    圖1 互聯(lián)網(wǎng)藏文文本資源挖掘系統(tǒng)前端界面

    系統(tǒng)中主要用到了鏈接分析和藏文編碼檢測(cè)技術(shù),下面針對(duì)這兩方面的技術(shù)闡述我們的方法。

    3.1 基于鏈接分析的藏文網(wǎng)頁(yè)抓取

    首先,我們定義如下符號(hào):

    ?L(p): 頁(yè)面p中的所有超級(jí)鏈接指向的頁(yè)面集合;

    ?L(p,n): 與頁(yè)面p有n重鏈接關(guān)系的頁(yè)面集合,其中L(p, 0)= {p},L(p, 1)=L(p)。根據(jù)定義有:L(p,n)=L(L(p,n-1));

    ?L(S): 集合S中的所有頁(yè)面p中的所有超級(jí)鏈接指向的頁(yè)面集合。根據(jù)定義有:L(S)=∪L(p),其中p∈S;

    ?L(S,n): 與集合S中任意頁(yè)面p有N重鏈接關(guān)系的頁(yè)面集合,其中L(S, 0)=S,L(S, 1)=L(S)。根據(jù)定義有:L(S,n)=L(L(S,n-1)),同時(shí)L(S,n)= ∪L(p,n);

    ?HasTibetan(p): 頁(yè)面p中包含藏文文本;

    ?Host(p): 頁(yè)面p所在網(wǎng)站域名;

    我們選取部分眾所周知的藏文網(wǎng)站URL作為種子集合,通過(guò)鏈接分析技術(shù),抓取從種子URL網(wǎng)頁(yè)經(jīng)過(guò)不大于N重鏈接關(guān)系可以到達(dá)的網(wǎng)頁(yè),將其中的藏文網(wǎng)頁(yè)保存,并添加到藏文網(wǎng)頁(yè)集合P,然后將這些網(wǎng)頁(yè)所在網(wǎng)站的主機(jī)域名URL添加到種子集合中,如此循環(huán)。算法如下:

    算法1: 藏文網(wǎng)頁(yè)抓取算法 輸入: 迭代次數(shù)T,鏈接深度N輸出: 藏文網(wǎng)頁(yè)集合P算法描述:P←S0;fort=0toT

    forn=1toN

    if(n==1)

    forpsinSt

    L(St,1) ←∪L(ps)

    endfor

    else

    L(St,n) ←L(L(St,n-1) )

    endif

    forpinL(St,n)

    ifHasTibetan(p)

    St+1←St+Host(p);

    P←P+p;

    endif

    endfor

    endforendforreturnP;

    在于第t次迭代中,對(duì)于種子集合St中的每個(gè)頁(yè)面ps,抓取頁(yè)面并分析頁(yè)面獲得其中所有超級(jí)鏈接指向的頁(yè)面即L(ps),對(duì)所有的L(ps)求并集,得到L(St,1),對(duì)于L(St,1)中的每個(gè)頁(yè)面,判斷其是否藏文,若是則將其添加到藏文網(wǎng)頁(yè)集合P中,并將其對(duì)應(yīng)的網(wǎng)站URL添加到種子站點(diǎn);然后分析L(St,1)中的每個(gè)頁(yè)面,獲取其中所有超級(jí)鏈接指向的頁(yè)面即L(St,2)=L(L(St,1)),對(duì)L(p,2)中的每個(gè)頁(yè)面做同樣處理,直至達(dá)到鏈接深度N,并處理完L(p,N)中的所有頁(yè)面。因處理過(guò)程中改變了種子集合,所以需要進(jìn)行下一次迭代處理。理論上講,如果鏈接深度N足夠大,該算法能夠抓取互聯(lián)網(wǎng)上所有的藏文網(wǎng)頁(yè),迭代處理過(guò)程將在種子集合包含所有藏文網(wǎng)站之后停止。而實(shí)際上,隨著時(shí)間的變化,已處理過(guò)的藏文網(wǎng)站也會(huì)被更新,作為一個(gè)完善的持續(xù)服務(wù)的系統(tǒng)(例如,搜索引擎),應(yīng)該將迭代一直進(jìn)行下去。

    3.2 基于編碼識(shí)別的藏文網(wǎng)頁(yè)判斷

    在我們的研究中,采用藏文編碼識(shí)別的方法判斷一個(gè)網(wǎng)頁(yè)是否包含藏文文本。由于基于ISO 10646(等同Unicode)國(guó)際標(biāo)準(zhǔn)實(shí)現(xiàn)藏文支持需要實(shí)現(xiàn)藏文字符的垂直動(dòng)態(tài)組合,導(dǎo)致不少藏文軟件采用預(yù)組合的方式自定義一套藏文編碼字符集,而各個(gè)軟件之間又互不兼容,導(dǎo)致了藏文編碼“萬(wàn)馬奔騰”的局面。文獻(xiàn)[14]中按編碼所屬體系介紹了26種藏文編碼,提出了一種綜合使用藏文的音節(jié)點(diǎn)間距規(guī)律為特征、以藏文高頻音節(jié)為特征進(jìn)行藏文編碼識(shí)別的方法。事實(shí)上,由于各種藏文軟件在具體應(yīng)用領(lǐng)域的差異,并不是所有的編碼都被用于制作藏文網(wǎng)站(網(wǎng)頁(yè)),例如,方正編碼和華光編碼主要用于出版印刷行業(yè),而Tibetan Machine編碼對(duì)應(yīng)有用于Web的Tibetan Machine Web編碼。綜合各方面因素,我們判斷,可能用于網(wǎng)頁(yè)的藏文編碼主要包括: Unicode編碼(UTF-8或UTF-16)、同元編碼、班智達(dá)編碼、TCRC編碼、Tibetan Machine Web編碼、LTibetan編碼,除此之外,藏文拉丁轉(zhuǎn)寫(xiě)方案也可以視為一種藏文編碼。

    對(duì)于待識(shí)別編碼的網(wǎng)頁(yè)文本,進(jìn)行編碼識(shí)別的順序依次為: 班智達(dá)編碼、同元編碼、Unicode編碼UTF-8、Unicode編碼UTF-16、TCRC、Tibetan Machine Web、LTibetan、拉丁轉(zhuǎn)寫(xiě)。其中,對(duì)同元編碼和Unicode編碼的識(shí)別以音節(jié)點(diǎn)間距規(guī)律為特征,對(duì)其它編碼的識(shí)別以高頻音節(jié)的出現(xiàn)次數(shù)為特征。在判斷為不是某種編碼時(shí),進(jìn)行后續(xù)編碼的識(shí)別。具體的方法與文獻(xiàn)[13]本質(zhì)上相同,不再贅述。

    經(jīng)過(guò)對(duì)編碼識(shí)別結(jié)果的統(tǒng)計(jì),在已抓取的13萬(wàn)網(wǎng)頁(yè)中,編碼識(shí)別正確率為99.93%。同時(shí),編碼識(shí)別方法能夠?qū)⒅话瑯O短藏文文本的網(wǎng)頁(yè)召回,例如,http://zw.qh.gov.cn/zwqhgov/index.html 和http://www.tibetebook.com/help/HimalayaKeymap.htm兩個(gè)頁(yè)面中的中分別只包含不超過(guò)30個(gè)藏文音節(jié),說(shuō)明編碼識(shí)別的召回率是可以接受的。

    3.3 人工分析

    由于編碼識(shí)別不能保證完全正確,如果非藏文網(wǎng)站URL進(jìn)入到種子集合中,將會(huì)影響系統(tǒng)的效率。對(duì)所有新發(fā)現(xiàn)的藏文網(wǎng)站,在進(jìn)行人工確認(rèn)以后,我們的系統(tǒng)才將其加入到種子集合。其他的分析工作主要包含對(duì)采集到的藏文文本資源考察以及對(duì)其分布情況的統(tǒng)計(jì)分析。

    4 Web藏文文本資源分布情況

    我們的系統(tǒng)從2011年1月12日開(kāi)始運(yùn)行,中間經(jīng)過(guò)若干次的系統(tǒng)改進(jìn)和完善,至2012年4月13日止,收錄藏文網(wǎng)站URL共計(jì)165個(gè)。我們采用如下的規(guī)則作認(rèn)同處理。

    表1 包含1000以上網(wǎng)頁(yè)的藏文網(wǎng)站信息表

    ? 同一域名的不同表達(dá)形式要認(rèn)同,例如,http://gesar8.com 與http://www.gesar8.com 被認(rèn)為是同一個(gè)網(wǎng)站;

    ? 不同子域名不認(rèn)同,例如,http://blog.amdotibet.cn 與http://t.amdotibet.cn被認(rèn)為是兩個(gè)網(wǎng)站。

    ? 不同的域名不認(rèn)同,例如,http://ti.gzznews.com 和http://www.kbcmw.com都是"康巴傳媒網(wǎng)"的域名,但認(rèn)為是兩個(gè)網(wǎng)站。

    認(rèn)同之后,獲得網(wǎng)站共計(jì)150個(gè)。表1中列出了采集網(wǎng)頁(yè)數(shù)量在1 000以上的藏文網(wǎng)站的信息。

    4.1 藏文網(wǎng)站地域分布情況

    我們主要根據(jù)網(wǎng)站的主辦單位、頁(yè)面底部的電話(huà)區(qū)號(hào)、ICP備案地、域名及IP地址歸屬地來(lái)判斷各個(gè)網(wǎng)站所屬的區(qū)域,結(jié)果如圖2和圖3所示。個(gè)別網(wǎng)站因暫時(shí)不能訪(fǎng)問(wèn),而已采集到的數(shù)據(jù)太少而不能判斷,歸屬于“未知”類(lèi)別。從表2中可以看出,國(guó)內(nèi)網(wǎng)站共110個(gè),占73.33%,國(guó)外網(wǎng)站共35個(gè),占23.33%,另有5個(gè)網(wǎng)站未能確認(rèn)。國(guó)內(nèi)網(wǎng)站主要集中在北京、青海、西藏、四川、甘肅等地,其中青海省內(nèi)的藏文網(wǎng)站的數(shù)量遠(yuǎn)遠(yuǎn)大于其他各地,占國(guó)內(nèi)藏文網(wǎng)站的53.64%(圖4),占本系統(tǒng)收錄所有藏文網(wǎng)站的39.33%(表2)。國(guó)外藏文網(wǎng)站主要集中在美國(guó)和不丹。

    圖2 國(guó)內(nèi)藏文網(wǎng)站地域分布圖

    圖3 國(guó)外藏文網(wǎng)站地域分布圖

    圖4 國(guó)內(nèi)藏文網(wǎng)站地域分布比例圖

    表2 藏文網(wǎng)站地域分布情況

    4.2 藏文網(wǎng)站頁(yè)面數(shù)量分布情況

    圖5 頁(yè)面數(shù)量圖

    圖6 頁(yè)面數(shù)量分布圖

    圖7 頁(yè)面數(shù)量累加比例圖

    如圖5所示,藏文網(wǎng)站的網(wǎng)頁(yè)數(shù)量呈典型的長(zhǎng)尾分布,按頁(yè)面數(shù)量降序排列之后,按指數(shù)數(shù)列設(shè)定閾值進(jìn)行統(tǒng)計(jì),達(dá)到閾值的網(wǎng)站數(shù)量與包含的網(wǎng)頁(yè)數(shù)量呈對(duì)數(shù)線(xiàn)性分布(圖6),頁(yè)面數(shù)量在1 000以上的藏文網(wǎng)站共有31個(gè),這些網(wǎng)站的網(wǎng)頁(yè)數(shù)量占到了采集到的網(wǎng)頁(yè)總數(shù)的86.68%(圖7)。其中頁(yè)面數(shù)量在 10 000 以上的藏文網(wǎng)站共有3個(gè),各自包含的網(wǎng)頁(yè)數(shù)量都在總數(shù)的9%以上,3個(gè)網(wǎng)站的累計(jì)比例達(dá)到32.21%。前7個(gè)網(wǎng)站中的頁(yè)面數(shù)量接近網(wǎng)頁(yè)總數(shù)的一半,達(dá)到49.98%。其中中國(guó)西藏新聞網(wǎng)有 18 000 多藏文網(wǎng)頁(yè),占比13.79%,而人民網(wǎng)藏文版和中國(guó)共產(chǎn)黨新聞網(wǎng)藏文版都是由人民網(wǎng)主辦,如果視為同一網(wǎng)站,則其網(wǎng)頁(yè)占比達(dá)到14.11%,與中國(guó)西藏新聞網(wǎng)相當(dāng)。而中國(guó)西藏網(wǎng)藏文版的舊版新版多種編碼及多個(gè)域名(表1中未全部列出)合并計(jì)算,則其占比也達(dá)到10.16%。以上數(shù)據(jù)表明,藏文網(wǎng)絡(luò)文本資源的分布非常集中。

    4.3 Web藏文文本編碼使用情況

    如表3所示,目前Web頁(yè)面中仍在使用的藏文編碼有Unicode編碼(含國(guó)家標(biāo)準(zhǔn)擴(kuò)充集編碼)、同元編碼、班智達(dá)編碼和藏文的拉丁轉(zhuǎn)寫(xiě),暫時(shí)未發(fā)現(xiàn)其它編碼。其中Unicode編碼的藏文網(wǎng)站和網(wǎng)頁(yè)分別占比93.33%和82.48%,后者比例比前者低,是因?yàn)樽罱鼛啄晷鲁霈F(xiàn)的藏文網(wǎng)站都使用Unicode編碼,但使用其它編碼的網(wǎng)頁(yè)達(dá)到了一定的規(guī)模,新的網(wǎng)站在短時(shí)間內(nèi)難以超越;其次是同元編碼,占6.00%和16.78%,后者比前者高,說(shuō)明同元編碼曾經(jīng)被大量使用,網(wǎng)頁(yè)數(shù)量積累到了一定規(guī)模,但新的網(wǎng)站更傾向于用Unicode編碼。頁(yè)面數(shù)量在 1 000 以上的31個(gè)藏文網(wǎng)站中(表1),3個(gè)是同元編碼,其余28個(gè)都是Unicode編碼。

    表3 藏文網(wǎng)站和網(wǎng)頁(yè)使用藏文編碼情況

    *部分網(wǎng)站同時(shí)使用兩種編碼,計(jì)算網(wǎng)站總數(shù)時(shí)只算一個(gè)

    需要注意的是,部分網(wǎng)站存在同時(shí)使用兩種編碼的情況。其中,http://zw.tibet.cn和http://ti.tibet.cn 大部分使用同元編碼,但其中有少量網(wǎng)頁(yè)使用了Unicode編碼,他們都是“中國(guó)西藏網(wǎng)”的域名,但新版的網(wǎng)站(http://tb.tibet.cn)已經(jīng)改用Unicode編碼。西藏農(nóng)牧經(jīng)濟(jì)信息網(wǎng)舊版使用同元編碼,新版使用Unicode編碼。而使用藏文拉丁轉(zhuǎn)寫(xiě)的網(wǎng)站中一般也包含Unicode編碼的藏文文本。

    以上這些數(shù)據(jù)和事實(shí)表明,人們正在逐步地棄用以前自定義的藏文編碼,轉(zhuǎn)而使用Unicode編碼。

    4.4 Web藏文文本內(nèi)容分布情況

    我們的系統(tǒng)中采集到的藏文網(wǎng)站,從組織形式來(lái)看,既有普通網(wǎng)頁(yè),也有blog和wiki,甚至還出現(xiàn)了當(dāng)前最流行的微博;從內(nèi)容形式上來(lái)看,既有文字,又有圖片、音樂(lè)和視頻;從主辦方來(lái)看,既有新聞媒體和政府機(jī)構(gòu),也有寺院和企事業(yè)單位,甚至還出現(xiàn)了個(gè)人主辦網(wǎng)站的情況。下面根據(jù)網(wǎng)站主要功能分類(lèi)作簡(jiǎn)單介紹。

    新聞綜合類(lèi)網(wǎng)站一般包括與藏區(qū)有關(guān)的各方面的信息,包括新聞、政治、社會(huì)經(jīng)濟(jì)、語(yǔ)言文化、科技教育、宗教、文化藝術(shù)、旅游、環(huán)境、藏醫(yī)藏藥等。主要有: 中國(guó)西藏新聞網(wǎng)、人民網(wǎng)藏文版、中國(guó)藏族網(wǎng)通藏文版、中國(guó)西藏網(wǎng)、新華網(wǎng)西藏頻道、青海湖網(wǎng)、康巴傳媒網(wǎng)等。

    政府機(jī)關(guān)類(lèi)網(wǎng)站以宣傳各類(lèi)政策法規(guī)、介紹轄區(qū)政治經(jīng)濟(jì)等方面情況為主要內(nèi)容。主要有: 果洛藏族自治州人民政府網(wǎng)藏文版、西藏農(nóng)牧經(jīng)濟(jì)信息網(wǎng)藏文版、海西州人民政府政務(wù)網(wǎng)藏文版、青海天俊法院網(wǎng)等。

    教育類(lèi)網(wǎng)站以提供教育教學(xué)相關(guān)信息為主要內(nèi)容,主要有: 中國(guó)藏族教育網(wǎng)、中國(guó)藏族中學(xué)網(wǎng)、青海尖扎民族教育網(wǎng),以及西藏藏醫(yī)學(xué)院、年保玉則小學(xué)、西海民族寄校、多杰旦民族職業(yè)技術(shù)學(xué)校等網(wǎng)站。

    語(yǔ)言文化宗教類(lèi)網(wǎng)站以提供藏族傳統(tǒng)文化、宗教、藏醫(yī)學(xué)相關(guān)信息為主要內(nèi)容,主要有: 中國(guó)藏學(xué)網(wǎng)藏文版、西藏文化網(wǎng)藏文版、年保玉則文化中心、宗喀巴文化藝術(shù)研究網(wǎng)、中國(guó)格薩爾研究網(wǎng)、藏族民俗網(wǎng)、藏語(yǔ)言文字網(wǎng)、藏密文化網(wǎng)、喜馬拉雅苯教網(wǎng)、雍仲苯教網(wǎng)、醫(yī)學(xué)藏文網(wǎng)等。

    藏文信息技術(shù)和軟件類(lèi)網(wǎng)站以提供藏文軟件下載、介紹軟件使用方法、藏文信息技術(shù)推廣為主要內(nèi)容,包括: 藏文軟件園、藏文字體軟件音樂(lè)圖書(shū)中心、Dzongkha Linux、Tibetan and Himalayan Library等。部分網(wǎng)站提供在線(xiàn)電子詞典查詢(xún)服務(wù),例如,http://www.tsikzoe.net、http://dictionary.thlib.org。這些網(wǎng)站為藏文信息技術(shù)的推廣應(yīng)用做出了貢獻(xiàn),也在一定程度上反映了藏文信息技術(shù)發(fā)展的現(xiàn)狀。

    5 Web藏文文本資源的利用價(jià)值分析

    從自然語(yǔ)言處理的角度來(lái)看,Web是藏文語(yǔ)料的一個(gè)重要來(lái)源,既可作為單語(yǔ)語(yǔ)料使用,配合使用相關(guān)軟件工具,也可以從Web上提取雙語(yǔ)的藏文語(yǔ)料。

    Web藏文文本可以作為藏文單語(yǔ)語(yǔ)料的來(lái)源。雖然同漢語(yǔ)和英語(yǔ)相比,藏文的Web文本資源要少的多,但是作為一般的藏文自然語(yǔ)言處理的研究,現(xiàn)有的Web文本已經(jīng)具有一定的規(guī)模,能夠滿(mǎn)足作為基礎(chǔ)語(yǔ)料資源的需求。這些Web頁(yè)面中,絕大部分頁(yè)面都包含文章標(biāo)題和內(nèi)容,可以作為基本的篇章語(yǔ)料使用;藏文網(wǎng)頁(yè)所屬的欄目可以作為文本分類(lèi)的天然標(biāo)記使用,構(gòu)建分類(lèi)文本語(yǔ)料;部分網(wǎng)頁(yè)還提供作者、發(fā)布時(shí)間、稿件來(lái)源等信息,可以作為藏文命名實(shí)體識(shí)別的語(yǔ)料;根據(jù)網(wǎng)頁(yè)中的自然標(biāo)注信息如HTML標(biāo)記和標(biāo)點(diǎn)符號(hào)等[15],配合統(tǒng)計(jì)方法,可以從篇章語(yǔ)料中抽取互聯(lián)網(wǎng)藏文詞庫(kù),可以用于詞頻統(tǒng)計(jì)和訓(xùn)練藏文語(yǔ)言模型,這些作為基礎(chǔ)數(shù)據(jù)可以用于開(kāi)發(fā)以詞語(yǔ)(短語(yǔ))為單位支持連續(xù)輸入的藏文輸入法。這些基礎(chǔ)數(shù)據(jù)還可以用于藏文分詞、藏文信息檢索等研究任務(wù)。

    Web藏文文本可以作為藏文雙語(yǔ)語(yǔ)料的來(lái)源。藏文圣經(jīng)網(wǎng)提供的PDF格式文件中包含了段落對(duì)齊的漢藏雙語(yǔ)基督教《圣經(jīng)》文本。利用HTML的超級(jí)鏈接標(biāo)記“”中的TITLE等屬性可以從部分藏文網(wǎng)站(例如,http://nbyzsc.nbyzwhzx.com)提取漢藏對(duì)照詞語(yǔ)(短語(yǔ));部分網(wǎng)頁(yè)提供了雙語(yǔ)對(duì)照文本,如網(wǎng)站http://www.tibetebook.com的一個(gè)頁(yè)面提供了588條漢藏對(duì)照的各類(lèi)商店超市的名稱(chēng),可以用作命名實(shí)體識(shí)別的語(yǔ)料,也可以用作雙語(yǔ)平行語(yǔ)料。國(guó)內(nèi)新聞綜合類(lèi)藏文網(wǎng)站大多有對(duì)應(yīng)的漢文版甚至多語(yǔ)種版本,也可以作為雙語(yǔ)語(yǔ)料的來(lái)源。

    從上文的統(tǒng)計(jì)數(shù)據(jù)來(lái)看,Web藏文文本主要集中在部分大型網(wǎng)站,即使只提取20個(gè)網(wǎng)站的文本,也可獲得10萬(wàn)網(wǎng)頁(yè)的藏文語(yǔ)料,其分布的集中性為藏文文本的采集提供了方便。

    6 結(jié)束語(yǔ)

    語(yǔ)料是統(tǒng)計(jì)自然語(yǔ)言處理中必不可少的基礎(chǔ)素材,但是當(dāng)前藏文信息處理中存在嚴(yán)重的語(yǔ)料匱乏問(wèn)題,本文結(jié)合鏈接分析技術(shù)和藏文編碼識(shí)別技術(shù),使用網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)上Web文本資源的挖掘,并配合人工方式,相對(duì)全面地考察分析了Web藏文文本資源的分布情況。根據(jù)我們的分析,首先,國(guó)內(nèi)藏文網(wǎng)站主要集中在我國(guó)北京、青海、西藏、四川、甘肅等省(市、區(qū)),其中50%以上在青海省。其次,現(xiàn)有藏文網(wǎng)站組織和內(nèi)容形式比較豐富,既有普通網(wǎng)頁(yè),也有blog和wiki,還出現(xiàn)了微博;從內(nèi)容形式上來(lái)看,既有文字,又有圖片、音樂(lè)和視頻;所提供的信息涉及新聞、政治、社會(huì)經(jīng)濟(jì)、語(yǔ)言文化、科技教育、宗教、文化藝術(shù)、旅游、環(huán)境、藏醫(yī)藏藥等各方面的內(nèi)容。再次,舊有的藏文編碼正在被逐步地棄用,人們轉(zhuǎn)而使用國(guó)際標(biāo)準(zhǔn)的Unicode編碼來(lái)制作Web頁(yè)面。最后、Web藏文文本資源分布比較集中,約87%的藏文網(wǎng)頁(yè)集中分布在31個(gè)大型網(wǎng)站中。

    我們同時(shí)研究了這些網(wǎng)絡(luò)文本資源對(duì)于藏文自然語(yǔ)言處理研究的潛在利用價(jià)值。Web藏文文本資源分布的集中性為文本采集加工提供了一定的方便。利用HTML標(biāo)記和標(biāo)點(diǎn)符號(hào)等自然標(biāo)注信息對(duì)這些文本進(jìn)行抽取,可以構(gòu)建篇章語(yǔ)料、文本分類(lèi)語(yǔ)料。配合統(tǒng)計(jì)方法,可以從篇章語(yǔ)料中抽取互聯(lián)網(wǎng)藏文詞庫(kù),可以用于詞頻統(tǒng)計(jì)和訓(xùn)練藏文語(yǔ)言模型,這些基礎(chǔ)數(shù)據(jù)還可以用于藏文分詞、命名實(shí)體識(shí)別、信息檢索等研究方向。同時(shí)還可以結(jié)合雙語(yǔ)詞典和搜索引擎技術(shù)抽取雙語(yǔ)平行語(yǔ)料,用于統(tǒng)計(jì)機(jī)器翻譯。

    在后續(xù)的研究中,我們將進(jìn)行有針對(duì)性的Web藏文文本資源采集和加工處理,為藏文自然語(yǔ)言處理的研究提供基礎(chǔ)的數(shù)據(jù)資源。

    [1] 陳玉忠,李保利,等. 基于格助詞和接續(xù)特征的藏文自動(dòng)分詞方案[J].語(yǔ)言文字應(yīng)用,2003,(2): 75-82.

    [2] 孫媛,羅桑強(qiáng)巴,楊銳,等. 藏語(yǔ)自動(dòng)分詞方案的設(shè)計(jì)[C]//第十二屆中國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集,2009.

    [3] Huidan Liu, Minghua Nuo, Longlong Ma, et al. Tibetan Word Segmentation as Syllable Tagging Using Conditional Random Fields[C]//Proceedings of the 25th Pacific Asia Conference on Language, Information and Computation.2011:168-177.

    [4] 劉匯丹,諾明花,趙維納,等. SegT: 一個(gè)實(shí)用的藏文分詞系統(tǒng)[J]. 中文信息學(xué)報(bào), 2012, 26(1):97-103.

    [5] 才智杰. 班智達(dá)藏文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 青海師范大學(xué)民族師范學(xué)報(bào),2010,(2):75-77.

    [6] 孫萌,才智杰,姜文斌,等. 基于判別式分類(lèi)和重排序技術(shù)的藏文分詞[C]//第十三屆中國(guó)少數(shù)民族語(yǔ)言文字信息處理學(xué)術(shù)研討會(huì)論文集,2011.

    [7] 才讓加. 面向自然語(yǔ)言處理的大規(guī)模漢藏(藏漢)雙語(yǔ)語(yǔ)料庫(kù)構(gòu)建技術(shù)研究[J].中文信息學(xué)報(bào),2011,25(6):157-161.

    [8] 才讓加. 藏語(yǔ)語(yǔ)料庫(kù)詞類(lèi)描述方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(4):146-148.

    [9] 才讓加. 藏語(yǔ)語(yǔ)料庫(kù)加工方法研究[J].計(jì)算機(jī)工程與應(yīng)用. 2011,47(6):142-143,150.

    [10] 陳琪,李永宏,于洪志,等. 藏文網(wǎng)頁(yè)抓取及編碼統(tǒng)一轉(zhuǎn)換的系統(tǒng)研究[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,30(2):22-26.

    [11] 戴玉剛. 藏文網(wǎng)頁(yè)采集技術(shù)研究[C]//第十一屆全國(guó)民族語(yǔ)言文字信息學(xué)術(shù)研討會(huì)論文集.2007:527-535.

    [12] 珠杰,歐珠,格桑多吉等.基于DOM修剪的藏文Web信息提取[J].計(jì)算機(jī)工程,2008,34(24):58-60.

    [13] 李文博. 基于XML的藏文網(wǎng)頁(yè)的信息抽取與轉(zhuǎn)存技術(shù)研究[D].西北民族大學(xué)碩士學(xué)位論文,2006.

    [14] 劉匯丹,芮建武,吳健,等.藏文網(wǎng)頁(yè)的編碼識(shí)別與轉(zhuǎn)換[C]//中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議,2006:573-580.

    [15] 孫茂松.基于互聯(lián)網(wǎng)自然標(biāo)注資源的自然語(yǔ)言處理[J]. 中文信息學(xué)報(bào),2011,25(6):26-32.

    [16] 黃昌寧,李涓子.語(yǔ)料庫(kù)語(yǔ)言學(xué)[M]. 北京:商務(wù)印書(shū)館.2002.

    Mining Tibetan Web Text Resources and Its Application

    1,2, MA Longlong1, WU Jian1, HE Yeping1

    (1. Institute of Software, Chinese Academy of Sciences, Beijing 100190, China;2. Graduate University of the Chinese Academy of Sciences, Beijing 100049, China)

    Based on link analysis and Tibetan encoding detection, this paper focuses on mining the Tibetan text resources over the internet with a crawler, and analyzes the distribution of Tibetan text. Statistical data shows that, more than 50% inland Tibetan web sites are hold by organizations in Qinghai province, and about 87% web pages belong to 31 large web sites. People prefer to use Unicode as the encoding of their new web pages rather than legacy encodings. It is practical to to extract Tibetan text from the pages with the natural tag information, such as HTML elements, column information and punctuations. The text can be used to build raw corpus, text classification corpus, and internet word/phrase corpus and so on. Word frequency statistics and language model can also be derived. In addition, some bilingual corpus can also be extracted.

    Web; corpus; text mining; information extraction; Tibetan information processing; Chinese information processing

    劉匯丹(1982—),博士,工程師,主要研究領(lǐng)域?yàn)椴僮飨到y(tǒng)中文信息處理、多語(yǔ)言信息處理。E?mail:huidan@iscas.a(chǎn)c.cn洪錦玲(1981—),碩士,工程師,主要研究領(lǐng)域?yàn)槎嗾Z(yǔ)言信息處理。E?mail:jinling@iscas.a(chǎn)c.cn諾明花(1981—),博士,助理研究員,主要研究領(lǐng)域?yàn)槎嗾Z(yǔ)言信息處理。E?mail:minghua@iscas.a(chǎn)c.cn

    1003-0077(2015)01-0170-08

    2012-04-16 定稿日期: 2012-06-26

    國(guó)家自然科學(xué)基金(61202219,61202220,61303165);中國(guó)科學(xué)院信息化專(zhuān)項(xiàng)經(jīng)費(fèi)資助(XXH12504-1-10)

    TP391

    A

    猜你喜歡
    藏文語(yǔ)料語(yǔ)料庫(kù)
    西藏大批珍貴藏文古籍實(shí)現(xiàn)“云閱讀”
    布達(dá)拉(2020年3期)2020-04-13 10:00:07
    《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
    黑水城和額濟(jì)納出土藏文文獻(xiàn)簡(jiǎn)介
    西夏學(xué)(2019年1期)2019-02-10 06:22:34
    把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
    基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
    藏文音節(jié)字的頻次統(tǒng)計(jì)
    現(xiàn)代語(yǔ)境下的藏文報(bào)刊
    新聞傳播(2016年17期)2016-07-19 10:12:05
    華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
    基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
    《苗防備覽》中的湘西語(yǔ)料
    大田县| 广南县| 辽中县| 青田县| 钟祥市| 台南县| 曲靖市| 康保县| 宜丰县| 湖口县| 宿州市| 永泰县| 长兴县| 阿城市| 潜山县| 滨海县| 葫芦岛市| 临猗县| 平定县| 昌黎县| 乳源| 岑巩县| 连州市| 贡嘎县| 苍山县| 内乡县| 平舆县| 宁都县| 明水县| 安新县| 白朗县| 宝清县| 临洮县| 城固县| 辉南县| 叶城县| 砀山县| 耒阳市| 龙岩市| 毕节市| 搜索|