• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    法語(yǔ)文本挖掘研究綜述

    2020-02-25 01:14:52
    福建質(zhì)量管理 2020年6期
    關(guān)鍵詞:信息檢索法語(yǔ)分類(lèi)

    (福州大學(xué) 福建 福州 350000)

    一、引言

    隨著互聯(lián)網(wǎng)和全球信息化的發(fā)展,互聯(lián)網(wǎng)上的信息資源類(lèi)型和數(shù)量日益豐富,中法兩國(guó)之間得的信息共享也日益增多。來(lái)自學(xué)術(shù)領(lǐng)域、商業(yè)領(lǐng)域或是政治領(lǐng)域的國(guó)際交流也逐漸頻繁,語(yǔ)言的障礙加之文本信息量巨大局限了人們對(duì)關(guān)鍵信息的有效獲取,同時(shí)影響了跨語(yǔ)言信息價(jià)值的充分發(fā)揮??缯Z(yǔ)言信息的有效文本主題發(fā)現(xiàn)己成為一種迫切的需求,中法跨語(yǔ)言文本挖掘成為研究熱潮。

    二、國(guó)內(nèi)外研究及應(yīng)用

    (一)國(guó)外研究及應(yīng)用

    國(guó)內(nèi)外對(duì)跨語(yǔ)言文本主題分析研究較少,主要集中于信息檢索、情感分析領(lǐng)域、單一語(yǔ)言主題分析和文本分類(lèi)領(lǐng)域,而對(duì)跨語(yǔ)言文本研究的主要處理方法是將跨語(yǔ)言文本進(jìn)行轉(zhuǎn)換,使用標(biāo)準(zhǔn)單語(yǔ)種方法進(jìn)行文本研究,轉(zhuǎn)換主要通過(guò)領(lǐng)域適應(yīng)將不同語(yǔ)言分為源領(lǐng)域和目標(biāo)域建立模型。目前在跨語(yǔ)言的文本研究上常用的研究方法主要有三種:基于機(jī)器翻譯的方法、基于統(tǒng)計(jì)和詞典的方法以及基于平行語(yǔ)料和深度學(xué)習(xí)的方法。

    我國(guó)在文本挖掘上的研究主要集中于算法的改進(jìn)、創(chuàng)新,研究領(lǐng)域集中于信息檢索、情感分析、文本分類(lèi)和主題分析,對(duì)文本挖掘工具的研發(fā)成果較少。張琪玉[1]提出了情報(bào)檢索語(yǔ)言的效率衡量指標(biāo),為其他學(xué)者對(duì)檢索系統(tǒng)的文本檢索提供了啟示??茆x鋒[2]對(duì)自然語(yǔ)言和受控語(yǔ)言的互補(bǔ)可行性進(jìn)行了分析,并對(duì)自然語(yǔ)言進(jìn)行適當(dāng)控制方法提出了探索。李思[3]等針對(duì)于傳統(tǒng)單一粒度上情感分析方法準(zhǔn)確率不足的缺點(diǎn),通過(guò)結(jié)合詞語(yǔ)級(jí)和句子級(jí)的篇章情感分析,提出了一種基于不同粒度的中文文本情感分析算法提高了情感分析準(zhǔn)確率。施寒瀟[4]等基于半監(jiān)督學(xué)習(xí)的屬性分類(lèi),提出了細(xì)粒度情感分析方法解決了傳統(tǒng)情感分析不夠細(xì)化的不足。我國(guó)學(xué)者對(duì)文本分類(lèi)研究集中于文本分類(lèi)算法質(zhì)量,杜圣東等[5]針對(duì)支持向量機(jī)對(duì)文本分類(lèi)準(zhǔn)確度不夠的問(wèn)題,提出了基于二叉樹(shù)基礎(chǔ)的多類(lèi)SVM改進(jìn)算法,并將通過(guò)大量文本分類(lèi)實(shí)踐驗(yàn)證了其準(zhǔn)確性。張志飛[6]等采用K近鄰方法對(duì)自動(dòng)抓取的網(wǎng)頁(yè)面標(biāo)題數(shù)據(jù)進(jìn)行分類(lèi),針對(duì)短文本的特征稀疏性和上下文依賴(lài)性?xún)蓚€(gè)問(wèn)題,提出一種基于隱含狄列克雷分配模型的短文本分類(lèi)方法,提高了文本分類(lèi)的相似度。劉嬌[7]借助利用融合自聯(lián)想記憶的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到任意語(yǔ)種語(yǔ)義的高層特征致密組合,輸出分類(lèi)預(yù)測(cè),提高了分類(lèi)的精確度,同時(shí)降低了對(duì)平行語(yǔ)料庫(kù)的依賴(lài)程度。

    綜上所述,我國(guó)學(xué)者對(duì)于法語(yǔ)文本挖掘的研究較少,在跨語(yǔ)言文本選擇方面集中于中文英語(yǔ)雙語(yǔ)互譯算法研究方面,而缺少對(duì)中法跨語(yǔ)言文本挖掘研究。

    (二)國(guó)外研究及應(yīng)用

    盡管我國(guó)在跨語(yǔ)言的文本挖掘研究中對(duì)法語(yǔ)的研究和討論較少,但法語(yǔ)作為作為國(guó)際通用語(yǔ)言之一,在世界文化中仍占據(jù)一席之地。對(duì)法語(yǔ)的文本挖掘仍然是重中之重。與國(guó)內(nèi)對(duì)法語(yǔ)的文本挖掘研究不同,法語(yǔ)系學(xué)者的研究在較早的時(shí)候大多集中于算法或模型的提出與改進(jìn),而后則慢慢轉(zhuǎn)向具體應(yīng)用領(lǐng)域的研究。法語(yǔ)系學(xué)者對(duì)法語(yǔ)的文本挖掘主要集中于信息檢索、情感分析、機(jī)器翻譯和自然語(yǔ)言處理等具體領(lǐng)域。

    法國(guó)學(xué)者對(duì)信息檢索的研究集中于方法創(chuàng)新以及工具研發(fā)。在方法創(chuàng)新方面,Hatem Haddadi[8]提出了基于短語(yǔ)而非基于單詞的文本挖掘方法,通過(guò)分析短語(yǔ)間的關(guān)聯(lián)關(guān)系構(gòu)建了法語(yǔ)信息檢索系統(tǒng),通過(guò)對(duì)法語(yǔ)國(guó)家語(yǔ)料庫(kù)進(jìn)行測(cè)試表明在低召回率的情況下,將名詞短語(yǔ)索引與關(guān)聯(lián)關(guān)系相結(jié)合可以提高信息檢索系統(tǒng)的性能。Alberto等[9]基于Lexicon-Grammar理論分析框架,結(jié)合壓縮術(shù)語(yǔ)電子詞典,建立了法語(yǔ)解析規(guī)則的變體句法和統(tǒng)計(jì)集,提高了對(duì)大型文本語(yǔ)料庫(kù)的檢索效率,同時(shí)也對(duì)基于跨語(yǔ)言的可移植性和web平臺(tái)的跨語(yǔ)言構(gòu)建支持可行性做出了初步探索。Abdaoui等[10]在簡(jiǎn)化了英語(yǔ)NRC情感詞典的基礎(chǔ)上,對(duì)法語(yǔ)詞匯進(jìn)行了詳細(xì)的情感系數(shù)分配,擴(kuò)展了法語(yǔ)情感詞典,豐富了法語(yǔ)情感層次。Erik Boiy等[11]主要研究網(wǎng)絡(luò)文本情感分析,通過(guò)收集法語(yǔ)博客內(nèi)容并進(jìn)行句子級(jí)情感注釋結(jié)合機(jī)器情感訓(xùn)練,對(duì)博客主的產(chǎn)品消費(fèi)興趣進(jìn)行了分析,與基于unigram的分類(lèi)算法相比提高了情感分類(lèi)的準(zhǔn)確度,并為跨語(yǔ)言模型的可移植性提供了理論基礎(chǔ)。Mathieu等[12]基于雙語(yǔ)詞典進(jìn)行文本聚類(lèi),實(shí)驗(yàn)以無(wú)人監(jiān)督的方式從多語(yǔ)言文檔集合中提取主題相關(guān)的多語(yǔ)言文檔集群,通過(guò)相關(guān)函數(shù)識(shí)別文檔并用最近鄰聚類(lèi)算法進(jìn)行聚類(lèi)。Kazuaki[13]針對(duì)跨語(yǔ)言信息檢索中基于字典查詢(xún)翻譯通常會(huì)產(chǎn)生具有不同含義的候選問(wèn)題,提出了基于目標(biāo)文檔集合來(lái)解決翻譯歧義的方法,通過(guò)在集合中使用術(shù)語(yǔ)共現(xiàn)統(tǒng)計(jì)及偽相關(guān)反饋技術(shù),測(cè)試了法語(yǔ)的信息檢索,研究表明Dice系數(shù)略微優(yōu)于余弦系數(shù)。Hanneman等[14]基于卡內(nèi)基梅隆大學(xué)MT系統(tǒng)中法英轉(zhuǎn)換系統(tǒng)的原理,提出了基于語(yǔ)法的改進(jìn)策略,該方法包含了對(duì)句法的分析以及非對(duì)稱(chēng)句子結(jié)構(gòu)的轉(zhuǎn)換,提高了MT系統(tǒng)法英文本可讀性。Cheng等[15]針對(duì)智能翻譯中單向翻譯可能過(guò)度捕捉已設(shè)定的規(guī)則問(wèn)題,提出了基于協(xié)議的雙向互通理論,通過(guò)對(duì)單詞對(duì)齊矩陣的調(diào)節(jié)用于提高雙向互通的端到端神經(jīng)機(jī)器翻譯準(zhǔn)確度,最后用于漢英和英法的翻譯測(cè)試中得出了顯著的翻譯效果。

    由此可見(jiàn),法語(yǔ)學(xué)者對(duì)文本挖掘有較為深入的研究,且就研究領(lǐng)域來(lái)看傾向于信息檢索與情感分析,且更多研究于算法開(kāi)發(fā),對(duì)跨語(yǔ)言文本聚類(lèi)領(lǐng)域的研究較少。

    三、研究意義

    本文梳理了已有的中法跨語(yǔ)言文本挖掘方法,可以方便人們高效的管理和檢索跨語(yǔ)言文檔,把握信息潮流。此外本文還可以與問(wèn)答系統(tǒng)、網(wǎng)絡(luò)信息安全、情報(bào)獲取等多個(gè)領(lǐng)域的技術(shù)相結(jié)合,為人工智能應(yīng)答、海量文本情報(bào)獲取提供更加快捷的方法。在將來(lái)所需要做的工作就是:如何將現(xiàn)存的數(shù)據(jù)挖掘技術(shù)應(yīng)用與文本挖掘領(lǐng)域很好地融合,那樣中法跨語(yǔ)言本文挖掘就能夠更有效地進(jìn)行。

    猜你喜歡
    信息檢索法語(yǔ)分類(lèi)
    分類(lèi)算一算
    自殺呈現(xiàn)中的自殺預(yù)防——法語(yǔ)動(dòng)畫(huà)電影《自殺專(zhuān)賣(mài)店》的多模態(tài)話(huà)語(yǔ)分析
    分類(lèi)討論求坐標(biāo)
    數(shù)據(jù)分析中的分類(lèi)討論
    教你一招:數(shù)的分類(lèi)
    小型法語(yǔ)口語(yǔ)語(yǔ)料庫(kù)的創(chuàng)建與應(yīng)用研究
    醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
    新聞傳播(2016年18期)2016-07-19 10:12:06
    論法語(yǔ)的體系統(tǒng)
    基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
    教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
    河南科技(2014年11期)2014-02-27 14:10:19
    自治县| 福贡县| 合水县| 平湖市| 伊金霍洛旗| 淮滨县| 平和县| 德阳市| 侯马市| 原平市| 平凉市| 尤溪县| 木兰县| 铜梁县| 上思县| 东丰县| 儋州市| 固镇县| 卢湾区| 綦江县| 邯郸市| 五指山市| 内乡县| 边坝县| 马山县| 鄄城县| 垦利县| 陈巴尔虎旗| 和政县| 嵊泗县| 阿图什市| 商城县| 剑河县| 托里县| 钟祥市| 肇州县| 昌都县| 洞头县| 晋州市| 高青县| 中超|