• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向科研與教學(xué)的文本分類(lèi)平臺(tái)構(gòu)建

    2015-12-15 01:57:35路永和彭燕虹劉文秋
    現(xiàn)代情報(bào) 2015年9期
    關(guān)鍵詞:文本分類(lèi)語(yǔ)料庫(kù)

    路永和+彭燕虹+劉文秋

    〔摘 要〕為提高中文文本分類(lèi)科研與教學(xué)人員的工作效率,本文針對(duì)國(guó)內(nèi)現(xiàn)有中文文本分類(lèi)系統(tǒng)的研發(fā)現(xiàn)狀,構(gòu)建一個(gè)包括預(yù)處理、特征選擇、權(quán)值計(jì)算、自動(dòng)分類(lèi)和分類(lèi)效果測(cè)評(píng)等文本分類(lèi)全過(guò)程的管理平臺(tái)。開(kāi)發(fā)過(guò)程中,本文使用系統(tǒng)集成思想和方法將自編軟件代碼與相關(guān)的開(kāi)源軟件代碼進(jìn)行集成。經(jīng)測(cè)試,該系統(tǒng)實(shí)現(xiàn)了文本自動(dòng)分類(lèi)過(guò)程的全部功能。

    〔關(guān)鍵詞〕文本分類(lèi);MVC;語(yǔ)料庫(kù);訓(xùn)練集;測(cè)試集

    DOI:10.3969/j.issn.1008-0821.2015.09.011

    〔中圖分類(lèi)號(hào)〕TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2015)09-0056-07

    〔Abstract〕In order to improve the working efficiency of the people which are occupied in scientific research and teaching of Chinese text categorization and considering about the research and development status of the text categorization system in China,a management platform of text categorization for the whole process,including pre-processing,feature selection,weighting calculation,automatic classification and classification evaluation were built.In the process of the development,based on the principle and method of system integration,the coding of ourselves and the ones of the related open source software were integrated.After testing,the system implemented the whole functions of automatic text categorization.

    〔Key words〕text classification;MVC;corpus;training set;testing set

    文本分類(lèi)是基于內(nèi)容的自動(dòng)文本信息管理,隨著網(wǎng)絡(luò)文本數(shù)量呈幾何級(jí)數(shù)增長(zhǎng),文本分類(lèi)已成為處理和組織海量文本信息的關(guān)鍵技術(shù)[1]。文本分類(lèi)就是將文本信息分到已定義好的一個(gè)或多個(gè)類(lèi)中,從而幫助人們更好更快的檢索到有用信息,過(guò)濾掉無(wú)用信息。一般而言,文本分類(lèi)分為以下5個(gè)環(huán)節(jié),包括:文本預(yù)處理、特征選擇、權(quán)值計(jì)算、分類(lèi)算法、分類(lèi)效果測(cè)評(píng)。當(dāng)前,文本分類(lèi)技術(shù)被廣泛應(yīng)用于日常數(shù)據(jù)管理的各個(gè)方面[2-4],如瀏覽器的資源分層、垃圾短信郵件的過(guò)濾、敏感信息的預(yù)警、網(wǎng)絡(luò)輿情監(jiān)測(cè)[5]等。但由于文本分類(lèi)流程的復(fù)雜性,需要撰寫(xiě)大量的代碼,不僅耗時(shí)耗力、成本代價(jià)高昂,且造成了嚴(yán)重的代碼重復(fù),浪費(fèi)了研究者們的寶貴時(shí)間、延長(zhǎng)了科研進(jìn)度,使很多學(xué)者不能在第一時(shí)間完成自己的最新研究。對(duì)致力于學(xué)習(xí)文本分類(lèi)技術(shù)的高校學(xué)生而言,由于文本分類(lèi)過(guò)程的抽象復(fù)雜,他們很難學(xué)習(xí)到相應(yīng)知識(shí)內(nèi)核?;谏鲜鲈?,研發(fā)一個(gè)面向教學(xué)與科研的文本分類(lèi)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)集導(dǎo)入、訓(xùn)練集與測(cè)試集索引、特征選擇、權(quán)值計(jì)算、文本分類(lèi)并提供可視化的界面,使得科研人員、高校學(xué)生甚至包括無(wú)技術(shù)背景的人員均能利用此文本分類(lèi)系統(tǒng)進(jìn)行文本分類(lèi)領(lǐng)域的相關(guān)研究與應(yīng)用。

    1 系統(tǒng)需求分析

    目前,國(guó)外已經(jīng)開(kāi)發(fā)出了一些成熟的文本分類(lèi)平臺(tái),如著名的IBM商用數(shù)據(jù)挖掘平臺(tái)IBM Intelligent Miner,是一款包含文本分類(lèi)、預(yù)測(cè)、關(guān)聯(lián)規(guī)則產(chǎn)生等基礎(chǔ)研究成果在內(nèi)的可伸縮性平臺(tái)。該平臺(tái)提供了豐富的數(shù)據(jù)分析技術(shù)和算法集,具有大量易于開(kāi)發(fā)者使用的編程接口,是市場(chǎng)上最強(qiáng)大的數(shù)據(jù)分析平臺(tái)之一[6]。但是作為商用挖掘工具,該平臺(tái)價(jià)格較高且不宜用于學(xué)術(shù)研究。斯坦福大學(xué)自然語(yǔ)言處理組提供了開(kāi)源的Natural Language Toolkit(NLTK)平臺(tái)用于進(jìn)行分詞、詞性標(biāo)注、文本分類(lèi)等工作[7],但NLTK只適用于Python語(yǔ)句且主要支持英文及其他一些拉丁語(yǔ)系,無(wú)法處理中文語(yǔ)料。Waikato大學(xué)研究的開(kāi)源平臺(tái)Waikato Environment for Knowledge Analysis(WEKA),它包含對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、關(guān)聯(lián)規(guī)則挖掘、分類(lèi)、聚類(lèi)等多種功能,并提供了易于交互的可視化界面[8]。Weka的源碼是公開(kāi)的,因此使用者可以根據(jù)自身需要對(duì)Weka進(jìn)行二次開(kāi)發(fā),拓展其功能或者整合到相應(yīng)的系統(tǒng)中。相比國(guó)外,國(guó)內(nèi)在文本分類(lèi)平臺(tái)開(kāi)發(fā)上發(fā)展較慢,主要是基于國(guó)外著名開(kāi)源平臺(tái)進(jìn)行的二次開(kāi)發(fā)。自主研制的相關(guān)平臺(tái)主要有復(fù)旦自然語(yǔ)言處理(FudanNLP,F(xiàn)NLP)、中科院漢語(yǔ)分詞系統(tǒng)(Institute of Computing Technology,Chinese Lexical Analysis System,ICTCLAS)以及譚松波的DRAP文本分類(lèi)系統(tǒng)。FNLP主要包括了以下功能:文本分類(lèi)、實(shí)體名識(shí)別、新聞聚類(lèi)、詞性標(biāo)注、中文分詞、關(guān)鍵詞抽取、依存句法分析等。工具采用Java編寫(xiě),并提供了API的訪問(wèn)調(diào)用方式[9]。但此平臺(tái)初始化時(shí)間有點(diǎn)長(zhǎng),并且加載模型時(shí)占用內(nèi)存較大,在進(jìn)行語(yǔ)法分析時(shí)分析的結(jié)果也不是十分準(zhǔn)確。ICTCLAS主要包括以下功能:中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、新詞識(shí)別,同時(shí)支持用戶詞典。目前,ICTCLAS30分詞速度單機(jī)996KB/s,分詞精度9845%,API不超過(guò)200KB,各種詞典數(shù)據(jù)壓縮后不到3M,是當(dāng)前世界上最好的漢語(yǔ)詞法分析器[10]。但是ICTCLAS并非完整的文本分類(lèi)系統(tǒng),只包含了文本分類(lèi)過(guò)程中文檔預(yù)處理環(huán)節(jié)的切分詞操作。DRAP文本分類(lèi)系統(tǒng),支持中英文分類(lèi)、中文最大匹配分詞、特征選擇、英文詞根還原、停用詞去除、雙語(yǔ)種分類(lèi)和多線程分類(lèi),其中雙語(yǔ)種分類(lèi)、多線程分類(lèi)需要定制后才可使用[11]。但是該分類(lèi)平臺(tái)并不能進(jìn)行特征選擇方法以及分類(lèi)器的選擇,各個(gè)分類(lèi)環(huán)節(jié)采取系統(tǒng)默認(rèn)設(shè)置,同時(shí)系統(tǒng)實(shí)用性不強(qiáng)、極易閃退。綜合而言,國(guó)內(nèi)尚未有成型且使用效果良好的文本分類(lèi)系統(tǒng)平臺(tái),開(kāi)發(fā)一個(gè)易于使用、功能簡(jiǎn)捷、操作簡(jiǎn)單的文本分類(lèi)系統(tǒng),將為自動(dòng)文本分類(lèi)技術(shù)的使用者提供極大的便利。endprint

    基于此,本系統(tǒng)平臺(tái)搭建的主要目標(biāo)是為從事文本分類(lèi)教學(xué)、科研的人員提供一個(gè)易于使用、功能簡(jiǎn)捷、對(duì)系統(tǒng)運(yùn)行環(huán)境要求不高、具有可視化功能的文本分類(lèi)系統(tǒng)。為了達(dá)到此目標(biāo),系統(tǒng)的功能性需求包括:(1)提供可視化的使用界面,用戶只需點(diǎn)擊相應(yīng)按鈕,即可執(zhí)行所需的文本分類(lèi)各個(gè)環(huán)節(jié)的操作,不再需要人為進(jìn)行代碼撰寫(xiě);(2)提供單篇文檔分類(lèi)、多篇文檔分類(lèi)兩個(gè)入口,以滿足不同需求;(3)提供各個(gè)環(huán)節(jié)的運(yùn)行結(jié)果,使得用戶能夠及時(shí)了解文本分類(lèi)各個(gè)環(huán)節(jié)的運(yùn)行情況。同時(shí),系統(tǒng)需要滿足以下2個(gè)非功能需求,才能更好地服務(wù)于使用者,包括:(1)易使用性:系統(tǒng)具有良好的交互界面,界面功能描述清晰,步驟明確,用戶只要執(zhí)行選擇、確定操作,即可順利使用平臺(tái);(2)健壯性:系統(tǒng)平臺(tái)應(yīng)該可靠有效,即使出現(xiàn)系統(tǒng)故障或是用戶輸入、操作錯(cuò)誤或者其它異常,也能夠迅速捕獲并進(jìn)行處理。

    2 系統(tǒng)構(gòu)建

    21 系統(tǒng)總體架構(gòu)

    本系統(tǒng)使用MVC三層架構(gòu)設(shè)計(jì),包括表示層、業(yè)務(wù)邏輯層以及數(shù)據(jù)訪問(wèn)層,開(kāi)發(fā)語(yǔ)言采用Java,如圖1所示。

    用戶通過(guò)表示層進(jìn)行界面操作。第一步:索引訓(xùn)練集、索引測(cè)試集以進(jìn)行文本預(yù)處理操作,通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層文本預(yù)處理模塊,調(diào)用文本預(yù)處理接口,運(yùn)行文本預(yù)處理各個(gè)環(huán)節(jié),包括ICTLAS分詞、去停用詞、Lucene特征詞索引以及統(tǒng)計(jì)詞頻,生成一個(gè)wordCount.txt文件(即詞頻統(tǒng)計(jì)文件)存儲(chǔ)于數(shù)據(jù)訪問(wèn)層中。第二步:用戶通過(guò)界面操作特征選擇環(huán)節(jié),包括選擇特征選擇方法以及輸入特征維數(shù),通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層特征選擇模塊,調(diào)用特征選擇接口,讀取wordCount.txt文件,運(yùn)行特征選擇業(yè)務(wù),生成特征選擇方法維數(shù)txt文件,存儲(chǔ)于數(shù)據(jù)訪問(wèn)層中。第三步:用戶通過(guò)界面選擇所需的權(quán)值計(jì)算方法以進(jìn)行權(quán)值計(jì)算操作,通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層權(quán)值計(jì)算模塊,調(diào)用權(quán)值計(jì)算接口,分別讀取各個(gè)特征選擇方法維數(shù)txt文件,運(yùn)行權(quán)值計(jì)算業(yè)務(wù),生成相應(yīng)TrainSet權(quán)值計(jì)算方法aff文件和TestSet權(quán)值計(jì)算方法aff文件,存儲(chǔ)于數(shù)據(jù)訪問(wèn)層中。第四步:用戶通過(guò)界面選擇所需的分類(lèi)算法以進(jìn)行分類(lèi)操作,通過(guò)用戶請(qǐng)求監(jiān)聽(tīng)模塊訪問(wèn)業(yè)務(wù)邏輯層WEKA分類(lèi)算法模塊,調(diào)用Weka分類(lèi)算法接口,分別讀取成對(duì)的TrainSet權(quán)值計(jì)算方法aff文件和TestSet權(quán)值計(jì)算方法aff文件,運(yùn)行分類(lèi)業(yè)務(wù)。第五步:第四步運(yùn)行分類(lèi)業(yè)務(wù)后,直接訪問(wèn)業(yè)務(wù)邏輯層分類(lèi)效果測(cè)評(píng)模塊,運(yùn)行分類(lèi)效果測(cè)評(píng)業(yè)務(wù),包括單篇測(cè)試文檔分類(lèi)結(jié)果(分類(lèi)結(jié)果、實(shí)際類(lèi)別),測(cè)試集分類(lèi)結(jié)果(準(zhǔn)確率、宏平均值、微平均值),業(yè)務(wù)邏輯層運(yùn)行結(jié)果直接返回表示層,在用戶界面顯示分類(lèi)效果測(cè)評(píng)(準(zhǔn)確率、宏平均值、微平均值)。

    22 主要功能模塊

    本系統(tǒng)主要功能大致可以分為四大模塊:表示模塊,用戶請(qǐng)求監(jiān)聽(tīng)模塊、業(yè)務(wù)邏輯模塊和數(shù)據(jù)存儲(chǔ)模塊。

    221 表示模塊,即系統(tǒng)平臺(tái)界面

    表示模塊即文本分類(lèi)系統(tǒng)的UI,負(fù)責(zé)接受用戶的請(qǐng)求并返回請(qǐng)求內(nèi)容,該模塊使用JFC技術(shù),界面中使用了Java Swing和Java AWT等UI組件。在Java Swing中,每一個(gè)組件都包含一個(gè)MVC模型,Model模塊決定組件的行為,View模塊決定組件的UI。以JButton為例,按鈕表面提示文字,如“特征選擇”按鈕,這部分就是View。而當(dāng)前按鈕是被鎖定的還是處于激活狀態(tài),如“按鈕是否能被點(diǎn)擊”,這部分就是Model。

    222 用戶請(qǐng)求監(jiān)聽(tīng)模塊

    使用ActionListener接收表示層所發(fā)出的請(qǐng)求,對(duì)請(qǐng)求進(jìn)行相應(yīng)處理,并將處理后的結(jié)果返回給表示層。用戶請(qǐng)求監(jiān)聽(tīng)模塊主要負(fù)責(zé)監(jiān)聽(tīng)用戶的操作,并根據(jù)用戶的請(qǐng)求,更新文本分類(lèi)子系統(tǒng)的配置信息。該模塊主要為表示層提供服務(wù),同時(shí)充當(dāng)表示層和業(yè)務(wù)邏輯層間溝通的橋梁,包括:監(jiān)聽(tīng)用戶操作和控制輸入規(guī)范。因此,該模塊主要解決以下兩個(gè)問(wèn)題:①系統(tǒng)能夠精確地捕獲用戶的操作并可以為用戶提供即時(shí)反饋;同時(shí),在響應(yīng)用戶的請(qǐng)求過(guò)程中,需要保證不會(huì)錯(cuò)過(guò)用戶的其它操作。②系統(tǒng)接受的數(shù)據(jù)需要控制在一定的范圍內(nèi),同時(shí)保證數(shù)據(jù)是有效的輸入。對(duì)于規(guī)范要求以外的輸入,系統(tǒng)能夠正確地判斷出來(lái),并且以合理的方式處理。

    223 業(yè)務(wù)邏輯模塊

    本系統(tǒng)的業(yè)務(wù)邏輯模塊即文本分類(lèi)的流程操作,包括:①文本預(yù)處理:ICTCLAS分詞、去停用詞、Luence建立索引和統(tǒng)計(jì)詞頻;②特征選擇:信息增益、卡方檢驗(yàn)和互信息;③權(quán)值計(jì)算:TF-IDF;④分類(lèi)算法:K最近鄰算法、樸素貝葉斯算法、支持向量機(jī)算法和J48決策樹(shù)算法;⑤分類(lèi)效果測(cè)評(píng):準(zhǔn)確率、宏平均F值和微平均F值。

    224 數(shù)據(jù)存儲(chǔ)模塊

    即包括系統(tǒng)所涉及的所有數(shù)據(jù)文件的安全持久存放。數(shù)據(jù)主要保存為txt格式和arff格式。其中:①txt格式:wordCount.txt主要的作用是保存詞頻統(tǒng)計(jì)的結(jié)果,如某文本出現(xiàn)在類(lèi)別Ci中的頻次,出現(xiàn)在類(lèi)別Ci的文本數(shù)量等。后續(xù)特征選擇模塊和特征權(quán)值計(jì)算模塊在使用特征詞的詞頻等數(shù)據(jù)能夠直接從這個(gè)文件中調(diào)取。特征選擇方法維數(shù)txt主要的作用是保存某一維數(shù)下采用某一特征選擇方法得到的特征詞;②arff格式的文件是Weka默認(rèn)的儲(chǔ)存數(shù)據(jù)集文件。每個(gè)ARFF文件對(duì)應(yīng)一個(gè)二維表格。表格的各行是數(shù)據(jù)集的各實(shí)例,各列是數(shù)據(jù)集的各個(gè)屬性。因?yàn)楸疚脑O(shè)計(jì)的文本分類(lèi)系統(tǒng)平臺(tái)在分類(lèi)算法模塊中調(diào)用Weka開(kāi)源工具,所以特征權(quán)值計(jì)算模塊的最終輸出為arff格式文件,方便分類(lèi)算法模塊的調(diào)用。

    3 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

    31 用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)

    用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)主要基于GUI類(lèi)。首先,GUI類(lèi)繼承了JFrame類(lèi),同時(shí)實(shí)現(xiàn)了ActionListener接口,故其本身是一個(gè)具有監(jiān)聽(tīng)事件行為的窗口。其次,GUI類(lèi)作為用戶界面,是整個(gè)系統(tǒng)的入口。在GUI類(lèi)的構(gòu)造過(guò)程中,將按鈕和文本框布局到GUI類(lèi)上,并分別為它們?cè)O(shè)置對(duì)應(yīng)的監(jiān)聽(tīng)事件。整個(gè)用戶界面設(shè)置的事件有5種:endprint

    (1)分類(lèi)算法的單選按鈕事件RadioListener1。該事件用于更新文本分類(lèi)算法。當(dāng)用戶選擇了某種文本分類(lèi)方法,那么用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)就會(huì)把文本分類(lèi)子系統(tǒng)的分類(lèi)算法設(shè)置為對(duì)應(yīng)的值。

    (2)特征選擇方法的單選按鈕事件RadioListener2。該事件用于更新特征選擇方法。當(dāng)用戶選擇了某種特征選擇方法,那么用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)就會(huì)把文本分類(lèi)子系統(tǒng)的特征選擇方法設(shè)置為對(duì)應(yīng)的值。

    (3)權(quán)值計(jì)算方法的單選按鈕事件RadioListener3。該事件用于更新權(quán)值計(jì)算方法。當(dāng)用戶選擇了某種權(quán)值計(jì)算方法,那么用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)就會(huì)把文本分類(lèi)子系統(tǒng)的權(quán)值計(jì)算方法設(shè)置為對(duì)應(yīng)的值。

    (4)特征維數(shù)文本框的內(nèi)容更新事件KeyAdapter。該事件用于檢測(cè)特征維數(shù)的有效性。如果用戶填寫(xiě)的特征維數(shù)不在有效范圍內(nèi),那么系統(tǒng)就會(huì)提示特征維數(shù)無(wú)效。

    (5)文本分類(lèi)子系統(tǒng)激活事件GUI(GUI實(shí)現(xiàn)了ActionListener接口)。該事件主要用于執(zhí)行文本分類(lèi)子系統(tǒng)的任務(wù),包括索引訓(xùn)練、特征選擇、權(quán)值計(jì)算和分類(lèi)。

    用戶請(qǐng)求監(jiān)聽(tīng)子系統(tǒng)的類(lèi)圖,如圖2所示,這里略去函數(shù)和屬性。

    32 文本分類(lèi)子系統(tǒng)

    文本分類(lèi)子系統(tǒng)包括文本預(yù)處理、特征選擇、權(quán)值計(jì)算、文本分類(lèi)、文本分類(lèi)效果測(cè)評(píng)等,系統(tǒng)流程圖,如圖3所示。

    321 文本預(yù)處理

    文本預(yù)處理是文本分類(lèi)環(huán)節(jié)中重要的一環(huán)[12]。文本預(yù)處理的主要目的是抽取代表文本特征的元數(shù)據(jù)(特征項(xiàng)),一般包括去除標(biāo)記、去除停用詞以及在特定情況下進(jìn)行分詞處理等工作[13]。本系統(tǒng)中,文本預(yù)處理主要用于實(shí)現(xiàn)中文文本分詞、特征詞索引和特征詞詞頻統(tǒng)計(jì)。本文的文本預(yù)處理操作,通過(guò)將中科院分詞器ICTCLAS整合進(jìn)Lucene平臺(tái)完善了Lucene平臺(tái)對(duì)中文分詞的不足,在利用ICTCLAS進(jìn)行分詞后,用Lucene實(shí)現(xiàn)后續(xù)的去停用詞、建立索引、統(tǒng)計(jì)詞頻等文本預(yù)處理操作。為文本預(yù)處理設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    TermStatistic類(lèi):包含文本分詞、特征詞索引、特征詞詞頻統(tǒng)計(jì)操作接口。

    ICTCLASAnalyzer類(lèi):主要實(shí)現(xiàn)中文文本的分詞操作。

    Indexer類(lèi):將分詞后的單詞按照字典順序進(jìn)行索引操作,便于下一步詞頻統(tǒng)計(jì)。

    WordFrequence類(lèi):利用分詞和索引的結(jié)果,統(tǒng)計(jì)特征詞詞頻,為下一步特征選擇和特征權(quán)值計(jì)算做數(shù)據(jù)準(zhǔn)備,運(yùn)行后生成wordCount.txt。

    用戶選擇完訓(xùn)練集路徑后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)調(diào)用函數(shù)setTrainpath和getTestpath分別記錄訓(xùn)練集和測(cè)試集路徑。當(dāng)用戶點(diǎn)擊“索引訓(xùn)練集”按鈕后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)調(diào)用類(lèi)TermStatistic對(duì)訓(xùn)練文檔和測(cè)試文檔進(jìn)行索引。索引完畢后,TermStatistic的對(duì)象調(diào)用WordFrequence類(lèi)進(jìn)行詞頻統(tǒng)計(jì),統(tǒng)計(jì)后的結(jié)果保存到wordCount.txt文件上。

    322 特征選擇

    特征選擇用于從原有的特征中提取出少量的、具有代表性的特征,并替代原始特征集進(jìn)行文本分類(lèi)。在文本分類(lèi)中,特征選擇是一項(xiàng)很重要的工作,抽取到的特征項(xiàng)質(zhì)量的好壞直接影響到分類(lèi)的效果[14]。本文的文本分類(lèi)平臺(tái)中整合了經(jīng)典的特征選擇方法,包括信息增益IG、開(kāi)方檢驗(yàn)CHI以及互信息MI。其中本文設(shè)計(jì)的平臺(tái)設(shè)置CHI作為特征選擇的默認(rèn)方法。為特征選擇設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    FeatureSelection類(lèi):特征選擇基類(lèi),在基類(lèi)上派生具體的特征選擇類(lèi),如CHI-FS類(lèi)。

    Parameter類(lèi):保存訓(xùn)練文本集、測(cè)試文本集以及新生成特征詞及其詞頻文件的存放路徑。

    Method類(lèi):主要包含詞頻以及CHI方法中所需參數(shù)。

    用戶提交請(qǐng)求后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)通過(guò)函數(shù)setFSType()來(lái)設(shè)置用戶特征選擇的方法,在執(zhí)行特征選擇操作之前,先通過(guò)setFeatureNum函數(shù)獲取用戶設(shè)置的特征維數(shù),然后調(diào)用FeatureSelection()函數(shù)來(lái)執(zhí)行特征選擇操作。FeatureSelection()函數(shù)通過(guò)變量FSType確定調(diào)用哪個(gè)特征選擇方法類(lèi)并生成一個(gè)實(shí)例。假設(shè)用戶使用默認(rèn)特征選擇方法CHI,將特征維數(shù)getFeatureNum()作為參數(shù)傳入其中。通過(guò)Method類(lèi)下的getDocNumInC()函數(shù)獲取訓(xùn)練集中的文本數(shù),通過(guò)調(diào)用termCountSum()函數(shù)獲取預(yù)處理后的每個(gè)類(lèi)別下的特征項(xiàng)。

    323 權(quán)值計(jì)算

    特征權(quán)值就是用來(lái)表示某個(gè)特征項(xiàng)分類(lèi)能力的強(qiáng)弱?,F(xiàn)行的很多分類(lèi)算法都利用向量空間模型(Vector Space Model,VSM)來(lái)進(jìn)行文本表示,用特征項(xiàng)和特征權(quán)值來(lái)代表特征信息[15]。本文設(shè)計(jì)的平臺(tái)中設(shè)置TF-IDF作為權(quán)值計(jì)算的默認(rèn)方法。為權(quán)值計(jì)算設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    TermWeightCalculation類(lèi):特征權(quán)值計(jì)算基類(lèi),在基類(lèi)上派生具體的特征權(quán)值計(jì)算類(lèi),如TFIDF類(lèi)。endprint

    Parameter類(lèi):保存文件路徑,具體包括:訓(xùn)練文本集、測(cè)試文本集、新生成特征詞、詞頻以及特征權(quán)值計(jì)算生成的文件。

    用戶提交請(qǐng)求后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)通過(guò)函數(shù)setWeightType()來(lái)設(shè)置用戶權(quán)值計(jì)算的方法,然后調(diào)用TrainWeightCalculate()函數(shù)以及TestWeightCalculate()函數(shù)來(lái)分別執(zhí)行訓(xùn)練集以及測(cè)試集權(quán)值計(jì)算操作。TrainWeightCalculate()函數(shù)以及TestWeightCalculate()函數(shù)通過(guò)變量WeightType確定調(diào)用哪個(gè)特征權(quán)值計(jì)算方法類(lèi)并生成一個(gè)實(shí)例。

    324 分類(lèi)算法與效果測(cè)評(píng)

    文本分類(lèi)算法是文本分類(lèi)中的核心問(wèn)題,也稱(chēng)為文本分類(lèi)器或分類(lèi)模型[13]。文本分類(lèi)根據(jù)文本的特征和權(quán)值,將文本按照一定的分類(lèi)規(guī)則自動(dòng)標(biāo)注文本類(lèi)別的過(guò)程。作為一個(gè)文本分類(lèi)系統(tǒng)平臺(tái),應(yīng)整合多種經(jīng)典的算法,供平臺(tái)使用者進(jìn)行實(shí)驗(yàn)對(duì)比。由于Weka已經(jīng)涵蓋了大部分的分類(lèi)算法,本文介紹的平臺(tái)上的分類(lèi)算法是調(diào)用Weka的分類(lèi)算法,其中包括KNN算法、樸素貝葉斯算法、支持向量機(jī)(SVM)算法和J48決策樹(shù)算法。其中本文設(shè)計(jì)的平臺(tái)設(shè)置KNN為默認(rèn)的分類(lèi)算法。為分類(lèi)算法設(shè)計(jì)的類(lèi)包括:

    GUI類(lèi):主要負(fù)責(zé)前臺(tái)界面展示和人機(jī)交互控制。

    MainText類(lèi):主要設(shè)計(jì)文本分類(lèi)全部流程的接口,包含文本預(yù)處理、特征選擇、文本分類(lèi)的接口。

    WekaClassifier類(lèi):整合了Weka開(kāi)源平臺(tái)中大部分文本分類(lèi)方法的類(lèi)接口,調(diào)用Weka中的類(lèi)IBk、LibSVM、J48、NaiveBayes,并根據(jù)Weka中的分類(lèi)算法返回的結(jié)果生成分類(lèi)器。

    Classifier類(lèi):分類(lèi)算法基類(lèi),在基類(lèi)上派生具體的分類(lèi)算法類(lèi),如KNN類(lèi)、SVM類(lèi)、J48類(lèi)以及BAYS類(lèi)。

    ArffLoader類(lèi):讀取訓(xùn)練文件和測(cè)試文件。

    ArrayList類(lèi):輸出每一個(gè)測(cè)試語(yǔ)料的文本分類(lèi)測(cè)評(píng)結(jié)果,包括分類(lèi)結(jié)果和實(shí)際類(lèi)別。

    用戶提交請(qǐng)求后,用戶監(jiān)控系統(tǒng)把用戶的請(qǐng)求提交給業(yè)務(wù)邏輯層,MainTest類(lèi)通過(guò)函數(shù)setClassifierType()來(lái)設(shè)置用戶分類(lèi)算法,然后在wekaClassifier類(lèi)中調(diào)用Classify()函數(shù)來(lái)執(zhí)行分類(lèi)算法操作。Classify()函數(shù)通過(guò)變量type確定調(diào)用哪個(gè)分類(lèi)算法并生成一個(gè)實(shí)例。通過(guò)ArffLoader類(lèi)下的getDataSet()函數(shù)獲取訓(xùn)練集及測(cè)試集文件,通過(guò)各個(gè)實(shí)例類(lèi)的buildClassifier()函數(shù)進(jìn)行分類(lèi)訓(xùn)練,通過(guò)調(diào)用classifyInstance()函數(shù)及classValue()函數(shù)獲取分類(lèi)后的每個(gè)測(cè)試語(yǔ)料的分類(lèi)結(jié)果,通過(guò)ArrayList類(lèi)循環(huán)輸出分類(lèi)結(jié)果。

    4 系統(tǒng)功能測(cè)試

    采用復(fù)旦中文分類(lèi)語(yǔ)料庫(kù)作為系統(tǒng)測(cè)試的語(yǔ)料庫(kù),選取其中的9個(gè)類(lèi)別,包括Agriculture、Art、Computer、Economy、Environment、History、Politics、Space以及Sports。各個(gè)類(lèi)別均有400個(gè)文本,按1∶1隨機(jī)分配,訓(xùn)練集與測(cè)試集各為200個(gè),數(shù)據(jù)集共有3 600個(gè)文本。本文設(shè)計(jì)的文本分類(lèi)系統(tǒng)可在“中大極天智能信息處理實(shí)驗(yàn)室”[16]上下載,安裝后可對(duì)平臺(tái)的各項(xiàng)功能進(jìn)行測(cè)試。

    41 文本預(yù)處理

    索引訓(xùn)練集和測(cè)試集過(guò)程中,系統(tǒng)會(huì)對(duì)訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料進(jìn)行分詞、去停用詞、索引和統(tǒng)計(jì)操作。具體操作包括:對(duì)每個(gè)文檔進(jìn)行切分詞操作,并對(duì)每個(gè)特征項(xiàng)評(píng)估其詞性,從而便于在去停用詞階段排除某些詞性的特征項(xiàng)。在進(jìn)行分詞處理后,對(duì)訓(xùn)練文本集建立索引,便于后續(xù)進(jìn)行詞頻統(tǒng)計(jì)等工作。索引結(jié)束后系統(tǒng)會(huì)輸出建立索引所花費(fèi)的時(shí)間。針對(duì)復(fù)旦中文分類(lèi)語(yǔ)料庫(kù),1 800篇訓(xùn)練文檔,共花費(fèi)了127 910毫秒來(lái)建立索引;1 800篇測(cè)試文檔,共花費(fèi)了237 385毫秒來(lái)建立索引。

    42 特征選擇

    任意選擇平臺(tái)上一種經(jīng)典的特征選擇方法,輸入特征維數(shù)然后點(diǎn)擊“特征選擇”按鈕,后臺(tái)運(yùn)行特征選擇操作,在系統(tǒng)平臺(tái)結(jié)果區(qū)會(huì)出現(xiàn)經(jīng)過(guò)特征選擇后被選出的特征項(xiàng)列表。以特征維數(shù)600為例,分別利用CHI、IG、MI進(jìn)行特征選擇操作,得到前20個(gè)特征詞如表1所示。

    觀察各個(gè)特征選擇方法得到的前20個(gè)特征詞可知:CHI、IG得到的特征詞較為類(lèi)似,而MI與CHI、IG的特征詞差別較大。

    43 權(quán)值計(jì)算

    選擇權(quán)值計(jì)算方法,進(jìn)行“訓(xùn)練集權(quán)值計(jì)算”和“測(cè)試集權(quán)值計(jì)算”,運(yùn)行完成后生成相應(yīng)的訓(xùn)練集與測(cè)試集的arff格式文件,以供分類(lèi)算法環(huán)節(jié)使用。以特征維數(shù)為600的CHI特征選擇方法為例,利用TF-IDF進(jìn)行特征權(quán)值計(jì)算,得到TrainSetTFIDF.arff和TestSetTFIDF.arff,分別包含了各個(gè)訓(xùn)練文本和測(cè)試文本的向量空間,如圖4所示。

    44 分類(lèi)算法與效果測(cè)評(píng)

    任意選擇分類(lèi)算法進(jìn)行文本分類(lèi)操作,在系統(tǒng)平臺(tái)結(jié)果區(qū)會(huì)輸出各個(gè)測(cè)試文檔的分類(lèi)情況,包括分類(lèi)結(jié)果以及實(shí)際類(lèi)別;界面右側(cè)會(huì)輸出各個(gè)類(lèi)別的分類(lèi)效果,包括精度、召回率和F1測(cè)度;界面下端會(huì)輸出整體數(shù)據(jù)集分類(lèi)效果,包括準(zhǔn)確率、宏平均以及微平均。基于特征維數(shù)為600的CHI特征選擇方法以及TF-IDF特征權(quán)值計(jì)算方法,分別利用K鄰近算法(KNN)、支持向量機(jī)(SVM)、決策樹(shù)(J48)、貝葉斯算法(BAYS)進(jìn)行分類(lèi)操作,得到各個(gè)類(lèi)別的分類(lèi)效果(見(jiàn)表2)和數(shù)據(jù)集整體分類(lèi)效果(見(jiàn)表3)。

    由表2及表3可知,對(duì)于復(fù)旦中文分類(lèi)語(yǔ)料庫(kù)的9個(gè)類(lèi)別而言,J48決策樹(shù)分類(lèi)算法的分類(lèi)效果明顯優(yōu)于KNN、SVM、BAYS 3種算法,各個(gè)類(lèi)別分類(lèi)精度分布于[086,098]之間,召回率分布于[086,097]之間,F(xiàn)1測(cè)度分布于[086,097]之間,均達(dá)到較好的分類(lèi)效果;對(duì)于整體分類(lèi)效果,其分類(lèi)準(zhǔn)確率高達(dá)930556%,宏平均值為09302,微平均值為09306。其它3種分類(lèi)算法的分類(lèi)效果相對(duì)較差。整體分類(lèi)效果BAYS優(yōu)于KNN、SVM,SVM最差。不同的語(yǔ)料庫(kù),應(yīng)用不同的分類(lèi)算法得到的分類(lèi)效果會(huì)有差別,對(duì)于復(fù)旦中文分類(lèi)語(yǔ)料庫(kù)而言,其可能更適合利用決策樹(shù)分類(lèi)算法進(jìn)行文本分類(lèi)。endprint

    5 結(jié) 語(yǔ)

    隨著文本分類(lèi)領(lǐng)域的深入研究和應(yīng)用,越來(lái)越多的應(yīng)用者不得不進(jìn)行文本分類(lèi)技術(shù)相關(guān)代碼的撰寫(xiě),耗費(fèi)了大量的人力物力。本文針對(duì)此種問(wèn)題,開(kāi)發(fā)了文本分類(lèi)系統(tǒng)平臺(tái)?;趈ava開(kāi)源組件,整合中科院分詞器ICTCLAS、Lucene平臺(tái)以及WEKA源碼,對(duì)文本分類(lèi)系統(tǒng)進(jìn)行設(shè)計(jì)和開(kāi)發(fā),不僅實(shí)現(xiàn)了文本分類(lèi)各個(gè)流程的操作,還向用戶提供了一個(gè)可視化操作界面。該系統(tǒng)具有可拓展性,且操作簡(jiǎn)單,用戶無(wú)需了解平臺(tái)代碼即可自行傳入數(shù)據(jù)集文件,點(diǎn)擊相應(yīng)的文本分類(lèi)環(huán)節(jié)即可完成相應(yīng)操作。

    除了已實(shí)現(xiàn)的功能外,系統(tǒng)平臺(tái)還存在一些有待完善和擴(kuò)展的地方,主要包括以下方面:

    (1)將文本分類(lèi)流程進(jìn)一步細(xì)化,為用戶帶來(lái)更多的靈活性??蓪⑽谋绢A(yù)處理操作細(xì)分為分詞、去停用詞和統(tǒng)計(jì)詞頻等方式。分詞可以提供多種分詞器,去停用詞可以使用去停用詞表和詞性篩選兩種方式,給予用戶更多的選擇。

    (2)搭建Web端平臺(tái)界面,采用B/S模式提供服務(wù),提供擴(kuò)展接口,用戶可將自己設(shè)計(jì)的特征選擇方法、特征權(quán)重計(jì)算方法以及分類(lèi)算法等嵌入平臺(tái),進(jìn)行對(duì)比實(shí)驗(yàn),有助于同行交流,了解最新的算法改進(jìn)研究及進(jìn)展。

    (3)在現(xiàn)有系統(tǒng)UI的基礎(chǔ)上,進(jìn)一步優(yōu)化用戶界面,在保證平臺(tái)實(shí)用性的同時(shí),使平臺(tái)更具美觀性、吸引更多用戶。

    (4)支持多種語(yǔ)言,將平臺(tái)推向國(guó)際化。

    參考文獻(xiàn)

    [1]蘇新寧.信息檢索理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2004:273-307.

    [2]Elsayed E,Eldahshan K,Tawfeek S.Automatic evaluation technique for certain types of open questions in semantic learning systems[J].Human-centric Computing and Information Sciences,2013,3(1):1-15.

    [3]Sarkar K.Automatic single document text summarization using key concepts in documents[J].Journal of information processing systems,2013,9(4):602-620.

    [4]Guo X,Sun H,Zhou T,et al.SAW Classification Algorithm for Chinese Text Classification[J].Sustainability,2015,7(3):2338-2352.

    [5]馬海兵,畢久陽(yáng),郭新順.文本分類(lèi)方法在網(wǎng)絡(luò)輿情分析系統(tǒng)中的應(yīng)用研究[J].情報(bào)科學(xué),2015,33(5):97-101.

    [6]Cabena P,Choi H H,Kim I S,et al.Intelligent Miner for Data Applications Guide[J].IBM RedBook SG24-5252-00,1999.

    [7]Bird S.NLTK:the natural language toolkit[C]∥Proceedings of the COLING/ACL on Interactive presentation sessions.Association for Computational Linguistics,2006:69-72.

    [8]陳慧萍,林莉莉,王建東,等.WEKA數(shù)據(jù)挖掘平臺(tái)及其二次開(kāi)發(fā)[J].計(jì)算機(jī)工程與應(yīng)用,2009,44(19):76-79.

    [9]Qiu X,Zhang Q,Huang X.FudanNLP:A Toolkit for Chinese Natural Language Processing[C]∥ACL(Conference System Demonstrations),2013:49-54.

    [10]NLPIR漢語(yǔ)分詞系統(tǒng)[EB/OL].http:∥ictclas.nlpir.org,2015-05-24.

    [11]DRAP文本分類(lèi)系統(tǒng)簡(jiǎn)介[EB/OL].http:∥www.searchforum.org.cn/tansongbo/software.htm,2015-05-24.

    [12]Uysal AK,Gunal S.The impact of preprocessing on text classification[J].Information Processing & Management,2014,50(1):104-112.

    [13]肖可,奉國(guó)和.1999-2008年國(guó)內(nèi)文本分類(lèi)研究文獻(xiàn)計(jì)量分析[J].情報(bào)學(xué)報(bào),2010,29(4):679-687.

    [14]鄭偉,呂建新,張建偉.文本分類(lèi)中特征預(yù)抽取方法研究[J].情報(bào)科學(xué),2011,29(1):86-88,92.

    [15]Salton G,Buckley B.Term-weighting Approaches inAutomatic Text Retrieval[J].Information Processing & Management,1998,24(5):513-523.

    [16]中大極天智能信息處理實(shí)驗(yàn)室[EB/OL].http:∥iipl.sysu.edu.cn/,2015-05-24.

    (本文責(zé)任編輯:郭沫含)endprint

    猜你喜歡
    文本分類(lèi)語(yǔ)料庫(kù)
    《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
    把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
    基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
    基于貝葉斯分類(lèi)器的中文文本分類(lèi)
    基于蟻群智能算法的研究文本分類(lèi)
    文本分類(lèi)算法在山東女子學(xué)院檔案管理的應(yīng)用
    科技視界(2016年24期)2016-10-11 09:36:57
    基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
    語(yǔ)料庫(kù)語(yǔ)言學(xué)未來(lái)發(fā)展趨勢(shì)
    伊人久久大香线蕉亚洲五| 老司机深夜福利视频在线观看| 久久午夜综合久久蜜桃| 欧美精品av麻豆av| 国产成人av激情在线播放| 婷婷丁香在线五月| 国产精华一区二区三区| 超色免费av| 国产精品1区2区在线观看. | 大香蕉久久网| 99在线人妻在线中文字幕 | 多毛熟女@视频| 国产精品永久免费网站| 在线av久久热| 午夜老司机福利片| 亚洲七黄色美女视频| 日韩成人在线观看一区二区三区| 法律面前人人平等表现在哪些方面| 99久久国产精品久久久| 五月开心婷婷网| 麻豆乱淫一区二区| 人人妻人人添人人爽欧美一区卜| 精品国内亚洲2022精品成人 | 午夜两性在线视频| 建设人人有责人人尽责人人享有的| 亚洲三区欧美一区| www.熟女人妻精品国产| 国产黄色免费在线视频| 久久久久久久午夜电影 | 啦啦啦在线免费观看视频4| 性色av乱码一区二区三区2| 亚洲av电影在线进入| 性色av乱码一区二区三区2| 国产成人影院久久av| 亚洲av欧美aⅴ国产| 久久精品成人免费网站| 女性生殖器流出的白浆| 亚洲伊人色综图| 日日爽夜夜爽网站| 亚洲综合色网址| 国产一区二区三区综合在线观看| 日韩精品免费视频一区二区三区| 午夜福利乱码中文字幕| 欧美老熟妇乱子伦牲交| 国产一区二区三区综合在线观看| 精品人妻熟女毛片av久久网站| 天堂√8在线中文| 妹子高潮喷水视频| netflix在线观看网站| 怎么达到女性高潮| 久久久久久亚洲精品国产蜜桃av| 天堂动漫精品| 99国产极品粉嫩在线观看| 老熟女久久久| 免费黄频网站在线观看国产| 国产精品影院久久| 欧美激情高清一区二区三区| 成人国产一区最新在线观看| 制服人妻中文乱码| 黄片小视频在线播放| 久久久久久免费高清国产稀缺| 亚洲伊人色综图| 日韩精品免费视频一区二区三区| 1024香蕉在线观看| 美女视频免费永久观看网站| 99国产精品99久久久久| 久久香蕉激情| 中文字幕人妻丝袜一区二区| 建设人人有责人人尽责人人享有的| 黄色片一级片一级黄色片| 久久久精品国产亚洲av高清涩受| 久久精品国产99精品国产亚洲性色 | cao死你这个sao货| 精品国产一区二区三区四区第35| 亚洲 国产 在线| 精品一品国产午夜福利视频| 国内毛片毛片毛片毛片毛片| 丝袜美腿诱惑在线| 国产精品美女特级片免费视频播放器 | 如日韩欧美国产精品一区二区三区| 欧美另类亚洲清纯唯美| 亚洲国产欧美网| 999精品在线视频| 午夜免费观看网址| 亚洲黑人精品在线| 久久久久精品人妻al黑| 久久久久精品人妻al黑| 国产伦人伦偷精品视频| 亚洲色图 男人天堂 中文字幕| 夜夜夜夜夜久久久久| 国产精品一区二区在线不卡| 在线十欧美十亚洲十日本专区| 色在线成人网| 久久香蕉国产精品| 日韩人妻精品一区2区三区| 热99re8久久精品国产| 人妻丰满熟妇av一区二区三区 | 一进一出好大好爽视频| 久久久水蜜桃国产精品网| 国产欧美亚洲国产| 久热这里只有精品99| 夫妻午夜视频| av视频免费观看在线观看| 国产一区二区三区视频了| 欧美日韩瑟瑟在线播放| 精品少妇久久久久久888优播| 69精品国产乱码久久久| 黄片大片在线免费观看| 一个人免费在线观看的高清视频| 中文字幕人妻丝袜一区二区| 色94色欧美一区二区| 啦啦啦 在线观看视频| 亚洲人成77777在线视频| 80岁老熟妇乱子伦牲交| 久久香蕉国产精品| 亚洲五月天丁香| 99久久国产精品久久久| 大片电影免费在线观看免费| 9色porny在线观看| 老鸭窝网址在线观看| 啦啦啦免费观看视频1| 最新美女视频免费是黄的| aaaaa片日本免费| 视频在线观看一区二区三区| 久久久久国内视频| 国产区一区二久久| 中文字幕最新亚洲高清| 在线国产一区二区在线| 999精品在线视频| 亚洲国产精品sss在线观看 | 国产主播在线观看一区二区| 手机成人av网站| 欧美日韩亚洲国产一区二区在线观看 | 人妻一区二区av| 男女床上黄色一级片免费看| 狠狠婷婷综合久久久久久88av| 高清毛片免费观看视频网站 | 国产精品.久久久| 中国美女看黄片| 欧美黑人欧美精品刺激| 他把我摸到了高潮在线观看| 午夜福利乱码中文字幕| 精品亚洲成a人片在线观看| 女人高潮潮喷娇喘18禁视频| 免费在线观看影片大全网站| 国产深夜福利视频在线观看| 两性午夜刺激爽爽歪歪视频在线观看 | 午夜亚洲福利在线播放| 啪啪无遮挡十八禁网站| aaaaa片日本免费| 青草久久国产| 久久天躁狠狠躁夜夜2o2o| 一级作爱视频免费观看| 久久久久国产一级毛片高清牌| 少妇裸体淫交视频免费看高清 | 丰满人妻熟妇乱又伦精品不卡| 久久 成人 亚洲| 国精品久久久久久国模美| 777久久人妻少妇嫩草av网站| 纯流量卡能插随身wifi吗| 久久精品亚洲熟妇少妇任你| 女人爽到高潮嗷嗷叫在线视频| 日日爽夜夜爽网站| 亚洲精品国产色婷婷电影| 欧美日韩亚洲国产一区二区在线观看 | 母亲3免费完整高清在线观看| 国产精品久久电影中文字幕 | 极品少妇高潮喷水抽搐| 国产精品乱码一区二三区的特点 | 国产亚洲av高清不卡| 亚洲专区字幕在线| 久久热在线av| 夜夜躁狠狠躁天天躁| 日日爽夜夜爽网站| 久久久精品区二区三区| 国产av精品麻豆| 午夜久久久在线观看| 国产精品99久久99久久久不卡| 国产又色又爽无遮挡免费看| 午夜91福利影院| 亚洲色图综合在线观看| 欧美成人午夜精品| 999久久久国产精品视频| 亚洲精品美女久久久久99蜜臀| 亚洲av日韩在线播放| 久久久精品国产亚洲av高清涩受| 法律面前人人平等表现在哪些方面| 成年人午夜在线观看视频| tube8黄色片| 啪啪无遮挡十八禁网站| 免费在线观看亚洲国产| 国产激情久久老熟女| 亚洲中文日韩欧美视频| 亚洲少妇的诱惑av| 香蕉丝袜av| 久久精品国产99精品国产亚洲性色 | 亚洲五月天丁香| 法律面前人人平等表现在哪些方面| 又黄又粗又硬又大视频| 岛国在线观看网站| 九色亚洲精品在线播放| 成人av一区二区三区在线看| 人妻 亚洲 视频| 人成视频在线观看免费观看| 色综合欧美亚洲国产小说| 热99国产精品久久久久久7| 免费黄频网站在线观看国产| 色94色欧美一区二区| 欧美成狂野欧美在线观看| 国产成人精品久久二区二区91| x7x7x7水蜜桃| 国产激情久久老熟女| 最新美女视频免费是黄的| 亚洲成人免费电影在线观看| 日韩欧美三级三区| 欧美日韩亚洲综合一区二区三区_| 女警被强在线播放| 国产高清videossex| 欧美乱色亚洲激情| 免费看a级黄色片| 精品国产亚洲在线| 一级a爱视频在线免费观看| 日本欧美视频一区| 国产欧美日韩一区二区三| 精品国产一区二区三区久久久樱花| 亚洲人成电影观看| 日本vs欧美在线观看视频| 夜夜躁狠狠躁天天躁| 国产亚洲精品一区二区www | 波多野结衣av一区二区av| 18禁裸乳无遮挡动漫免费视频| 我的亚洲天堂| 在线观看66精品国产| 国产一区有黄有色的免费视频| 欧美激情高清一区二区三区| 最近最新中文字幕大全电影3 | 999精品在线视频| videosex国产| 午夜福利在线免费观看网站| 在线观看免费视频日本深夜| 欧美+亚洲+日韩+国产| 91精品三级在线观看| 狠狠婷婷综合久久久久久88av| 制服人妻中文乱码| 丰满饥渴人妻一区二区三| 日韩欧美三级三区| 国产精品偷伦视频观看了| 色婷婷av一区二区三区视频| 免费av中文字幕在线| 国产精品免费视频内射| 日韩欧美在线二视频 | 夜夜躁狠狠躁天天躁| 久久人妻av系列| 成年人午夜在线观看视频| 久久久久久人人人人人| 国产成人系列免费观看| 日韩欧美免费精品| 亚洲国产欧美一区二区综合| 老司机午夜福利在线观看视频| 亚洲精品久久午夜乱码| 999久久久精品免费观看国产| 欧美在线黄色| 国产精品 国内视频| 在线播放国产精品三级| 日韩精品免费视频一区二区三区| 女人精品久久久久毛片| 99国产极品粉嫩在线观看| 亚洲人成电影观看| 中文字幕av电影在线播放| 天天躁夜夜躁狠狠躁躁| 午夜福利免费观看在线| 免费看十八禁软件| 后天国语完整版免费观看| 亚洲一区高清亚洲精品| 久久精品亚洲熟妇少妇任你| 久热爱精品视频在线9| 久久狼人影院| 免费高清在线观看日韩| 很黄的视频免费| 黄网站色视频无遮挡免费观看| 亚洲av日韩在线播放| 国产成人精品久久二区二区免费| 国产精品九九99| 成人三级做爰电影| 热99国产精品久久久久久7| 乱人伦中国视频| 在线观看www视频免费| 亚洲美女黄片视频| 男女床上黄色一级片免费看| 国产精品.久久久| 久久精品成人免费网站| 女人被狂操c到高潮| 高清在线国产一区| 国产淫语在线视频| 中文字幕色久视频| 涩涩av久久男人的天堂| 亚洲aⅴ乱码一区二区在线播放 | 又黄又爽又免费观看的视频| 在线观看www视频免费| 日本欧美视频一区| 少妇裸体淫交视频免费看高清 | 免费观看人在逋| 窝窝影院91人妻| 波多野结衣av一区二区av| 又大又爽又粗| 老司机午夜福利在线观看视频| 91在线观看av| 岛国在线观看网站| 国产在线观看jvid| 亚洲精品粉嫩美女一区| 亚洲精品中文字幕一二三四区| 精品国产一区二区久久| 免费观看精品视频网站| 99久久人妻综合| 在线观看免费日韩欧美大片| 建设人人有责人人尽责人人享有的| 亚洲黑人精品在线| 老司机在亚洲福利影院| 亚洲国产欧美一区二区综合| 久久国产亚洲av麻豆专区| 免费黄频网站在线观看国产| 日韩熟女老妇一区二区性免费视频| 国产精品久久视频播放| 国产极品粉嫩免费观看在线| 色播在线永久视频| 午夜福利视频在线观看免费| 欧美激情高清一区二区三区| 国产av又大| 女人精品久久久久毛片| 欧美乱码精品一区二区三区| 涩涩av久久男人的天堂| 大型av网站在线播放| 我的亚洲天堂| 捣出白浆h1v1| 丰满迷人的少妇在线观看| 另类亚洲欧美激情| 正在播放国产对白刺激| 国产淫语在线视频| 免费在线观看黄色视频的| 久久精品亚洲熟妇少妇任你| av中文乱码字幕在线| 女人久久www免费人成看片| 99香蕉大伊视频| 色老头精品视频在线观看| 亚洲成人免费av在线播放| 91成年电影在线观看| 女警被强在线播放| 久久青草综合色| 欧美日韩亚洲高清精品| 欧美日韩一级在线毛片| 纯流量卡能插随身wifi吗| 国产熟女午夜一区二区三区| 天天躁日日躁夜夜躁夜夜| 午夜福利欧美成人| 90打野战视频偷拍视频| 交换朋友夫妻互换小说| 两人在一起打扑克的视频| 老司机在亚洲福利影院| 精品人妻1区二区| 日韩熟女老妇一区二区性免费视频| 欧美丝袜亚洲另类 | www日本在线高清视频| 久久久久久免费高清国产稀缺| 欧美日本中文国产一区发布| 国产97色在线日韩免费| 热99国产精品久久久久久7| 午夜福利欧美成人| 久久精品亚洲av国产电影网| 成人影院久久| 建设人人有责人人尽责人人享有的| 男女之事视频高清在线观看| 亚洲一区中文字幕在线| 精品久久久久久久毛片微露脸| 久久精品国产99精品国产亚洲性色 | 十八禁人妻一区二区| 精品少妇久久久久久888优播| 国产亚洲精品久久久久久毛片 | 亚洲国产精品一区二区三区在线| 精品久久久久久电影网| 免费无遮挡裸体视频| 天堂√8在线中文| 啦啦啦观看免费观看视频高清| 波多野结衣高清作品| 校园春色视频在线观看| 精品人妻偷拍中文字幕| 色播亚洲综合网| av黄色大香蕉| 国产精品98久久久久久宅男小说| 婷婷六月久久综合丁香| bbb黄色大片| av黄色大香蕉| 我的老师免费观看完整版| 日本免费a在线| 在线播放国产精品三级| 我的老师免费观看完整版| 99国产精品一区二区蜜桃av| 日本成人三级电影网站| 亚洲aⅴ乱码一区二区在线播放| 国产伦精品一区二区三区四那| 男女做爰动态图高潮gif福利片| 色精品久久人妻99蜜桃| 亚洲精品乱码久久久v下载方式 | 淫秽高清视频在线观看| 午夜精品久久久久久毛片777| 一级毛片女人18水好多| 欧美三级亚洲精品| 听说在线观看完整版免费高清| 国产精品永久免费网站| 亚洲精品日韩av片在线观看 | 老熟妇乱子伦视频在线观看| 国产一区二区激情短视频| 欧美中文日本在线观看视频| 欧美日韩国产亚洲二区| 五月伊人婷婷丁香| 男女视频在线观看网站免费| 成人欧美大片| 日本免费一区二区三区高清不卡| 免费大片18禁| 国产精品 欧美亚洲| 我的老师免费观看完整版| 最近最新中文字幕大全免费视频| 日日摸夜夜添夜夜添小说| 欧美一区二区国产精品久久精品| 淫妇啪啪啪对白视频| 国产一区在线观看成人免费| 中亚洲国语对白在线视频| 国产av一区在线观看免费| 国内少妇人妻偷人精品xxx网站| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 国产日本99.免费观看| 国产精品乱码一区二三区的特点| 哪里可以看免费的av片| 精品午夜福利视频在线观看一区| 变态另类成人亚洲欧美熟女| 成年女人永久免费观看视频| 成年女人毛片免费观看观看9| 日本黄大片高清| 18禁在线播放成人免费| www.熟女人妻精品国产| 男女下面进入的视频免费午夜| 中文字幕人妻熟人妻熟丝袜美 | 九色国产91popny在线| 一a级毛片在线观看| 日韩欧美精品免费久久 | 一卡2卡三卡四卡精品乱码亚洲| 国产爱豆传媒在线观看| 天美传媒精品一区二区| 制服人妻中文乱码| 亚洲美女黄片视频| 精品熟女少妇八av免费久了| 国产老妇女一区| 欧美乱妇无乱码| 午夜福利高清视频| 女人被狂操c到高潮| 国产精品av视频在线免费观看| 国产在线精品亚洲第一网站| 亚洲狠狠婷婷综合久久图片| 成年版毛片免费区| 久9热在线精品视频| 亚洲专区中文字幕在线| 久99久视频精品免费| 国产高潮美女av| 给我免费播放毛片高清在线观看| 国产伦在线观看视频一区| 免费高清视频大片| 国产精品久久久久久久久免 | 国产在视频线在精品| 午夜福利18| 在线观看免费午夜福利视频| 日本黄大片高清| 三级毛片av免费| www日本黄色视频网| 黄色丝袜av网址大全| 99在线人妻在线中文字幕| 国产亚洲精品一区二区www| 夜夜爽天天搞| 一进一出抽搐gif免费好疼| 性欧美人与动物交配| 精品久久久久久,| 亚洲一区高清亚洲精品| 身体一侧抽搐| 国产黄色小视频在线观看| 国产精品一区二区免费欧美| 国产真人三级小视频在线观看| 三级毛片av免费| 午夜两性在线视频| 亚洲av第一区精品v没综合| 中文字幕av在线有码专区| 午夜免费观看网址| 午夜福利成人在线免费观看| 波多野结衣高清无吗| 午夜福利视频1000在线观看| 欧美日韩精品网址| 青草久久国产| 色在线成人网| 91麻豆av在线| 搡老岳熟女国产| 国产成人av教育| 男人舔奶头视频| 男插女下体视频免费在线播放| 亚洲色图av天堂| 听说在线观看完整版免费高清| 精品人妻一区二区三区麻豆 | 亚洲精品在线美女| 最近最新免费中文字幕在线| 韩国av一区二区三区四区| www.999成人在线观看| 午夜福利成人在线免费观看| 伊人久久大香线蕉亚洲五| 亚洲精品影视一区二区三区av| 怎么达到女性高潮| 精品国产三级普通话版| 18禁黄网站禁片午夜丰满| 一进一出抽搐gif免费好疼| 国产精品久久视频播放| 中文字幕av在线有码专区| 亚洲,欧美精品.| 淫妇啪啪啪对白视频| 欧美一区二区亚洲| 日韩中文字幕欧美一区二区| 免费在线观看成人毛片| 久久精品国产亚洲av香蕉五月| 国产av麻豆久久久久久久| 欧美zozozo另类| 成人av一区二区三区在线看| 亚洲av电影不卡..在线观看| 麻豆国产97在线/欧美| 色老头精品视频在线观看| 午夜精品在线福利| 成人三级黄色视频| 精品久久久久久久久久免费视频| 99热只有精品国产| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 午夜精品一区二区三区免费看| 国产精品香港三级国产av潘金莲| 国产69精品久久久久777片| 日韩精品青青久久久久久| 99精品久久久久人妻精品| 国产精品一区二区三区四区免费观看 | 久久亚洲精品不卡| 天堂av国产一区二区熟女人妻| 国产精品久久久久久人妻精品电影| 欧美区成人在线视频| 给我免费播放毛片高清在线观看| 亚洲人成网站在线播放欧美日韩| 国模一区二区三区四区视频| h日本视频在线播放| 在线观看美女被高潮喷水网站 | av女优亚洲男人天堂| 两个人的视频大全免费| 久久精品91无色码中文字幕| 国产精品乱码一区二三区的特点| 黄色视频,在线免费观看| 18+在线观看网站| 天天添夜夜摸| 91九色精品人成在线观看| 黄色视频,在线免费观看| 欧美+日韩+精品| 黄片大片在线免费观看| 亚洲国产精品sss在线观看| 人妻丰满熟妇av一区二区三区| 最近最新中文字幕大全免费视频| 午夜福利在线观看免费完整高清在 | 尤物成人国产欧美一区二区三区| 国产免费av片在线观看野外av| 精品久久久久久久久久久久久| 中文字幕人成人乱码亚洲影| 成人鲁丝片一二三区免费| 2021天堂中文幕一二区在线观| 在线免费观看不下载黄p国产 | 欧美另类亚洲清纯唯美| 国产精品免费一区二区三区在线| 黑人欧美特级aaaaaa片| 天堂√8在线中文| 日日夜夜操网爽| 国产一区二区激情短视频| 91九色精品人成在线观看| 国产精品爽爽va在线观看网站| 在线播放无遮挡| 性色av乱码一区二区三区2| 国产精品亚洲美女久久久| 国产精品女同一区二区软件 | 亚洲欧美一区二区三区黑人| 婷婷精品国产亚洲av| www.www免费av| 国产99白浆流出| 99精品久久久久人妻精品| 午夜免费成人在线视频| 欧美成人免费av一区二区三区| 少妇的逼好多水| 免费av不卡在线播放| 无人区码免费观看不卡| 欧美在线黄色| 亚洲人成网站高清观看| 国产一区二区在线av高清观看| 丁香六月欧美| 淫秽高清视频在线观看| 久久久久免费精品人妻一区二区| 香蕉丝袜av| 日本熟妇午夜| 高清毛片免费观看视频网站| 久久久久久人人人人人| 一级作爱视频免费观看| 男人舔奶头视频| 国产日本99.免费观看| 村上凉子中文字幕在线| 婷婷丁香在线五月| 婷婷六月久久综合丁香| 国产综合懂色| 国产国拍精品亚洲av在线观看 | 村上凉子中文字幕在线| 亚洲第一电影网av| 国产成年人精品一区二区| 看片在线看免费视频| 黄色视频,在线免费观看|