• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    非結(jié)構(gòu)化表格文檔數(shù)據(jù)抽取與組織模型研究

    2016-11-18 09:30:00張元鳴陸佳煒
    浙江工業(yè)大學學報 2016年5期
    關(guān)鍵詞:單值字符串數(shù)據(jù)流

    張元鳴,陳 苗,陸佳煒,徐 俊,肖 剛

    (1.浙江工業(yè)大學 計算機科學與技術(shù)學院,浙江 杭州 310023;2.浙江工業(yè)大學 機械工程博士后流動站,浙江 杭州 310014)

    ?

    非結(jié)構(gòu)化表格文檔數(shù)據(jù)抽取與組織模型研究

    張元鳴1,2,陳 苗1,陸佳煒1,徐 俊1,肖 剛1,2

    (1.浙江工業(yè)大學 計算機科學與技術(shù)學院,浙江 杭州 310023;2.浙江工業(yè)大學 機械工程博士后流動站,浙江 杭州 310014)

    針對現(xiàn)有文檔數(shù)據(jù)抽取方法無法抽取多值屬性且靈活性不高的問題,提出了一種面向非結(jié)構(gòu)化表格文檔的數(shù)據(jù)抽取方法與組織模型.在分析文檔結(jié)構(gòu)特征和數(shù)據(jù)流特征的基礎(chǔ)上,定義了數(shù)據(jù)流生成基本規(guī)則,給出了一個基于規(guī)則的數(shù)據(jù)抽取流程,包括邏輯結(jié)構(gòu)抽取、文檔預處理、數(shù)據(jù)抽取和數(shù)據(jù)組織等主要步驟,設(shè)計實現(xiàn)了單值區(qū)域與多值區(qū)域數(shù)據(jù)抽取算法;從文檔中抽取的數(shù)據(jù)被組織成適合于MapReduce分析的結(jié)構(gòu)化數(shù)據(jù)模型,該模型能夠為大數(shù)據(jù)分析提供模型支持.實驗結(jié)果表明:該抽取方法具有較高的準確率與召回率,數(shù)據(jù)組織模型也能夠有效地支持大數(shù)據(jù)分析.

    非結(jié)構(gòu)化表格文檔;數(shù)據(jù)抽??;結(jié)構(gòu)化數(shù)據(jù)模型;數(shù)據(jù)分析

    隨著辦公自動化的深入實施,表格文檔被廣泛應(yīng)用于企事業(yè)和政務(wù)日常事務(wù)處理中,如調(diào)查表、業(yè)績表、考核表、職稱評審表、審批表和申請書等,這些表格通過辦公自動化軟件(如Word,WPS,Excel等)編輯而來.由于可編輯的表格文檔安全性較低、可移植性也較差,在正式發(fā)布或提交之前,往往將其轉(zhuǎn)換為安全性高、可移植強的只讀格式的文檔,如PDF格式.通過解析這些文件可知,其數(shù)據(jù)流已不包含可編輯模式下的制表符,僅包括空格和換行符分隔符.將不包含特殊制表符的表格文檔稱為非結(jié)構(gòu)化表格文檔,這些文檔往往從Word表格、HTML表格和Excel表格等半結(jié)構(gòu)化表格文檔轉(zhuǎn)換得到,具有以下特征:1) 非結(jié)構(gòu)化.不同于Word表格、HTML表格和Excel表格等半結(jié)構(gòu)化表格文檔的數(shù)據(jù)流中含有特殊的制表符,非結(jié)構(gòu)化表格的數(shù)據(jù)流中往往不包含特殊的制表符,數(shù)據(jù)僅以空格或換行作為分隔符,是一種較典型的非結(jié)構(gòu)化數(shù)據(jù);2) 樣式不固定.非結(jié)構(gòu)化表格與實際應(yīng)用緊密相關(guān),不同應(yīng)用設(shè)計的表格樣式往往不同,導致表格樣式靈活多樣,沒有固定的樣式;3) 數(shù)據(jù)混雜.非結(jié)構(gòu)化表格中的數(shù)據(jù)從類別上可以分為標題區(qū)和數(shù)據(jù)區(qū),從形式上又可以進一步分為單值區(qū)域和多值區(qū)域,橫向排列和縱向排列兼而有之,數(shù)據(jù)較為混雜;4)價值稀疏.表格文檔往往包含了多方面的數(shù)據(jù),這些數(shù)據(jù)混合在一起,價值提取的目標數(shù)據(jù)僅僅是某一局部的數(shù)據(jù),價值相對稀疏.

    大數(shù)據(jù)背景下,海量的非結(jié)構(gòu)化表格文檔存儲著豐富的有價值的數(shù)據(jù),對海量非結(jié)構(gòu)化表格文檔分析具有重要的實際意義,而數(shù)據(jù)抽取和數(shù)據(jù)組織是實現(xiàn)價值提取的關(guān)鍵步驟[1].數(shù)據(jù)抽取的目標是從非結(jié)構(gòu)化表格文檔中抽取出完整的語義數(shù)據(jù),而數(shù)據(jù)組織的目標是對抽取的數(shù)據(jù)通過某種邏輯結(jié)構(gòu)組織起來,為數(shù)據(jù)分析奠定基礎(chǔ).在分析非結(jié)構(gòu)化表格文檔結(jié)構(gòu)特征和數(shù)據(jù)流特征的基礎(chǔ)上,提出了一種基于規(guī)則的數(shù)據(jù)抽取方法,并將數(shù)據(jù)抽取結(jié)果組織為適合于MapReduce并行編程模型分析的結(jié)構(gòu)化數(shù)據(jù)模型,所提出的方法已經(jīng)在大量非結(jié)構(gòu)化表格文檔中進行了實驗,具有較高的數(shù)據(jù)抽準率和召回率,數(shù)據(jù)組織模型也能滿足基于MapReduce的分析需求.

    1 相關(guān)研究

    一般地,電子文檔可以分為半結(jié)構(gòu)化文檔和非結(jié)構(gòu)化文檔,學術(shù)界已對兩類文檔數(shù)據(jù)抽取方法進行了相關(guān)研究.

    半結(jié)構(gòu)化文檔的數(shù)據(jù)抽取主要是利用文檔中固有的特殊制表符(分隔符)進行數(shù)據(jù)抽取.潘小燕[2]將最大嫡模型應(yīng)用于表格數(shù)據(jù)的抽取,利用DOM Tree模型提取表格數(shù)據(jù);宋強等[3]提出了一種非標記化表格抽取算法,實現(xiàn)了非標記化表格數(shù)據(jù)抽取;王允富[4]提出了一種基于指令系統(tǒng)的Excel表單數(shù)據(jù)抽取模型,實現(xiàn)了Excel表單數(shù)據(jù)的自動抽取和自動加載;黃豫清等[5-6]提出了基于XML的數(shù)據(jù)抽取方法,能夠抽取Web中的數(shù)據(jù);李澎林等[7]設(shè)計了一種基于雙字Hash和List相結(jié)合的三層詞典數(shù)據(jù)結(jié)構(gòu),改進最大匹配分詞算法提高了抽取的準確度和效率.一般地,對半結(jié)構(gòu)化數(shù)據(jù)抽取的研究主要是對單元格內(nèi)的數(shù)據(jù)進行抽取,不再對同一單元格內(nèi)的數(shù)據(jù)再次切分,因此實現(xiàn)較為容易.

    非結(jié)構(gòu)化文檔的數(shù)據(jù)抽取主要是對文檔中包含的實體屬性、關(guān)鍵詞等的抽取,抽取的準確性依賴于分詞技術(shù)和實體識別技術(shù).宋艷娟[8]開發(fā)了一種對HTML和PDF抽取的系統(tǒng),能夠抽取科研論文中的重要數(shù)據(jù);霍焰[9]設(shè)計了一套實體抽取算法,可以抽取業(yè)務(wù)工作中有用的實體;王云鵬[10]開發(fā)了一個基于非結(jié)構(gòu)化數(shù)據(jù)的抽取與分析系統(tǒng),并以可視化的方式展示數(shù)據(jù)抽取結(jié)果;CHANG等[11]利用關(guān)系表中的屬性值對實體集合進行劃分,以從中抽取相關(guān)實體;劉端陽等[12-13]提對關(guān)鍵詞和評論觀點的提取方法進行了研究.

    非結(jié)構(gòu)化表格文檔是一種特殊的非結(jié)構(gòu)化文檔,形式上具有半結(jié)構(gòu)化文檔的特征,但數(shù)據(jù)流實際上是非結(jié)構(gòu)化的,其數(shù)據(jù)抽取既不同于半結(jié)構(gòu)化文檔的數(shù)據(jù)抽取,也不同于非結(jié)構(gòu)化文檔的數(shù)據(jù)抽取.張伯[14]提出了一種基于文字流的表格識別技術(shù),設(shè)計并實現(xiàn)了針對某類表格的識別系統(tǒng),但該技術(shù)不適用于處理合并單元格的情況,而且也無法抽取表格列間距過大和豎排表格的情況;劉力[15]提出了針對項目申報書的數(shù)據(jù)抽取方法,該方法基于模板技術(shù)和文本定位算法,該方法僅適用于抽取單值屬性的數(shù)據(jù);ZHOU等[16-17]將啟發(fā)式規(guī)則應(yīng)用于列劃分和對表格特征進行細化,解決了表格內(nèi)容抽取的問題,但不適用于存在特殊列結(jié)構(gòu)的表格.

    在非結(jié)構(gòu)化數(shù)據(jù)組織方面,萬里鵬[18]設(shè)計了一種非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換系統(tǒng),該系統(tǒng)不支持PDF文檔以及結(jié)構(gòu)復雜的文本文件、Word和Excel等格式的文檔;馮亞麗等[19]提出了一種基于規(guī)則庫的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換方法,對非結(jié)構(gòu)化數(shù)據(jù)進行了統(tǒng)一轉(zhuǎn)換,不足之處在于正確率不高;鄒波[20]開發(fā)了一種海量非結(jié)構(gòu)化數(shù)據(jù)組織管理系統(tǒng),能夠?qū)A糠墙Y(jié)構(gòu)化數(shù)據(jù)進行組織和管理;PENG等[21-22]將XML應(yīng)用于文檔結(jié)構(gòu)的提取和匹配,較好地實現(xiàn)了對表格文本數(shù)據(jù)的轉(zhuǎn)換和組織.

    數(shù)據(jù)抽取和數(shù)據(jù)組織是實現(xiàn)海量非結(jié)構(gòu)化表格文檔數(shù)據(jù)分析的關(guān)鍵步驟,在對大量非結(jié)構(gòu)化表格文檔進行分析比較的基礎(chǔ)上,給出了一種實現(xiàn)簡單、準確率高的數(shù)據(jù)抽取方法,并針對MapReduce設(shè)計了一種分布式環(huán)境下的結(jié)構(gòu)化數(shù)據(jù)組織模型,為下一步的數(shù)據(jù)分析奠定了良好的基礎(chǔ).

    2 非結(jié)構(gòu)化表格文檔特征分析

    非結(jié)構(gòu)化表格文檔從形式上看與半結(jié)構(gòu)化表格(如Word表格,Excel表格等)基本相同,但是其生成的數(shù)據(jù)流卻是非結(jié)構(gòu)化的,圖1中除了文檔中的數(shù)據(jù)以外,原來的表格線全部被空格和換行符所替換,真實的數(shù)據(jù)與這些空格和換行符混為一體.

    從數(shù)據(jù)類別看,非結(jié)構(gòu)化表格文檔中的數(shù)據(jù)可分為標題區(qū)和數(shù)據(jù)區(qū),標題區(qū)表示數(shù)據(jù)的性質(zhì)和類別,數(shù)據(jù)區(qū)表示數(shù)據(jù)實際取值,如“姓名”為標題區(qū),“陳建偉”為數(shù)據(jù)區(qū).數(shù)據(jù)抽取的任務(wù)是提取表格中的所有標題區(qū)和數(shù)據(jù)區(qū),數(shù)據(jù)組織的任務(wù)是要建立標題區(qū)和數(shù)據(jù)區(qū)的語義聯(lián)系,以及相關(guān)標題區(qū)之間的語義關(guān)系.

    從表格的結(jié)構(gòu)特征看,可分為單值區(qū)域和多值區(qū)域,單值區(qū)域的一個標題區(qū)對應(yīng)一個數(shù)據(jù)區(qū),即一對一關(guān)系;多值表格的一個標題區(qū)對應(yīng)一個或多個數(shù)據(jù)區(qū),即一對多關(guān).圖1為程序自動生成的單值區(qū)域表格文檔,單值區(qū)域的標題區(qū)與數(shù)據(jù)區(qū)緊密相聯(lián).

    姓 名陳建偉推薦晉升(轉(zhuǎn)評)職務(wù)小中高單 位杭州市新福小學性別男出生年月1976年12月14日參加工作時間1995年7月教齡19年其中中專中學小學現(xiàn)任教年級三年級19任教學科數(shù)學現(xiàn)專業(yè)技術(shù)職務(wù)任職資格小學教師審定時間2004年12月聘任職務(wù)小學高級教師資格證書號05011-004-2010-21221聘任時間2004年12月何時何校何專業(yè)畢業(yè)(肄業(yè))及修業(yè)年限1995年6月于杭州師范學院普師專業(yè)畢業(yè)修業(yè)年限3年最高學歷(何年何校何專業(yè)畢業(yè))2005年6月于杭州師范學院數(shù)學本科畢業(yè)

    圖1 單值區(qū)域表格文檔結(jié)構(gòu)特征

    表1為多值區(qū)域表格,多值區(qū)域的一個標題區(qū)對應(yīng)多個數(shù)據(jù)區(qū),數(shù)據(jù)區(qū)在數(shù)據(jù)流中被切分成多行.

    為了說明表格文檔中單元格對應(yīng)生成的數(shù)據(jù)流特征,先定義表格文檔的內(nèi)容和其生成的數(shù)據(jù)流,然后給出生成規(guī)則:

    設(shè)表中單元格的每行字符串為一個六元組,即

    S=(V,L,N,E,F(xiàn),LC)

    其中:V為該行字符串的值;L={s,m}表示該行所屬單元格為單行(s)或多行(m);N={s,m}表示該行所屬單元格的下一個單元格內(nèi)容為單行(s)或多行(m);E={s,h}表示該行包括軟回車(s)或硬回車(h);F={y,n}表示該行為當前單元格的最后一行(y)或不是最后一行(n);LC={y,n}表示該行所屬單元格為表格該行的最后一個單元格(y)或者不是最后一個單元格(n).

    再設(shè)表格中單元格的每行字符串轉(zhuǎn)換得到的數(shù)據(jù)流為一個二元組,即

    D=(V,A)

    其中:V為該行字符串的值;A={sp,e,se}表示轉(zhuǎn)換后在V后新增的分隔符,sp為空格,e為換行,se為空格及換行.

    則表格中單元格的字符串根據(jù)不同情況生成的數(shù)據(jù)流規(guī)則為

    S=(V,s,s,Null,Null,Null)→D=(V,sp)

    S=(V,s,m, Null,Null,Null) →D=(V,se)

    S=(V,m,Null,h, Null,Null) →D=(V,se)

    S=(V,m,Null,s,y,Null) →D=(V,se)

    S=(V,m,Null,s,n,Null) →D=(V,e)

    S=(V,Null,Null,Null,Null,y) →D=(V,se) 以上多元組中的Null值表示可以取對應(yīng)元素取值集合中的任意值,這些規(guī)則是從非結(jié)構(gòu)化數(shù)據(jù)流中抽取表格標題區(qū)與數(shù)據(jù)區(qū)的重要依據(jù).

    3 數(shù)據(jù)抽取流程及算法

    為了提高數(shù)據(jù)抽取的準確度和靈活性,提出了一種基于規(guī)則的非結(jié)構(gòu)化表格文檔抽取方法,數(shù)據(jù)抽取流程如圖2所示,包括邏輯結(jié)構(gòu)抽取、文檔預處理、數(shù)據(jù)抽取、數(shù)據(jù)組織和大數(shù)據(jù)分析等主要步驟,在該流程中,包括一個數(shù)據(jù)字典,其作用是存儲文檔的標題區(qū),作為判定標題區(qū)與數(shù)據(jù)區(qū)的基本依據(jù).

    圖2 非結(jié)構(gòu)化表格文檔數(shù)據(jù)抽取流程Fig.2 The data extraction process of unstructured form document

    3.1 邏輯結(jié)構(gòu)抽取

    邏輯結(jié)構(gòu)抽取的任務(wù)是識別表格的標題區(qū),并建立標題區(qū)之間的邏輯關(guān)系.一般地,非結(jié)構(gòu)化表格的各標題區(qū)不是孤立的,而是存在一定的語義聯(lián)系,如基本信息中包括姓名、性別和年齡等,工作經(jīng)歷中包括起止時間、工作單位和工作崗位等,需要針對這些標題區(qū)域構(gòu)建較為統(tǒng)一的邏輯結(jié)構(gòu),為后面的數(shù)據(jù)抽取提供框架.定義了一個五元組表示表格的邏輯結(jié)構(gòu):

    定義1 非結(jié)構(gòu)化表格邏輯結(jié)構(gòu)可以表示為一個五元組TableStru= 集合,其中,ID表示文檔的標識;TupleID表示元組的標識;Title表示標題區(qū);Type ={Single, Multiple},表示標題區(qū)的類型,Single表示“單值區(qū)域”,Multiple表示“多值區(qū)域”;Parent表示該標題的父標題區(qū).

    邏輯結(jié)構(gòu)提取的輸入是一個不包含任何實際數(shù)據(jù)的非結(jié)構(gòu)化表格文檔,通過匹配數(shù)據(jù)字典,抽取表格各標題區(qū),并建立邏輯關(guān)系,抽取的結(jié)果保存在邏輯結(jié)構(gòu)庫中.

    3.2 單值區(qū)域數(shù)據(jù)抽取

    數(shù)據(jù)抽取是基于表格的結(jié)構(gòu)特征和數(shù)據(jù)流特征,提取表格中的數(shù)據(jù)區(qū)并建立與標題區(qū)的語義聯(lián)系.根據(jù)表格的結(jié)構(gòu)特征,定義以下數(shù)據(jù)抽取規(guī)則:

    定義2 若標題區(qū)后是數(shù)據(jù)區(qū),則該區(qū)域為單值區(qū)域;若標題區(qū)后是連續(xù)的標題區(qū),則該區(qū)域為多值區(qū)域.

    定義3 標題區(qū)和數(shù)據(jù)區(qū)是一對一的關(guān)系,且數(shù)據(jù)區(qū)位于標題區(qū)之后.

    定義4 從當前字符開始的最大字符串如果與數(shù)據(jù)字典中的某一字符串匹配,則該字符串為一個具有完整語義的標題區(qū),在單值區(qū)域中介于兩個標題區(qū)之間的字符串為數(shù)據(jù)區(qū).

    根據(jù)區(qū)域劃分規(guī)則可以將數(shù)據(jù)流劃分為單值區(qū)域和多值區(qū)域;根據(jù)單值區(qū)域規(guī)則和正向最大匹配規(guī)則可以抽取出標題區(qū),如果在兩個標題區(qū)之間的字符串不為空,則是一個數(shù)據(jù)區(qū).

    單值區(qū)域數(shù)據(jù)抽取的算法是以空格作為分隔符對數(shù)據(jù)流進行切分,得到一個字符串列表;按順序?qū)ψ址斜磉M行分析,將當前字符串與數(shù)據(jù)字典中的標題區(qū)進行匹配;利用正向最大匹配規(guī)則,將當前字符串與上次的字符串進行拼接得到一個新的字符串,與數(shù)據(jù)字典中的標題區(qū)進行匹配;根據(jù)匹配結(jié)果執(zhí)行不同的操作:1) 若拼接字符串匹配成功,則拼接字符串作為標題區(qū);2) 若拼接字符串匹配失敗,上次匹配和本次匹配均成功,則上次標題區(qū)所對應(yīng)的數(shù)據(jù)區(qū)為空;3) 若拼接字符串匹配失敗,上次匹配成功,本次匹配失敗,則本次字符串作為數(shù)據(jù)區(qū)內(nèi)容;4) 若拼接字符串匹配失敗,上次匹配失敗,本次匹配成功,則輸出一個包括標題區(qū)和數(shù)據(jù)區(qū)的結(jié)構(gòu)化多元組;5) 若拼接字符串匹配失敗,上次匹配和本次匹配均失敗,則拼接字符串作為數(shù)據(jù)區(qū)內(nèi)容,根據(jù)以上匹配結(jié)果即可抽取出數(shù)據(jù)區(qū);最后,將生成的多元組集合輸出到文件中.

    3.3 多值區(qū)域數(shù)據(jù)抽取

    根據(jù)多值區(qū)域的數(shù)據(jù)流特征,定義多值區(qū)域抽取規(guī)則.

    定義5 每行的標題區(qū)個數(shù)與數(shù)據(jù)區(qū)個數(shù)相同且順序一致,一個標題區(qū)可以擁有多個數(shù)據(jù)區(qū).

    根據(jù)多值區(qū)域規(guī)則,將多值區(qū)域定義為一個(m+1)n的矩陣,即

    其中:m+1為多值區(qū)域的行數(shù);n為多值區(qū)域的列數(shù);aij為多值區(qū)域中的字符串值,當i=1時,aij為標題區(qū),當i>1時,aij為數(shù)據(jù)區(qū).

    多值區(qū)域數(shù)據(jù)抽取方法是根據(jù)前述定義的數(shù)據(jù)流生成規(guī)則,將抽取的字符串與多值區(qū)域矩陣的元素建立對應(yīng)關(guān)系,其基本策略是:若表格中的單元格內(nèi)容僅是單行字符串或由軟回車構(gòu)成的多行字符串,可以通過空格和換行符對多值區(qū)域的數(shù)據(jù)區(qū)進行切分,并依次填入多值區(qū)域矩陣.若表格中單元格內(nèi)容包含具有硬回車的多行字符串,在這種情況下數(shù)據(jù)流中將產(chǎn)生冗余的空格和換行符,此時可按照空格和回車符識別數(shù)據(jù)區(qū)的個數(shù),同時基于啟發(fā)式規(guī)則進行抽取,常見的啟發(fā)式規(guī)則有:1)成對的符合一般屬于同一數(shù)據(jù)區(qū),如《》,(),“”,‘’等;2)位于特殊符號兩邊的字符串一般也屬于同一數(shù)據(jù)區(qū),如-,/等;3)含有年、月等語義含義的也屬于同一數(shù)據(jù)區(qū).根據(jù)這些啟發(fā)式規(guī)則,合并相應(yīng)數(shù)據(jù)區(qū).

    多值區(qū)域數(shù)據(jù)抽取的算法是將數(shù)據(jù)流轉(zhuǎn)換為一個字符串列表,按順序?qū)⒆址斜碇械淖址c數(shù)據(jù)字典進行匹配,得到多值區(qū)域矩陣的列數(shù)及其標題名稱,再以空格和換行符作為分隔符對多值區(qū)域的數(shù)據(jù)區(qū)進行切分,搜索切分后的字符串是否含有空格,若有,則空格的前后內(nèi)容分別是兩個數(shù)據(jù)區(qū)的內(nèi)容,并將它們填入矩陣對應(yīng)位置,且對應(yīng)位置不再填入字符串,接下來基于前述的抽取規(guī)則和語義規(guī)則對切分后的字符串切分為若干個數(shù)據(jù)區(qū),寫入多值區(qū)域矩陣的數(shù)據(jù)區(qū)的相應(yīng)位置;最后,將多值區(qū)域矩陣轉(zhuǎn)換為一個多元組集合輸出到文件中.

    以上算法中所采用的啟發(fā)式規(guī)則適用于含有特殊字符或者特殊漢字的數(shù)據(jù)區(qū)抽取,對于純文字的數(shù)據(jù)區(qū),由于沒有數(shù)據(jù)區(qū)劃分的規(guī)則,準確抽取較為困難,這個問題將在實驗與分析一節(jié)中進一步討論.

    4 數(shù)據(jù)組織模型及數(shù)據(jù)分析

    4.1 數(shù)據(jù)組織模型

    數(shù)據(jù)抽取的任務(wù)是從非結(jié)構(gòu)化數(shù)據(jù)流中抽取出標題區(qū)與數(shù)據(jù)區(qū),而數(shù)據(jù)組織的任務(wù)則是將這些數(shù)據(jù)組織起來,生成結(jié)構(gòu)化數(shù)據(jù),為數(shù)據(jù)分析奠定基礎(chǔ).

    在抽取算法中已經(jīng)說明將提取的數(shù)據(jù)區(qū)連同標題區(qū)輸出一個結(jié)構(gòu)化多元組,該多元組作為一種結(jié)構(gòu)化數(shù)據(jù)模型用來組織標題區(qū)、數(shù)據(jù)區(qū)以及它們之間的關(guān)系,下面給出該結(jié)構(gòu)化數(shù)據(jù)模型的定義:

    定義6 結(jié)構(gòu)化數(shù)據(jù)模型可以表示為一個六元組DataStru=(ID,TupleID,TitleArea,DataArea, Relation,F(xiàn)oreign),其中,ID表示文檔的惟一性標識;TupleID表示元組的惟一性標識;TitleArea表示標題區(qū)的值;DataArea表示數(shù)據(jù)區(qū)的值,它既可以是標題區(qū)字符串也可以是數(shù)據(jù)區(qū)字符串;Relation={1,0},當值為1時,表示DataArea是TitleArea的子標題,當值為0時,表示DataArea是TitleArea對應(yīng)的數(shù)據(jù)區(qū);Foreign表示該標題區(qū)的父標題區(qū).

    根據(jù)以上定義,從非結(jié)構(gòu)化表格文檔中抽取得到的多元組集合可以保存在分布式文件中,為數(shù)據(jù)分析奠定基礎(chǔ).為了說明如何利用得到的數(shù)據(jù)集,下一節(jié)將給出基于MapReduce并行編程模型的數(shù)據(jù)分析算法.

    單值區(qū)域表格抽取得到的結(jié)構(gòu)化數(shù)據(jù)集如下所示:

    1. (1,1,“姓名”,“陳建偉”,0,0)

    2. (1,2,“推薦晉升(轉(zhuǎn)評)職務(wù)”,“小中高”,0,0)

    3. (1,8,“其中”,“中?!?1,0)

    4. (1,9,“其中”,“中學”,1,0)

    5. (1,10,“其中”,“小學”,1,0)

    6. (1,11,“中?!?“”,0,8)

    7. (1,12,“中學”,“”,0,9)

    8. (1,13,“小學”,“19”,0,10)

    多值區(qū)域表格抽取得到的結(jié)構(gòu)化數(shù)據(jù)集如下所示:

    1. (1,27,“起止時間”,“2009.12.14—16”,0,0)

    2. (1,28,“培訓項目”,“建筑抗震與設(shè)計對策”, 0,0)

    3. (1,29,“組織單位”,“浙江省建筑設(shè)計研究院”, 0,0)

    4. (1,30,“學習情況”,“必修課,60學時,成績合格”,0,0)

    5. (1,31,“起止時間”,“2009.12.14—16”,0,0)

    6. (1,32,“培訓項目”,“巖土工程設(shè)計安全度”, 0,0)

    7. (1,33,“組織單位”,“浙江省建筑設(shè)計研究院”, 0,0)

    8. (1,34,“學習情況”,“必修課,60學時,成績合格”,0,0)

    4.2 基于MapReduce的數(shù)據(jù)分析

    MapReduce是一種非常流行的分布式并行計算模型,被廣泛應(yīng)用于離線海量數(shù)據(jù)的分析.該模型主要包括Map過程、Reduce兩個過程,MapReduce節(jié)點接收數(shù)據(jù)片段,執(zhí)行用戶自定義的Map過程,輸出(Key,Value)鍵值對集合,經(jīng)過混洗和排序,把具有相同Key值的中間結(jié)果進行歸并,將歸并的結(jié)果傳輸給Reduce節(jié)點,最后執(zhí)行用戶自定義的Reduce過程,生成輸出結(jié)果.

    分析的數(shù)據(jù)來自某省專業(yè)技術(shù)資格(職務(wù))評審綜合表,內(nèi)容涵蓋申報對象的基本數(shù)據(jù)、教學數(shù)據(jù)、論文數(shù)據(jù)、項目數(shù)據(jù)和獲獎數(shù)據(jù)等,根據(jù)前面的數(shù)據(jù)抽取和數(shù)據(jù)組織方法將這些文檔轉(zhuǎn)換為一個結(jié)構(gòu)化數(shù)據(jù)集,數(shù)據(jù)集中的每行包括六個字段:文件標識、行標識、標題區(qū)、數(shù)據(jù)區(qū)、關(guān)系和外鍵.下面給出兩個較為常見的MapReduce分析算法,一個是統(tǒng)計每個申報對象發(fā)表的科技論文數(shù),另一個是統(tǒng)計所有申報對象的平均年齡.

    //key:行號

    //value:行字符串,對應(yīng)六元組

    Map(String key,String value,Content content):

    text =value.split(“,”,2)

    EmitIntermediate(text[0],text[1])

    //key:文件標識// values: {<行標識,標題區(qū),數(shù)據(jù)區(qū),關(guān)系,外鍵>}

    Reduce(String key,Iterator values,Content content):

    int number=0

    for each v in values:

    records = v.split(“,”)

    if(record[1]="姓名")then

    name=record[2]

    if(record[1]="論文名稱")then

    number++

    Emit(name, number)

    為了統(tǒng)計所有申報對象的平均年齡,先由Map函數(shù)按標題區(qū)對結(jié)果集重新組織,輸入為<行號,行字符串 >,輸出中間結(jié)果為<標題區(qū),{<數(shù)據(jù)區(qū),關(guān)系,外鍵>}>鍵值對;然后由Reduce函數(shù)對中間結(jié)果通過匹配“出生年月”關(guān)鍵字得到具體的值,最后輸出申報對象平均年齡,實現(xiàn)的算法如下:

    //key:行號

    //value:行字符串,對應(yīng)六元組

    Map(String key,String value,Content content):

    text=value.split(“,”,4)

    EmitIntermediate(text[2],text[3])

    //key:標題區(qū)

    //values: {<數(shù)據(jù)區(qū),關(guān)系,外鍵>}

    Reduce(Stringkey,Iteratorvalues,Contentcontent):

    if(key=“出生年月”)then

    introws=0

    doublesum=0

    foreachvinvalues:

    values=v.split(“,”)

    rows++

    sum+=nowDate-ParseDate(values[0])

    Emit(age,sum/rows)

    5 實驗與分析

    將所提出的數(shù)據(jù)抽取與數(shù)據(jù)組織方法應(yīng)用于某省專業(yè)技術(shù)資格(職務(wù))綜合表文檔的處理,這些文檔通過某省申報與評審云平臺[23]提交,為了防止文檔被篡改在提交時都已經(jīng)轉(zhuǎn)換成PDF格式的文檔,是典型的非結(jié)構(gòu)化表格文檔,具有3個顯著特點:1) 文檔格式多樣,不同申報系列具有不同的格式,如高校教師系列、教授級高工系列、高級經(jīng)濟師系列等100余個評審系統(tǒng)的綜合表文檔幾乎都不相同;2) 文檔內(nèi)數(shù)據(jù)豐富,包括了申報對象的基本數(shù)據(jù)、教學數(shù)據(jù)、科研數(shù)據(jù)、獲獎數(shù)據(jù)、工程項目等多種類別的數(shù)據(jù);3) 文檔體量較大,每年提交的文檔近十萬份,數(shù)據(jù)逐年疊加.

    表2 非結(jié)構(gòu)化表格文檔基本信息Table 2 The basic information of unstructured form document 個

    為了方便說明問題,從中選取了高校教師綜合表、教授級高工綜合表、高級經(jīng)濟師綜合表等典型的10種類型的綜合表進行數(shù)據(jù)抽取,每種類型包括200份文檔,總計2 000份文檔,表2給出了這些文檔的單值標題區(qū)、單值數(shù)據(jù)區(qū)、多值標題區(qū)、多值數(shù)據(jù)區(qū)的統(tǒng)計數(shù)據(jù),表中的信息點表示標題區(qū)或數(shù)據(jù)區(qū).

    兩個常見的評價數(shù)據(jù)抽取方法的指標是準確率與召回率.準確率用于度量抽取出來的數(shù)據(jù)中正確的比例,召回率用于度量數(shù)據(jù)被正確抽取出來的比例.一般情況下,召回率和準確率相互影響,對于同一次抽取的結(jié)果,隨著召回率的提高,準確率呈下降趨勢,隨著準確率的提高,召回率呈下降趨勢,為了綜合評價這兩個指標,通常還計算召回率R和準確率P的加權(quán)幾何平均值Fβ.其計算公式分別為

    其中β為召回率和準確率的相對權(quán)重,取值一般為1/2,1,2.β=1時,二者同樣重要;β>1時,準確率更重要一些;β<1時,召回率更重要一些.

    5.1 單值區(qū)域抽取結(jié)果

    用單值區(qū)域抽取算法對上述2 000份文檔的單值區(qū)域進行抽取,得到了如圖3所示的實驗結(jié)果,根據(jù)該圖可以發(fā)現(xiàn)其準確率、召回率和加權(quán)幾何平均值F1(β=1)值都非常高,其中準確率最大值為99.91%,最小值為99.42%,平均值為99.64%;召回率最大值為99.90%,最小值為99.23%,平均值為99.50%;F1最大值為99.90%,最小值為99.38%,平均值為99.57%.這表明該算法對單值區(qū)域的數(shù)據(jù)抽取非常有效,其原因在于單值標題區(qū)與數(shù)據(jù)區(qū)相鄰,且標題區(qū)與數(shù)據(jù)區(qū)一一對應(yīng),結(jié)構(gòu)較為清晰,實現(xiàn)較為容易.

    圖3 單值區(qū)域數(shù)據(jù)抽取結(jié)果Fig.3 The data extraction results of single-value area

    造成單值標題區(qū)及數(shù)據(jù)區(qū)抽取出錯的原因主要來源于用戶修改了綜合表中已經(jīng)定義好的標題區(qū),這使得該標題區(qū)在數(shù)據(jù)字典里無法正確匹配,從而導致系統(tǒng)無法正確抽取.如有些申報對象將標題區(qū)的“聯(lián)系電話”修改為了“手機號碼聯(lián)系電話”,這一修改導致單值數(shù)據(jù)區(qū)“手機號碼聯(lián)系電話”抽取出錯.

    5.2 多值區(qū)域抽取結(jié)果

    用多值區(qū)域抽取算法對上述2 000份文檔的多值區(qū)域進行抽取,實驗結(jié)果如圖4所示.由于多值標題區(qū)結(jié)構(gòu)較為復雜,一個標題區(qū)對應(yīng)多個數(shù)據(jù)區(qū),分屬于不同標題區(qū)的多個數(shù)據(jù)區(qū)緊密相連,一旦一個數(shù)據(jù)區(qū)抽取出錯將會導致抽取出錯連鎖效應(yīng),所以在對多值標題區(qū)和數(shù)據(jù)區(qū)抽取時,其出錯的概率比單值標題區(qū)和數(shù)據(jù)區(qū)抽取出錯概率要大,其準確率、召回率和加權(quán)幾何平均值F1(β=1)值相比單值標題區(qū)和數(shù)據(jù)區(qū)抽取有所下降.其中準確率最大值為95.26%,最小值為93.85%,平均值為94.54%;召回率最大值為94.42%,最小值為92.83%,平均值為93.32%;F1最大值為94.36%,最小值為93.54%,平均值為93.92%.

    圖4 多值區(qū)域數(shù)據(jù)抽取結(jié)果Fig.4 The data extraction results of multi-value area

    導致多值區(qū)域數(shù)據(jù)抽取出錯的主要原因有以下幾個:

    1) 包含硬回車的數(shù)據(jù)區(qū).若數(shù)據(jù)區(qū)的第一行字符串后有一個硬回車,則將無法判定后邊的一行字符串是屬于當前單元格還是屬于后面一個單元格,同時該數(shù)據(jù)區(qū)也不含有特殊字符,也無法利用啟發(fā)式規(guī)則.

    2) 包含冗余空格的數(shù)據(jù)區(qū).若數(shù)據(jù)區(qū)的數(shù)據(jù)之間包含冗余的空格,也可能會誤將這些字符串分割為兩個數(shù)據(jù)區(qū).

    3) 沒有橫向表格線的數(shù)據(jù)區(qū).若表格的各數(shù)據(jù)區(qū)之間沒有橫向表格線,則此時會將其當成一個數(shù)據(jù)區(qū)來處理,導致不正確的抽取結(jié)果.

    上述3種情況是導致多值數(shù)據(jù)區(qū)域抽取出錯的主要原因,可以看出這些錯誤都是由于填寫表格不太規(guī)范導致的,這也是多值區(qū)域數(shù)據(jù)抽取算法今后需要進一步改進的地方,使數(shù)據(jù)抽取更加智能和準確.

    6 結(jié) 論

    非結(jié)構(gòu)化表格文檔是一類被廣泛應(yīng)用的文檔類型,具有非結(jié)構(gòu)化、樣式不固定、數(shù)據(jù)混雜和價值系統(tǒng)等特征,海量的這類文檔中存儲著豐富的有價值的數(shù)據(jù),而數(shù)據(jù)抽取與數(shù)據(jù)組織是實現(xiàn)數(shù)據(jù)分析的重要步驟.為此,提出了一種面向非結(jié)構(gòu)化表格文檔的數(shù)據(jù)抽取方法與組織模型,在分析文檔結(jié)構(gòu)特征以及數(shù)據(jù)流特征的基礎(chǔ)上,給出了詳細的數(shù)據(jù)抽取流程和數(shù)據(jù)抽取算法,并將數(shù)據(jù)抽取的結(jié)果組織成一種適合于分布式環(huán)境下MapReduce處理的結(jié)構(gòu)化數(shù)據(jù)模型,大量實驗表明所提出的方法具有很高的準確率與召回率,具有較強的實際應(yīng)用價值.

    [1] 孟小峰,慈祥.大數(shù)據(jù)管理概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.

    [2] 潘小燕.半結(jié)構(gòu)化文本中的表格信息抽取技術(shù)的研究[D].哈爾濱:哈爾濱工業(yè)大學,2007.

    [3] 宋強,徐鵬,李涓子.半結(jié)構(gòu)化文檔中非標記化表格的抽取[J].計算機工程,2005,31(18):81-83.

    [4] 王允富.半結(jié)構(gòu)化文本信息抽取方法研究及應(yīng)用[D].鎮(zhèn)江:江蘇科技大學,2014.

    [5] 黃豫清,戚廣志.從WEB文檔中構(gòu)造半結(jié)構(gòu)化信息的抽取器[J].軟件學報,2000,11(1):73-78.

    [6] HAMMER J, GARCIA M H, CHO J, et al. Extracting semistructured information from the web[C]// Workshop on Management of Semistructured Data. Berlin:Springer,2002:18-25.

    [7] 李澎林,張獻力,李偉.基于雙字Hash機制的交通信息分詞算法研究[J].浙江工業(yè)大學學報,2014,42(6):596-600.

    [8] 宋艷娟.基于XML的HTML和PDF數(shù)據(jù)抽取技術(shù)的研究[D].福州:福州大學,2005.

    [9] 霍焰.基于非結(jié)構(gòu)化文檔數(shù)據(jù)的抽取與分析系統(tǒng)的數(shù)據(jù)抽取[D].天津:天津大學,2011.

    [10] 王云鵬.非結(jié)構(gòu)化文檔數(shù)據(jù)抽取與分析系統(tǒng)的設(shè)計與實現(xiàn)[D].天津:天津大學,2011.

    [11] CHANG C C,HE B,LI C,et al. Structured databases on the web: observations and implications[J]. ACM sigmod record, 2004,33(3):61-70.

    [12] 劉端陽,王良芳.基于語義詞典和詞匯鏈的關(guān)鍵詞提取算法[J].浙江工業(yè)大學學報,2013,41(5):545-551.

    [13] 張健,錢杰,徐茂興.網(wǎng)絡(luò)評論觀點抽取的研究[J].浙江工業(yè)大學學報,2010,38(4):415-419.

    [14] 張伯.基于PDF文字流的表格識別技術(shù)的研究[D].北京:北京工業(yè)大學,2010.

    [15] 劉力.科技文檔信息抽取與格式化技術(shù)研究[D].長沙:中南大學,2010.

    [16] ZHOU J. Table structure recognition based on robust block segmentation[C]//The International Society for Optical Engineering. United States: SPIE, 1999, 3305:22-32.

    [17] NEVES L,CARVALHO J M,F(xiàn)ACON J,et al. A table-form extraction with artefact removal[C]// Symposium on Applied Computing. Korea:ACM,2007:622-626.

    [18] 萬里鵬.非結(jié)構(gòu)化到結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換的研究與實現(xiàn)[D].成都:西南交通大學,2013.

    [19] 馮亞麗,張汝坤.基于規(guī)則庫的非結(jié)構(gòu)化數(shù)據(jù)格式轉(zhuǎn)換技術(shù)研究[J].云南師范大學學報,2012,32(2):58-61.

    [20] 鄒波.海量非結(jié)構(gòu)化數(shù)據(jù)的組織研究與實現(xiàn)[D].武漢:華中科技大學,2008.

    [21] PENG T,SUN L Y,BAO H. Research of unstructured data transformation based on XML[C]//Internet Technology and Applications. Wuhan:IEEE,2010:1-4.

    [22] MANSURI I R, SARAWAGI S. Integrating unstructured data into relational databases[C]// International Conference on Data Engineering. Atlanta:IEEE,2006:29-29.

    [23] ZHANG Y M,NI K,LU J W,et al. DOGCP: a domain-oriented government cloud platform based on paas[C]// International Conference on Cyber Security and Cloud Computing. New York:IEEE,2015:115-120.

    (責任編輯:劉 巖)

    Research on data extraction and organization model for unstructured form document

    ZHANG Yuanming1,2, CHEN Miao1, LU Jiawei1, XU Jun1, XIAO Gang1,2

    (1.College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310023, China;2.Post-Doctoral Research Center of Mechanical Engineering, Zhejiang University of Technology, Hangzhou 310014, China)

    In order to improve the flexibility of data extraction from complex unstructured form document, this paper proposes an extraction approach and a structured data model. The document structural features and data flow characteristics of unstructured form document are studied in details. A set of data flow generation rules are concluded. A data extraction process including logical structure extraction, document preprocessing, data extraction, and data organization, is designed. Two extraction algorithms for single-value area and multi-value area of document are implemented. The extracted data are organized into a structured data model that is designed to facilitate data analysis by MapReduce. Experimental results show that the proposed approach has great accuracy rate and recall rate. The structured data model also can effectively meet the requirements of data analysis by MapReduce.

    unstructured form document; data extraction; structured data model, data analysis

    2016-01-23

    浙江省錢江人才計劃D類項目 (QJD1302009);浙江省重大科技專項資助項目(2014C01408)

    張元鳴 (1977—),男,河南濮陽人,副教授,博士,研究方向為大數(shù)據(jù)處理、服務(wù)計算和并行計算等,E-mail:zym@zjut.edu.cn.

    TP391

    A

    1006-4303(2016)05-0487-08

    每個申報對象發(fā)表的論文數(shù),先由Map函數(shù)對結(jié)果集中的行按文件標識進行重組,其輸入為<行號,行字符串>,輸出中間結(jié)果是<文件標識,{<行標識,標題區(qū),數(shù)據(jù)區(qū),關(guān)系,外鍵>}>;然后由Reduce函數(shù)根據(jù)前面的中間結(jié)果查找申報對象姓名并計算發(fā)表的論文數(shù),方法是通過匹配“姓名”關(guān)鍵字得到姓名的值,通過匹配“論文名稱”等關(guān)鍵字計算論文數(shù)量,最后將姓名和論文數(shù)量作為鍵值對輸出,實現(xiàn)算法如下:

    猜你喜歡
    單值字符串數(shù)據(jù)流
    (i,k)-步雙極單值中智競爭圖
    tt*幾何的等單值τ函數(shù)
    汽車維修數(shù)據(jù)流基礎(chǔ)(下)
    一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機制
    多值函數(shù)在單值解析分支上計算函數(shù)值的一個注記
    基于數(shù)據(jù)流聚類的多目標跟蹤算法
    北醫(yī)三院 數(shù)據(jù)流疏通就診量
    一種新的基于對稱性的字符串相似性處理算法
    單值延拓性質(zhì)的攝動及其應(yīng)用
    依據(jù)字符串匹配的中文分詞模型研究
    欧美成人免费av一区二区三区| 我要搜黄色片| 一a级毛片在线观看| 男女下面进入的视频免费午夜| 欧美日韩精品成人综合77777| 亚洲综合色惰| 最近视频中文字幕2019在线8| 毛片一级片免费看久久久久| 一区二区三区免费毛片| 亚洲五月天丁香| 男人和女人高潮做爰伦理| 精品久久久久久久久av| 露出奶头的视频| 成人漫画全彩无遮挡| 国产高清视频在线观看网站| 久久久久久久午夜电影| 国产伦精品一区二区三区视频9| 亚洲精品日韩av片在线观看| 亚洲一级一片aⅴ在线观看| 国产高清视频在线观看网站| 亚洲熟妇中文字幕五十中出| 国产成人a∨麻豆精品| 97超级碰碰碰精品色视频在线观看| 老司机福利观看| 九九爱精品视频在线观看| 在线播放无遮挡| 婷婷精品国产亚洲av| 99久久久亚洲精品蜜臀av| 亚洲成人中文字幕在线播放| 97超视频在线观看视频| 国产av不卡久久| 成人漫画全彩无遮挡| 69人妻影院| 午夜精品在线福利| 午夜激情福利司机影院| 老司机福利观看| 国产av一区在线观看免费| 观看免费一级毛片| 免费观看精品视频网站| 国语自产精品视频在线第100页| 寂寞人妻少妇视频99o| 麻豆久久精品国产亚洲av| 精品人妻视频免费看| 一进一出抽搐gif免费好疼| 黄片wwwwww| 久久久久久伊人网av| 听说在线观看完整版免费高清| 97热精品久久久久久| 国产精华一区二区三区| 国产69精品久久久久777片| 一卡2卡三卡四卡精品乱码亚洲| 久久人妻av系列| 最近最新中文字幕大全电影3| av专区在线播放| 久久久久国产网址| 在线观看av片永久免费下载| 色噜噜av男人的天堂激情| 在线播放无遮挡| 亚洲精华国产精华液的使用体验 | 夜夜夜夜夜久久久久| 精品一区二区三区av网在线观看| 精品少妇黑人巨大在线播放 | 国内精品宾馆在线| 欧美中文日本在线观看视频| 在线观看午夜福利视频| 亚洲欧美清纯卡通| 热99re8久久精品国产| av黄色大香蕉| 97超碰精品成人国产| 熟妇人妻久久中文字幕3abv| 免费观看在线日韩| 欧美+日韩+精品| 三级男女做爰猛烈吃奶摸视频| 日韩国内少妇激情av| 三级男女做爰猛烈吃奶摸视频| av中文乱码字幕在线| 精品乱码久久久久久99久播| 日日干狠狠操夜夜爽| 禁无遮挡网站| 免费在线观看成人毛片| 男女那种视频在线观看| 亚洲高清免费不卡视频| 韩国av在线不卡| 国产在视频线在精品| 小蜜桃在线观看免费完整版高清| 99久久九九国产精品国产免费| 精品人妻偷拍中文字幕| 18禁黄网站禁片免费观看直播| 国产国拍精品亚洲av在线观看| 少妇裸体淫交视频免费看高清| 插阴视频在线观看视频| 99热全是精品| av黄色大香蕉| 天堂av国产一区二区熟女人妻| 91在线观看av| 亚洲国产精品合色在线| 欧美激情久久久久久爽电影| 国产成人精品久久久久久| 亚洲精品亚洲一区二区| 国产成人福利小说| 亚洲成人久久爱视频| 国产伦精品一区二区三区四那| 日韩av不卡免费在线播放| 九色成人免费人妻av| av女优亚洲男人天堂| 免费一级毛片在线播放高清视频| 国产真实伦视频高清在线观看| 日韩av在线大香蕉| 一级毛片aaaaaa免费看小| 精品人妻偷拍中文字幕| 欧美在线一区亚洲| a级一级毛片免费在线观看| 亚洲激情五月婷婷啪啪| 午夜亚洲福利在线播放| 乱码一卡2卡4卡精品| 身体一侧抽搐| 观看美女的网站| 免费黄网站久久成人精品| 欧美区成人在线视频| 深夜精品福利| 一级黄片播放器| 伦精品一区二区三区| 黄片wwwwww| 性色avwww在线观看| 国产精品一区二区免费欧美| 三级男女做爰猛烈吃奶摸视频| 日韩制服骚丝袜av| 美女xxoo啪啪120秒动态图| 好男人在线观看高清免费视频| 丝袜喷水一区| 日本五十路高清| 日本a在线网址| 别揉我奶头 嗯啊视频| 免费观看在线日韩| 亚洲国产欧美人成| 蜜桃久久精品国产亚洲av| 亚洲人成网站在线播放欧美日韩| 露出奶头的视频| 国产精品久久久久久久久免| 小说图片视频综合网站| 91久久精品国产一区二区三区| 啦啦啦啦在线视频资源| 成年女人看的毛片在线观看| 免费大片18禁| 亚洲av成人精品一区久久| 男女啪啪激烈高潮av片| 亚洲精品影视一区二区三区av| 99久久成人亚洲精品观看| 精品久久久久久久久久免费视频| 日韩精品中文字幕看吧| 无遮挡黄片免费观看| 亚洲欧美成人综合另类久久久 | 少妇猛男粗大的猛烈进出视频 | 精品久久国产蜜桃| 欧美zozozo另类| 女人被狂操c到高潮| av在线亚洲专区| 97超碰精品成人国产| 中文字幕久久专区| 高清午夜精品一区二区三区 | 亚洲熟妇中文字幕五十中出| 国产成人影院久久av| 免费黄网站久久成人精品| 国产白丝娇喘喷水9色精品| 亚洲美女视频黄频| 国产成人a∨麻豆精品| 蜜桃久久精品国产亚洲av| 国产免费男女视频| 亚洲乱码一区二区免费版| 露出奶头的视频| 亚洲国产精品成人久久小说 | 国产精品无大码| 免费人成视频x8x8入口观看| 欧美极品一区二区三区四区| 国内精品一区二区在线观看| 婷婷色综合大香蕉| 日本免费a在线| 亚洲av免费高清在线观看| 一级av片app| 成年av动漫网址| 少妇熟女aⅴ在线视频| 大型黄色视频在线免费观看| 色哟哟·www| 中国美女看黄片| 一级av片app| 欧美激情国产日韩精品一区| 99国产极品粉嫩在线观看| 亚洲内射少妇av| 国产人妻一区二区三区在| 国产成年人精品一区二区| 国产av不卡久久| 亚洲国产精品成人久久小说 | 成人美女网站在线观看视频| 国产精品一区二区三区四区免费观看 | 亚洲图色成人| 少妇高潮的动态图| 婷婷色综合大香蕉| 搡老妇女老女人老熟妇| 一进一出抽搐动态| 成人美女网站在线观看视频| 国产精品久久久久久久电影| 久久精品国产亚洲av香蕉五月| 亚洲av熟女| 欧美另类亚洲清纯唯美| 日韩,欧美,国产一区二区三区 | 中文字幕av在线有码专区| 日韩欧美 国产精品| 久久人人爽人人爽人人片va| 日本欧美国产在线视频| 最近最新中文字幕大全电影3| 亚洲av二区三区四区| 亚洲av中文av极速乱| 变态另类丝袜制服| 乱系列少妇在线播放| 亚洲人成网站在线观看播放| 久久久久久九九精品二区国产| 久久精品影院6| 蜜桃亚洲精品一区二区三区| 寂寞人妻少妇视频99o| 日本a在线网址| 精品国内亚洲2022精品成人| 久久久成人免费电影| 韩国av在线不卡| 亚洲中文字幕日韩| 性插视频无遮挡在线免费观看| 日韩一区二区视频免费看| 精品国产三级普通话版| 国产69精品久久久久777片| 久久精品91蜜桃| 观看美女的网站| 人妻丰满熟妇av一区二区三区| 美女免费视频网站| 非洲黑人性xxxx精品又粗又长| 亚洲精品一卡2卡三卡4卡5卡| 中文字幕熟女人妻在线| 大又大粗又爽又黄少妇毛片口| 美女免费视频网站| 亚洲成a人片在线一区二区| av天堂中文字幕网| 欧美激情在线99| 国产av麻豆久久久久久久| 一区福利在线观看| 男人狂女人下面高潮的视频| 久久久午夜欧美精品| 97热精品久久久久久| 国产午夜精品论理片| 波多野结衣高清作品| 亚洲人成网站在线播| 在线观看av片永久免费下载| 亚洲av免费高清在线观看| 国产毛片a区久久久久| 一级毛片电影观看 | 午夜福利在线观看吧| 亚洲无线观看免费| a级毛片a级免费在线| 级片在线观看| 亚洲欧美成人综合另类久久久 | 简卡轻食公司| 精品熟女少妇av免费看| 18禁在线无遮挡免费观看视频 | 亚洲婷婷狠狠爱综合网| 国产成人freesex在线 | 国产伦一二天堂av在线观看| 日产精品乱码卡一卡2卡三| 亚洲最大成人av| 亚洲人与动物交配视频| 日日摸夜夜添夜夜添小说| 日韩精品青青久久久久久| or卡值多少钱| 亚洲一区高清亚洲精品| 少妇熟女aⅴ在线视频| 国产高清激情床上av| 国模一区二区三区四区视频| 国产大屁股一区二区在线视频| 亚洲一区二区三区色噜噜| 久久久精品欧美日韩精品| 99久国产av精品| 一级黄色大片毛片| 国产精品一区二区三区四区久久| 三级毛片av免费| 伊人久久精品亚洲午夜| 免费av毛片视频| 老司机影院成人| 国产亚洲精品av在线| 久久精品久久久久久噜噜老黄 | 久久久久久九九精品二区国产| 美女xxoo啪啪120秒动态图| 亚洲久久久久久中文字幕| 人妻夜夜爽99麻豆av| av在线播放精品| 中文字幕av在线有码专区| 天堂动漫精品| 久久久久久久亚洲中文字幕| 99久久精品热视频| 欧美成人精品欧美一级黄| 亚洲精品在线观看二区| 久久久色成人| 精品一区二区三区人妻视频| videossex国产| 久久鲁丝午夜福利片| 成人特级av手机在线观看| 国内精品久久久久精免费| 九九久久精品国产亚洲av麻豆| 老司机午夜福利在线观看视频| 日日啪夜夜撸| 亚洲人与动物交配视频| 日韩人妻高清精品专区| 欧美xxxx性猛交bbbb| 小说图片视频综合网站| 成人亚洲欧美一区二区av| 国产一区二区亚洲精品在线观看| 人妻丰满熟妇av一区二区三区| 国内揄拍国产精品人妻在线| 别揉我奶头~嗯~啊~动态视频| 网址你懂的国产日韩在线| 最近中文字幕高清免费大全6| 人人妻人人看人人澡| 国产成人福利小说| 日韩一区二区视频免费看| 国产精品人妻久久久影院| 精品久久久久久成人av| 久久精品国产自在天天线| 成人二区视频| 日韩欧美精品v在线| 最近的中文字幕免费完整| 国产免费一级a男人的天堂| 一级毛片我不卡| 欧美不卡视频在线免费观看| av视频在线观看入口| 熟妇人妻久久中文字幕3abv| 日韩成人av中文字幕在线观看 | 欧美一区二区精品小视频在线| 深爱激情五月婷婷| 色尼玛亚洲综合影院| 亚洲第一区二区三区不卡| 成人特级av手机在线观看| 干丝袜人妻中文字幕| 夜夜看夜夜爽夜夜摸| 乱人视频在线观看| 成人二区视频| 一个人看的www免费观看视频| 国产成年人精品一区二区| 亚洲国产精品成人久久小说 | 亚洲精品乱码久久久v下载方式| 你懂的网址亚洲精品在线观看 | 麻豆一二三区av精品| 美女免费视频网站| 最近在线观看免费完整版| 国产免费男女视频| 黑人高潮一二区| 久久人人爽人人片av| 亚洲精品一卡2卡三卡4卡5卡| 久久久久久国产a免费观看| 校园春色视频在线观看| 国产高清视频在线播放一区| 99久久无色码亚洲精品果冻| 国产欧美日韩精品一区二区| 搡老岳熟女国产| 亚洲欧美日韩高清专用| 天天一区二区日本电影三级| 免费高清视频大片| 成年免费大片在线观看| 亚洲专区国产一区二区| 欧美性感艳星| 天堂影院成人在线观看| 婷婷精品国产亚洲av在线| av在线天堂中文字幕| 级片在线观看| 国产毛片a区久久久久| 久久99热这里只有精品18| 国产黄a三级三级三级人| 99riav亚洲国产免费| 久久人妻av系列| 黄色一级大片看看| 黑人高潮一二区| 天天一区二区日本电影三级| 欧美bdsm另类| 国产亚洲av嫩草精品影院| 伦理电影大哥的女人| av在线天堂中文字幕| 成人美女网站在线观看视频| 日韩精品有码人妻一区| 国产日本99.免费观看| 高清午夜精品一区二区三区 | 久久久久免费精品人妻一区二区| 亚洲一级一片aⅴ在线观看| 久久精品国产亚洲网站| 国产白丝娇喘喷水9色精品| 国产精品三级大全| 免费黄网站久久成人精品| 男女啪啪激烈高潮av片| 少妇猛男粗大的猛烈进出视频 | 在线免费十八禁| 久久精品国产亚洲av涩爱 | 亚洲无线在线观看| 级片在线观看| 国产一区二区三区av在线 | 最近中文字幕高清免费大全6| 亚洲在线观看片| 亚洲精品一区av在线观看| 毛片一级片免费看久久久久| 国产在线男女| 国产一区亚洲一区在线观看| 久久精品国产亚洲av天美| 91午夜精品亚洲一区二区三区| 久久精品综合一区二区三区| 亚洲国产精品久久男人天堂| 久久人人精品亚洲av| 美女cb高潮喷水在线观看| 久久久欧美国产精品| 精品久久久久久久久亚洲| 国产片特级美女逼逼视频| 国产亚洲精品久久久久久毛片| 男女之事视频高清在线观看| 真实男女啪啪啪动态图| 99视频精品全部免费 在线| 亚洲av熟女| 精品久久久久久久人妻蜜臀av| 久久亚洲精品不卡| 免费看日本二区| 欧美一区二区精品小视频在线| 亚洲精品影视一区二区三区av| 国产成人一区二区在线| 哪里可以看免费的av片| 国产久久久一区二区三区| eeuss影院久久| 啦啦啦啦在线视频资源| 久久久久久九九精品二区国产| 最近手机中文字幕大全| 少妇熟女aⅴ在线视频| 国产国拍精品亚洲av在线观看| 色av中文字幕| 国产av在哪里看| 午夜爱爱视频在线播放| 欧美区成人在线视频| 卡戴珊不雅视频在线播放| 亚洲无线观看免费| 国产一区二区激情短视频| 男女那种视频在线观看| 日本 av在线| 欧美3d第一页| 嫩草影视91久久| 国产精品一区www在线观看| 精品一区二区三区视频在线观看免费| 亚洲高清免费不卡视频| 成人高潮视频无遮挡免费网站| 淫秽高清视频在线观看| 99热精品在线国产| 亚洲一级一片aⅴ在线观看| 亚洲不卡免费看| 久久国产乱子免费精品| 日韩国内少妇激情av| 69av精品久久久久久| 精品不卡国产一区二区三区| 99在线视频只有这里精品首页| 国产成人精品久久久久久| 久久天躁狠狠躁夜夜2o2o| 免费无遮挡裸体视频| 国产精品久久久久久av不卡| 伦理电影大哥的女人| 一个人免费在线观看电影| 欧美激情国产日韩精品一区| 亚洲无线在线观看| 99热精品在线国产| 亚洲av美国av| 久久精品人妻少妇| 成年女人永久免费观看视频| 久久久久久久亚洲中文字幕| 国产高清激情床上av| 成人亚洲精品av一区二区| 日日啪夜夜撸| 亚洲国产精品成人久久小说 | 国产精品一区二区性色av| 亚洲四区av| 精品熟女少妇av免费看| 亚洲精品久久国产高清桃花| 国产精品1区2区在线观看.| 亚洲国产精品成人综合色| 欧美绝顶高潮抽搐喷水| 久久综合国产亚洲精品| 亚洲人成网站在线观看播放| 亚洲无线在线观看| 国产伦精品一区二区三区四那| 国产成人福利小说| 成人一区二区视频在线观看| 十八禁网站免费在线| 国产高清三级在线| 日韩欧美一区二区三区在线观看| 如何舔出高潮| 91av网一区二区| 成年女人毛片免费观看观看9| 婷婷精品国产亚洲av在线| 一级黄片播放器| av天堂在线播放| 欧美色欧美亚洲另类二区| 此物有八面人人有两片| 久久人人精品亚洲av| 久久午夜亚洲精品久久| 国产一级毛片七仙女欲春2| 午夜精品在线福利| 身体一侧抽搐| 精品不卡国产一区二区三区| 亚洲婷婷狠狠爱综合网| 人人妻人人澡人人爽人人夜夜 | 日韩三级伦理在线观看| 国产探花在线观看一区二区| 国产一区二区激情短视频| 少妇的逼水好多| 国产精品女同一区二区软件| 久久精品国产亚洲av涩爱 | 亚洲欧美中文字幕日韩二区| 国产女主播在线喷水免费视频网站 | 18禁在线播放成人免费| 少妇的逼水好多| 男女边吃奶边做爰视频| 成人精品一区二区免费| 97超视频在线观看视频| 日韩大尺度精品在线看网址| 国产欧美日韩精品亚洲av| 啦啦啦观看免费观看视频高清| 十八禁网站免费在线| 久久久精品大字幕| 国产成年人精品一区二区| 干丝袜人妻中文字幕| eeuss影院久久| 亚洲美女搞黄在线观看 | 99久久成人亚洲精品观看| 国产精品一及| 亚洲在线观看片| 精品久久久久久久久av| 真人做人爱边吃奶动态| 网址你懂的国产日韩在线| 一个人观看的视频www高清免费观看| 一个人看的www免费观看视频| 久久午夜福利片| 国产熟女欧美一区二区| 亚洲av免费高清在线观看| 99久久久亚洲精品蜜臀av| 午夜激情欧美在线| 亚洲精品一区av在线观看| 成年女人毛片免费观看观看9| 在线观看一区二区三区| 免费黄网站久久成人精品| 久久久久久久久大av| 99热这里只有是精品50| 有码 亚洲区| 午夜日韩欧美国产| 久久久精品欧美日韩精品| 日韩成人伦理影院| av视频在线观看入口| 99视频精品全部免费 在线| 99riav亚洲国产免费| 不卡一级毛片| 国产日本99.免费观看| av免费在线看不卡| 欧美激情国产日韩精品一区| 1024手机看黄色片| 久久精品夜夜夜夜夜久久蜜豆| 99久久精品一区二区三区| 男女视频在线观看网站免费| 国产乱人视频| 国产在视频线在精品| 听说在线观看完整版免费高清| 女同久久另类99精品国产91| 成人鲁丝片一二三区免费| 国产高清视频在线观看网站| 黄色一级大片看看| 久久精品夜色国产| 免费电影在线观看免费观看| 熟妇人妻久久中文字幕3abv| 国产真实乱freesex| 国产伦精品一区二区三区视频9| 麻豆一二三区av精品| 亚洲精品久久国产高清桃花| 国产一区二区三区av在线 | 12—13女人毛片做爰片一| 国产91av在线免费观看| 91久久精品国产一区二区三区| 九九在线视频观看精品| 免费看日本二区| 国产精品三级大全| 欧美区成人在线视频| 男人狂女人下面高潮的视频| 精品久久久久久久久av| 一级黄色大片毛片| 欧美色欧美亚洲另类二区| 国产精品人妻久久久影院| 黄色配什么色好看| 非洲黑人性xxxx精品又粗又长| 一进一出好大好爽视频| 91狼人影院| 精品欧美国产一区二区三| 亚洲欧美成人综合另类久久久 | 欧美潮喷喷水| 中国美女看黄片| 国产 一区精品| 欧美最黄视频在线播放免费| 一区二区三区免费毛片| 亚洲欧美日韩无卡精品| av专区在线播放| 一边摸一边抽搐一进一小说| 成人三级黄色视频| 成人一区二区视频在线观看| 嫩草影院新地址| 在线a可以看的网站| 日韩 亚洲 欧美在线| www日本黄色视频网| 99精品在免费线老司机午夜| 欧美成人一区二区免费高清观看| 自拍偷自拍亚洲精品老妇| 欧美最黄视频在线播放免费| videossex国产| 亚洲精品成人久久久久久| 真人做人爱边吃奶动态| 美女cb高潮喷水在线观看|