• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    開放科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)研究進(jìn)展

    2022-07-02 07:18:46羅鵬程王繼民
    情報(bào)學(xué)報(bào) 2022年6期
    關(guān)鍵詞:排序檢索科學(xué)

    羅鵬程,王繼民,聶 磊

    (1. 北京大學(xué)信息管理系,北京 100871;2. 北京大學(xué)圖書館,北京 100871;3. 北京外國(guó)語大學(xué)區(qū)域與全球治理高等研究院,北京 100089)

    1 引 言

    大數(shù)據(jù)時(shí)代,科學(xué)數(shù)據(jù)的開放共享受到各方高度重視,“數(shù)據(jù)爆炸”問題正在顯現(xiàn)。2018 年,國(guó)務(wù)院發(fā)布《科學(xué)數(shù)據(jù)管理辦法》,明確了“開放為常態(tài)、不開放為例外”的科學(xué)數(shù)據(jù)共享原則[1]。隨后,陜西[2]、湖北[3]、江蘇[4]等十余省份陸續(xù)發(fā)布科學(xué)數(shù)據(jù)管理實(shí)施細(xì)則。國(guó)際上,美國(guó)國(guó)家科學(xué)基金會(huì)(National Science Foundation)要求項(xiàng)目申請(qǐng)時(shí)必須提交數(shù)據(jù)管理計(jì)劃[5],澳大利亞推出國(guó)家數(shù)據(jù)服務(wù)[6],歐盟建設(shè)開放科學(xué)云[7]。各類研究機(jī)構(gòu)也積極建設(shè)數(shù)據(jù)倉儲(chǔ),共享科學(xué)數(shù)據(jù),如哈佛大學(xué)Dat‐averse、中國(guó)科學(xué)院科學(xué)數(shù)據(jù)云。在這一背景下,科學(xué)數(shù)據(jù)正不斷積累。據(jù)DataCite 統(tǒng)計(jì),截至2021年10 月,科學(xué)數(shù)據(jù)集的數(shù)量達(dá)到1000 多萬;據(jù)Google 統(tǒng)計(jì),互聯(lián)網(wǎng)上數(shù)據(jù)集的數(shù)量已從2016 年的50 萬快速增長(zhǎng)到2020 年的2800 萬[8]。隨著科學(xué)研究轉(zhuǎn)向數(shù)據(jù)密集型范式,許多學(xué)科對(duì)數(shù)據(jù)的需求十分強(qiáng)烈,基于共享的科學(xué)數(shù)據(jù)可支撐高質(zhì)量研究成果產(chǎn)出[9],并且研究者越來越愿意共享和復(fù)用科學(xué)數(shù)據(jù)[10-11]。目前,科學(xué)數(shù)據(jù)集分散在眾多異構(gòu)的數(shù)據(jù)倉儲(chǔ)之中,各數(shù)據(jù)倉儲(chǔ)的元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)內(nèi)容存在較大差異。面對(duì)海量、多源、異構(gòu)的開放科學(xué)數(shù)據(jù)集,如何高效地從中發(fā)現(xiàn)符合需求的有效數(shù)據(jù)正成為研究者面臨的重要問題。

    目前,科學(xué)數(shù)據(jù)集檢索相關(guān)研究問題已受到許多學(xué)科領(lǐng)域的廣泛關(guān)注。在圖書館學(xué)、情報(bào)學(xué)領(lǐng)域,研究者關(guān)注數(shù)據(jù)檢索行為[12-14],DataCite、加拿大研究圖書館協(xié)會(huì)分別推出了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)DataCite Search、Federated Research Data Re‐pository(FRDR)。在計(jì)算機(jī)領(lǐng)域,2018 年信息檢索 頂 級(jí) 會(huì) 議SIGIR (Special Interest Group on Infor‐mation Retrieval)和交叉綜合領(lǐng)域頂級(jí)會(huì)議WWW(The Web Conference) 專門組織了數(shù)據(jù)搜索研討會(huì)[15-16],Google Dataset Search 負(fù) 責(zé) 人Noy 受 邀 在2020 年數(shù)據(jù)庫頂級(jí)會(huì)議之一SIGMOD 中作主旨報(bào)告[17]。在醫(yī)學(xué)領(lǐng)域,美國(guó)國(guó)立衛(wèi)生研究院資助成立了生物醫(yī)學(xué)和醫(yī)療保健數(shù)據(jù)發(fā)現(xiàn)索引生態(tài)系統(tǒng)聯(lián)盟(biomedical and healthcare data discovery index ecosys‐tem,bioCADDIE),由該聯(lián)盟開發(fā)推出了數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)DataMed[18]。在社會(huì)科學(xué)領(lǐng)域,德國(guó)GESIS - Leibniz-Institut für Sozialwissenschaften (萊布尼茲社會(huì)科學(xué)研究所)面向社會(huì)和經(jīng)濟(jì)科學(xué)推出了gesisDataSearch[19]。從2019 年開始,卡耐基梅隆大學(xué)還組織“面向數(shù)據(jù)發(fā)現(xiàn)與復(fù)用的人工智能研討會(huì)”,推動(dòng)人工智能技術(shù)在數(shù)據(jù)發(fā)現(xiàn)與復(fù)用中的應(yīng)用[20]。近年來商業(yè)性數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)也陸續(xù)推出,如Data Citation Index(DCI)、Elsevier DataS‐earch 等。

    科學(xué)數(shù)據(jù)是國(guó)家重要的戰(zhàn)略資源,目前國(guó)內(nèi)對(duì)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的研究和應(yīng)用不足,阻礙了科學(xué)數(shù)據(jù)價(jià)值的釋放。本文以對(duì)互聯(lián)網(wǎng)上多源、異構(gòu)、海量的開放科學(xué)數(shù)據(jù)集進(jìn)行統(tǒng)一檢索的發(fā)現(xiàn)平臺(tái)為研究對(duì)象,對(duì)相關(guān)研究和應(yīng)用進(jìn)展進(jìn)行梳理和總結(jié),以期為進(jìn)一步的研究和應(yīng)用實(shí)踐提供參考。

    2 研究方法

    2.1 概念界定

    本文將科學(xué)數(shù)據(jù)與研究數(shù)據(jù)視為同義詞,即面向研究分析目的而收集、觀察或創(chuàng)建的數(shù)據(jù),用于支持研究結(jié)論[21]。因此,本文所指科學(xué)數(shù)據(jù)不僅涵蓋自然科學(xué)和工程技術(shù),也包括社會(huì)科學(xué)、人文與藝術(shù)等學(xué)科。數(shù)據(jù)集是為特定目的而組織在一起的相關(guān)數(shù)據(jù)的集合[22],科學(xué)數(shù)據(jù)集則是指為研究分析目的而收集、觀察或創(chuàng)建的相關(guān)數(shù)據(jù)的集合。本文中“開放科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)”是指針對(duì)互聯(lián)網(wǎng)上多源、異構(gòu)、海量的開放科學(xué)數(shù)據(jù)集進(jìn)行采集和組織,為用戶提供統(tǒng)一的檢索入口,幫助用戶高效地發(fā)現(xiàn)所需要的數(shù)據(jù)。圖1 給出了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的功能示意。通過發(fā)現(xiàn)系統(tǒng)自動(dòng)從眾多數(shù)據(jù)倉儲(chǔ)中采集數(shù)據(jù),為用戶提供統(tǒng)一的檢索入口,避免了用戶到每個(gè)倉儲(chǔ)中檢索所耗費(fèi)的時(shí)間。

    2.2 文獻(xiàn)篩選

    圖1 科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)功能示意

    本文以“科學(xué)數(shù)據(jù)集發(fā)現(xiàn)”“scientific dataset discovery”作為查詢語句,并使用“研究”替換查詢中的“科學(xué)”,使用“檢索”“搜索”替換“發(fā)現(xiàn)”,使用“research”替換“scientific”,使用“re‐trieval”“search”替換“discovery”。根據(jù)以上各種同義詞替換策略的組合在中國(guó)知網(wǎng)、萬方數(shù)據(jù)庫和Web of Science 核心集中進(jìn)行題名、關(guān)鍵詞等字段的檢索。通過以上查詢獲得的文獻(xiàn)數(shù)量不多,為此本文還對(duì)檢索條件進(jìn)行放寬,去掉查詢中的“科學(xué)”“研究”“scientific”“research”,或者使用“數(shù)據(jù)”“data”分別替換“數(shù)據(jù)集”“dataset”。從檢索到的1000 多篇文獻(xiàn)中篩選出與科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)、科學(xué)數(shù)據(jù)集檢索相關(guān)性較高的論文41 篇。同時(shí),本課題組對(duì)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)進(jìn)行了長(zhǎng)時(shí)間的廣泛調(diào)研,在谷歌及谷歌學(xué)術(shù)中檢索與具體發(fā)現(xiàn)平臺(tái)相關(guān)的論文、報(bào)告、博客、網(wǎng)頁等。最終,本文共匯集77 篇核心論文進(jìn)行綜述。此外,還納入了對(duì)相關(guān)內(nèi)容進(jìn)行補(bǔ)充的擴(kuò)展性論文、報(bào)告、博客、網(wǎng)頁等。

    2.3 綜述框架

    國(guó)際上,已有許多科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)陸續(xù)推出[23]。根據(jù)現(xiàn)有科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的構(gòu)建模塊[18-19,24],將相關(guān)主要研究問題分為四類:數(shù)據(jù)集采集、數(shù)據(jù)集組織、數(shù)據(jù)集檢索、檢索結(jié)果綜合排序,如圖2 所示。本文將以該框架為基礎(chǔ)來組織全文內(nèi)容。

    圖2 科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)相關(guān)的研究問題

    ①數(shù)據(jù)集采集?;ヂ?lián)網(wǎng)中資源數(shù)量龐大,種類繁雜,科學(xué)數(shù)據(jù)集在其中占比極小。如何從海量、分散的互聯(lián)網(wǎng)資源中采集所需數(shù)據(jù)集,是對(duì)科學(xué)數(shù)據(jù)集進(jìn)行統(tǒng)一發(fā)現(xiàn)的前提。②數(shù)據(jù)集組織。通過采集得到海量科學(xué)數(shù)據(jù)集的元數(shù)據(jù),然而元數(shù)據(jù)標(biāo)準(zhǔn)眾多,質(zhì)量參差不齊,需要對(duì)不同來源的元數(shù)據(jù)進(jìn)行融合統(tǒng)一,對(duì)元數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,并在此基礎(chǔ)上補(bǔ)充和豐富元數(shù)據(jù)內(nèi)容。③數(shù)據(jù)集檢索。數(shù)據(jù)集作為一種新的信息對(duì)象,其檢索特征有別于傳統(tǒng)文獻(xiàn)和網(wǎng)頁搜索,相應(yīng)檢索方法正處于研究探索階段。④檢索結(jié)果綜合排序。依據(jù)檢索模型獲得的數(shù)據(jù)集,通常按照主題相關(guān)性排序呈現(xiàn)給用戶,然而研究表明用戶對(duì)檢索結(jié)果做出相關(guān)性判斷時(shí)會(huì)考慮數(shù)據(jù)質(zhì)量等諸多因素[12]。本文第3~6 節(jié)將分別對(duì)數(shù)據(jù)集采集、組織、檢索和綜合排序相關(guān)研究進(jìn)行梳理和述評(píng)。

    3 數(shù)據(jù)集采集

    數(shù)據(jù)集主要由元數(shù)據(jù)和數(shù)據(jù)內(nèi)容組成,由于數(shù)據(jù)內(nèi)容較大,且可能存在訪問限制,通常采集的數(shù)據(jù)均為元數(shù)據(jù)。

    3.1 數(shù)據(jù)采集方法

    依據(jù)采集策略的不同,本文將現(xiàn)有科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的采集方法分為三類:數(shù)據(jù)倉儲(chǔ)向發(fā)現(xiàn)平臺(tái)主動(dòng)推送元數(shù)據(jù),發(fā)現(xiàn)平臺(tái)全網(wǎng)掃描并篩選數(shù)據(jù)集類型網(wǎng)頁,發(fā)現(xiàn)平臺(tái)定向采集數(shù)據(jù)倉儲(chǔ)元數(shù)據(jù)。

    (1)數(shù)據(jù)倉儲(chǔ)向發(fā)現(xiàn)平臺(tái)主動(dòng)推送元數(shù)據(jù):由發(fā)現(xiàn)系統(tǒng)提供統(tǒng)一的API(application programming interface)接口,各科學(xué)數(shù)據(jù)倉儲(chǔ)在新增或更新數(shù)據(jù)集時(shí),通過API 接口將元數(shù)據(jù)推送給發(fā)現(xiàn)系統(tǒng)。目前,這種數(shù)據(jù)采集方式僅在DataCite Search 中實(shí)現(xiàn)。DataCite 是科學(xué)數(shù)據(jù)領(lǐng)域最大的DOI (digital object identifier)注冊(cè)代理機(jī)構(gòu),各個(gè)數(shù)據(jù)倉儲(chǔ)在注冊(cè)DOI 時(shí),需要按照DataCite Metadata Schema[25]的要求提交元數(shù)據(jù)。因此,DataCite Search 通過數(shù)據(jù)倉儲(chǔ)主動(dòng)推送的方式采集了大量科學(xué)數(shù)據(jù)集元數(shù)據(jù)。

    (2) 發(fā)現(xiàn)平臺(tái)全網(wǎng)掃描并篩選數(shù)據(jù)集類型網(wǎng)頁:由網(wǎng)頁制作者依據(jù)特定標(biāo)準(zhǔn)對(duì)頁面內(nèi)容進(jìn)行描述,并將描述元數(shù)據(jù)嵌入頁面;發(fā)現(xiàn)系統(tǒng)采集網(wǎng)絡(luò)中的頁面,從網(wǎng)頁中解析元數(shù)據(jù),并篩選出數(shù)據(jù)集類型的網(wǎng)頁。目前,這種數(shù)據(jù)采集方式僅在Google Dataset Search 中實(shí)現(xiàn),主要依靠網(wǎng)頁制作者在頁面中嵌入的schema.org 或DCAT (data catalog vocabu‐lary)標(biāo)記數(shù)據(jù)識(shí)別數(shù)據(jù)集頁面。schema.org 由谷歌等搜索引擎公司建立,用于描述網(wǎng)頁資源,幫助搜索引擎更好地理解頁面內(nèi)容。2013 年,schema.org增加了Dataset 類型用于描述數(shù)據(jù)集頁面[26]。DCAT是W3C(World Wide Web Consortium)于2014 年發(fā)布的推薦標(biāo)準(zhǔn),它是一個(gè)RDF(resource description framework)詞匯表,其目的在于促進(jìn)Web 上發(fā)布的數(shù)據(jù)目錄之間的互操作性[27]。Google Dataset Search 依托谷歌強(qiáng)大的通用網(wǎng)頁爬蟲平臺(tái)采集網(wǎng)頁,解析頁面中嵌入的元數(shù)據(jù),從中篩選出使用schema.org 的Dataset 和DataCatalog,以 及DCAT 描述的元數(shù)據(jù),構(gòu)成谷歌數(shù)據(jù)集搜索的基礎(chǔ)[24]。

    (3)發(fā)現(xiàn)平臺(tái)定向采集數(shù)據(jù)倉儲(chǔ)元數(shù)據(jù):由數(shù)據(jù)倉儲(chǔ)提供元數(shù)據(jù)收割協(xié)議,發(fā)現(xiàn)系統(tǒng)評(píng)估、選擇符合需求的數(shù)據(jù)倉儲(chǔ),并通過收割協(xié)議采集元數(shù)據(jù)。目前,這種數(shù)據(jù)采集方式應(yīng)用最多,如DCI、DataMed、gesisDataSearch、Mercury 等。在 定 向 數(shù)據(jù)采集中,發(fā)現(xiàn)系統(tǒng)需要依據(jù)一定的標(biāo)準(zhǔn)遴選數(shù)據(jù)倉儲(chǔ)。DCI 考慮了多種定性、定量因素來對(duì)倉儲(chǔ)進(jìn)行綜合評(píng)價(jià),包括倉儲(chǔ)持久性和穩(wěn)定性、資助情況、作者身份的多樣性等,并且要求提供英文元數(shù)據(jù)[28]。DataMed 則以標(biāo)準(zhǔn)、互操作性、可持續(xù)性、整體質(zhì)量、用戶需求等作為數(shù)據(jù)倉儲(chǔ)的選擇標(biāo)準(zhǔn)[29]。此外,F(xiàn)AIRsharing 和DataCite 面向期刊論文支撐數(shù)據(jù)存儲(chǔ)制定倉儲(chǔ)評(píng)價(jià)標(biāo)準(zhǔn)[30-31],這些標(biāo)準(zhǔn)對(duì)發(fā)現(xiàn)系統(tǒng)選擇數(shù)據(jù)倉儲(chǔ)具有參考價(jià)值。在數(shù)據(jù)倉儲(chǔ)選定后,需要依據(jù)收割協(xié)議采集數(shù)據(jù)。最常用的收割協(xié)議為OAI-PMH(Open Archives Initiative Protocol for Meta‐data Harvesting),例如,DCI[32]、FRDR(Federated Re‐search Data Repository)[33]、gesisDataSearch[19]、Mer‐cury[34]均采用該協(xié)議采集元數(shù)據(jù)。除了OAI-PMH外,一些發(fā)現(xiàn)系統(tǒng)會(huì)提供多種數(shù)據(jù)收割方式,例如,Research Data Australia提供直接收割、OAI-PMH收割、OGC CSW(Open Geospatial Consortium Catalogue Ser‐vice for the Web) 收 割、 CKAN (Comprehensive Knowledge Archive Network)收割四種方式[35]。

    3.2 采集方法述評(píng)

    不同數(shù)據(jù)采集方法各有特點(diǎn),適用于不同場(chǎng)景和應(yīng)用需求。表1 從采集效率、及時(shí)性、數(shù)據(jù)覆蓋率、自動(dòng)化程度、實(shí)現(xiàn)難度和應(yīng)用數(shù)量六個(gè)角度給出了三種采集方法的對(duì)比情況。

    表1 三種數(shù)據(jù)集采集方法對(duì)比

    對(duì)于數(shù)據(jù)倉儲(chǔ)主動(dòng)推送的方法,通常會(huì)在數(shù)據(jù)集新增或更新時(shí),由數(shù)據(jù)倉儲(chǔ)按照統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),向發(fā)現(xiàn)系統(tǒng)推送元數(shù)據(jù)。因此,它具有采集效率高、數(shù)據(jù)更新及時(shí)、自動(dòng)化程度高的優(yōu)勢(shì)。然而,通常情況下發(fā)現(xiàn)系統(tǒng)提供方對(duì)數(shù)據(jù)倉儲(chǔ)提供方?jīng)]有約束力,無法要求所有數(shù)據(jù)倉儲(chǔ)都為發(fā)現(xiàn)系統(tǒng)推送元數(shù)據(jù)。因此,這種數(shù)據(jù)采集方式很難實(shí)現(xiàn),實(shí)踐中的應(yīng)用數(shù)量很少。對(duì)于數(shù)據(jù)覆蓋率,以Data‐Cite Search 為例,其中注冊(cè)倉儲(chǔ)數(shù)量達(dá)到2000 多個(gè),覆蓋了許多有影響力的科學(xué)數(shù)據(jù)倉儲(chǔ),但并非所有倉儲(chǔ)都會(huì)注冊(cè)DOI,數(shù)據(jù)覆蓋率適中。

    對(duì)于發(fā)現(xiàn)系統(tǒng)全網(wǎng)掃描的方法,由于需要采集海量互聯(lián)網(wǎng)頁面,而科學(xué)數(shù)據(jù)集頁面僅占其中很小比例,并且網(wǎng)頁抓取有一定的時(shí)間周期。因此,它具有實(shí)現(xiàn)難度大、采集效率低、更新有時(shí)延的特點(diǎn),在實(shí)踐中的應(yīng)用數(shù)量很少,通常僅適合擁有海量Web 資源庫的大型搜索引擎公司。這種數(shù)據(jù)采集方法基于爬蟲獲取數(shù)據(jù),面對(duì)的元數(shù)據(jù)格式相對(duì)單一,自動(dòng)化程度高。過去,采用schema.org 和DCAT描述頁面的數(shù)據(jù)倉儲(chǔ)較少,例如,Khalsa 等[36]在2017 年的調(diào)查顯示,僅有13%的科學(xué)數(shù)據(jù)倉儲(chǔ)使用了schema.org。不過現(xiàn)在已有越來越多的倉儲(chǔ)提供schema.org 和DCAT 元數(shù)據(jù),以Google Dataset Search為例,2020 年其收錄數(shù)據(jù)倉儲(chǔ)3700 多個(gè)[8],高于其他類型的發(fā)現(xiàn)平臺(tái),具有相對(duì)較高的數(shù)據(jù)覆蓋率。

    對(duì)于發(fā)現(xiàn)系統(tǒng)定向采集的方法,通常按照一定時(shí)間間隔采集指定數(shù)據(jù)倉儲(chǔ),其采集效率適中,有一定時(shí)延。由于數(shù)據(jù)采集過程中涉及數(shù)據(jù)倉儲(chǔ)的評(píng)價(jià)與選擇,新增倉儲(chǔ)會(huì)因?yàn)閿?shù)據(jù)收割協(xié)議和元數(shù)據(jù)標(biāo)準(zhǔn)的不同,需要人工參與采集程序的修改,如DataMed 新增數(shù)據(jù)攝入插件(ingest consumer)需要半天到數(shù)天的開發(fā)時(shí)間[18],因而其自動(dòng)化程度不夠高。定向采集的數(shù)據(jù)倉儲(chǔ)通常限定在一定范圍內(nèi)(如特定的國(guó)家、學(xué)科),倉儲(chǔ)數(shù)量偏向于中小規(guī)模,通常從數(shù)十個(gè)到上千個(gè)不等。相比于前兩種采集方法,定向采集實(shí)現(xiàn)相對(duì)容易,采集效率適中,在實(shí)踐中應(yīng)用得最為廣泛。

    4 數(shù)據(jù)集組織

    數(shù)據(jù)集的組織主要通過元數(shù)據(jù)實(shí)現(xiàn),現(xiàn)有研究和應(yīng)用主要關(guān)注多源元數(shù)據(jù)的融合,以及科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量分析與元數(shù)據(jù)信息豐富等研究問題。

    4.1 多源元數(shù)據(jù)的融合

    科學(xué)數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)眾多,包括通用元數(shù)據(jù)標(biāo)準(zhǔn)、學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)等數(shù)十種[37]。面對(duì)繁雜的元數(shù)據(jù)格式,發(fā)現(xiàn)系統(tǒng)需要設(shè)計(jì)一個(gè)統(tǒng)一的元數(shù)據(jù)模型,將不同來源的元數(shù)據(jù)進(jìn)行融合。目前,主要有兩種實(shí)現(xiàn)方法:僅考慮通用信息的多源元數(shù)據(jù)融合,以及同時(shí)考慮通用和學(xué)科特有信息的多源元數(shù)據(jù)融合。

    1)僅考慮通用信息的多源元數(shù)據(jù)融合

    不同元數(shù)據(jù)標(biāo)準(zhǔn)雖然各有特色,但都具有標(biāo)題、創(chuàng)建者等通用信息。因此,最簡(jiǎn)單的多源元數(shù)據(jù)融合方法,便是將不同來源的元數(shù)據(jù)映射到一個(gè)通用的元數(shù)據(jù)模型。目前,絕大多數(shù)通用科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)均采用該方法。例如,DataCite Search 的元數(shù)據(jù)模型為DataCite Metadata Schema[25],Google Dataset Search 的元數(shù)據(jù)模型與schema.org 的Dataset 元數(shù)據(jù)類似[24],英國(guó)Research Data Discovery Service 的元數(shù)據(jù)模型與DataCite Metadata Schema 相似[38-39],Research Data Australia 的元數(shù)據(jù)模型為RIFCS(registry interchange format - collections and servic‐es)[40],它們均為通用元數(shù)據(jù)模型。此外,一些面向特定學(xué)科的發(fā)現(xiàn)系統(tǒng)也會(huì)采用通用元數(shù)據(jù)模型。例如,gesisDataSearch 使用Dublin Core(DC)作為它的元數(shù)據(jù)模型[19]。

    基于通用元數(shù)據(jù)模型的融合方法的優(yōu)點(diǎn)在于其復(fù)雜度低,映射規(guī)則簡(jiǎn)單,易于實(shí)現(xiàn),但是存在學(xué)科特有信息丟失的問題。L?ffler 等[41]對(duì)生物多樣性領(lǐng)域研究者的數(shù)據(jù)需求進(jìn)行分析發(fā)現(xiàn),通用元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)用戶需求的覆蓋度較低,而學(xué)科領(lǐng)域元數(shù)據(jù)標(biāo)準(zhǔn)能更全面地覆蓋用戶需求。因此,僅考慮通用信息的多源元數(shù)據(jù)融合方法在滿足學(xué)科個(gè)性化數(shù)據(jù)需求上存在一定的困難。

    2)同時(shí)考慮通用和學(xué)科特有信息的多源元數(shù)據(jù)融合

    為了保留更多信息,一些發(fā)現(xiàn)系統(tǒng)在設(shè)計(jì)元數(shù)據(jù)模型時(shí)會(huì)納入學(xué)科特有信息。加拿大FRDR 以DC 為基礎(chǔ)進(jìn)行多源元數(shù)據(jù)的融合,制定了不同元數(shù)據(jù)標(biāo)準(zhǔn)到DC 的映射方案[42]。任何無法映射到DC的字段,將保留原始的元數(shù)據(jù)信息,這些特有的元數(shù)據(jù)也會(huì)被索引,并可做出定制化的搜索[33]。DataMed構(gòu)建了DATS(data tag suite)元數(shù)據(jù)模型,該模型包括核心元素和擴(kuò)展元素兩個(gè)部分。核心元素較為通用,適用于任何類型數(shù)據(jù)集的描述;擴(kuò)展元素用于特定學(xué)科數(shù)據(jù)集的描述,目前DATS 包括一個(gè)初始的面向生命、環(huán)境、生物醫(yī)學(xué)領(lǐng)域的擴(kuò)展元數(shù)據(jù)集合[43]。

    引入學(xué)科特有信息的多源元數(shù)據(jù)融合方法的優(yōu)點(diǎn)在于其可保留更多信息,有助于滿足學(xué)科用戶個(gè)性化的數(shù)據(jù)檢索需求,提升檢索效果。由于考慮了學(xué)科因素,會(huì)導(dǎo)致映射規(guī)則增多,模型復(fù)雜度上升,系統(tǒng)實(shí)現(xiàn)和維護(hù)難度加大。因此,該多源元數(shù)據(jù)融和方法通常在面向特定領(lǐng)域的科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)中應(yīng)用。

    4.2 元數(shù)據(jù)質(zhì)量與豐富

    元數(shù)據(jù)是當(dāng)前科學(xué)數(shù)據(jù)集檢索最主要的依據(jù),其質(zhì)量的高低直接影響到數(shù)據(jù)集的發(fā)現(xiàn)效果。已有大量研究對(duì)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量進(jìn)行了分析,并在此基礎(chǔ)上探索如何利用各種技術(shù)手段和外部資源來豐富數(shù)據(jù)集的元數(shù)據(jù)信息。

    1)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)質(zhì)量

    與傳統(tǒng)文獻(xiàn)信息的組織主要通過專業(yè)人員來對(duì)資源進(jìn)行描述不同,科學(xué)數(shù)據(jù)倉庫中的元數(shù)據(jù)主要由用戶提供。由于缺乏控制,元數(shù)據(jù)普遍存在質(zhì)量問 題。對(duì)Dryad[44-45]、BioSample[46]、BioSamples[46]、Gene Expression Omnibus[47]等科學(xué)數(shù)據(jù)倉儲(chǔ)的分析發(fā)現(xiàn),元數(shù)據(jù)存在錯(cuò)誤、不一致、不規(guī)范等問題;一些平臺(tái)還允許用戶自定義元數(shù)據(jù)信息,使得元數(shù)據(jù)字段字存在重復(fù)、不一致等問題[46]。發(fā)現(xiàn)系統(tǒng)采集的元數(shù)據(jù)來自科學(xué)數(shù)據(jù)倉儲(chǔ),由于來源倉儲(chǔ)的元數(shù)據(jù)存在缺失等質(zhì)量問題,導(dǎo)致發(fā)現(xiàn)系統(tǒng)獲取的元數(shù)據(jù)質(zhì)量不高。對(duì)DataONE (data observation net‐work for earth) 分析發(fā)現(xiàn),其元數(shù)據(jù)字段在標(biāo)識(shí)、發(fā)現(xiàn)、評(píng)價(jià)、獲取、集成五個(gè)方面的完整度均在70%左右或以下[48]。一些發(fā)現(xiàn)系統(tǒng)采集的元數(shù)據(jù)格式并非科學(xué)數(shù)據(jù)倉儲(chǔ)底層使用的元數(shù)據(jù)模型,由于元數(shù)據(jù)格式轉(zhuǎn)換等問題,采集的元數(shù)據(jù)質(zhì)量降低。例如,Google Dataset Search 采集的元數(shù)據(jù)存在“可能出錯(cuò)的地方都會(huì)出錯(cuò)”的問題[24],DataCite 大量推薦和可選的元數(shù)據(jù)字段缺失嚴(yán)重[49]。

    在構(gòu)建科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)時(shí),由于元數(shù)據(jù)存在錯(cuò)誤、不規(guī)范等問題,需要對(duì)其進(jìn)行大量清洗和規(guī)范化,發(fā)現(xiàn)元數(shù)據(jù)中頻繁出現(xiàn)的模式,制定相應(yīng)規(guī)則來消減錯(cuò)誤。例如,Google Dataset Search從schema.org 元數(shù)據(jù)的多個(gè)字段中提取文件格式、下載地址、DOI 標(biāo)識(shí)符,對(duì)不同格式的日期進(jìn)行規(guī)范化[24]。由于元數(shù)據(jù)存在信息缺失的問題,需要利用各種手段和外部資源來對(duì)其進(jìn)行補(bǔ)充,豐富數(shù)據(jù)集的描述信息。

    2)科學(xué)數(shù)據(jù)集的元數(shù)據(jù)豐富

    目前研究和應(yīng)用中對(duì)元數(shù)據(jù)豐富的探索主要包括:提取元數(shù)據(jù)中的重要實(shí)體、獲取數(shù)據(jù)集的關(guān)聯(lián)文獻(xiàn)、利用外部資源來補(bǔ)充數(shù)據(jù)集信息等。

    數(shù)據(jù)集元數(shù)據(jù)中包含一些重要實(shí)體,通過提取這些實(shí)體,可為后續(xù)數(shù)據(jù)集檢索功能優(yōu)化奠定基礎(chǔ)。Lafia 等[50]從標(biāo)題、描述和關(guān)鍵詞中識(shí)別主題詞和地理位置,并將識(shí)別的實(shí)體鏈接到美國(guó)國(guó)會(huì)圖書館規(guī)范主題詞和DBpedia 地理位置中。gesisDataSe‐arch 從元數(shù)據(jù)中識(shí)別出命名實(shí)體,并使用Open‐StreetMap 來確定地名實(shí)體的坐標(biāo)位置[19]。DataMed擁有生物醫(yī)學(xué)命名實(shí)體識(shí)別模塊,用于為每個(gè)數(shù)據(jù)集提取一些語義概念集合[18]。將元數(shù)據(jù)中的重要實(shí)體提取出來,并關(guān)聯(lián)到外部的語義概念資源庫,可為后續(xù)基于概念、地理位置進(jìn)行檢索提供必要信息。

    數(shù)據(jù)集的關(guān)聯(lián)文獻(xiàn)可用于描述數(shù)據(jù)集的使用環(huán)境,關(guān)聯(lián)文獻(xiàn)的文本信息可提供更多檢索點(diǎn),同時(shí)關(guān)聯(lián)文獻(xiàn)也可用于評(píng)估數(shù)據(jù)集的價(jià)值。目前,數(shù)據(jù)集關(guān)聯(lián)文獻(xiàn)的獲取主要包括兩種方法:通過DOI 來識(shí)別文獻(xiàn)對(duì)數(shù)據(jù)集的引用,以及通過文獻(xiàn)全文挖掘識(shí)別數(shù)據(jù)集標(biāo)題和鏈接地址?;贒OI 的方法較為準(zhǔn)確可靠,在實(shí)際應(yīng)用中使用較多。例如,Google Dataset Search 通過DOI 實(shí)現(xiàn)了數(shù)據(jù)集與谷歌學(xué)術(shù)中的文獻(xiàn)的關(guān)聯(lián)[51],DataCite 通過在文獻(xiàn)全文中搜索匹配DOI 來實(shí)現(xiàn)與數(shù)據(jù)集的關(guān)聯(lián)[52]。由于數(shù)據(jù)引用不規(guī)范,文獻(xiàn)中大量的數(shù)據(jù)引用并沒有DOI,而主要通過數(shù)據(jù)集標(biāo)題、URL(uniform resource locator)地址等實(shí)現(xiàn)引用。通過對(duì)文獻(xiàn)全文進(jìn)行分析挖掘,可提取該引用信息。Ghavimi 等[53]通過人工參與數(shù)據(jù)集標(biāo)題與文獻(xiàn)全文中句子的匹配與判斷,半自動(dòng)地提取對(duì)數(shù)據(jù)集的引用。Lu 等[54]利用機(jī)器學(xué)習(xí)分類方法,以及數(shù)據(jù)集標(biāo)題與URL 鏈接在不同文獻(xiàn)中的共現(xiàn)情況,來識(shí)別數(shù)據(jù)集標(biāo)題及其對(duì)應(yīng)的鏈接。由于通過文獻(xiàn)全文挖掘識(shí)別數(shù)據(jù)集關(guān)聯(lián)文獻(xiàn)的方法不能實(shí)現(xiàn)完全準(zhǔn)確,其在實(shí)踐中應(yīng)用較少。

    此外,一些研究者還探索了利用外部資源來補(bǔ)充數(shù)據(jù)集信息。由于數(shù)據(jù)集的描述信息中可能會(huì)缺失研究領(lǐng)域等重要信息,而這些信息可能在來源數(shù)據(jù)倉儲(chǔ)的“關(guān)于”頁面中存在,因此Karisani 等[55]利用該信息補(bǔ)充對(duì)數(shù)據(jù)集的描述。Wei 等[56-57]從生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集中識(shí)別出連接到基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus)的序列記錄,收集序列記錄的摘要、標(biāo)題、總體設(shè)計(jì)三個(gè)字段的信息用于豐富數(shù)據(jù)集的描述。Singhal 等[58-59]使用數(shù)據(jù)集標(biāo)題在學(xué)術(shù)搜索引擎中進(jìn)行檢索,將檢索出的文獻(xiàn)標(biāo)題、主題詞作為數(shù)據(jù)集的擴(kuò)展上下文信息。

    4.3 數(shù)據(jù)集組織方法述評(píng)

    在多源元數(shù)據(jù)融合方面,由于采集的元數(shù)據(jù)都主要映射到一個(gè)數(shù)據(jù)通用元數(shù)據(jù)模型,導(dǎo)致很多數(shù)據(jù)集的發(fā)現(xiàn)平臺(tái)無法提供更加精細(xì)的檢索功能。例如,除了查詢?cè)~檢索外,DataCite Search 僅有注冊(cè)年、資源類型、隸屬機(jī)構(gòu)三個(gè)字段的篩選功能。同時(shí),映射過程中學(xué)科特有信息的丟失,會(huì)影響查詢匹配的效果。雖然DATS 構(gòu)建了包含通用和學(xué)科領(lǐng)域信息的元數(shù)據(jù)模型,但目前只有特定學(xué)科的擴(kuò)展信息,本質(zhì)上仍是領(lǐng)域元數(shù)據(jù)模型。因此,有必要對(duì)現(xiàn)有各個(gè)學(xué)科領(lǐng)域的元數(shù)據(jù)模型進(jìn)行分析,建立一個(gè)通用的、能涵蓋各學(xué)科領(lǐng)域的統(tǒng)一元數(shù)據(jù)模型。在模型構(gòu)建中,除了考慮國(guó)際上主流的元數(shù)據(jù)標(biāo)準(zhǔn),也應(yīng)將國(guó)內(nèi)相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)(如中國(guó)科學(xué)院制定的生態(tài)科學(xué)數(shù)據(jù)元數(shù)據(jù)、土壤科學(xué)數(shù)據(jù)元數(shù)據(jù)等標(biāo)準(zhǔn)[60])作為重點(diǎn)進(jìn)行考慮。

    在元數(shù)據(jù)質(zhì)量與豐富方面,現(xiàn)有研究主要通過人工統(tǒng)計(jì)分析來發(fā)現(xiàn)元數(shù)據(jù)中存在的質(zhì)量問題,有必要建立一個(gè)面向科學(xué)數(shù)據(jù)集發(fā)現(xiàn)平臺(tái)的元數(shù)據(jù)質(zhì)量評(píng)價(jià)體系及自動(dòng)化評(píng)價(jià)方法,對(duì)采集到的元數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,并用于檢索排序中(優(yōu)質(zhì)數(shù)據(jù)集可能會(huì)有更豐富的描述信息)。在數(shù)據(jù)集和文獻(xiàn)關(guān)聯(lián)識(shí)別中,現(xiàn)有應(yīng)用主要通過DOI 來識(shí)別關(guān)聯(lián)關(guān)系,但絕大多數(shù)論文對(duì)數(shù)據(jù)集的引用缺乏DOI 信息。目前通過文獻(xiàn)全文來挖掘識(shí)別數(shù)據(jù)集引用的研究還很少,相關(guān)研究也僅在特定學(xué)科的小批量數(shù)據(jù)集上進(jìn)行方法探索,識(shí)別精準(zhǔn)度不夠高。此外,當(dāng)前發(fā)現(xiàn)系統(tǒng)都只采集數(shù)據(jù)集的元數(shù)據(jù),缺乏對(duì)數(shù)據(jù)集內(nèi)容的挖掘利用。據(jù)本課題組調(diào)研,目前僅Chen 等[61-62]利用機(jī)器學(xué)習(xí)方法從數(shù)據(jù)集中表格數(shù)據(jù)內(nèi)容生成模式標(biāo)簽,用來補(bǔ)充元數(shù)據(jù)信息。事實(shí)上,數(shù)據(jù)集本身也包含豐富的信息,如數(shù)據(jù)文件名稱、說明文檔、數(shù)據(jù)內(nèi)容等,這些信息能夠被部分采集到(如文件名稱、說明文檔),把這些信息補(bǔ)充到元數(shù)據(jù)中,將有利于數(shù)據(jù)集的檢索匹配。

    5 數(shù)據(jù)集檢索

    目前,數(shù)據(jù)集檢索相關(guān)研究主要在傳統(tǒng)信息檢索模型的基礎(chǔ)上,通過查詢擴(kuò)展來提高召回率,通過相應(yīng)排序優(yōu)化算法來提高檢索精度。

    5.1 查詢擴(kuò)展方法

    自然語言中普遍存在同義詞、近義詞、概念包含等關(guān)系,而數(shù)據(jù)集檢索中的用戶查詢很短[63-65],通常不會(huì)包含其信息需求的所有詞匯表達(dá)。為了提高科學(xué)數(shù)據(jù)集檢索的召回率,已有大量研究對(duì)查詢擴(kuò)展方法進(jìn)行了探索,包括基于本體的查詢擴(kuò)展、基于搜索結(jié)果的查詢擴(kuò)展、基于詞向量的查詢擴(kuò)展,如表2 所示。

    1)基于本體的查詢擴(kuò)展

    本體資源庫中的同一概念的不同表達(dá)、上下位概念等關(guān)系可以對(duì)用戶查詢進(jìn)行有效擴(kuò)充。目前,基于本體的查詢擴(kuò)展主要應(yīng)用在面向特定學(xué)科的數(shù)據(jù)集檢索研究中。例如,儀表領(lǐng)域[66]、林業(yè)領(lǐng)域[67]、生物醫(yī)學(xué)領(lǐng)域[18,55-57,68-70]、社會(huì)科學(xué)領(lǐng)域[71]、生態(tài)學(xué)領(lǐng)域[72]。一些科學(xué)領(lǐng)域在長(zhǎng)期的數(shù)據(jù)管理實(shí)踐中,會(huì)更傾向于使用領(lǐng)域敘詞表中的詞匯描述數(shù)據(jù)集,這使得通過領(lǐng)域本體可以更好地檢索數(shù)據(jù)集。例如,Porter[73]對(duì)生態(tài)學(xué)領(lǐng)域的科學(xué)數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)相比于一般的關(guān)鍵詞,在LTER(long-term eco‐logical research)敘詞表中的詞能夠更好地檢索數(shù)據(jù)集。此外,多語言版本的本體資源還能實(shí)現(xiàn)跨語言檢索,例如,Vanderbilt 等[72]使用EnvThes 檢索多語種的生態(tài)學(xué)數(shù)據(jù)集。目前,基于本體的查詢擴(kuò)展方法在一些學(xué)科領(lǐng)域數(shù)據(jù)集的發(fā)現(xiàn)平臺(tái)中已有應(yīng)用,如DataMed[18]。由于本體的研制成本高,缺乏足夠精細(xì)和覆蓋面的通用本體資源,限制了該方法在通用數(shù)據(jù)集搜索中的應(yīng)用。

    2)基于搜索結(jié)果的查詢擴(kuò)展

    搜索結(jié)果中會(huì)包含一些與查詢相關(guān)的詞匯,這些相關(guān)詞匯可用于查詢擴(kuò)展。目前該類方法主要利用兩類搜索結(jié)果:一類是來自外部檢索系統(tǒng)的搜索結(jié)果,例如,Karisani 等[55]使用商業(yè)垂直搜索引擎獲取的維基百科和NCBI (National Center for Bio‐technology Information)網(wǎng)站檢索結(jié)果中的詞來擴(kuò)展查詢,Wei 等[56-57]基于谷歌檢索的結(jié)果來擴(kuò)展查詢;另一類是來自內(nèi)部數(shù)據(jù)集檢索系統(tǒng)的搜索結(jié)果,這類方法也被稱為偽相關(guān)反饋,主要使用檢索結(jié)果中的文本內(nèi)容來擴(kuò)展查詢[55,69,74]。由于數(shù)據(jù)集檢索中包含時(shí)間、地理位置的查詢的占比高[64-65,75],一些學(xué)科領(lǐng)域數(shù)據(jù)集的時(shí)空信息對(duì)于相關(guān)性判斷十分重要。為此,Takeuchi 等[76-77]提出了基于時(shí)間和空間的偽相關(guān)反饋方法,來獲取與初始數(shù)據(jù)集檢索結(jié)果具有相似時(shí)空分布的數(shù)據(jù)集。與本體查詢擴(kuò)展方法相比,基于搜索結(jié)果的查詢擴(kuò)展不依賴于人工構(gòu)造的資源庫,能夠適應(yīng)不同的應(yīng)用領(lǐng)域。但檢索結(jié)果具有一定數(shù)量的噪聲詞,會(huì)降低其查詢擴(kuò)展的質(zhì)量。

    3)基于詞向量的查詢擴(kuò)展

    詞向量能夠表達(dá)詞匯之間的語義關(guān)系,已有研究者將其應(yīng)用于科學(xué)數(shù)據(jù)集檢索的查詢擴(kuò)展之中。例 如, Teodoro 等[78]、 Wang 等[79]基 于word2vec,Scerri 等[70]、Cieslewicz 等[74]基于fastText 訓(xùn)練 獲 得詞向量對(duì)查詢進(jìn)行擴(kuò)展。詞向量可以基于不同語料文本訓(xùn)練得到,如數(shù)據(jù)集的元數(shù)據(jù)、科學(xué)文獻(xiàn)數(shù)據(jù),不同語料訓(xùn)練得到的詞向量會(huì)影響查詢擴(kuò)展的效果。Teodoro 等[78]在bioCADDIE、 PMC (PubMed Cen‐tral)、Medline 三個(gè)語料上訓(xùn)練word2vec,結(jié)果顯示在Medline 上訓(xùn)練的詞向量效果最優(yōu)。此外,通過不同模型獲得的詞向量,質(zhì)量也有所不同,Scerri等[70]和 Cieslewicz 等[74]研 究 發(fā) 現(xiàn) fastText 較word2vec、GloVe 具有更優(yōu)的效果。與本體方法相比,基于詞向量的查詢擴(kuò)展方法能夠適應(yīng)不同的應(yīng)用領(lǐng)域,只要提供足夠的領(lǐng)域文本,便可以自動(dòng)獲取高質(zhì)量的詞向量。

    表2 查詢擴(kuò)展方法

    5.2 排序優(yōu)化方法

    為了提高科學(xué)數(shù)據(jù)集檢索的精度,一些研究將檢索過程分為兩個(gè)階段。在第一階段,使用BM25等高效的檢索方法獲取候選的相關(guān)數(shù)據(jù)集,這一階段通常會(huì)進(jìn)行查詢擴(kuò)展,以提高召回率。在第二階段,取第一階段排名靠前的數(shù)據(jù)集,使用更加精細(xì)的方法對(duì)數(shù)據(jù)集的相關(guān)性重新評(píng)分。目前,第二階段檢索結(jié)果排序優(yōu)化主要包括兩類方法。一類是基于啟發(fā)式規(guī)則計(jì)算數(shù)據(jù)集的相關(guān)性,例如,Teodoro等[78]對(duì)查詢和數(shù)據(jù)集自動(dòng)分類,將與查詢類別相同的數(shù)據(jù)集的得分進(jìn)行提升;Wang 等[79]統(tǒng)計(jì)數(shù)據(jù)集元數(shù)據(jù)中與查詢具有相同實(shí)體的數(shù)量,將實(shí)體數(shù)量多的數(shù)據(jù)集得分進(jìn)行提升;Wei 等[56-57]考慮查詢中不同詞的重要性,使用偽順序依賴模型(pseudo se‐quential dependence,PSD)對(duì)數(shù)據(jù)集的相關(guān)性重新評(píng)分。另一類是使用機(jī)器學(xué)習(xí)方法從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)排序規(guī)則,例如,Karisani等[55]基于手工制定的特征,使用MART(multiple additive regression trees) 學(xué)習(xí)排序算法對(duì)檢索結(jié)果重新排序。目前,由于科學(xué)數(shù)據(jù)集檢索領(lǐng)域缺乏大規(guī)模的標(biāo)注數(shù)據(jù),學(xué)習(xí)排序方法效果不佳,而基于啟發(fā)式規(guī)則的檢索結(jié)果優(yōu)化方法不需要訓(xùn)練數(shù)據(jù),因而研究中應(yīng)用得相對(duì)較多。此外,一些研究還利用代數(shù)的方法來提升檢索效果,例如,劉春蔚等[80]利用潛在語義索引來檢索數(shù)據(jù)集。

    5.3 檢索方法述評(píng)

    現(xiàn)有科學(xué)數(shù)據(jù)集檢索系統(tǒng)主要依賴傳統(tǒng)信息檢索模型,對(duì)科學(xué)數(shù)據(jù)本身特性的挖掘不夠。在科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)中,DataMed[18]、gesisDataS‐earch[19]、DataCite Search[81]基 于ElasticSearch,Else‐vier DataSearch[82]、Mercury[83]基于Solr 實(shí)現(xiàn)數(shù)據(jù)集搜索,相應(yīng)的檢索模型基本都為經(jīng)典的向量空間模型、概率模型等。在科學(xué)數(shù)據(jù)集檢索方法研究中,也都主要在傳統(tǒng)信息檢索模型的基礎(chǔ)上,通過查詢擴(kuò)展等方法來優(yōu)化檢索結(jié)果。相關(guān)用戶研究表明,科學(xué)數(shù)據(jù)集檢索與文獻(xiàn)和網(wǎng)頁檢索存在差異[84-86]。例如,查詢?cè)~非常短[63-65,75],包含更高比例的數(shù)字、時(shí)間、地理位置等信息[64-65,75],元數(shù)據(jù)和數(shù)據(jù)內(nèi)容在查詢匹配中都具有重要的作用[87]。目前,科學(xué)數(shù)據(jù)集的檢索主要基于元數(shù)據(jù)文本匹配,對(duì)查詢中時(shí)間、空間等特性關(guān)注度不高。

    查詢?cè)~不一定能有效地表達(dá)用戶數(shù)據(jù)需求,目前僅少量研究對(duì)非關(guān)鍵詞檢索模型進(jìn)行了探索。對(duì)于一些科學(xué)領(lǐng)域,使用數(shù)據(jù)范圍(如水溫、時(shí)間、空間范圍)能更好地表達(dá)用戶需求。Megler 等[88-90]構(gòu)建了Data Near Hear 系統(tǒng),使用基于距離的指標(biāo)來衡量查詢范圍和數(shù)據(jù)集范圍的相似度,據(jù)此來檢索排序海岸帶觀察數(shù)據(jù)集?,F(xiàn)有數(shù)據(jù)集檢索系統(tǒng)主要基于倒排索引來檢索匹配元數(shù)據(jù)文本,對(duì)其他數(shù)據(jù)結(jié)構(gòu)檢索的探索較少。Zhang 等[91]研究探索了適合不同類型查詢(字符串、數(shù)字)的最優(yōu)數(shù)據(jù)結(jié)構(gòu)(如哈希表、Trie、自平衡搜索樹等)。對(duì)于特定學(xué)科領(lǐng)域,科學(xué)數(shù)據(jù)的同質(zhì)性更高,用戶學(xué)科個(gè)性化數(shù)據(jù)需求更多,因而有必要尋找更適合學(xué)科用戶需求的信息檢索模式,提高數(shù)據(jù)集檢索的效果。

    測(cè)評(píng)數(shù)據(jù)對(duì)于檢索模型的比較和發(fā)展具有重要的作用,現(xiàn)有科學(xué)數(shù)據(jù)集檢索研究領(lǐng)域缺乏高質(zhì)量、大規(guī)模的測(cè)評(píng)數(shù)據(jù)。據(jù)本課題組調(diào)研,目前僅bioCADDIE 組織了生物醫(yī)學(xué)領(lǐng)域數(shù)據(jù)集檢索挑戰(zhàn)賽[92],并公開其數(shù)據(jù)集[93],但是該數(shù)據(jù)集的標(biāo)注數(shù)量非常有限。當(dāng)前,深度學(xué)習(xí)方法在文檔檢索領(lǐng)域有較多的研究和應(yīng)用,如BERT (bidirectional en‐coder representation from transformers)排序模型取得了比傳統(tǒng)檢索方法更優(yōu)的效果。由于深度學(xué)習(xí)模型需要大規(guī)模標(biāo)注數(shù)據(jù),現(xiàn)有測(cè)評(píng)數(shù)據(jù)集無法滿足深度學(xué)習(xí)模型的訓(xùn)練要求。因此,需要進(jìn)一步加強(qiáng)科學(xué)數(shù)據(jù)集檢索領(lǐng)域高質(zhì)量、大規(guī)模測(cè)評(píng)數(shù)據(jù)的建設(shè),豐富通用領(lǐng)域、各個(gè)學(xué)科領(lǐng)域可用的測(cè)評(píng)數(shù)據(jù)集。

    6 檢索結(jié)果綜合排序

    在第5 節(jié)中,檢索結(jié)果排序主要依據(jù)數(shù)據(jù)集與用戶查詢的主題相關(guān)性,已有研究表明,用戶會(huì)基于許多因素對(duì)科學(xué)數(shù)據(jù)集的相關(guān)性進(jìn)行判斷。本節(jié)將對(duì)科學(xué)數(shù)據(jù)集檢索綜合排序中的相關(guān)性判據(jù)(relevance criteria)及排序方法研究進(jìn)行梳理和總結(jié)。

    6.1 相關(guān)性判據(jù)

    對(duì)于科學(xué)數(shù)據(jù)集檢索系統(tǒng)返回的結(jié)果,用戶會(huì)根據(jù)一定的評(píng)價(jià)標(biāo)準(zhǔn)來判斷其是否滿足需求。目前,國(guó)內(nèi)外已有學(xué)者對(duì)科學(xué)數(shù)據(jù)集檢索中的用戶相關(guān)性判據(jù)進(jìn)行了探索,表3 給出了現(xiàn)有研究中提及較多的相關(guān)性判據(jù)。

    在這些判據(jù)中,主題相關(guān)性最為重要[94-95]。用戶主要通過數(shù)據(jù)集元數(shù)據(jù)中的標(biāo)題、摘要、關(guān)鍵詞等信息來判斷數(shù)據(jù)集是否主題相關(guān),部分用戶會(huì)在查看數(shù)據(jù)內(nèi)容后做出最終判斷。除主題相關(guān)性外,數(shù)據(jù)集的可獲得性、質(zhì)量、權(quán)威性也被國(guó)內(nèi)相關(guān)研究提及較多[12,94-102]??茖W(xué)數(shù)據(jù)集的開放程度不一,如果數(shù)據(jù)無法或者難以獲取,即使主題相關(guān)性很高對(duì)用戶來說也不具有價(jià)值。Gregory 等[101]通過用戶調(diào)查發(fā)現(xiàn),73%的用戶認(rèn)為易于獲取重要或者非常重要,趙華等[94]通過用戶訪談發(fā)現(xiàn)可獲取性的重要性僅次于主題相關(guān)性??茖W(xué)數(shù)據(jù)本身的準(zhǔn)確度和有效性直接影響到研究結(jié)論,因而數(shù)據(jù)集的質(zhì)量對(duì)于相關(guān)性判斷非常重要。張貴蘭等[97]通過訪談發(fā)現(xiàn),數(shù)據(jù)集質(zhì)量出現(xiàn)的頻次位于第二位,僅次于主題性;而通過問卷調(diào)查發(fā)現(xiàn)質(zhì)量的重要性排名第一。權(quán)威性在數(shù)據(jù)集相關(guān)性判斷中也具有重要的地位,它本質(zhì)上反映的也是數(shù)據(jù)集的質(zhì)量,來自高權(quán)威性作者和機(jī)構(gòu)的數(shù)據(jù)集,能使用戶相信其具有較高的質(zhì)量[102]。Gregory 等[101]通過用戶調(diào)查發(fā)現(xiàn),71%的用戶認(rèn)為數(shù)據(jù)來源的聲譽(yù)重要或非常重要。張貴蘭等[97]通過問卷調(diào)查發(fā)現(xiàn),權(quán)威性的重要程度排名第三,僅次于質(zhì)量和主題性。除以上相關(guān)性指標(biāo)外,時(shí)效性、可理解性、新穎性、便利性、規(guī)范性、可用性、全面性等指標(biāo)在研究中也有較多的提及。此外,用戶相關(guān)判斷依據(jù)會(huì)隨著學(xué)科特點(diǎn)而變化,Gregory 等[12]研究發(fā)現(xiàn)天文學(xué)、地球和環(huán)境科學(xué)、生物醫(yī)學(xué)、田野考古、社會(huì)科學(xué)的相關(guān)性判據(jù)都有所不同。

    6.2 綜合排序方法

    目前,科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)中的檢索結(jié)果主要基于主題相關(guān)性排序,對(duì)科學(xué)數(shù)據(jù)集的綜合排序方法的研究還比較少,僅在少量相關(guān)性判據(jù)上進(jìn)行了研究和應(yīng)用探索。在數(shù)據(jù)集質(zhì)量方面,Google Dataset Search 在檢索結(jié)果排序中引入了元數(shù)據(jù)質(zhì)量因素[24]。在數(shù)據(jù)集權(quán)威性方面,藤常延等[103]引入HITS(hyperlink-induced topic search)算法,黎建輝等[104]和騰常延[105]引入PageRank 算法來衡量數(shù)據(jù)集的重要性。Google Dataset Search 引入數(shù)據(jù)集所在網(wǎng)頁的重要性對(duì)檢索結(jié)果進(jìn)行排序[24]。在數(shù)據(jù)集的可獲取性方面,Research Data Australia 和Google Datas‐et Search 分別提供了獲?。ㄩ_放、有條件開放、受限)、使用授權(quán)(允許商業(yè)用途、不允許商業(yè)用途)的分面篩選功能。

    此外,一些研究利用計(jì)量方法對(duì)數(shù)據(jù)集質(zhì)量進(jìn)行評(píng)價(jià),這對(duì)于科學(xué)數(shù)據(jù)集的綜合排序也有參考價(jià)值。傳統(tǒng)圖書情報(bào)學(xué)領(lǐng)域?qū)ξ墨I(xiàn)等學(xué)術(shù)成果質(zhì)量的評(píng)價(jià)主要采用基于引用的指標(biāo),DCI 中可提供科學(xué)數(shù)據(jù)集的引用量。然而,當(dāng)前科學(xué)數(shù)據(jù)引用不規(guī)范,數(shù)據(jù)集引用量極低。因此,一些研究探索利用替代計(jì)量指標(biāo)來對(duì)數(shù)據(jù)集的質(zhì)量進(jìn)行測(cè)度。李龍飛等[106]通過獲取地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)中的使用數(shù)據(jù)來測(cè)度科學(xué)數(shù)據(jù)集的價(jià)值。在國(guó)外,加州數(shù)字圖書館、公共科學(xué)圖書館(Public Library of Sci‐ence,PLoS)、地球數(shù)據(jù)觀測(cè)網(wǎng)構(gòu)建了Making Data Count 服務(wù),通過基于PLoS 的文章級(jí)計(jì)量工具,為科學(xué)數(shù)據(jù)集提供來自CiteULike、Twitter 等13 個(gè)數(shù)據(jù)源的替代計(jì)量指標(biāo)[107]。

    表3 相關(guān)性判據(jù)

    6.3 綜合排序述評(píng)

    現(xiàn)有研究對(duì)科學(xué)數(shù)據(jù)集檢索結(jié)果綜合排序中的相關(guān)性判據(jù)進(jìn)行了較多探索,但是缺乏對(duì)相關(guān)性判據(jù)量化方法的研究。目前,Google Dataset Search 在數(shù)據(jù)集排序中引入網(wǎng)頁重要性排序指標(biāo),但是數(shù)據(jù)集所在頁面常位于“長(zhǎng)尾”部分且缺乏相互鏈接,排序差異通常不具有意義[24]。DCI 雖然包含數(shù)據(jù)集的被引情況,但當(dāng)前科學(xué)數(shù)據(jù)引用不規(guī)范,絕大多數(shù)數(shù)據(jù)集都不具有引用量。替代計(jì)量指標(biāo)數(shù)據(jù)的收集難度大,現(xiàn)有研究還處于初步探索階段。前述相關(guān)研究主要是在數(shù)據(jù)集的質(zhì)量和權(quán)威性方面進(jìn)行探索,其他如時(shí)效性、可用性等大量非主題相關(guān)性判據(jù)還缺乏關(guān)注。因此,需要進(jìn)一步加強(qiáng)相關(guān)性判據(jù)的量化方法研究。

    現(xiàn)有研究對(duì)用戶相關(guān)性判據(jù)的探索都主要采用用戶問卷調(diào)查、訪談等方式獲取數(shù)據(jù),這些研究方法有助于得到可能影響排序的相關(guān)性指標(biāo),但是不能準(zhǔn)確、可靠地分析出相應(yīng)指標(biāo)如何影響檢索結(jié)果排序的質(zhì)量。對(duì)檢索結(jié)果綜合排序的研究,需要以實(shí)際應(yīng)用系統(tǒng)真實(shí)的用戶需求和用戶交互的詳細(xì)日志為基礎(chǔ),通過控制變量,能更準(zhǔn)確有效地分析出各相關(guān)性判據(jù)對(duì)檢索效果的影響。由于研究者很難接觸到發(fā)現(xiàn)平臺(tái)的后臺(tái)數(shù)據(jù),因此還需要加強(qiáng)公開可用的科學(xué)數(shù)據(jù)集搜索日志數(shù)據(jù)集的建設(shè),以促進(jìn)研究者對(duì)真實(shí)用戶行為和相關(guān)性判據(jù)的深入分析。

    7 總 結(jié)

    隨著開放科學(xué)和開放獲取運(yùn)動(dòng)的發(fā)展,科學(xué)數(shù)據(jù)的共享與復(fù)用受到重視,互聯(lián)網(wǎng)上科學(xué)數(shù)據(jù)集的數(shù)量迅速增長(zhǎng)。為了幫助研究者從多源、異構(gòu)、海量的科學(xué)數(shù)據(jù)中快速地發(fā)現(xiàn)所需數(shù)據(jù),科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)應(yīng)運(yùn)而生。本文對(duì)國(guó)內(nèi)外科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)相關(guān)研究與應(yīng)用實(shí)踐進(jìn)行了廣泛調(diào)研,依據(jù)現(xiàn)有發(fā)現(xiàn)平臺(tái)的構(gòu)建模塊,分別從數(shù)據(jù)集采集、數(shù)據(jù)集組織、數(shù)據(jù)集檢索、檢索結(jié)果綜合排序四個(gè)方面總結(jié)現(xiàn)有研究進(jìn)展??傮w來看,現(xiàn)有研究已經(jīng)對(duì)科學(xué)數(shù)據(jù)集采集、組織、檢索和排序方法進(jìn)行了廣泛的研究,有效地推動(dòng)了科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的建設(shè)。

    歐美發(fā)達(dá)國(guó)家非常注重科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的構(gòu)建,已經(jīng)建立了一批研究原型和應(yīng)用系統(tǒng),包括:涵蓋多個(gè)國(guó)家、多個(gè)學(xué)科領(lǐng)域的通用發(fā)現(xiàn)平臺(tái),如DataCite Search、Data Citation Index、Else‐vier DataSearch、Google Dataset Search;面向特定國(guó)家的發(fā)現(xiàn)平臺(tái),如澳大利亞Research Data Australia、加拿大Federated Research Data Repository、英國(guó)Re‐search Data Discovery Service;面向特定學(xué)科的發(fā)現(xiàn)平臺(tái),如生物醫(yī)學(xué)DataMed、社會(huì)科學(xué)gesisDataSeach、地球與環(huán)境科學(xué)DataONE。國(guó)內(nèi)對(duì)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的研究相對(duì)匱乏,實(shí)踐應(yīng)用中也缺少收錄范圍足夠廣的發(fā)現(xiàn)平臺(tái),僅有中國(guó)科技資源共享網(wǎng)、中國(guó)科學(xué)院科學(xué)數(shù)據(jù)云提供數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)服務(wù)。前者僅收錄受國(guó)家資助的20 個(gè)理工科數(shù)據(jù)倉儲(chǔ),后者為機(jī)構(gòu)級(jí)的發(fā)現(xiàn)平臺(tái)。因此,我國(guó)還應(yīng)繼續(xù)加強(qiáng)科學(xué)數(shù)據(jù)集的統(tǒng)一發(fā)現(xiàn)平臺(tái)的建設(shè)力度。

    猜你喜歡
    排序檢索科學(xué)
    排序不等式
    恐怖排序
    2019年第4-6期便捷檢索目錄
    科學(xué)大爆炸
    節(jié)日排序
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    科學(xué)
    專利檢索中“語義”的表現(xiàn)
    專利代理(2016年1期)2016-05-17 06:14:36
    科學(xué)拔牙
    國(guó)際標(biāo)準(zhǔn)檢索
    大又大粗又爽又黄少妇毛片口| 亚洲国产日韩欧美精品在线观看| 在线观看66精品国产| 日韩精品青青久久久久久| 国产精品一及| 精品免费久久久久久久清纯| 国产亚洲欧美98| 国产伦精品一区二区三区四那| 国产午夜福利久久久久久| 国内揄拍国产精品人妻在线| 超碰av人人做人人爽久久| 亚洲成人久久爱视频| 精品国内亚洲2022精品成人| 波野结衣二区三区在线| 九九久久精品国产亚洲av麻豆| 国产黄色小视频在线观看| 美女 人体艺术 gogo| 国产av一区在线观看免费| 婷婷亚洲欧美| av国产免费在线观看| ponron亚洲| 熟女电影av网| 欧美日韩在线观看h| 久久久久久国产a免费观看| 99久国产av精品国产电影| 亚洲天堂国产精品一区在线| 高清午夜精品一区二区三区 | 国产亚洲91精品色在线| 亚洲最大成人手机在线| 十八禁国产超污无遮挡网站| 国产精品久久久久久久电影| 免费不卡的大黄色大毛片视频在线观看 | 最好的美女福利视频网| 欧美精品国产亚洲| 日韩强制内射视频| 精品欧美国产一区二区三| 国产 一区 欧美 日韩| 日本熟妇午夜| 看非洲黑人一级黄片| 免费看美女性在线毛片视频| 少妇裸体淫交视频免费看高清| 亚洲四区av| 乱码一卡2卡4卡精品| 三级男女做爰猛烈吃奶摸视频| 一区福利在线观看| 欧美成人a在线观看| 精品午夜福利视频在线观看一区| 一个人看视频在线观看www免费| 国产一区二区三区av在线 | 久久精品国产99精品国产亚洲性色| 中文字幕av在线有码专区| 久久久久久九九精品二区国产| 床上黄色一级片| 在线免费十八禁| 国产精品一区二区免费欧美| 人妻夜夜爽99麻豆av| 亚洲av成人av| 1024手机看黄色片| 亚洲av中文字字幕乱码综合| 大型黄色视频在线免费观看| 中国国产av一级| 日韩 亚洲 欧美在线| 真人做人爱边吃奶动态| 嫩草影视91久久| 一级毛片电影观看 | 黄色视频,在线免费观看| 亚洲欧美中文字幕日韩二区| 99精品在免费线老司机午夜| 久久精品人妻少妇| 99九九线精品视频在线观看视频| 日本撒尿小便嘘嘘汇集6| 日韩在线高清观看一区二区三区| 深夜a级毛片| 免费观看人在逋| 最近视频中文字幕2019在线8| 少妇被粗大猛烈的视频| 日本色播在线视频| 97超视频在线观看视频| 麻豆国产97在线/欧美| 中文字幕熟女人妻在线| 久久6这里有精品| 亚洲五月天丁香| 男人和女人高潮做爰伦理| 老司机影院成人| av女优亚洲男人天堂| 熟女人妻精品中文字幕| 亚洲图色成人| 欧美高清成人免费视频www| 亚洲成人av在线免费| 欧美一区二区精品小视频在线| 日本与韩国留学比较| 久久精品夜夜夜夜夜久久蜜豆| 亚洲av免费在线观看| 免费大片18禁| 久久午夜亚洲精品久久| 国产单亲对白刺激| 中文字幕人妻熟人妻熟丝袜美| 国产成人一区二区在线| 99视频精品全部免费 在线| 人人妻,人人澡人人爽秒播| 亚洲国产欧洲综合997久久,| 听说在线观看完整版免费高清| 日日摸夜夜添夜夜爱| 香蕉av资源在线| 日本精品一区二区三区蜜桃| 亚洲性夜色夜夜综合| 俺也久久电影网| 国产v大片淫在线免费观看| 在线看三级毛片| 三级经典国产精品| 我的老师免费观看完整版| 91av网一区二区| 亚洲国产精品sss在线观看| 女生性感内裤真人,穿戴方法视频| 日本一二三区视频观看| 日本三级黄在线观看| 天天一区二区日本电影三级| 国产精品久久久久久av不卡| 国产亚洲av嫩草精品影院| 午夜激情福利司机影院| 最近最新中文字幕大全电影3| 国产黄片美女视频| 亚洲自拍偷在线| 久久久精品欧美日韩精品| 人妻少妇偷人精品九色| 亚洲一级一片aⅴ在线观看| 免费人成视频x8x8入口观看| 97超级碰碰碰精品色视频在线观看| 99精品在免费线老司机午夜| 熟女电影av网| 99久久精品热视频| 在线观看美女被高潮喷水网站| 免费在线观看成人毛片| 欧美一级a爱片免费观看看| 亚洲av二区三区四区| 国产 一区精品| 国产精品爽爽va在线观看网站| 亚洲欧美中文字幕日韩二区| 国产色婷婷99| 99视频精品全部免费 在线| 精品国产三级普通话版| 狠狠狠狠99中文字幕| 国产日本99.免费观看| 国产在线男女| 国产免费一级a男人的天堂| 精品乱码久久久久久99久播| 亚洲人成网站在线播| 日本一本二区三区精品| 成年版毛片免费区| 亚洲成人精品中文字幕电影| 国产av不卡久久| 欧美zozozo另类| 久久久国产成人精品二区| 麻豆一二三区av精品| 不卡一级毛片| 亚洲一级一片aⅴ在线观看| 18禁在线无遮挡免费观看视频 | 黄色日韩在线| 国产一区二区在线观看日韩| 免费观看人在逋| 欧美丝袜亚洲另类| 亚洲av中文字字幕乱码综合| 一区二区三区高清视频在线| 亚州av有码| 99久国产av精品国产电影| 精品久久久噜噜| 全区人妻精品视频| 国产私拍福利视频在线观看| videossex国产| 亚洲人成网站在线播| 国产毛片a区久久久久| 欧美日本亚洲视频在线播放| 淫秽高清视频在线观看| 国产成人aa在线观看| 成人欧美大片| 日本成人三级电影网站| avwww免费| 欧美zozozo另类| 欧美另类亚洲清纯唯美| 内射极品少妇av片p| 人人妻,人人澡人人爽秒播| 日韩强制内射视频| av女优亚洲男人天堂| 人妻丰满熟妇av一区二区三区| 成人亚洲欧美一区二区av| 精品久久久久久久久亚洲| 18禁在线播放成人免费| 秋霞在线观看毛片| 看片在线看免费视频| 变态另类成人亚洲欧美熟女| 久久精品久久久久久噜噜老黄 | 亚洲av二区三区四区| 91av网一区二区| 超碰av人人做人人爽久久| 中文字幕精品亚洲无线码一区| 美女被艹到高潮喷水动态| 久久久久久九九精品二区国产| 久久久成人免费电影| 国产成人a∨麻豆精品| 最新在线观看一区二区三区| 久久久a久久爽久久v久久| 国产黄片美女视频| 国产一区二区三区av在线 | 欧美日韩乱码在线| 夜夜夜夜夜久久久久| 可以在线观看毛片的网站| 久久久久久九九精品二区国产| 成人特级av手机在线观看| 熟女人妻精品中文字幕| 国内精品久久久久精免费| 免费无遮挡裸体视频| 成人国产麻豆网| 天美传媒精品一区二区| 日韩 亚洲 欧美在线| 精品一区二区三区av网在线观看| 国产精品1区2区在线观看.| 国产一区二区在线观看日韩| 99九九线精品视频在线观看视频| 老司机影院成人| 天堂影院成人在线观看| 成年版毛片免费区| 国产精品久久久久久精品电影| 又粗又爽又猛毛片免费看| 久久精品影院6| 午夜爱爱视频在线播放| 成人一区二区视频在线观看| 99久久久亚洲精品蜜臀av| 久久精品国产清高在天天线| 97热精品久久久久久| 中文字幕人妻熟人妻熟丝袜美| 亚洲经典国产精华液单| 亚洲精品成人久久久久久| 校园人妻丝袜中文字幕| 菩萨蛮人人尽说江南好唐韦庄 | 色视频www国产| 看片在线看免费视频| 1000部很黄的大片| 亚洲18禁久久av| 高清毛片免费观看视频网站| 久久久久久久久久久丰满| 国产探花极品一区二区| 人人妻,人人澡人人爽秒播| 一级毛片电影观看 | 精品一区二区三区视频在线观看免费| 日韩精品有码人妻一区| 亚洲国产精品成人综合色| 在线播放国产精品三级| 免费av不卡在线播放| 日韩欧美一区二区三区在线观看| 欧美在线一区亚洲| 久久久久久久久久久丰满| 一个人看的www免费观看视频| 国产高清激情床上av| 久久6这里有精品| 亚洲av电影不卡..在线观看| 小说图片视频综合网站| av免费在线看不卡| 亚洲精品国产av成人精品 | 国产成人91sexporn| 久久午夜福利片| 别揉我奶头 嗯啊视频| 精品福利观看| 久久精品久久久久久噜噜老黄 | 日本免费一区二区三区高清不卡| 97超视频在线观看视频| 亚洲最大成人手机在线| 国产成人a区在线观看| 国产午夜福利久久久久久| 黑人高潮一二区| 一本久久中文字幕| 一本精品99久久精品77| 日本黄色视频三级网站网址| 国产精品,欧美在线| 精品久久久久久久末码| 观看免费一级毛片| 国产成人精品久久久久久| 免费高清视频大片| 99久国产av精品国产电影| 亚洲丝袜综合中文字幕| 老熟妇仑乱视频hdxx| 国产精品爽爽va在线观看网站| 国产精品伦人一区二区| 日韩国内少妇激情av| 无遮挡黄片免费观看| 少妇猛男粗大的猛烈进出视频 | 简卡轻食公司| 精品久久久噜噜| av在线观看视频网站免费| 亚洲高清免费不卡视频| 国产精品一区二区免费欧美| 久久热精品热| 亚洲七黄色美女视频| 午夜久久久久精精品| 日本免费一区二区三区高清不卡| 国产一区二区三区在线臀色熟女| 中出人妻视频一区二区| 在线a可以看的网站| 国产成人福利小说| 热99re8久久精品国产| 成人高潮视频无遮挡免费网站| 美女免费视频网站| 国产高清有码在线观看视频| 蜜桃久久精品国产亚洲av| 九九在线视频观看精品| 菩萨蛮人人尽说江南好唐韦庄 | 国产精品不卡视频一区二区| eeuss影院久久| 最后的刺客免费高清国语| 精品一区二区三区av网在线观看| 亚洲精品亚洲一区二区| 69人妻影院| 精品久久久久久久久久久久久| 国产成人精品久久久久久| 亚洲无线在线观看| 成人二区视频| 亚洲av二区三区四区| 少妇丰满av| 久久久久国内视频| 日韩大尺度精品在线看网址| 免费在线观看影片大全网站| 亚洲国产欧洲综合997久久,| 亚洲国产精品成人久久小说 | 91在线观看av| 亚洲精品一区av在线观看| 91久久精品国产一区二区成人| 精品久久久久久成人av| 国产老妇女一区| a级毛片免费高清观看在线播放| 国产精品伦人一区二区| 国产精品国产高清国产av| 丰满人妻一区二区三区视频av| 国产欧美日韩一区二区精品| 国产精品人妻久久久久久| 久久精品夜夜夜夜夜久久蜜豆| 男插女下体视频免费在线播放| 国产精品电影一区二区三区| 少妇人妻一区二区三区视频| 亚洲高清免费不卡视频| 99热这里只有是精品50| 神马国产精品三级电影在线观看| 欧美激情在线99| 久久久久久久久久久丰满| 老熟妇仑乱视频hdxx| 99久久无色码亚洲精品果冻| 欧美高清性xxxxhd video| 国产黄片美女视频| 亚洲内射少妇av| 精品午夜福利视频在线观看一区| 国产极品精品免费视频能看的| 欧美性猛交╳xxx乱大交人| 99久久成人亚洲精品观看| 神马国产精品三级电影在线观看| 99riav亚洲国产免费| 亚洲国产日韩欧美精品在线观看| 精品乱码久久久久久99久播| 麻豆av噜噜一区二区三区| 99国产精品一区二区蜜桃av| 哪里可以看免费的av片| 久久人人爽人人片av| 看片在线看免费视频| av天堂在线播放| 亚洲四区av| .国产精品久久| 两个人视频免费观看高清| 在线国产一区二区在线| 国产蜜桃级精品一区二区三区| 性色avwww在线观看| 色5月婷婷丁香| 久久中文看片网| 国产久久久一区二区三区| 亚洲自拍偷在线| 久久久久九九精品影院| 亚洲欧美成人精品一区二区| 久久中文看片网| 欧洲精品卡2卡3卡4卡5卡区| 久久热精品热| 国产一区二区三区在线臀色熟女| 精品久久久久久久人妻蜜臀av| 国产精品国产三级国产av玫瑰| 亚洲一区高清亚洲精品| 国产一级毛片七仙女欲春2| 午夜福利在线观看吧| 久久久久国产精品人妻aⅴ院| 久久人人爽人人爽人人片va| 国产精品久久久久久久久免| 精品一区二区三区人妻视频| 嫩草影院新地址| 精品久久久久久久久久久久久| 亚洲人与动物交配视频| 亚洲第一电影网av| 久久久午夜欧美精品| 我要搜黄色片| 久久久久久久久久久丰满| 2021天堂中文幕一二区在线观| 麻豆国产av国片精品| 国产白丝娇喘喷水9色精品| 麻豆国产97在线/欧美| 国产精品一区二区免费欧美| 男女下面进入的视频免费午夜| 性欧美人与动物交配| 国产爱豆传媒在线观看| 99riav亚洲国产免费| 成人永久免费在线观看视频| 日韩欧美三级三区| 成年av动漫网址| 嫩草影视91久久| 性色avwww在线观看| 不卡视频在线观看欧美| 国产精品一区二区三区四区久久| 国产v大片淫在线免费观看| 亚洲精品在线观看二区| 国产精华一区二区三区| 欧美激情国产日韩精品一区| 国产亚洲91精品色在线| 女的被弄到高潮叫床怎么办| 一进一出抽搐gif免费好疼| av卡一久久| 亚洲成av人片在线播放无| 国产亚洲91精品色在线| 蜜桃久久精品国产亚洲av| 亚洲乱码一区二区免费版| 国产精华一区二区三区| 亚洲欧美日韩东京热| 露出奶头的视频| 免费一级毛片在线播放高清视频| 美女大奶头视频| 好男人在线观看高清免费视频| 一个人看的www免费观看视频| 俄罗斯特黄特色一大片| 精品久久久噜噜| 亚洲综合色惰| 如何舔出高潮| 日韩av不卡免费在线播放| 男人和女人高潮做爰伦理| 亚洲精品一卡2卡三卡4卡5卡| 亚洲最大成人av| 99精品在免费线老司机午夜| 九九爱精品视频在线观看| 国产色婷婷99| 久久这里只有精品中国| 欧美丝袜亚洲另类| 亚洲一区二区三区色噜噜| 性色avwww在线观看| 国产伦一二天堂av在线观看| 国产精品国产三级国产av玫瑰| 亚洲欧美精品综合久久99| 国产午夜精品久久久久久一区二区三区 | 99热只有精品国产| 亚洲久久久久久中文字幕| 午夜影院日韩av| 禁无遮挡网站| 免费无遮挡裸体视频| 岛国在线免费视频观看| 亚洲国产日韩欧美精品在线观看| 免费高清视频大片| 国产色爽女视频免费观看| 精品一区二区免费观看| 99热这里只有精品一区| 日本色播在线视频| 麻豆av噜噜一区二区三区| 日韩欧美 国产精品| 国产亚洲精品久久久com| 欧美区成人在线视频| videossex国产| 女同久久另类99精品国产91| 99久久无色码亚洲精品果冻| 国产精品亚洲美女久久久| 亚洲av美国av| 久久精品国产鲁丝片午夜精品| 日韩精品有码人妻一区| 欧美中文日本在线观看视频| 一进一出抽搐gif免费好疼| 亚洲最大成人手机在线| 国语自产精品视频在线第100页| 日本a在线网址| 国产伦在线观看视频一区| 欧美性感艳星| 国产伦精品一区二区三区四那| 精品乱码久久久久久99久播| 国产精品久久电影中文字幕| 午夜福利18| 最新在线观看一区二区三区| 人人妻人人澡欧美一区二区| 最近的中文字幕免费完整| 午夜福利在线观看免费完整高清在 | 在线观看一区二区三区| 成人鲁丝片一二三区免费| 欧美日本亚洲视频在线播放| 美女 人体艺术 gogo| 国产精品综合久久久久久久免费| 少妇被粗大猛烈的视频| 秋霞在线观看毛片| 91午夜精品亚洲一区二区三区| 国产片特级美女逼逼视频| 成人特级黄色片久久久久久久| av卡一久久| 女同久久另类99精品国产91| 午夜老司机福利剧场| 三级经典国产精品| 欧美激情在线99| 亚洲av五月六月丁香网| 岛国在线免费视频观看| 日韩国内少妇激情av| 69人妻影院| 天天一区二区日本电影三级| 日韩成人av中文字幕在线观看 | 99九九线精品视频在线观看视频| 日韩欧美在线乱码| 淫秽高清视频在线观看| 欧美高清成人免费视频www| 中文字幕熟女人妻在线| 18+在线观看网站| 噜噜噜噜噜久久久久久91| 国产成人一区二区在线| 舔av片在线| 熟妇人妻久久中文字幕3abv| 日韩成人av中文字幕在线观看 | 免费人成视频x8x8入口观看| 婷婷精品国产亚洲av| 夜夜爽天天搞| 在线观看66精品国产| 亚洲va在线va天堂va国产| 日本黄色视频三级网站网址| 国产亚洲av嫩草精品影院| 精品一区二区三区视频在线观看免费| 国内精品宾馆在线| 两个人的视频大全免费| 亚洲欧美中文字幕日韩二区| 欧美一区二区精品小视频在线| 国产精品一区www在线观看| 天天躁夜夜躁狠狠久久av| 亚洲国产色片| 91久久精品电影网| 国产麻豆成人av免费视频| 大型黄色视频在线免费观看| 99热6这里只有精品| 免费看a级黄色片| 欧美xxxx性猛交bbbb| 日本成人三级电影网站| 欧美激情在线99| 免费av不卡在线播放| 日韩强制内射视频| 精品久久久噜噜| 女生性感内裤真人,穿戴方法视频| 精品久久久久久久人妻蜜臀av| 综合色av麻豆| 精品人妻一区二区三区麻豆 | 国产精品嫩草影院av在线观看| 欧美三级亚洲精品| 国产人妻一区二区三区在| 又粗又爽又猛毛片免费看| 秋霞在线观看毛片| 亚洲乱码一区二区免费版| 成熟少妇高潮喷水视频| 国产蜜桃级精品一区二区三区| 六月丁香七月| 内射极品少妇av片p| 99国产精品一区二区蜜桃av| 在线观看66精品国产| 久久九九热精品免费| 国产爱豆传媒在线观看| aaaaa片日本免费| 久久国产乱子免费精品| 国产久久久一区二区三区| 丰满人妻一区二区三区视频av| 人妻丰满熟妇av一区二区三区| 成人特级av手机在线观看| 国产精品亚洲美女久久久| 18禁在线无遮挡免费观看视频 | 97热精品久久久久久| 日本-黄色视频高清免费观看| 国产精品一区www在线观看| 97碰自拍视频| 欧美3d第一页| 婷婷六月久久综合丁香| 亚洲在线观看片| 综合色av麻豆| 久久精品国产亚洲av涩爱 | 男人和女人高潮做爰伦理| 午夜福利高清视频| 性欧美人与动物交配| 色综合亚洲欧美另类图片| 久久久精品大字幕| 成年女人永久免费观看视频| 97超碰精品成人国产| 狠狠狠狠99中文字幕| 国产熟女欧美一区二区| 欧美色视频一区免费| 男人舔奶头视频| 欧美丝袜亚洲另类| 久久亚洲精品不卡| 精品一区二区三区av网在线观看| 亚洲无线在线观看| 久久久久国产网址| 久久久久国内视频| 午夜福利高清视频| 成年女人毛片免费观看观看9| 精品一区二区免费观看| 联通29元200g的流量卡| 久久国产乱子免费精品| 亚洲天堂国产精品一区在线| 亚洲精品粉嫩美女一区| 国产精品亚洲美女久久久| 久久天躁狠狠躁夜夜2o2o| 三级国产精品欧美在线观看| 久久人人爽人人片av| 中文字幕av成人在线电影| 久久久国产成人精品二区| 国产伦精品一区二区三区视频9| 99热这里只有是精品50| 黄色视频,在线免费观看| 看十八女毛片水多多多| 日本欧美国产在线视频| 人人妻,人人澡人人爽秒播| 老司机福利观看|