• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      信息查詢擴展發(fā)展研究

      2015-04-29 00:44:03張?zhí)m芳年梅李芳
      計算機時代 2015年11期
      關鍵詞:詞表語料語料庫

      張?zhí)m芳 年梅 李芳

      摘 要: 借助計算機和因特網(wǎng),信息查詢進入了快速發(fā)展的網(wǎng)絡化聯(lián)機檢索階段,搜索引擎的出現(xiàn)更是將信息查詢推向了智能化發(fā)展時代。文章以信息查詢發(fā)展為主線,分類總結了關鍵詞查詢擴展和概念語義查詢擴展的發(fā)展過程,并對支撐概念語義查詢擴展的概念語義結構和大規(guī)模語料庫的發(fā)展情況做了詳細的闡述,為概念語義查詢擴展方向的研究做了一些基礎工作。

      關鍵詞: 信息檢索; 查詢擴展; 概念語義; 語料庫

      中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2015)11-08-04

      Abstract: With the aid of the computer and the Internet, information query entered the rapid development of online retrieval stage, and the occurrences of search engines push the information inquiry into the era of intelligent development. This paper mainly summarizes the development process of keyword query expansion and concept semantic query expansion. The paper described the development of concept semantic structure and large-scale corpus which supported concept semantic query expansion in detail. It has done some basic work for the research of semantic query expansion direction.

      Key words: information retrieval; query expansion; semantic concept; corpus

      0 引言

      信息查詢是在儲存信息的倉庫中比較和選擇符合查詢者需求的信息標識。它隸屬于圖書情報學,自從有了人類就有了信息查找的歷史。伴隨著經濟、文化、社會的快速發(fā)展,二十世紀五十年代信息查詢從手工方式進入到計算機檢索時代。經歷了脫機、聯(lián)機檢索后,信息查詢進入了快速發(fā)展的網(wǎng)絡化聯(lián)機檢索階段。因特網(wǎng)將全球的信息資源聯(lián)接起來成為世界上最大的信息倉庫,www搜索引擎將搜索范圍從文本擴大到網(wǎng)頁、圖片、音視頻等多種文件。信息檢索技術大力促進了信息資源的相互利用和科技進步,它是一門交叉、復合型的學科,主要包括數(shù)據(jù)庫管理(Database Management)、機器學習(Machine Learning)、人工智能(Artificial Intelligence)、自然語言處理(Natural Language Processing)等學科知識[1]。

      1 查詢擴展

      人們在查詢問題時所輸入的查詢關鍵詞往往會有很多種不同的表達方式,很多時候同一個概念在不同情況下會表示不同的意思,或不同的概念在特定的情況下會表示相同的意思。由于這種表達方式的不同會導致與查詢關鍵詞相關的文檔不能被檢索出來,降低檢索系統(tǒng)的查全率和查準率。基于這種原因,查詢擴展技術應運而生。

      查詢擴展技術是利用多種學科知識將與初始查詢相關的術語添加到原查詢中組成新的意義更加全面準確的查詢序列,降低自然語言的模糊性和查詢歧義性,提高了檢索結果的查全率和查準率[2]。

      目前,按照擴展詞的來源不同主要有基于全局分析、基于局部分析、基于關聯(lián)規(guī)則、基于用戶查詢日志和基于概念語義的查詢擴展技術。

      1.1 關鍵詞查詢擴展

      全局分析是較早出現(xiàn)的較實用的查詢擴展方法。1971年,Spacrk Jones首次提出了詞的聚類算法,試圖通過對全局詞語的共現(xiàn)來對詞進行聚類,并用聚類對查詢進行擴展,Rocchio利用向量空間模型,使用相關反饋算法并應用于SMART系統(tǒng)[3],獲得較好的檢索效果。1976年,Spark Jones與Robertson提出了概率模型[3],其關鍵是計算每個查詢詞在相關文檔和不相文檔中的分布狀況。二十世紀八十年代末,S.T.Dumais、M.W.Berry等人基于VSM理論框架,提出了潛在語義索引(Latent Semantic Indexing,LSI)的信息檢索模型,它是經典向量空間模型的一種改進,其關鍵是索引項-文檔矩陣的奇異值分解計算[4]。

      早在1965年Rocchio提出了相關反饋法[5],這是一種加入用戶判斷提高檢索效果的查詢擴展技術。1977年Atter和Fraenkel首次提出了局部分析的重要思想[6]。目前較流行的局部分析方法主要是局部反饋(local feedback),也稱偽相關反饋(pseudo feedback),是在相關反饋(relevance feedback)的基礎上發(fā)展起來的[7-8]。該方法主要利用查詢時返回的top-N支持文檔來擴展原始查詢語句。但是這些查詢擴展方法的效果并不穩(wěn)定。Xu和Croft又提出了局部上下文分析方法(Local Context Analysis,LSA),這是一種將全局分析中的Phrasefinder技術應用到局部分析的折中方法,但是這種方法仍然高度依賴于初次檢索結果,有可能會將大量與查詢無關的詞加入新查詢序列而導致檢索精度降低。

      綜合以上這幾種查詢擴展方法,全局分析的優(yōu)勢是可以最大限度地探求詞間關系,并在敘詞表建立之后可以高效地進行查詢擴展,但是在文檔集合非常大時,建立、維護全局的詞間關系敘詞表就會消耗大量的時間和空間。局部分析查詢擴展技術中,目前較流行的是局部反饋,它是在相關反饋的基礎上發(fā)展起來的[9-10]。相關反饋根據(jù)用戶對首次檢索結果的判斷選取擴展詞進行二次查詢,局部反饋解決了相關反饋必須與用戶進行交互的問題,它將首次查詢的Top-N文檔作為相關文檔,以此為依據(jù)進行查詢擴展,所以我們也把它稱為偽相關反饋查詢擴展,但是這種查詢擴展中Top-N文檔的選取容易引起初始查詢的漂移,其查詢效果并不穩(wěn)定。

      隨著自然語言處理、文本挖掘、知識表示及推理等研究工作的推進,學者們在傳統(tǒng)方法的基礎上對查詢擴展做了更進一步的研究和改進,提出了新的查詢擴展方法。如:Yahia和Jaoua在2001年[11]提出了基于關聯(lián)規(guī)則挖掘的查詢擴展研究,崔航、文繼榮等人在2003年提出的基于用戶查詢日志的查詢擴展研究[12],His-Ching Lin的基于模糊規(guī)則和用戶反饋的查詢擴展研究[13]。

      1.2 概念語義查詢擴展

      概念語義查詢擴展是在概念語義空間或大規(guī)模語料庫的基礎上對原查詢進行擴展的查詢技術[14]。

      目前,基于概念語義的查詢擴展檢索研究正逐漸成為信息檢索領域的研究熱點。國外較著名的項目有Swoogle、KIM平臺、FINDUR系統(tǒng), Swoogle借助Google等通用搜索引擎為其搜索博客、新聞種子、數(shù)字圖書館、版權元數(shù)據(jù)、軟件配置和詞典(如WordNet)等語義數(shù)據(jù),其目的是推動語義網(wǎng)數(shù)據(jù)的獲取[15]。國內中科院計算所諸葛海等提出的知識網(wǎng)絡通過采用新的計算模式和新的資源組織與管理模型,能有效地輔助用戶進行資源的查詢、獲取和共享等工作[16]。董振東先生公開的中文知識庫《知網(wǎng)》為構建領域本體與領域知識做好了基礎支撐工作。

      概念語義查詢擴展的方法主要分為兩類,一類是基于概念語義關系/概念語義結構的方法,另一類是基于大規(guī)模語料庫的方法[5]。目前,學者們主要是根據(jù)概念間的各種關系,利用一定的技術,構建概念知識庫、概念語義網(wǎng)絡、概念語義詞典或概念語義樹等概念語義空間,把原查詢看作一系列的概念(而不是一系列字符串),從建好的概念語義結構中提取查詢語義及語義關聯(lián)關系,實現(xiàn)語義概念擴展[5]。

      2 概念語義結構

      概念自身及其相互關系的結構化描述,稱為概念語義結構,也有學者稱其為概念空間(Concept Space)。概念語義結構分為通用型和領域相關型。通用型的概念結構應用面廣,但構造困難;領域相關型的概念結構專用性強,構造相對容易。概念語義結構的建立通常依靠手工方式,也可以借助機器學習機制自動生成[17]。

      目前,概念語義結構的表現(xiàn)形式主要有概念分類樹(概念描述的分層組織結構)、領域本體(ontology)、敘詞表(Thesaurus)、概念語義網(wǎng)絡[17]。

      2.1 概念分類樹

      概念分類樹是一種形式比較簡單的概念結構,它只根據(jù)“上、下位”關系對概念進行層次化組織。分類樹體系中每一個概念只和它的最小上位(父親節(jié)點),以及它的最大下位(兒子節(jié)點)相連。通常,概念分類樹的建立是通過決定每一個概念在這個體系中的位置來手工實現(xiàn)。概念分類樹也可以通過使用特殊的概念標引技術自動構建,如Woods等人在Sun Microsystems所做的一項工作[18]。

      2.2 領域本體(Ontology)

      本體是反映領域內概念及概念關系的集合,關系本身也可以看作是概念,用以反映概念間的約束和聯(lián)系[19]。從形式上講,本體是領域內概念種類及其關系的詞匯表,它以精確的形式語言、句法和明確的定義來闡述概念關系,從而形式化為領域內各種事物之間交換信息的共同語言,它的目的是精確地表示那些隱含的信息,使得它們可以被軟件系統(tǒng)重用和共享[20]。1998年Studer提出“本體是共享概念模型的明確形式化規(guī)范說明”[20],它包括概念模型(Conceptualization)、明確(Explicit)、形式化(Format)、共享(Share)四個方面[20]。

      2.3 敘詞表(Thesaurus)

      敘詞表指詞庫(Treasury of Words)的引用[21],又稱主題詞表,它是一種語義詞典,由術語及術語之間的各種關系組成,能反映某學科領域的語義相關概念[17]。敘詞表可以引導用戶在結構化的受控詞表中選擇規(guī)范的相關詞語即標引詞,來表達自己想要查詢的內容,方便用戶更好的利用那些和他相關的詞語的基本語義[17]。敘詞表使用受控詞表(Controlled Vocabulary)標引文本和檢索,對概念標引的規(guī)范化、噪聲去除、標引詞的語義理解、概念層面的檢索等方面都非常有用[17]。由于有大量的專業(yè)術語,所以敘詞表在專業(yè)領域的文獻標引和檢索中具有非常重要的意義。

      2.4 概念語義網(wǎng)絡

      第一個在計算機上模擬實現(xiàn)語義網(wǎng)絡的學者是Robert F. Simmons,他基于LISP概念詞典生成了第一個語義網(wǎng)絡計算機程序,是WordNet、Protégé類型的領域知識系統(tǒng)的先驅[22]。后來,Shapiro 和Sowa等人在計算機系統(tǒng)上實現(xiàn)了具有實用價值的語義網(wǎng)絡系統(tǒng),正式確立了語義網(wǎng)絡作為計算機科學一個獨立分支的地位[22]。

      目前,基于概念語義網(wǎng)絡的查詢擴展正在成為信息檢索的主要手段。國外的概念語義網(wǎng)研究主要有:普林斯頓大學的學者們設計出的基于認知語言學的英語詞典WordNet[23],它是一個覆蓋范圍寬廣的英語詞匯語義網(wǎng),也稱“單詞的網(wǎng)絡”;斯坦福大學提出的Protégé[24]可以構建管理概念層級,繼承序列和概念屬性,并提供屬性取值范圍約束,一致性驗證的查詢搜索等功能;HP提出的Jena是一個基于Java的開源項目,提供了面向RDF和OWL的API,并提供了推理子系統(tǒng)和SPARQL查詢子系統(tǒng),能提供開放推理機接口框架[22];Open Source提出的Semantic Media Wiki讓用戶在輸入詞條釋文時可以通過特殊的標記輸入詞條之間的語義關系[22];斯擔福大學的Infomap search engine,通過選用不同的訓練語料,測試生成的概念語義網(wǎng)絡對查詢效果的影響,并在此基礎上,利用醫(yī)學相關語料和雙語詞典生成一個概念網(wǎng)絡,建立醫(yī)學文檔檢索的示范應用[25],還有W3C提出的Semantic Web等研究項目。

      國內較典型的相關研究有:中科院計算機語言信息中心董振東先生提出的知網(wǎng)(HowNet),它是一個以漢語和英語的詞語所代表的概念為描述對象,揭示概念與概念之間及概念所具有的屬性之間的基本內容的常識知識庫[26];哈工大梅家駒等人編纂的《同義詞詞林》包含了一個詞語的同義詞和一定數(shù)量的同類詞即廣義的相關詞,《哈工大信息檢索研究室同義詞詞林擴展版》擴展了《同義詞詞林》,使其含有更加豐富的語義信息;中國科學院計算技術研究所用共現(xiàn)分析以及hopfield網(wǎng)絡概念空間,實現(xiàn)了基于概念空間的擴展檢索[27];北京郵電大學針對計算機及其應用領域,手工創(chuàng)建了一個含有500多個概念節(jié)點,包括一個分類體系和近300種概念相關關系的語義網(wǎng)絡,初步實現(xiàn)了特定領域的概念檢索[28];中國科學技術大學和中國科學院計算技術研究所聯(lián)合研究開發(fā)的基于概念語義空間的聯(lián)想檢索系統(tǒng),通過共現(xiàn)分析建立概念語義空間,并借助于大型語義詞典《知網(wǎng)》,為用戶提供了一個智能檢索接口[29];上海交大對Semantic Media Wiki進行了擴展提出了EachWiki,利用AJAX技術實現(xiàn)識別鏈接,提供鏈接推薦、分類推薦、屬性推薦等編輯輔助功能,進一步幫助作者創(chuàng)作內容[30]。

      3 大規(guī)模語料庫

      基于大規(guī)模語料庫的查詢擴展是目前大數(shù)據(jù)時代的研究熱點,因特網(wǎng)就是一個龐大的語料庫,在這個真實的語料庫中,利用數(shù)據(jù)挖掘、人工智能、自然語言處理等技術結合用戶的查詢意圖能采集到符合用戶需求的信息,還可以利用因特網(wǎng)構建各種主題的專業(yè)語料庫,為查詢擴展提供更精準的檢索服務。

      在國外,語料庫的研究和建設始于二十世紀七十年代,主要有Brown、LOB、COBUILD、LONGMAN、BNC、ICE等[31]。漢語語料庫的建設開始于八十年代,現(xiàn)有的大規(guī)模語料庫有國家現(xiàn)代漢語語料庫[32]、臺灣中研院平衡語料庫[33]、中港臺漢語語料庫[34]、北京大學和富士通公司共同制作的《人民日報》語料庫[35]等。語料庫的建設分為語料的收集、預處理、標注規(guī)范的制定、質量監(jiān)控等方面。一般采用的方法是花費大量的人力、物力和財力,集中專業(yè)人員搜集、整理和加工語料,最終構建成熟語料庫。目前在語料庫的內容、表達方式、組織結構和具體應用方面已經有了較好的研究成果[36-37],但是在高效建設大規(guī)模語料庫方面的研究還有待進一步提高?,F(xiàn)在的研究主要集中在半自動化語料庫的構建方面,大多需要人工參與,自動化水平較低。利用因特網(wǎng)構建大規(guī)模語庫是目前研究的發(fā)展趨勢,主要研究思路是構建一個基于網(wǎng)絡的信息處理平臺為語料庫建設提供計算和存儲能力,利于網(wǎng)絡技術使用多臺計算機從Web網(wǎng)頁上快速獲取大量的生語料,結合自然語言處理技術對生語料進行預處理,轉化成熟語料,同時為用戶提供語料的訪問[38]。

      4 結束語

      基于網(wǎng)絡的信息檢索服務為人們提供了有用的平臺,在此平臺上利用已構建概念語義結構和大規(guī)模語料庫可以為人們提供更全面、貼心、多元的查詢及推薦服務。如何高效利用網(wǎng)絡大數(shù)據(jù)提供的信息開展語義擴展查詢需要數(shù)據(jù)挖掘、人工智能、網(wǎng)絡技術、機器學習、自然語言處理等多學科知識的綜合支撐,這將是信息檢索領域未來長期挑戰(zhàn)的課題。

      參考文獻(References):

      [1] 楊海南.基于語義詞典和局部分析的查詢擴展研究[D].武漢

      理工大學碩士學位論文,2010.11:5-15

      [2] 黃名選,嚴小衛(wèi),張師超.查詢擴展技術進展與展望[J].計算機

      應用與研究,2007.24(11):1-4

      [3] S. E. Roberton and K. Spark Jones. Relevance weighting

      of search terms. Journal of the American Society for Information Sciences,1976.27(3):129-146

      [4] 李新友.信息檢索中的查詢擴展技術研究[D].廣西師范大學

      碩士學位論文,2010.4:16-25

      [5] 黃名選,嚴小衛(wèi),張師超.基于矩陣加權關聯(lián)規(guī)則挖掘的偽相

      關反饋查詢擴展[J].軟件學報,2009.20(7):1854-1865

      [6] Attar R, Fraenkel AS. Local feedback in full-text retrieval

      systems. Journal of the ACM,1977.24(3):397-417

      [7] Buckley C, Salton G, Allan J, Singhal A. Automatic query

      expansion using SMART. Technical Report, TREC-3,1995:69-80

      [8] Ricardo B-Y, Berthier R-N. Modern Information

      Retrieval. England: Pearson Education Limited,1999.

      [9] Buckley C, Salton G, Allan J, Singhal A. Automatic query

      expansion using SMART. Technical Report, TREC-3,1995:69-80

      [10] Ricardo B-Y, Berthier R-N. Modern Information

      Retrieval. England: Pearson Education Limited,1999.

      [11] Yahia SBen, Jaoua A.Discovering knowledge from fuzzy

      concept lattice[J]. Studies in Fuzziness and soft computing, Physica Verlay, Heidel-berg,2005.3(68):167-190

      [12] 崔航,文繼榮,李敏強.基于用戶日志的查詢擴展統(tǒng)計模型[J].

      軟件學報,2003.14(9):1594-1599

      [13] Hsi-Ching Lin, Li-Hui Wang, Shyi-Ming Chen. Query

      expansion for document retrieval Based on fuzzy rules and user relevance feedback techniques. In ExPert Systems with Applications 31,2006:397-405

      [14] 王磊,黃廣君.結合概念語義空間的語義擴展技術研究[J].計

      算機工程與應用,2012.48(35):106-109

      [15] 胡川洌.基于本體的教學資源語義檢索研究[D].重慶大學,

      201:1-2

      [16] Zhuge H. The knowledge grid[M]. New Jersey: World

      Scientific Publishing,2004.

      [17] 胡熠.面向信息檢索的文本內容分析[D]博士學位論文,上海

      交通大學,2007.11

      [18] Woods, W.A., "Conceptual Indexing : a better way to

      organize knowledge." Technical Report SMLI TR-97-

      61, Sun Microsystems Laboratories, MountainView,CA,April.1997.

      [19] 羅建利.基于用戶興趣模型的概念查詢擴展研究[D].揚州大

      學,2005.

      [20] R. Studer, V.R. Benjamins and D.Fensel. Knowledge

      engineering:Principles and methods[J]. Data&Knowledge Engineering,1998.25:161-197

      [21] D.J.Foskett. Thesaurus. "Readings in Information Retrieval".

      Morgan Kaufmann Publishers,Inc,1997:111-134

      [22] 代唐印.基于語義網(wǎng)絡的知識協(xié)作關鍵技術研究[D].復旦大

      學博士學位論文,2009.4

      [23] WordNet:[EB/OL]. http:// wordnet.Princeton.edu

      [24] The Protégé Ontology Editor and Knowledge

      Acquisition System[EB/OL].http://protégé.stanford.edu/

      [25] Information mapping project[EB/OL].(2003).[2013-

      06-01].http://www-csli.stanford.edu/semlab/infomap.html.

      [26] 董振東,董強.知網(wǎng)[OL].http://www.keenage.com,2013.12

      [27] 鄭毅,吳斌,史忠植.基于概念空間的文本檢索系統(tǒng)[J].計算

      機工程與應用,2002.38(12):67-69

      [28] 李蕾,王楠,鐘義信.基于語義網(wǎng)絡的概念檢索研究與實現(xiàn)[J].

      情報學報,2000,19(5):525-531

      [29] 李源,何清,史忠植.基于概念語義空間的聯(lián)想檢索[J].北京

      科技大學學報,2001.23(6):577-580

      [30] Huajie Zhang, LinYun Fu, Haofen Wang, Haiping Zhu,

      Yang Wang, and Yong Yu, EachWiki: Suggest to Be an Easy-To_Edit Wiki Interface for Everyone, Semantic Web Challenge,2007.

      [31] Graeme K. An Introduction to Corpus Linguistics[M].外語

      教學與研究出版社,2000:84

      [32] 劉連元.現(xiàn)代漢語語料庫研制[J].語言文字應用,1996.3:

      2-9

      [33] http://www.sinica.edu.tw/SinicaCorpus/ [DB/OL].

      [34] 胡百華,李行得,湯志祥.香港的語料庫和相關研究概況[J].

      語言文字應用,1997.2:49-54

      [35] http://www. icl. pku. edu. cn/icl_groups/ corpustagging.

      asp [DB/OL].

      [36] Cohn J M, Garrod D J, Rutenbar R A, et al. Analog

      Device-level Layout Automation[M]. Boston, USA: Kluwer Academic Publishers,1994.

      [37] Lampaert K, Gielen G, Sansen W. Analog Layout

      Generation for Performance and Manufacturability[M]. Boston, USA: Kluwer Academic Publishers,1999.

      [38] 李培峰,朱巧明,錢培德.基于Web的大規(guī)模語料庫的構建[J].

      計算機工程,2008.34(7):41-46

      猜你喜歡
      詞表語料語料庫
      A Chinese-English List of the Sports Programmes in Winter Olympics 冬奧會項目名稱漢英對照詞表
      英語世界(2021年13期)2021-01-12 05:47:51
      《語料庫翻譯文體學》評介
      把課文的優(yōu)美表達存進語料庫
      基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
      敘詞表與其他詞表的互操作標準
      華語電影作為真實語料在翻譯教學中的應用
      基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      《苗防備覽》中的湘西語料
      國內外語用學實證研究比較:語料類型與收集方法
      國外敘詞表的應用與發(fā)展趨勢探討*
      圖書館建設(2012年3期)2012-10-23 05:16:30
      德昌县| 营口市| 怀集县| 八宿县| 萝北县| 宝应县| 永仁县| 沧源| 新巴尔虎右旗| 木里| 凯里市| 奎屯市| 毕节市| 简阳市| 曲水县| 定州市| 西贡区| 许昌市| 湾仔区| 永顺县| 石泉县| 柯坪县| 原平市| 云南省| 巍山| 贡山| 图们市| 洛浦县| 辉县市| 江安县| 平舆县| 贺州市| 江华| 闵行区| 安岳县| 顺平县| 望江县| 蒲城县| 梨树县| 慈利县| 太和县|