(遼寧省重大技術(shù)裝備戰(zhàn)略基地建設(shè)工程中心,遼寧 沈陽 110000)
科技查新是通過手工檢索和計(jì)算機(jī)檢索等手段,針對科研立項(xiàng)和科研成果的實(shí)用性和新穎性,進(jìn)行文獻(xiàn)查證,因此,采取周全靈活的檢索策略,獲得合理的檢索資源,具有重要的現(xiàn)實(shí)意義。國外文獻(xiàn)檢索策略研究主要應(yīng)用數(shù)據(jù)語義,利用語義Web語言描述在線文檔,利用語義Web文檔和知識概念,在計(jì)算機(jī)領(lǐng)域內(nèi)實(shí)現(xiàn)檢索測試,對文獻(xiàn)的同義詞擴(kuò)展、外延擴(kuò)展、語義蘊(yùn)涵進(jìn)行檢索,聚類檢索結(jié)果,縮減用戶關(guān)心的檢索范圍,得到專門針對科技查新的文獻(xiàn)。國內(nèi)檢索策略研究利用文獻(xiàn)計(jì)量的方法,排序文獻(xiàn)的相對影響度,按照文獻(xiàn)與用戶搜索關(guān)鍵字的相關(guān)程度,按照線性方式返回引擎搜索結(jié)果,采用協(xié)同過濾的方式,計(jì)算檢索文獻(xiàn)的相似度,利用分層概念樹的方式,根據(jù)待審文獻(xiàn)的摘要內(nèi)容,從而表示出作者模型和文獻(xiàn)內(nèi)容,對該作者已經(jīng)發(fā)表的文獻(xiàn)進(jìn)行推薦,進(jìn)而構(gòu)建文獻(xiàn)檢索的語言模型[1]。
通過去重和篩選兩項(xiàng)操作,對文獻(xiàn)進(jìn)行整理,構(gòu)建文獻(xiàn)檢索庫。首先將中國知網(wǎng)和萬方數(shù)據(jù)庫作為主要文獻(xiàn)來源,設(shè)置寬泛的檢索詞,下載知網(wǎng)和萬方數(shù)據(jù)庫中,所有相關(guān)學(xué)術(shù)文獻(xiàn)及其題錄信息[2]。其次進(jìn)行去重操作,控制下載文獻(xiàn)僅包括pdf和caj兩種文件格式,利用去重軟件對文獻(xiàn)進(jìn)行查重,去重處理資源總庫的下載文獻(xiàn)。去重處理完畢后,篩選冗余文獻(xiàn)信息。最后還要對檢索數(shù)據(jù)庫進(jìn)行填充,補(bǔ)檢相應(yīng)的專業(yè)性數(shù)據(jù)庫,補(bǔ)充具有權(quán)威性的館藏文獻(xiàn),當(dāng)科技查新涉及生產(chǎn)工藝與性能參數(shù)時(shí),利用Google搜索引擎,對產(chǎn)品的網(wǎng)上信息進(jìn)行補(bǔ)查,確保文獻(xiàn)數(shù)據(jù)的充實(shí)性[3]。
首先利用技術(shù)特征對知識網(wǎng)絡(luò)體系中不同關(guān)系,進(jìn)行明確描述,構(gòu)建文獻(xiàn)信息語義網(wǎng)絡(luò),其中技術(shù)特征的知識描述關(guān)系,從中選取屬性-宿主關(guān)系、上下位關(guān)系、以及相關(guān)關(guān)系這3種語義關(guān)系。首先利用屬性-宿主關(guān)系,構(gòu)建文獻(xiàn)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),通過某一個(gè)相同的屬性值)屬性信息包括作者、關(guān)鍵詞、年份等),從而使網(wǎng)絡(luò)結(jié)構(gòu)無限拓展下去,具體如下圖所示:
如上圖所示,各個(gè)檢索詞之間的層級關(guān)系,按照由大到小的分類級別,對主題詞所屬分類進(jìn)行排列,從而構(gòu)成語義標(biāo)簽的上下位關(guān)系。利用權(quán)值大小進(jìn)行排序,公式為:
其中,w為檢索詞的權(quán)重值,q為檢索詞的一個(gè)語素,d為一個(gè)搜索結(jié)果文檔,R(q,d)為語素與文檔的相關(guān)系數(shù),β為每次計(jì)算過程中,檢索詞跳到初始權(quán)值不為0的源頂點(diǎn)概率[4]。確定文獻(xiàn)檢索的關(guān)鍵詞,對查新點(diǎn)進(jìn)行復(fù)核,對檢索用詞的全稱、縮寫及簡稱進(jìn)行深入分析,對英文選詞進(jìn)行擴(kuò)展,補(bǔ)充英文文獻(xiàn)的關(guān)鍵詞。將檢索關(guān)鍵詞作為鏈接節(jié)點(diǎn),構(gòu)成屬性關(guān)聯(lián)語義網(wǎng)絡(luò),語義標(biāo)簽標(biāo)注過程中,通過匹配摘要、題目、關(guān)鍵詞等屬性特征,實(shí)現(xiàn)標(biāo)注[5]。至此完成基于技術(shù)特征,文獻(xiàn)知識圖譜的構(gòu)建。
在文獻(xiàn)檢索庫中采用布爾邏輯構(gòu)造關(guān)鍵詞索引倒排文檔,提取索引詞的位置信息,確定位置信息在原文中的邏輯位置,并在邏輯位置索引詞中找出各字的順序邏輯關(guān)系,對各字的位置信息進(jìn)行記錄,將其作為查新文獻(xiàn)的分詞索引信息,得到查新文獻(xiàn)的基本情況[6]。注意檢索工具和檢索時(shí)限的回溯性,擴(kuò)展檢索字段并適當(dāng)補(bǔ)檢新的文獻(xiàn)庫,慎重推敲反映查新點(diǎn)的檢索詞,使不同檢出文獻(xiàn)之間具有可比性,確保查新工作的全面性和準(zhǔn)確性[7]。
進(jìn)行對比實(shí)驗(yàn),即此次設(shè)計(jì)策略為實(shí)驗(yàn)A組,傳統(tǒng)文獻(xiàn)檢索策略為實(shí)驗(yàn)B組,比較兩組實(shí)驗(yàn)的平均查準(zhǔn)率。實(shí)驗(yàn)文獻(xiàn)資源為7000條,在果樹栽培的各細(xì)分領(lǐng)域,選取果樹栽培、施肥、修剪、水分等10個(gè)提問詞,對10個(gè)提問詞進(jìn)行初步探索,獲得提示詞的相關(guān)文獻(xiàn)共600條[8]。檢索任務(wù)在CNKI實(shí)際檢索平臺上進(jìn)行,當(dāng)完成第一個(gè)檢索動(dòng)作時(shí),根據(jù)其技術(shù)特征,設(shè)置實(shí)驗(yàn)初始值,設(shè)置單框檢索場獨(dú)立為74.5%,場依存為68.9%,多框檢索場獨(dú)立為18.3%,場依存為1.5%。實(shí)驗(yàn)中,改變兩組實(shí)驗(yàn)檢出的相關(guān)文檔數(shù),比較不同數(shù)量下的查準(zhǔn)率。第一組對比結(jié)果如下圖所示:
表1 單檢索框的對比結(jié)果
由上表可知,當(dāng)文檔檢出數(shù)量增加時(shí),檢索策略的查準(zhǔn)率有所下降,但實(shí)驗(yàn)A組查準(zhǔn)率始終要高于實(shí)驗(yàn)B組,A組平均查準(zhǔn)率為89.1%,B組平均查準(zhǔn)率為83.1%,相比實(shí)驗(yàn),A組查準(zhǔn)率提高了6.0%。在第一組實(shí)驗(yàn)的基礎(chǔ)上,進(jìn)行第二組實(shí)驗(yàn),其對比結(jié)果如下表所示:
由表2可知,使用多個(gè)檢索框時(shí),文檔查準(zhǔn)率有所提高,實(shí)驗(yàn)A組平均查準(zhǔn)率為92.3%,實(shí)驗(yàn)B組平均查準(zhǔn)率為88.2%,A組平均查準(zhǔn)率提高了4.1%。綜上所述,此次設(shè)計(jì)策略提高了文檔檢索的查準(zhǔn)率,為用戶提供更加符合要求的科技查新文獻(xiàn)。
表2 多檢索框的對比結(jié)果
此次設(shè)計(jì)策略充分發(fā)揮了技術(shù)特征的優(yōu)勢,提高了文獻(xiàn)檢索的查準(zhǔn)率。但此次研究仍存在一定不足,數(shù)據(jù)抽取效率較差,在今后的研究中,會應(yīng)用正則表達(dá)式的抽取方法,對所有形式的文獻(xiàn)引用關(guān)系進(jìn)行匹配,提高抽取效率。