摘 要:最近幾年來,由于電子商務(wù)的快速發(fā)展,其直接促進(jìn)了人工智能服務(wù)的龐大需求,在基于知識(shí)圖譜的問答中,有很多的問答系統(tǒng)都是面向英文的,然而在中英文之間的語義表述有著極大的差異。在一定程度上我國互聯(lián)網(wǎng)的語義數(shù)據(jù)也在大規(guī)模地得到發(fā)展,在電商領(lǐng)域問答算法設(shè)計(jì)當(dāng)中也能夠給用戶提供一個(gè)較為智能的問答系統(tǒng)而受到關(guān)注。因此,筆者主要是從電子商務(wù)的領(lǐng)域作為初始點(diǎn),然后針對用戶在不同領(lǐng)域以及多樣性當(dāng)中對于中文知識(shí)圖譜的問答算法系統(tǒng)進(jìn)行知識(shí)庫的相關(guān)設(shè)計(jì)優(yōu)化,并提出了一個(gè)基于中文知識(shí)圖譜的自動(dòng)問答框架,在一定程度上去實(shí)現(xiàn)提升用戶體驗(yàn)以及降低客服的工作壓力等。
關(guān)鍵詞:中文知識(shí)圖譜;電商領(lǐng)域;問答算法;設(shè)計(jì)與實(shí)現(xiàn)
在一定程度上中文知識(shí)圖譜是一種網(wǎng)絡(luò)的語義,知識(shí)圖譜的節(jié)點(diǎn)代表了實(shí)體和概念。隨著我國電商領(lǐng)域當(dāng)中的數(shù)據(jù)結(jié)構(gòu)化不斷發(fā)展,規(guī)模不斷增多,互聯(lián)網(wǎng)的虛擬網(wǎng)絡(luò)逐漸向?qū)嶓w所轉(zhuǎn)換,這種轉(zhuǎn)換在某種程度上是被稱為語義演變。當(dāng)前我國電子商務(wù)領(lǐng)域得到了快速的發(fā)展,在電子商務(wù)購物平臺(tái)上的客戶量也隨之增加,其商品也在不斷增多,正是因?yàn)檫@種情況的出現(xiàn),讓其客戶量不斷加大,客戶量的增大就會(huì)給很多的人工客服帶來巨大的工作壓力,因此,基于中文的知識(shí)圖譜問答系統(tǒng)設(shè)計(jì)的出現(xiàn),就會(huì)有效降低人工客服的工作壓力。在某種程度上,人工客服所需要的企業(yè)成本是相對較大的,這些原因的出現(xiàn)也會(huì)導(dǎo)致企業(yè)很難得到發(fā)展。然而在我國電商行業(yè)知識(shí)數(shù)據(jù)中,有很多的商品質(zhì)詢服務(wù)都是需要依賴問答系統(tǒng)的,目前,我國電商行業(yè)就是缺少一套完整的知識(shí)問答系統(tǒng),因此知識(shí)圖譜對于提升問答系統(tǒng)的實(shí)用性研究具有極為重要的現(xiàn)實(shí)意義。
一、相關(guān)技術(shù)分析
1.實(shí)體識(shí)別技術(shù)分析
在基于中文知識(shí)圖譜自動(dòng)問答系統(tǒng)當(dāng)中,實(shí)體識(shí)別是能夠?qū)χ形奈谋具M(jìn)行具體區(qū)分的,在某種意義上該問題也得到了廣大研究學(xué)者的重點(diǎn)關(guān)注。在中文知識(shí)圖譜問答系統(tǒng)分析過程中,其自身的實(shí)體識(shí)別能夠從用戶不同表述語句當(dāng)中去找到用戶主要想表達(dá)的核心詞匯。所以,中文知識(shí)圖譜問答系統(tǒng)的實(shí)體識(shí)別也是當(dāng)前所要研究的基礎(chǔ)性工作。因此,在基于知識(shí)圖譜的自動(dòng)問答算法當(dāng)中,實(shí)體識(shí)別是能夠定義為:一個(gè)K和所輸入查詢的s,來計(jì)算出所查詢的s在K當(dāng)中的匹配實(shí)體得分。一般意義的實(shí)體識(shí)別主要是包含了命名實(shí)體的識(shí)別,其又被稱之為“專名的識(shí)別”,在一定程度上主要說的就是從文本識(shí)別當(dāng)中具有的特殊意義實(shí)體,也包含了機(jī)構(gòu)名、人名以及地名等內(nèi)容。
2.實(shí)體鏈接技術(shù)分析
實(shí)體鏈接技術(shù)主要是利用了構(gòu)建自然語言系統(tǒng)以及中文知識(shí)圖譜知識(shí)庫當(dāng)中的相關(guān)應(yīng)用,這也是電商領(lǐng)域中問答系統(tǒng)的基礎(chǔ)。在一定程度上問答系統(tǒng)的研究范圍,能夠清晰地表達(dá)出用戶所想要表達(dá)的問題所在,能夠快速地知道用戶語句中的含義。在某種程度上,因?yàn)榭蛻粢恢倍际嵌鄻踊?,因此鏈接客戶的表達(dá)以及知識(shí)庫也一直都是研究的重點(diǎn)。以往的實(shí)體鏈接任務(wù)的研究對象主要是包含了機(jī)構(gòu)名、人名以及地名等類型的實(shí)體名詞。在一定程度上所分析的任務(wù)是給定一個(gè)目標(biāo),實(shí)體名詞以及實(shí)體名詞的查詢文檔,然后把目標(biāo)實(shí)體名詞和目前電商領(lǐng)域企業(yè)中的知識(shí)庫中已有的實(shí)體詞匯進(jìn)行相應(yīng)的匹配,看其是否能夠正確地鏈接。在電商領(lǐng)域當(dāng)中,其具有知識(shí)不斷變化、同意表達(dá)層出不窮等領(lǐng)域之內(nèi)的特征性,在一定程度上根據(jù)最近幾年的研究分析,相關(guān)研究學(xué)者通常使用BabeINrt來作為鏈接的輔助資源,在詞匯和近義詞匯之間進(jìn)行相似度的計(jì)算,在一定程度上不斷去提升所變化的網(wǎng)絡(luò)語言以及相關(guān)語義,這樣會(huì)讓以往的同義詞庫當(dāng)中的知識(shí)詞匯不能滿足現(xiàn)階段的需求。所以,在一定程度上能夠有效運(yùn)用同義詞的計(jì)算,來讓中文知識(shí)圖譜在電商領(lǐng)域中的問答系統(tǒng)能夠體現(xiàn)出其自身的價(jià)值,在一定程度上也能夠有效解決客戶多樣化的問題,從而促進(jìn)工作效率的提升。
二、系統(tǒng)架構(gòu)
1.問題的分類器分析
在一定程度上把知識(shí)圖譜當(dāng)中的實(shí)體概念以及相關(guān)屬性等詞匯引入到電商領(lǐng)域詞庫當(dāng)中,根據(jù)所獲取的集成來進(jìn)行抽取的標(biāo)注,在一定程度上共定義有八種問題類型。對于相關(guān)問題的分類,首先要進(jìn)行的就是對于具體問題進(jìn)行具體的分類,這樣能夠更為快速地知道問題的重點(diǎn)所在,然后根據(jù)問題種類當(dāng)中的關(guān)鍵詞去構(gòu)造出問句的類別向量,在一定程度上問題的分類大多數(shù)都是從統(tǒng)計(jì)學(xué)的角度所進(jìn)行分類的。因?yàn)楸疚闹饕腔贚ibSVM所進(jìn)行的分類研究。問答系統(tǒng)時(shí)常所要重視的就是基于知識(shí)圖譜的問答鏈接數(shù)據(jù),只有這些相關(guān)數(shù)據(jù)有一個(gè)更為清晰的了解,才能夠讓問答系統(tǒng)能夠更好地去服務(wù)客戶。
2.序列詞性依賴的標(biāo)注問題分析
本文主要是基于某工業(yè)大學(xué)的LTP工具進(jìn)行詞標(biāo)注,來獲取標(biāo)注好的詞序列。在傳統(tǒng)的依存句法分析重點(diǎn)詞匯中實(shí)詞與實(shí)詞之間的關(guān)系是相對重要的,在一定程度上就需要更為關(guān)注有語義關(guān)系的詞匯。在某種意義上雖然SDP能夠有效地去提取語義相關(guān)的詞匯關(guān)系,但是在實(shí)際的應(yīng)用當(dāng)中由于其所特定的領(lǐng)域問句存在較多的問題,其問題可以概括為兩個(gè)方面:第一個(gè)方面是SDP的依賴相對復(fù)雜,與此同時(shí)其所針對的很多較短語句不能正常地去進(jìn)行相關(guān)信息的提??;第二個(gè)方面是SDP的效果以及訓(xùn)練太過于依賴語料,這種情況的出現(xiàn)讓其不能夠很好地運(yùn)用在電商領(lǐng)域當(dāng)中?;诖耍覀冊赟DP的語義依存序列以及特定的領(lǐng)域當(dāng)中的實(shí)體序列基礎(chǔ)上提出了依賴縮減的算法,其中所生成基于SDP初始化。在每一個(gè)節(jié)點(diǎn)當(dāng)中所表示一個(gè)詞匯,每一條邊所表示詞匯之間的依賴關(guān)系,因?yàn)樵谝欢ǔ潭壬先鄙兕I(lǐng)域?qū)嶓w的支持,因此在SDP的描述流程下就會(huì)形成較為復(fù)雜的依賴結(jié)構(gòu),從而讓其不能夠達(dá)到很好的問答效果。
在基于中文知識(shí)圖譜的電商領(lǐng)域問答算法設(shè)計(jì)系統(tǒng)實(shí)現(xiàn)當(dāng)中,可以有效利用相關(guān)軟件比如CRF去進(jìn)行識(shí)別實(shí)體來合成相關(guān)數(shù)據(jù),在一定程度上可以把產(chǎn)品的品牌以及型號(hào)進(jìn)行相關(guān)的合并,這樣是能夠有效防止產(chǎn)品標(biāo)簽的過多而出現(xiàn)的各種繁瑣步驟,在中文知識(shí)圖譜當(dāng)中有很多種的依賴關(guān)系都是能夠讓其成為多種基礎(chǔ)操作,具體的相關(guān)基礎(chǔ)操作可以表示為以下幾點(diǎn):第一是反轉(zhuǎn)、第二是刪除、第三是保持、第四是合并。從某種層面上來說OMT所表示的是刪除這一條詞匯的關(guān)系,并且要分開刪除所有節(jié)點(diǎn)詞匯之間的具體鏈接。在合并之后要保留詞匯之間的緣由節(jié)點(diǎn),并且要使用原來的節(jié)點(diǎn)做出指向的關(guān)系,是能夠找到一種實(shí)際操作當(dāng)中對于該依賴進(jìn)行具體基礎(chǔ)操作的,從而提升其在問答中的實(shí)際效果體現(xiàn)。
3.SPARQL的提取
SPARQL的模板是在上面所敘述的標(biāo)注序列當(dāng)中生成的,這個(gè)模板的實(shí)際應(yīng)用能夠極大程度地針對不同類型的問題進(jìn)行針對性的回答。在一定程度上計(jì)數(shù)最值類問題;其主要包含了一個(gè)聚合函數(shù)問題的板塊。在定義聚合函數(shù)有計(jì)數(shù)和比較器以及過濾器三種問題時(shí),要定義其目標(biāo)是作為聚合函數(shù)的總目標(biāo)。在聚合函數(shù)中需要分開將其運(yùn)用在問答計(jì)算類型以及比較類型的問題當(dāng)中。事實(shí)類問題;在定義的基礎(chǔ)查詢模板當(dāng)中,對于類似于完全正確的回答,是能夠使用c去代替所對應(yīng)的類型的,再實(shí)際利用詞匯信息和依存句法分析進(jìn)行相關(guān)三元組的信息提取,最后針對不同用戶所提出的問題類型,去制定出相應(yīng)的語義模板,然后再結(jié)合相關(guān)的實(shí)體進(jìn)行詳細(xì)問題答案的提取,這樣能夠讓問答系統(tǒng)更為準(zhǔn)確地回答出用戶所需要知道的相關(guān)信息。
三、結(jié)語
總而言之,在基于中文知識(shí)圖譜的電商領(lǐng)域的自動(dòng)問答系統(tǒng)中,有效運(yùn)用自然語言處理技術(shù)和實(shí)體識(shí)別技術(shù)以及實(shí)體鏈接技術(shù),能夠提取相應(yīng)的語義槽,從而去構(gòu)建SPARQL的查詢。在一定程度上去結(jié)合電商領(lǐng)域的特征在實(shí)體識(shí)別中引入特定的實(shí)體識(shí)別,能夠促進(jìn)LTP的使用,本文所提出的系統(tǒng)是具有一定局限性的,其所制定的規(guī)則式確定標(biāo)簽,比如對于“給我所有電腦和電腦的顏色”這種類型的語句是不能得到信息的提取的。當(dāng)前隨著電子商務(wù)的不斷發(fā)展,有很多的電商領(lǐng)域企業(yè)對于縮減規(guī)則的研究相對較少,除此之外,相關(guān)人員還需要把問答系統(tǒng)當(dāng)中的用戶所提出的答案進(jìn)行優(yōu)化和調(diào)整,只有這樣才能夠有效促進(jìn)中文知識(shí)圖譜在電商領(lǐng)域問答系統(tǒng)中的應(yīng)用。
參考文獻(xiàn):
[1]馬晨浩.基于甲狀腺知識(shí)圖譜的自動(dòng)問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].智能計(jì)算機(jī)與應(yīng)用,2018,v.8(3):108-113.
[2]肖慶都,屈亮亮,侯霞.基于Neo4j圖數(shù)據(jù)庫的課程體系知識(shí)圖譜系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電腦知識(shí)與技術(shù),2017,13(36):130-132.
[3]基于多種數(shù)據(jù)源的中文知識(shí)圖譜構(gòu)建方法研究[D].華東理工大學(xué),2015.
[4]劉自強(qiáng),王效岳,白如江.多維度視角下學(xué)科主題演化可視化分析方法研究——以我國圖書情報(bào)領(lǐng)域大數(shù)據(jù)研究為例[J].中國圖書館學(xué)報(bào),2016,42(6):67-84.
作者簡介:廖美紅(1979.10- ),女,漢族,廣西南寧人,碩士,副教授,主要研究方向:計(jì)算機(jī)應(yīng)用技術(shù)