楊達(dá)賢
(廈門云之端信息科技有限公司, 漳州 361000)
微博作為一種互動(dòng)的信息平臺(tái),在社交中的地位越來越重要。此外,微博還可以通過用戶的關(guān)注形成一個(gè)龐大的人際互動(dòng)網(wǎng)絡(luò)。然而,很多人只是使用了微博的少數(shù)功能。為了促進(jìn)微博的應(yīng)用和提高微博的可用性和樂趣,搜狐微博推出"想你知道”功能。人工智能推理引擎系統(tǒng)根據(jù)用戶輸入的詞語,自動(dòng)進(jìn)行歸納推理,并將推理結(jié)果反饋給用戶[1]。
現(xiàn)有的搜索引擎資源獲取方式是盲目的。依靠現(xiàn)有的算法,往往會(huì)得到大量的不相關(guān)信息,導(dǎo)致效率和搜索精確度下降。該系統(tǒng)基于人工智能(包括增益和衰減),自動(dòng)調(diào)整推理機(jī)系統(tǒng),不僅大大降低了后臺(tái)人員的維護(hù)成本,而且提高了用戶體驗(yàn),使微博用戶獲得更好、更準(zhǔn)確的服務(wù)[2]。
搜索引擎是指通過網(wǎng)絡(luò)爬蟲程序獲取網(wǎng)頁數(shù)據(jù),并建立數(shù)據(jù)庫提供查詢系統(tǒng)。根據(jù)工作原理,引擎分為兩類:一類是分類搜索目錄;另一類是全文搜索目錄[ 3 ]。
全文搜索引擎的數(shù)據(jù)庫是基于一個(gè)名為“網(wǎng)絡(luò)爬蟲”的軟件。它通過web上的各種鏈接自動(dòng)獲取大量的Web信息內(nèi)容,并根據(jù)既定規(guī)則進(jìn)行分析和排序。分類法是收集和收集Web數(shù)據(jù)以手動(dòng)形成數(shù)據(jù)庫的[4]。
全文搜索引擎是一種網(wǎng)絡(luò)軟件,它穿越網(wǎng)絡(luò)空間,可以掃描網(wǎng)站的某個(gè)地址范圍,并沿著網(wǎng)絡(luò)從一個(gè)頁面鏈接到另一個(gè)頁面,從一個(gè)站點(diǎn)到另一個(gè)網(wǎng)頁數(shù)據(jù)采集網(wǎng)絡(luò)。其工作原理,如圖1所示。
圖1 網(wǎng)絡(luò)爬蟲工作原理
將人工智能應(yīng)用于網(wǎng)絡(luò)爬蟲程序,將使搜索引擎在獲取信息資源方面取得更大的成功。
采用啟發(fā)式算法,網(wǎng)絡(luò)爬蟲可以消除無關(guān)鏈接,訪問和瀏覽。在整個(gè)頁面中合格頁面的比例相當(dāng)大。網(wǎng)絡(luò)爬蟲收集信息資源的準(zhǔn)確性也提高了[5]。
微博信息豐富,數(shù)據(jù)量巨大,所以微博數(shù)據(jù)的研究中,應(yīng)選擇合理的數(shù)據(jù)采集方法,為本文的研究提供了方便,數(shù)據(jù)采集分為以下3種類型:官方API采集,通過網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁和直接使用開放的數(shù)據(jù)集[6]。
(1) 基于官方API開發(fā)的系統(tǒng)。
為了使微博提供的服務(wù)和嵌入的小應(yīng)用更加多樣化和更加具有吸引力,開發(fā)商選擇了向應(yīng)用開發(fā)者和研究人員提供開放式的應(yīng)用接口,即開放API。開放API指的是開放應(yīng)用程序編程接口,即使用SOAP、JavaScript等的一系列技術(shù)[7]。
(2) 通過網(wǎng)絡(luò)爬蟲爬取微博頁面。
通過網(wǎng)絡(luò)爬蟲抓取微博數(shù)據(jù)通常指的是通過HTTP協(xié)議發(fā)送請(qǐng)求到服務(wù)器,分析返回的網(wǎng)頁,并提取相應(yīng)的微博數(shù)據(jù)[8]。
這種方法幾乎適用于任何微博數(shù)據(jù)的獲取,與官方API的數(shù)據(jù)采集不同,它不受微博運(yùn)營(yíng)商權(quán)限的限制。
(3) 開放的數(shù)據(jù)集。
隨著web2.0的發(fā)展,信息披露和資源共享變得越來越重要。越來越多的學(xué)者將語言庫和數(shù)據(jù)集開放到不同的開放程度以供開發(fā)和使用。利用已有的數(shù)據(jù)集,避免了預(yù)處理過程,提高了研究效率[9]。
目前,在微博數(shù)據(jù)的應(yīng)用研究中,首先采用的是數(shù)據(jù)采集的方法。這些數(shù)據(jù)采集方法基本上滿足了研究人員的需要,但也存在一些差異。
根據(jù)引擎開發(fā)的目的,選擇研發(fā)適用范圍內(nèi)的數(shù)據(jù)集至關(guān)重要。在之前的微博數(shù)據(jù)選擇范圍研究中,研究人員一般選擇以下兩種數(shù)據(jù)選擇方法。
(1) 指定主題或者用戶
當(dāng)研究人員利用微博中的數(shù)據(jù)進(jìn)行社會(huì)現(xiàn)象分析或用戶行為分析等相關(guān)研究時(shí),他們通常會(huì)在指定的主題或用戶中選擇數(shù)據(jù)[10]。根據(jù)研究的需要,研究人員通常使用規(guī)定的時(shí)間段來限制數(shù)據(jù)量。在數(shù)據(jù)選擇的過程中,也存在隨機(jī)選擇過程[ 11 ]。
(2) 隨機(jī)獲取用戶數(shù)據(jù)
在理論和實(shí)踐研究方面,當(dāng)研究者需要研究微博的結(jié)構(gòu)特點(diǎn)、拓?fù)浣Y(jié)構(gòu)、性能評(píng)價(jià)及其應(yīng)用時(shí),通常采用隨機(jī)訪問用戶數(shù)據(jù)的方式。隨機(jī)獲取用戶數(shù)據(jù)和信息的方法可以掌握微博用戶群的全部數(shù)據(jù)。它可以得到更準(zhǔn)確、更全面的結(jié)果,也更有利于微博自身的發(fā)展和發(fā)展。
在數(shù)據(jù)分析階段中,主要工作是對(duì)微博數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行特征提取和分析。一般采用社會(huì)網(wǎng)絡(luò)分析、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘等方法。
(1) 社會(huì)網(wǎng)絡(luò)分析方法。
社會(huì)網(wǎng)絡(luò)分析方法主要是利用網(wǎng)絡(luò)拓?fù)鋱D來反映社會(huì)結(jié)構(gòu)之間的關(guān)系和屬性。這種方法能夠從大局上把握微博的整體特征和用戶之間交互情況。通過分析以往的研究成果,也證實(shí)了社會(huì)網(wǎng)絡(luò)分析方法在微博中的應(yīng)用是可行的、相對(duì)成熟的[12]。
(2) 數(shù)理統(tǒng)計(jì)方法
數(shù)理統(tǒng)計(jì)方法在社會(huì)科學(xué)相關(guān)的科學(xué)研究中比較常用,是一種定量分析方法。該方法通過用戶的基本信息數(shù)據(jù)和經(jīng)常使用的數(shù)據(jù),利用統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)中的某些參數(shù)或者參數(shù)間的關(guān)系進(jìn)行統(tǒng)計(jì)和分析。通過分析和研究得出整體數(shù)據(jù)的分布特征[13]。
(3) 數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘是采用智能自動(dòng)或半自動(dòng)的,采用相關(guān)分析、聚類分析、分類、預(yù)測(cè)、時(shí)間序列模型和誤差分析,分析大量的數(shù)據(jù),做出歸納性的推理,趨勢(shì)和相關(guān)資料,挖掘隱含的、先前未知的、潛在的信息價(jià)值。
微博是一個(gè)信息分享、傳播的平臺(tái),這種分享和傳播是通過相互關(guān)注的人之間進(jìn)行的。用戶可以通過WEB、WAP(手機(jī)客戶端)和各種客戶端建立個(gè)人的交往圈子。微博具有短文本性、終端擴(kuò)展性、即時(shí)性、“裂變型”、信息傳遞性等特點(diǎn)[ 14 ]。
傳統(tǒng)博客(blog)不限制用戶發(fā)文的篇幅,而微博將用戶的發(fā)文限制在140個(gè)字符以內(nèi)。
因?yàn)槲⒉┢脚_(tái)具有開放性,因此,用戶可以通過web、wap等多種方式輕松使用微博。根據(jù)美國(guó)互聯(lián)網(wǎng)統(tǒng)計(jì)公司統(tǒng)計(jì)分析,與2011年相比,2012年的移動(dòng)推特用戶數(shù)量增加了約101%。目前,它已成為增長(zhǎng)最快的社交網(wǎng)絡(luò)應(yīng)用[ 15 ]。
微博具有及時(shí)性,主要表現(xiàn)是內(nèi)容發(fā)布的即時(shí)性和信息傳播的即時(shí)性。由于微博的及時(shí)性及短端擴(kuò)展性,用戶可以通過網(wǎng)絡(luò)隨時(shí)隨地快速發(fā)布微博。微博的及時(shí)性徹底改變了信息傳播的模式,使信息傳播平臺(tái)變得更加強(qiáng)大[ 16 ]。
此外,當(dāng)微博用戶的好友在主頁上更新消息時(shí),系統(tǒng)會(huì)自動(dòng)在用戶主頁上完成信息的更新,并將其推送到微博好友的主頁上。這一步驟幾乎是同時(shí)完成的,這樣就進(jìn)一步增強(qiáng)了微博信息的即時(shí)性。
微博的轉(zhuǎn)發(fā)功能,使信息不受限制地轉(zhuǎn)發(fā)。信息傳遞的范圍是“核裂變”、公式的幾何級(jí)數(shù)展開、微博的主動(dòng)推送功能,信息迅速傳播給廣大用戶。
智能數(shù)據(jù)挖掘引擎由五個(gè)功能單元組成:核心算法模塊、智能選擇模塊、輸入輸出模塊、元知識(shí)庫和中央控制模塊。組成結(jié)構(gòu),如圖2所示。
圖2 智能數(shù)據(jù)挖掘引擎組成結(jié)構(gòu)
(1) 核心算法模塊
核心算法模塊完成了數(shù)據(jù)挖掘引擎最基本的處理功能,是引擎中最重要的部分。核心算法模塊主要由關(guān)聯(lián)規(guī)則算法、基于內(nèi)存的推理算法(MBR)和基于實(shí)例的推理算法(CBR)組成。
(2) 智能選擇模塊
智能選擇模塊根據(jù)用戶數(shù)據(jù)挖掘的特點(diǎn)和信息提取的方式,決定合適的數(shù)據(jù)挖掘算法和數(shù)據(jù)挖掘,以達(dá)到最佳的挖掘效果。智能選擇模塊是數(shù)據(jù)挖掘引擎的核心智能模塊,它直接決定了數(shù)據(jù)挖掘引擎的效率。
(3) 輸入輸出模塊
輸入輸出模塊負(fù)責(zé)從數(shù)據(jù)挖掘市場(chǎng)(數(shù)據(jù)源)和信息柜中從數(shù)據(jù)挖掘系統(tǒng)控制器中輸入數(shù)據(jù)。數(shù)據(jù)通過中央控制模塊提交給智能選擇模塊。同時(shí),輸入輸出模塊還負(fù)責(zé)向數(shù)據(jù)挖掘系統(tǒng)控制器提交數(shù)據(jù)挖掘引擎核心算法模塊的處理結(jié)果。
(4) 中央控制模塊
中央控制模塊是數(shù)據(jù)挖掘引擎的核心控制單元,負(fù)責(zé)整個(gè)引擎的各個(gè)模塊的協(xié)調(diào)和控制。通過控制引擎的輸入輸出模塊,控制引擎與整個(gè)數(shù)據(jù)挖掘系統(tǒng)之間的相互作用,實(shí)現(xiàn)引擎的完整性和獨(dú)立性。
(5) 元知識(shí)庫
元知識(shí)庫主要存儲(chǔ)數(shù)據(jù)挖掘引擎構(gòu)建和工作過程的知識(shí)、核心算法模塊算法和智能選擇模塊,中央控制模塊負(fù)責(zé)對(duì)數(shù)據(jù)挖掘引擎進(jìn)行更新和控制。元知識(shí)庫是實(shí)現(xiàn)數(shù)據(jù)挖掘引擎智能化的基本單元。
(1) 數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘算法是整個(gè)數(shù)據(jù)挖掘引擎的核心。不同的挖掘算法有不同的應(yīng)用領(lǐng)域和特點(diǎn),這就要求數(shù)據(jù)挖掘引擎在數(shù)據(jù)挖掘時(shí)必須有多種算法供用戶選擇。
(2) 智能選擇控制技術(shù)
智能選擇控制技術(shù)是實(shí)現(xiàn)數(shù)據(jù)挖掘引擎通用性的關(guān)鍵技術(shù)。基于元數(shù)據(jù)庫的推理機(jī)制實(shí)現(xiàn)了引擎的智能選擇。
(3) 元知識(shí)庫
利用元知識(shí)庫對(duì)數(shù)據(jù)挖掘算法、智能選擇模塊、中央控制模塊和引擎工作控制過程中的知識(shí)信息進(jìn)行存儲(chǔ)和管理。元知識(shí)庫中知識(shí)的存儲(chǔ)和管理對(duì)整個(gè)引擎的性能至關(guān)重要。
這個(gè)過程包括設(shè)置狀態(tài)參數(shù)、數(shù)據(jù)和用戶需求預(yù)處理、加載元素知識(shí)庫和一些模塊的初始化等。
(1) 導(dǎo)入數(shù)據(jù)挖掘引擎的狀態(tài)參數(shù)配置文件,設(shè)置引擎的狀態(tài);狀態(tài)參數(shù)配置文件是一個(gè)文本文件,用于描述引擎的默認(rèn)參數(shù)。
(2) 收集數(shù)據(jù)的特征信息和用戶的請(qǐng)求信息。
(3) 加載元知識(shí)庫知識(shí)。
(4) 將相關(guān)參數(shù)和元知識(shí)傳遞給相應(yīng)的功能模塊。
(5) 初始化中央控制模塊。
(6) 初始化智能選擇模塊。
最后,在中央控制模塊的控制下,智能模塊選擇合適的數(shù)據(jù)挖掘算法模塊,根據(jù)元數(shù)據(jù)庫提供的元知識(shí)、數(shù)據(jù)特征信息和用戶需求進(jìn)行數(shù)據(jù)挖掘。
將人工智能運(yùn)用到搜索引擎中,可以幫助用戶更加便捷、更加準(zhǔn)確的搜索到需要的信息。因此,人工智能推理引擎將是未來發(fā)展的趨勢(shì)。本文可以得出以下結(jié)論:
(1) 搜索引擎工作方式不同,微博數(shù)據(jù)體量龐大,人工智能推理引擎可以收集用戶的關(guān)鍵詞和使用習(xí)慣,即時(shí)向用戶推送需要的信息、功能和使用方法。
(2) 人工智能搜索引擎的實(shí)現(xiàn)需要設(shè)計(jì)智能數(shù)據(jù)挖掘引擎系統(tǒng)。智能數(shù)據(jù)挖掘引擎由五個(gè)功能單元組成:核心算法模塊、智能選擇模塊、輸入輸出模塊、元知識(shí)庫以及中央控制模塊等。
(3) 數(shù)據(jù)挖掘算法是人工智能推理引擎的基石。挖掘算法是否具有先進(jìn)性和高效性,直接決定了數(shù)據(jù)挖掘引擎的性能。