張陽 王貽欣 張楊 陳強(qiáng) 蔡鉞
(國網(wǎng)浙江蒼南縣供電有限責(zé)任公司 浙江省溫州市 325000)
云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)應(yīng)用等的多方應(yīng)用標(biāo)志著大數(shù)據(jù)時(shí)代已到來,基于大云物移智技術(shù)實(shí)現(xiàn)了人機(jī)互聯(lián)互通。大數(shù)據(jù)按照數(shù)據(jù)結(jié)構(gòu)可分為結(jié)構(gòu)化大數(shù)據(jù)與非結(jié)構(gòu)化大數(shù)據(jù),由于非結(jié)構(gòu)化大數(shù)據(jù)挖掘處理難度相對(duì)較大,因此,對(duì)非結(jié)構(gòu)化大數(shù)據(jù)的挖掘分析已經(jīng)成為了當(dāng)前研究熱點(diǎn)。與此同時(shí),隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,自媒體行業(yè)的不斷崛起,政府或企業(yè)面對(duì)爆炸式信息的增長,如何基于海量網(wǎng)頁數(shù)據(jù),實(shí)現(xiàn)價(jià)值信息的篩選、整合、挖掘,成為一個(gè)當(dāng)前面臨的新難點(diǎn)。本課題是以今日頭條、微博、微信公眾號(hào)等新聞媒體文章以及相關(guān)評(píng)論等數(shù)據(jù)信息出發(fā),通過大數(shù)據(jù)挖掘分析算法,構(gòu)建大數(shù)據(jù)智能化語義分析系統(tǒng),用以輔助政府或企業(yè)優(yōu)化改善現(xiàn)有服務(wù)模式、服務(wù)流程和服務(wù)質(zhì)量,提升服務(wù)質(zhì)量和效率。
本文打破了傳統(tǒng)的服務(wù)優(yōu)化提升模型,創(chuàng)新基于爬蟲技術(shù)獲取多方數(shù)據(jù),所有數(shù)據(jù)都儲(chǔ)存于本地服務(wù)器,所有模型分析研究是于本地研發(fā),企業(yè)數(shù)據(jù)的安全性得到保障。采用分詞技術(shù)、知識(shí)圖譜、自動(dòng)問答等人工智能方法,構(gòu)建大數(shù)據(jù)智能語義分析系統(tǒng),讓政府或企業(yè)從多維度了解新政策、新事件、新技術(shù),了解公眾或消費(fèi)者意見,為政府或企業(yè)對(duì)服務(wù)模式、服務(wù)流程和服務(wù)質(zhì)量的優(yōu)化調(diào)整提供輔助決策。此外,從數(shù)據(jù)上看,除企業(yè)運(yùn)營數(shù)據(jù)外,大部分?jǐn)?shù)據(jù)來源于公共社交媒體網(wǎng)站,數(shù)據(jù)開源性較高,爬蟲技術(shù)、文本挖掘、知識(shí)譜圖等技術(shù)均較成熟,可應(yīng)用于各行各業(yè),因此,可推廣、可實(shí)施性較高。
隱馬爾可夫模型隸屬于馬爾可夫鏈,是一個(gè)雙重隨機(jī)過程。狀態(tài)需要通過向量序列進(jìn)行觀測,觀測向量的各種狀態(tài)需要概率密度分布予以表現(xiàn),是由具有相應(yīng)概率密度分布的狀態(tài)序列產(chǎn)生。隱馬爾可夫模型中包括:狀態(tài)集合、觀察序列、狀態(tài)轉(zhuǎn)移分布、狀態(tài)出現(xiàn)概率分布、初始狀態(tài)分布五元組。
其中:狀態(tài)合集由詞頭(F),詞中(M)、詞尾(E)、單字成詞(W)四種狀態(tài)構(gòu)成;觀測序列是一個(gè)狀態(tài)的有向序列;狀態(tài)轉(zhuǎn)移分布是狀態(tài)集合中各元素兩兩之間轉(zhuǎn)移的概率。狀態(tài)出現(xiàn)概率分布指每一種狀態(tài)所出現(xiàn)的概率值分布;初始狀態(tài)分布是指初始階段時(shí)狀態(tài)分布。
針對(duì)隱馬爾可夫模型中狀態(tài)轉(zhuǎn)移分布、狀態(tài)出現(xiàn)概率分布、初始狀態(tài)分布等參數(shù)求解問題,可采用機(jī)器學(xué)習(xí)方法對(duì)參數(shù)進(jìn)行求解,根據(jù)訓(xùn)練樣本是否存在標(biāo)記,機(jī)器學(xué)習(xí)通??梢詣澐譃楸O(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。
其中:監(jiān)督學(xué)習(xí)是指訓(xùn)練數(shù)據(jù)集已經(jīng)給出觀測序列及相應(yīng)的路徑序列,并基于統(tǒng)計(jì)分析法對(duì)各語句首字出現(xiàn)狀態(tài)進(jìn)行頻次分析,根據(jù)改字出現(xiàn)頻次與句子總數(shù)的商,記為該字的初始狀態(tài),通過不斷學(xué)習(xí)狀態(tài)轉(zhuǎn)移矩陣,實(shí)現(xiàn)語句分詞;無監(jiān)督學(xué)習(xí)是由于先驗(yàn)經(jīng)驗(yàn)缺乏導(dǎo)致人工標(biāo)注難度太大或成本較高,可根據(jù)無標(biāo)記的訓(xùn)練樣本集解決模式識(shí)別中的各種問題,本文采用維特比算法,基于動(dòng)態(tài)規(guī)劃算法挖掘出最優(yōu)路徑,實(shí)現(xiàn)語句分詞。
圖1:知識(shí)圖譜示意圖
圖2:scrapy 架構(gòu)
2012年,由谷歌公司提出知識(shí)圖譜概念,后續(xù)并成功應(yīng)用于搜索引擎中??赏ㄟ^知識(shí)種類、構(gòu)建方法等多種維度進(jìn)行劃分,分類方式較多,一般情況下,基于領(lǐng)域劃分可分為通用知識(shí)圖譜、特定領(lǐng)域知識(shí)圖譜兩種。常見的知識(shí)圖譜包括實(shí)體、概念、屬性三類節(jié)點(diǎn),其中:實(shí)體是指具有可區(qū)別性且獨(dú)立存在的某種事物(某個(gè)城市、某種商品、某類動(dòng)物等),是知識(shí)圖譜中的最基本元素;概念指的是具有同種特性的實(shí)體構(gòu)成的集合(國家、書籍、設(shè)備等);屬性則用于區(qū)分概念的特征,不同概念具有不同的屬性。
目前,知識(shí)圖譜已經(jīng)成為人工智能領(lǐng)域的重要技術(shù),在網(wǎng)頁搜索、NLP、電商、物流等不同領(lǐng)域發(fā)揮著極其重要的作用。知識(shí)圖譜的主要原理是通過將客觀世界中概念、實(shí)體及其之間的關(guān)系轉(zhuǎn)換成結(jié)構(gòu)化形式,使得能夠更加高效的組織、管理和理解海量信息,降低人類信息接受和認(rèn)知難度。
基于分布式爬蟲技術(shù)獲取今日頭條、微博、微信公眾號(hào)等新聞媒體文章以及相關(guān)評(píng)論等數(shù)據(jù),采用分詞、關(guān)鍵詞提取、文本摘要等自然語言處理算法對(duì)文本數(shù)據(jù)進(jìn)行挖掘,構(gòu)建知識(shí)圖譜,以此為基礎(chǔ)構(gòu)建大數(shù)據(jù)智能化語義分析系統(tǒng),讓政府或企業(yè)從多維度了解新政策、新事件、新技術(shù),了解公眾或消費(fèi)者意見,為政府或企業(yè)對(duì)服務(wù)模式、服務(wù)流程和服務(wù)質(zhì)量的優(yōu)化調(diào)整提供輔助決策。
采用 python 開發(fā)的 Scrapy 框架進(jìn)行開發(fā),使用 Xpath 技術(shù)對(duì)下載的網(wǎng)頁進(jìn)行提取解析,運(yùn)用 Redis 數(shù)據(jù)庫做分布式,使用MongoDb 數(shù)據(jù)庫做數(shù)據(jù)存儲(chǔ),利用 Django web 框架和 Semantic UI開源框架構(gòu)建管理系統(tǒng),最后使用Docker 對(duì)爬蟲程序進(jìn)行分布式部署。
通過分詞算法和新詞發(fā)現(xiàn)算法,提取同目標(biāo)主題相關(guān)聯(lián)的其他主題,通過關(guān)鍵詞提取算法提取出一個(gè)或多個(gè)文章語義內(nèi)容的詞匯或短語,通過文本向量化,結(jié)合聚類算法對(duì)文本或評(píng)論進(jìn)行聚類,對(duì)文本或評(píng)論進(jìn)行自動(dòng)梳理,歸納熱點(diǎn)文章或評(píng)論趨勢,把內(nèi)容相近的信息歸為一類,按照熱度進(jìn)行排名,并自動(dòng)為該類生成標(biāo)題和主題詞。通過文本摘要算法能夠?qū)崿F(xiàn)文本內(nèi)容的精簡提煉,從長篇文章中自動(dòng)提取關(guān)鍵句和關(guān)鍵段落,構(gòu)成摘要內(nèi)容,方便用戶快速瀏覽文本內(nèi)容,提高工作效率。通過情感分析,幫助政府或企業(yè)了解新聞媒體或用戶對(duì)某類政策或事件的正面與負(fù)面評(píng)論情況。
對(duì)關(guān)聯(lián)主題,文本聚類,關(guān)鍵詞提取等文本挖掘結(jié)果,結(jié)合文本自身屬性,基于neo4j 圖數(shù)據(jù)庫,構(gòu)建知識(shí)圖譜,為構(gòu)建智能語義分析系統(tǒng)打下基礎(chǔ)。如圖3。
其中:A、B、C 分別表示供電能力、可靠性、供電質(zhì)量三個(gè)一級(jí)指標(biāo)得分;rzb、fzl、gnl 分別表示容載比、負(fù)載率、供電能力利用率的評(píng)分?jǐn)?shù)值;yps、nhc 分別表示用戶平均停電時(shí)間、年戶均停電次數(shù)的評(píng)分?jǐn)?shù)值;ydh、pdh 分別表示用戶端電壓合格率、平均電壓合格率的評(píng)分?jǐn)?shù)值。
基于知識(shí)圖譜,根據(jù)主題、文章、評(píng)論等關(guān)聯(lián)度大小,挖掘相關(guān)熱點(diǎn)。根據(jù)搜索的關(guān)鍵詞,結(jié)合詞向量,自動(dòng)匹配詞向量相似度最高的主題,智能識(shí)別用戶意圖,以圖表、圖譜、詞云等方式輸出關(guān)聯(lián)主題、熱度趨勢、情感傾向等。
以電力企業(yè)為例,項(xiàng)目自開展以來,共爬取電力相關(guān)的新聞媒體、用戶評(píng)論等數(shù)據(jù)150GB,構(gòu)建內(nèi)含50000 余個(gè)詞的專有詞庫,結(jié)合文本挖掘技術(shù)形成了電力行業(yè)新聞媒體以及評(píng)論相關(guān)的知識(shí)圖譜,并以此構(gòu)建智能分析系統(tǒng),讓電力企業(yè)從多維度了解新政策、新事件、新技術(shù),了解公眾意見,為電力企業(yè)對(duì)服務(wù)模式、服務(wù)流程和服務(wù)質(zhì)量的優(yōu)化調(diào)整提供輔助決策。項(xiàng)目產(chǎn)生的效益主要體現(xiàn)于管理效益、社會(huì)效益。
大數(shù)據(jù)智能語義分析系統(tǒng)能夠從海量網(wǎng)頁數(shù)據(jù)中,挖掘行業(yè)熱點(diǎn),輸出用戶意見,分析媒體和用戶情感傾向等,打破了傳統(tǒng)的人工經(jīng)驗(yàn)式的服務(wù)管理模式,提升了企業(yè)管理效率,降低了企業(yè)管理成本。
圖3:構(gòu)建知識(shí)圖譜
傳統(tǒng)的服務(wù)改善策略的制定是基于相關(guān)問卷、電話回訪的反饋數(shù)據(jù),由于數(shù)據(jù)的局限性和采樣的偏態(tài)性,導(dǎo)致所制定的服務(wù)優(yōu)化方案與實(shí)際需求不匹配,僅能滿足部分受眾群體,大數(shù)據(jù)智能語義分析系統(tǒng)可以快速、高效獲取社會(huì)化數(shù)據(jù),涵蓋廣泛,快速響應(yīng)社會(huì)需求,彰顯企業(yè)社會(huì)形象。
本文以今日頭條、微博、微信公眾號(hào)等新聞媒體文章以及相關(guān)評(píng)論等數(shù)據(jù)信息出發(fā),基于分布式爬蟲技術(shù)獲取相應(yīng)數(shù)據(jù),采用分詞、關(guān)鍵詞提取、文本摘要等自然語言處理算法對(duì)文本數(shù)據(jù)進(jìn)行挖掘,構(gòu)建知識(shí)圖譜,以此為基礎(chǔ)構(gòu)建大數(shù)據(jù)智能化語義分析系統(tǒng),讓政府或企業(yè)從多維度了解新事件、新政策、了解公眾或消費(fèi)者意見,用以輔助政府或企業(yè)優(yōu)化改善現(xiàn)有服務(wù)模式、服務(wù)流程和服務(wù)質(zhì)量,提升服務(wù)質(zhì)量和效率。