楊悅
(中國(guó)電信股份有限公司北京分公司 北京市 100124)
隨著互聯(lián)網(wǎng)時(shí)代的來(lái)臨,無(wú)論是個(gè)人還是企業(yè),無(wú)論是日常還是辦公,均離不開(kāi)互聯(lián)網(wǎng)的應(yīng)用,因此系統(tǒng)數(shù)據(jù)量與往年相比也有了更大提升??v觀當(dāng)前大數(shù)據(jù)自動(dòng)分類處理系統(tǒng),通常都存在處理時(shí)間久且分類速度慢等現(xiàn)象,對(duì)此如果不及時(shí)將其改變并提升,那么已然無(wú)法滿足當(dāng)前現(xiàn)狀,如此也不利于數(shù)據(jù)自動(dòng)分類最終處理結(jié)果。因此基于云計(jì)算背景下大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)的設(shè)計(jì)與運(yùn)用,也成為當(dāng)下各界人士的重點(diǎn)研究?jī)?nèi)容。
在目前階段,我國(guó)通常通過(guò)運(yùn)用C/S模式與B/S模式以混合應(yīng)用的方式,來(lái)實(shí)現(xiàn)大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)。在這其中,具體也可細(xì)分為兩種方式來(lái)對(duì)數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn),其一是通過(guò)WEB服務(wù)器來(lái)對(duì)數(shù)據(jù)庫(kù)結(jié)構(gòu)進(jìn)行訪問(wèn),其二是通過(guò)服務(wù)器數(shù)據(jù)庫(kù)訪問(wèn)功能來(lái)進(jìn)行。對(duì)此需要相關(guān)工作人員特別注意的一點(diǎn)是,每個(gè)WEB服務(wù)器與應(yīng)用服務(wù)器之間都會(huì)擁有一個(gè)通道,此通道負(fù)責(zé)將數(shù)據(jù)進(jìn)行連接與轉(zhuǎn)移。通過(guò)該通道,能夠使各種功能通過(guò)轉(zhuǎn)移從而連接到應(yīng)用服務(wù)器當(dāng)中,這樣也就可以更大程度的將WEB服務(wù)器壓力降低,從而使整個(gè)系統(tǒng)的運(yùn)行速度得以提升。
基于對(duì)云計(jì)算背景下大數(shù)據(jù)自動(dòng)分類系統(tǒng)得以安全穩(wěn)定運(yùn)行,對(duì)此可以選擇Hadoop分布式計(jì)算平臺(tái),該平臺(tái)是建立在云計(jì)算背景基礎(chǔ)上的一種更具先進(jìn)性的運(yùn)行平臺(tái)。Hadoop使用分布式計(jì)算開(kāi)發(fā)平臺(tái),用戶可以對(duì)相關(guān)數(shù)據(jù)例如文本等自動(dòng)生成分類的預(yù)處理數(shù)據(jù)系統(tǒng)進(jìn)行設(shè)計(jì),并提供一個(gè)分布式系統(tǒng)軟件集成設(shè)計(jì)框架。對(duì)此,即便一些用戶并沒(méi)有對(duì)分布式計(jì)算底層系統(tǒng)擁有充分認(rèn)識(shí),也仍然可以充分運(yùn)用數(shù)據(jù)集群的高速運(yùn)算以及數(shù)據(jù)存儲(chǔ),對(duì)分布式應(yīng)用程序進(jìn)行發(fā)布。與此同時(shí),該平臺(tái)系統(tǒng)中的整個(gè)分布式文件系統(tǒng),由一個(gè)小型管理數(shù)據(jù)節(jié)點(diǎn)和至少n個(gè)大型數(shù)據(jù)管理節(jié)點(diǎn)共同整合組成,在每個(gè)管理節(jié)點(diǎn)上面均可同時(shí)布置一臺(tái)大型計(jì)算機(jī)。除此之外,存儲(chǔ)在一個(gè)hdfs文件中的多個(gè)文件通信可被細(xì)分為多個(gè)文件小塊,以此方式來(lái)充分滿足用戶對(duì)于創(chuàng)建不同文件的各種需求,而且任何hdfs內(nèi)部的文件通信都必須是基于國(guó)際標(biāo)準(zhǔn)的s/tcp/ip/i協(xié)議,可為文本自動(dòng)分類處理系統(tǒng)設(shè)計(jì)提供良好條件。
2.2.1 先進(jìn)性和可用性
在文本自動(dòng)分類處理系統(tǒng)設(shè)計(jì)中,要尋找現(xiàn)已成熟的B/S架構(gòu)、C/S架構(gòu)、JAVA語(yǔ)言,同時(shí)學(xué)習(xí)和借鑒目前比較成功的案例,從而保證系統(tǒng)具有良好的可用性。
2.2.2 標(biāo)準(zhǔn)型和共享性
在設(shè)計(jì)中需要嚴(yán)格遵循開(kāi)發(fā)標(biāo)準(zhǔn)流程,與此同時(shí),為了能夠更好提升跨平臺(tái)使用,需要按照標(biāo)準(zhǔn)接口設(shè)計(jì)跨平臺(tái)可互聯(lián)的接口,既要支持各種平臺(tái)使用,也要設(shè)置多種網(wǎng)絡(luò)傳輸協(xié)議,提升數(shù)據(jù)信息的共享效率。
2.2.3 開(kāi)放性和可拓展性
云計(jì)算本身具有開(kāi)放性強(qiáng)的特點(diǎn),因此任何時(shí)間、任何地點(diǎn)都可以使用。對(duì)此,這就需要大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)在設(shè)計(jì)中要充分考慮用戶在未來(lái)使用過(guò)程中的各種發(fā)展需求,從而保證系統(tǒng)具有良好的開(kāi)放性和擴(kuò)展性,以便用戶能夠更好使用。
關(guān)于云計(jì)算背景下大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)模塊安排,具體可以劃分為四大類(具體如圖1),其中每個(gè)模塊都有其相對(duì)應(yīng)的特點(diǎn),同時(shí)四個(gè)模塊之間也能相互進(jìn)行數(shù)據(jù)傳送。
通過(guò)圖1可以了解到,關(guān)于文本分類系統(tǒng),其中位于第一位的便是數(shù)據(jù)預(yù)處理模塊,該部分主要功能是為整個(gè)系統(tǒng)準(zhǔn)備所需要進(jìn)行分類的訓(xùn)練文檔,并將測(cè)試文檔也進(jìn)行分類。在數(shù)據(jù)預(yù)處理模塊中,也可以通過(guò)數(shù)據(jù)模擬層來(lái)獲取所需要的相關(guān)數(shù)據(jù),再對(duì)這些數(shù)據(jù)進(jìn)行全面分析,如此便可形成具有多種類型的非結(jié)構(gòu)性數(shù)據(jù),從而更加便于制作文本分類所需要用到的文本訓(xùn)練集以及測(cè)試集。
圖1:大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)模塊構(gòu)成
在文本分類系統(tǒng)當(dāng)中,最關(guān)鍵的便是文本特征集提取模塊,同時(shí)特征提取在文本分類中也具有重要意義,甚至能夠直接對(duì)后續(xù)分類系統(tǒng)的實(shí)際效果帶來(lái)影響。然而文本特征集提取模塊每次提取效果也并非一致,究其原因是由于特征不同,相對(duì)應(yīng)的提取計(jì)算方式也就會(huì)因此而發(fā)生改變,如此后續(xù)所提取效果也就會(huì)存在不同之處??v觀我國(guó)原有的提取算法,通常是將工作對(duì)象定義為結(jié)構(gòu)化文本,該種處理信息方式相對(duì)而言較為單一,同時(shí)非結(jié)構(gòu)化數(shù)據(jù)也并不能通過(guò)數(shù)字或者是統(tǒng)一結(jié)構(gòu)來(lái)進(jìn)行表示,所以對(duì)于非結(jié)構(gòu)化文本,原有的特征提取算法并不適用。對(duì)于這種情況,在對(duì)非結(jié)構(gòu)化文檔進(jìn)行提取時(shí),相關(guān)工作人員應(yīng)當(dāng)充分結(jié)合實(shí)際情況與特點(diǎn),從而設(shè)計(jì)出全新的文檔模型,從而將原有的文本特征提取算法進(jìn)行改變,結(jié)合該種現(xiàn)狀,最佳選擇方式便是運(yùn)用爬蟲(chóng)算法。
基于數(shù)據(jù)分類模塊,首先工作人員應(yīng)當(dāng)將非結(jié)構(gòu)化文本的基本特點(diǎn)進(jìn)行充分結(jié)合,并轉(zhuǎn)變?cè)械奈谋咎卣魈崛》绞?,如此可以最大程度確保文本特征提取更加真實(shí)準(zhǔn)確,從而在該基礎(chǔ)上建立一個(gè)與之相對(duì)應(yīng)的文本定向模型。與此同時(shí),由于文本特征訓(xùn)練在計(jì)算時(shí)規(guī)模較大,同時(shí)還需要工作人員花費(fèi)較長(zhǎng)時(shí)間,對(duì)于該種情況,最佳選擇方式便是選用分式計(jì)算方法,如此可以更大程度的節(jié)省時(shí)間,并將文本特征提取性能進(jìn)行有效改變,從而使文本能夠進(jìn)行科學(xué)分類。除此之外,為了便于工作人員有效判斷出文本集中分類情況以及分類結(jié)果,對(duì)此應(yīng)當(dāng)在訓(xùn)練文本集與測(cè)試文本集中進(jìn)行特征提取,從而獲得抽象文本定量模型,再在文本分類過(guò)程中進(jìn)行具體操作,如此便能有效對(duì)文本集實(shí)際情況進(jìn)行判斷。
在最后的分類結(jié)果分析模塊中,當(dāng)工作人員需要對(duì)分類結(jié)果精度進(jìn)行全面分析評(píng)估時(shí),應(yīng)當(dāng)充分結(jié)合文本質(zhì)量以及分類精度評(píng)價(jià)結(jié)果要求,如此便可以對(duì)相關(guān)參數(shù)進(jìn)行綜合計(jì)算,從而對(duì)文本分類結(jié)果進(jìn)行分析評(píng)估。在該過(guò)程中,如果發(fā)現(xiàn)其中存在問(wèn)題,那么工作人員也可以在第一時(shí)間對(duì)其展開(kāi)針對(duì)性處理,如此便可以有效將系統(tǒng)進(jìn)行優(yōu)化。
大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)及其硬件是將現(xiàn)代云計(jì)算技術(shù)作為硬件基礎(chǔ)所進(jìn)行設(shè)計(jì)的,能夠?qū)崟r(shí)提供數(shù)據(jù)資源管理動(dòng)態(tài)式的資源擴(kuò)展使用方式,以便于使用開(kāi)發(fā)人員根據(jù)需求對(duì)所使用的大數(shù)據(jù)自動(dòng)實(shí)現(xiàn)分布式資源配置。除此之外,還可以將新的soa組件數(shù)據(jù)模型管理體系設(shè)計(jì)作為硬件基礎(chǔ),從而大大提高其與云計(jì)算的可兼容性,如此大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)穩(wěn)定性也能因此而得到提升(具體如圖2)。
圖2:大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)硬件設(shè)計(jì)結(jié)構(gòu)
4.1.1 數(shù)據(jù)采集器
在設(shè)計(jì)數(shù)據(jù)自動(dòng)采集器的應(yīng)用過(guò)程中,主要指的是利用鈦網(wǎng)數(shù)據(jù)管制處理芯片和鈦網(wǎng)單片機(jī),并利用云計(jì)算網(wǎng)絡(luò)接口,將所收集到的數(shù)據(jù)通過(guò)多臺(tái)大數(shù)據(jù)自動(dòng)采集處理器進(jìn)行傳輸。數(shù)據(jù)采集器工作電源通常為5V直流電壓,通過(guò)一個(gè)單片機(jī)引腳連接到每個(gè)單片機(jī)上方電壓電流調(diào)節(jié)器中心來(lái)進(jìn)行數(shù)據(jù)傳輸,以此方式能夠?yàn)槊總€(gè)單片機(jī)上方工作電路提供3V直流電壓。之后,使用在單片機(jī)上方3V直流電壓信號(hào),并利用引腳進(jìn)行傳輸,輸入到其他電路剩余的3V穩(wěn)壓電源電路器件中。云計(jì)算技術(shù)背景下的虛擬網(wǎng)絡(luò)數(shù)據(jù)信號(hào)采集電路需要進(jìn)行結(jié)構(gòu)調(diào)整,利用一個(gè)p25引腳直接傳輸數(shù)據(jù)到虛擬單片機(jī)上方一個(gè)a/d信號(hào)轉(zhuǎn)換器中,并充分利用這個(gè)轉(zhuǎn)換器引腳,使虛擬網(wǎng)絡(luò)數(shù)據(jù)信號(hào)朝著虛擬數(shù)據(jù)方向轉(zhuǎn)換,以此有效收集基于云計(jì)算的網(wǎng)絡(luò)大數(shù)據(jù)。
4.1.2 數(shù)據(jù)處理器
在云計(jì)算背景下大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)當(dāng)中,數(shù)據(jù)處理器自身功能便是實(shí)現(xiàn)收集大數(shù)據(jù)的處理。對(duì)此,也可以利用控制處理器處理所收集到的相關(guān)數(shù)據(jù),在這個(gè)過(guò)程當(dāng)中,相關(guān)設(shè)計(jì)人員可以對(duì)其展開(kāi)相應(yīng)編程工作,同時(shí)也可以通過(guò)編程來(lái)實(shí)現(xiàn)處理器工作模式。
4.1.3 數(shù)據(jù)自動(dòng)存儲(chǔ)模塊
使用soc8051fla系列的單片式主機(jī)可以存儲(chǔ)海量數(shù)據(jù),其芯片完全支持混合式和soc兩個(gè)芯片,內(nèi)置soflash三種存儲(chǔ)處理程序的芯片存儲(chǔ)數(shù)據(jù)空間也相對(duì)較大。圖2為整個(gè)單片機(jī)和電路at45db80硬件引腳工作的基本原理,通過(guò)圖2可以了解到單片機(jī)電路中的每個(gè)p0.2、p0.3、p0.4引腳,都是使用aomosi音頻信號(hào)作為主線,所有的信號(hào)主線都和整個(gè)單片控主機(jī)中的硬件引腳進(jìn)行總線串聯(lián),并且同時(shí)輸出音頻信號(hào)。與此同時(shí),還需在引腳前端連接一個(gè)at45db80硬件控制芯片,并且進(jìn)行復(fù)位,而c8051f-1系列移動(dòng)單片機(jī)通常使用存儲(chǔ)器自動(dòng)開(kāi)啟串行數(shù)據(jù),并自動(dòng)進(jìn)行存儲(chǔ)。對(duì)此,其工作流程一般為:首先清除一個(gè)串行中的外設(shè)硬件接口如圖表示,之后對(duì)應(yīng)的數(shù)據(jù)自動(dòng)輸入存儲(chǔ)器中,實(shí)現(xiàn)一個(gè)字節(jié)串的輸入,假如檢測(cè)到的串行外設(shè)硬件接口通過(guò)一個(gè)at45db80硬件接口構(gòu)成,那么就可以一次全部輸入存儲(chǔ)整個(gè)數(shù)據(jù)。
4.2.1 顯示端設(shè)計(jì)
顯示端能夠?qū)崟r(shí)獲得網(wǎng)絡(luò)應(yīng)用大數(shù)據(jù),并顯示網(wǎng)絡(luò)大數(shù)據(jù)和網(wǎng)絡(luò)特征信息分類的應(yīng)用結(jié)果,對(duì)于不同網(wǎng)絡(luò)上的大數(shù)據(jù)分析平臺(tái),顯示數(shù)據(jù)端口的工作處理流程也各不相同,那么就要以實(shí)際工作情況來(lái)實(shí)現(xiàn)數(shù)據(jù)分析。與此同時(shí),顯示端口器能夠?yàn)楸姸嗑W(wǎng)絡(luò)用戶提供簡(jiǎn)單的交互管理頁(yè)面,方便其進(jìn)行操作或是系統(tǒng)管理,還可以根據(jù)網(wǎng)絡(luò)相應(yīng)的平臺(tái)分類分析標(biāo)準(zhǔn),并利用各種圖形、文字及聲音視頻等多種方式對(duì)其進(jìn)行統(tǒng)計(jì)展現(xiàn)?;诮K端網(wǎng)絡(luò)的平臺(tái)個(gè)性化對(duì)終端網(wǎng)絡(luò)管理大數(shù)據(jù)的具體工作流程進(jìn)行優(yōu)化定制,能夠使終端網(wǎng)絡(luò)大數(shù)據(jù)系統(tǒng)可以實(shí)時(shí)傳輸數(shù)據(jù)到平臺(tái)服務(wù)端中。
4.2.2 服務(wù)端設(shè)計(jì)
對(duì)于云計(jì)算背景下大數(shù)據(jù)自動(dòng)分類處理系統(tǒng)中的服務(wù)端設(shè)計(jì)方面,可以利用SOA服務(wù)體系數(shù)據(jù)結(jié)構(gòu),提供大數(shù)據(jù)服務(wù)平臺(tái)上的特征類型數(shù)據(jù)處理分類解析服務(wù),并且在平臺(tái)中同時(shí)融入多種特征類型數(shù)據(jù)解析分類技術(shù)標(biāo)準(zhǔn)。圖3為系統(tǒng)SOA平臺(tái)對(duì)外網(wǎng)絡(luò)接口的基本結(jié)構(gòu),通過(guò)分析圖3可以了解到,SOA對(duì)外接口為平臺(tái)中立,并且還具有大數(shù)據(jù)采集分類器與系統(tǒng)平臺(tái)硬件及其可編程系統(tǒng)軟件相互獨(dú)立特性,從而充分利用相同工作流程,可以有效實(shí)現(xiàn)平臺(tái)服務(wù)端及網(wǎng)絡(luò)層與大數(shù)據(jù)之間的交互,如此也可有效降低系統(tǒng)資源的使用率,使平臺(tái)系統(tǒng)運(yùn)行穩(wěn)定性性能得到進(jìn)一步提高。
圖3:SOA平臺(tái)對(duì)外網(wǎng)絡(luò)接口的基本結(jié)構(gòu)
4.2.3 特征數(shù)據(jù)分類端
特征數(shù)據(jù)分類端的主要工作目的就是釋放人工特征操作,以分類邏輯數(shù)據(jù)層次和處理端數(shù)據(jù)中的大數(shù)據(jù)作為特征,通過(guò)數(shù)據(jù)分類器自動(dòng)識(shí)別分類具有特征端的數(shù)據(jù)。在系統(tǒng)對(duì)特征向量數(shù)據(jù)進(jìn)行采集分類管理時(shí),相關(guān)工作人員對(duì)此需要使用與之相匹配的全新設(shè)備,因?yàn)樵摲N設(shè)備與傳統(tǒng)設(shè)備相比較,其不僅計(jì)算速度快,同時(shí)運(yùn)算效率高,如此也能大幅度提升工作人員工作效。與此同時(shí),對(duì)于網(wǎng)絡(luò)對(duì)大數(shù)據(jù)的采集也不用擔(dān)心會(huì)受到限制,如此便可對(duì)網(wǎng)絡(luò)大數(shù)據(jù)管理平臺(tái)下的特征向量數(shù)據(jù),在采集分類管理系統(tǒng)中的工作管理流程進(jìn)行簡(jiǎn)化,使系統(tǒng)資源池的占用率可以得到明顯降低。
綜上所述,通過(guò)云計(jì)算方式來(lái)實(shí)現(xiàn)大數(shù)據(jù)自動(dòng)分類處理系統(tǒng),不僅可以充分改善原有的資源消耗狀況,同時(shí)還能使其長(zhǎng)久穩(wěn)定運(yùn)行。除此之外,通過(guò)使用大數(shù)據(jù)自動(dòng)分類處理系統(tǒng),也能更加提升數(shù)據(jù)自動(dòng)分類的精準(zhǔn)度,并且有效提高分類速度,對(duì)于成本方面也能有效減少。如此在保障數(shù)據(jù)信息的同時(shí),也能使數(shù)據(jù)自身價(jià)值發(fā)揮到位。