李滕飛 孫東 王平
【摘要】隨著計(jì)算機(jī),互聯(lián)網(wǎng)的日益普及,大數(shù)據(jù)技術(shù)的迅速發(fā)展,因特網(wǎng)用戶量和信息量的快速增長。用戶對于多渠道的廣泛的信息的需求也是日益增長的,用戶希望在各行各業(yè)中得到大數(shù)據(jù)技術(shù)的應(yīng)用,通過大數(shù)據(jù)平臺機(jī)器學(xué)習(xí)搜索實(shí)現(xiàn)文章在線生成,實(shí)現(xiàn)與社會實(shí)踐相結(jié)合,了解社會大眾人口的需求,為其定制合理的在線文章生成的軟件。在線生成文章可實(shí)現(xiàn)各種文章的模擬,可以涉及到各個(gè)行業(yè)應(yīng)用。通過Spark特征提取,只要輸入標(biāo)題或關(guān)鍵字就可以生成符合用戶需求的文章。
【關(guān)鍵詞】大數(shù)據(jù)技術(shù) ?Spark數(shù)據(jù)庫 ?在線生成文章
引言:Spark是我們項(xiàng)目決定選用的計(jì)算框架,因?yàn)槠浒嗽诖髷?shù)據(jù)技術(shù)中的各種各樣的計(jì)算框架。比如我們的機(jī)器學(xué)習(xí)就是應(yīng)用到了Spark Mllid,圖計(jì)算應(yīng)用到了Spark?GraphX。對于項(xiàng)目研究我們也是選用了Spark+Hadoop的組合,它是大數(shù)據(jù)領(lǐng)域最熱門的組合之一,同時(shí)也是最有前景發(fā)展的組合,因此我們項(xiàng)目組決定采用spark基本框架實(shí)現(xiàn)在線生成文章APP的研究。(Spark主要用于大數(shù)據(jù)計(jì)算,Hadoop用于大數(shù)據(jù)的儲存)。
一、項(xiàng)目實(shí)施的背景和目的
在項(xiàng)目之初我們進(jìn)行了社會調(diào)研,走向大眾,通過調(diào)查問卷和隨機(jī)采訪的形式了解大眾對所研發(fā)的在線生成文章的APP的需求,分析調(diào)查問卷,以學(xué)生群體為例:幾乎100%的學(xué)生承認(rèn)寫作是自己的弱項(xiàng)91.4%的學(xué)生同意或非常同意在線生成文章對他們提高寫作會有所幫助。在這其中,有74.3%的學(xué)生同意或非常同意數(shù)字化該平臺能幫助自己利用碎片化時(shí)間學(xué)習(xí),為自己提供了有價(jià)值的資源和信息,而擁有一個(gè)文章平臺可以有效調(diào)動(dòng)了自己的寫作積極性,降低了寫作焦慮感。
通過大數(shù)據(jù)的數(shù)據(jù)庫儲存的各類文章,通過機(jī)器學(xué)習(xí)來進(jìn)行關(guān)鍵詞的整合分類以達(dá)到項(xiàng)目要求的創(chuàng)作的文章,通過大數(shù)據(jù)技術(shù)快速的特點(diǎn)和可變性,在滿足數(shù)據(jù)質(zhì)量的同時(shí)能夠提供多渠道的大量的數(shù)據(jù)來進(jìn)行應(yīng)用和實(shí)踐,通過低成本的大數(shù)據(jù)技術(shù)完成高品質(zhì)文章的生成,同時(shí)開發(fā)者通過學(xué)習(xí)機(jī)器學(xué)習(xí)能夠更多的去研究探討計(jì)算機(jī)對于人類發(fā)展的便捷應(yīng)用,通過這個(gè)項(xiàng)目使需要新文章新思路等需求人們獲得便捷和多樣的選擇,更好的便民利民。
二、項(xiàng)目研究內(nèi)容
開發(fā)并學(xué)習(xí)使用spark計(jì)算。Spark是屬于基于內(nèi)存計(jì)算,在提升數(shù)據(jù)處理的實(shí)時(shí)性的同時(shí)也確保了它的高容錯(cuò)性和高可伸縮性,而hadoop就像是一個(gè)大腦和一個(gè)口袋這兩個(gè)元素構(gòu)成的一個(gè)集合,其中大腦負(fù)責(zé)計(jì)算數(shù)據(jù),而口袋則負(fù)責(zé)存儲數(shù)據(jù)。spark就像是許多更聰明的大腦組成的集合可以計(jì)算存儲在hadoop里面的數(shù)據(jù),通過快速的計(jì)算來達(dá)到數(shù)據(jù)的實(shí)時(shí)應(yīng)用,完成各種進(jìn)程,滿足不同需求的計(jì)算,進(jìn)行輸出。Spark兼容多種語言:例如Java、Scala、Python、R和SQL等。執(zhí)行機(jī)器學(xué)習(xí),構(gòu)建數(shù)據(jù)的搜索框架。
三、項(xiàng)目的設(shè)計(jì)與實(shí)現(xiàn)
(一)架構(gòu)設(shè)計(jì)
用戶通過需求輸入關(guān)鍵詞后系統(tǒng)后臺在云數(shù)據(jù)庫中進(jìn)行搜索分析和整理,最后整合排版多渠道數(shù)據(jù)后呈現(xiàn)在服務(wù)器終端的用戶頁面上。
架構(gòu)設(shè)計(jì)圖
(二)設(shè)計(jì)需求
研究需要性能較強(qiáng)的具備獨(dú)立顯卡和運(yùn)行內(nèi)存較高的計(jì)算機(jī)以及相關(guān)輸入設(shè)備;需要應(yīng)用到的軟件開發(fā)環(huán)境,能夠支持多臺計(jì)算機(jī)和路由器組成的局域網(wǎng)絡(luò),多臺能夠連接到互聯(lián)網(wǎng)絡(luò)用于資料查詢的計(jì)算機(jī)以及其他各種相關(guān)技術(shù)資料的獲取方式的硬件條件。
項(xiàng)目思路:
(1)創(chuàng)建基礎(chǔ)數(shù)據(jù)庫:數(shù)據(jù)可以存放在數(shù)據(jù)庫中,這其中保存的是我們搜集的各種類型的文章素材。
(2)創(chuàng)建新表和序列:滿足需求設(shè)計(jì)。
(3)創(chuàng)建索引和視圖:方便查詢搜索和辨識。
(4)實(shí)現(xiàn)數(shù)據(jù)篩選和記錄:實(shí)現(xiàn)功能,滿足用戶需求。
四、結(jié)語
本項(xiàng)目利用Spark大數(shù)據(jù)技術(shù)領(lǐng)域最熱門的組合,也是最有前景的組合,為項(xiàng)目走向社會大眾,解決大眾對生成文章的需求。
參考文獻(xiàn):
[1]〔英〕維克托·邁爾·舍恩伯格(Viktor Mayer-Sch nberger).大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革.浙江人民出版社.
[2]周濤.為數(shù)據(jù)而生——大數(shù)據(jù)創(chuàng)新實(shí)踐.北京聯(lián)合出版公司.
基金項(xiàng)目:吉林建筑大學(xué)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目,項(xiàng)目編號:201910191115。