• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向智能化軟件開發(fā)的開源生態(tài)大數(shù)據(jù)探析

      2021-02-11 06:15:34程平遠(yuǎn)
      無線互聯(lián)科技 2021年24期
      關(guān)鍵詞:爬蟲開源圖譜

      王 崢,程平遠(yuǎn)

      (南陽(yáng)職業(yè)學(xué)院,河南 南陽(yáng) 474500)

      1 軟件工程開源生態(tài)大數(shù)據(jù)概述

      1.1 軟件工程開源生態(tài)的大數(shù)據(jù)體系

      通常情況下可將軟件社區(qū)分為兩大部分,即開發(fā)社區(qū)和應(yīng)用社區(qū),與軟件工程相關(guān)的內(nèi)容都可以被涵蓋其中。而軟件工程的主體部分可以是多種文本形式的,也就具有更為豐富的語義。在構(gòu)建軟件工程開源生態(tài)的大數(shù)據(jù)體系時(shí),一定要充分考慮到開發(fā)的具體環(huán)節(jié)、軟件的鏡像和應(yīng)用、開發(fā)制品、問題咨詢以及應(yīng)用過程等因素,并且能夠覆蓋GitHub,Docker Hub和Apache等多種類型的主流開源社區(qū),使相關(guān)人員對(duì)軟件工程進(jìn)行實(shí)驗(yàn)和研究工作時(shí),能夠以此為依據(jù)從全局的角度去考慮各類問題。在所構(gòu)建的軟件工程開源生態(tài)的大數(shù)據(jù)體系中,主要總結(jié)并概括了3種數(shù)據(jù)的具體類型:開發(fā)數(shù)據(jù)、應(yīng)用數(shù)據(jù)和交付數(shù)據(jù)。

      1.2 軟件工程開源生態(tài)大數(shù)據(jù)的采集處理框架

      研究中所構(gòu)建的大數(shù)據(jù)采集處理框架具有模式多樣以及增量式的顯著優(yōu)勢(shì),而對(duì)于各種類型的軟件數(shù)據(jù)都能夠高效地完成收集、分析、處理和整合等工作。在研究中主要以定向采集、有效感知、增量檢測(cè)和多元關(guān)聯(lián)等先進(jìn)技術(shù)為基礎(chǔ),有針對(duì)性地設(shè)置了分布式爬蟲,可以直接下載相應(yīng)的數(shù)據(jù)包,并且也能夠獲取到局域應(yīng)用程序接口和網(wǎng)頁(yè)爬蟲的相關(guān)信息數(shù)據(jù)。在下載數(shù)據(jù)包時(shí),很多軟件社區(qū)不僅會(huì)壓縮并且保存以往獲得的歷史數(shù)據(jù),還會(huì)將數(shù)據(jù)存儲(chǔ)的地址提供給軟件工程的開發(fā)者;而針對(duì)網(wǎng)頁(yè)爬蟲中存在的信息數(shù)據(jù),開發(fā)者應(yīng)先針對(duì)具體的格式和實(shí)際特點(diǎn)進(jìn)行深入研究,在充分考慮到網(wǎng)頁(yè)爬蟲常用的匹配方式的基礎(chǔ)上獲取數(shù)據(jù)信息。在實(shí)際工作中,經(jīng)常會(huì)遇到重復(fù)爬行和效率偏低的問題,通常所采用的處理方式是應(yīng)用分布式的網(wǎng)絡(luò)爬蟲技術(shù),并行處理相關(guān)的信息數(shù)據(jù)從而提升工作中的實(shí)際爬取效率(見圖1)。

      圖1 軟件工程開源生態(tài)大數(shù)據(jù)的采集處理框架

      1.3 軟件工程開源生態(tài)大數(shù)據(jù)的匯聚及共享

      軟件工程的開源生態(tài)大數(shù)據(jù)還具有多樣化、大規(guī)模以及較強(qiáng)異構(gòu)性的特點(diǎn)。為了構(gòu)建一個(gè)更為全面并且科學(xué)的軟件工程大數(shù)據(jù)的匯聚和共享平臺(tái),在實(shí)際工作中應(yīng)嚴(yán)格遵循以實(shí)際需求獲取、開放共享、平臺(tái)匯聚以及分類存儲(chǔ)的原則。在這種模式下,一般情況下都建議采用非結(jié)構(gòu)化存儲(chǔ)和結(jié)構(gòu)化存儲(chǔ)兩種相結(jié)合的方式。對(duì)于本地?cái)?shù)據(jù)應(yīng)添加一個(gè)檢索功能,在確定本地?cái)?shù)據(jù)的查詢、控制以及共享等功能的基本單位時(shí)建議提供相應(yīng)的知識(shí)描述模塊。為更好地表述出不同表之間的邏輯關(guān)聯(lián)關(guān)系,這一平臺(tái)還應(yīng)具備知識(shí)描述和檢索的功能。平臺(tái)應(yīng)將統(tǒng)一的訪問門戶提供給使用者,且在實(shí)時(shí)跟蹤使用者使用需求的基礎(chǔ)上不斷改進(jìn)和完善動(dòng)態(tài)數(shù)據(jù)。數(shù)據(jù)資源的接口應(yīng)具有全面性和統(tǒng)一性,讓使用者能夠迅速找到自身所需要的數(shù)據(jù)信息。在實(shí)際工作中可將平臺(tái)放置在阿里云和UCloud上,在共享平臺(tái)直接存儲(chǔ)那些規(guī)模較小的數(shù)據(jù),而對(duì)于那些較大規(guī)模的數(shù)據(jù)信息建議讓共享單位對(duì)其進(jìn)行單獨(dú)管理[1]。

      2 基于軟件工程開源生態(tài)大數(shù)據(jù)的智能化軟件開發(fā)

      2.1 以數(shù)據(jù)開發(fā)為基礎(chǔ)的軟件知識(shí)圖譜構(gòu)造

      針對(duì)軟件工程中存在的主要問題,應(yīng)先建立更為全面的軟件缺陷知識(shí)圖譜,而這一圖譜則要在科學(xué)運(yùn)用主題模型LDA和文本相似度算法的基礎(chǔ)上來更有針對(duì)性地抽取關(guān)系并識(shí)別實(shí)體,其并不支持所有數(shù)據(jù)源的知識(shí)擴(kuò)展工作,缺陷報(bào)告的數(shù)據(jù)以及源代碼數(shù)據(jù)對(duì)其有重要的影響。社區(qū)平臺(tái)中的工作人員應(yīng)對(duì)所構(gòu)建的CWE KG模塊進(jìn)行有效編輯,與軟件弱點(diǎn)有較強(qiáng)關(guān)聯(lián)的各類文檔數(shù)據(jù)對(duì)其會(huì)產(chǎn)生直接影響。為保證軟件開發(fā)過程中的在線問答效果,筆者有針對(duì)性地建立了HDSKG模塊。同樣,為了更好地識(shí)別實(shí)體并抽取關(guān)系,筆者采用了基于規(guī)則和依賴解析的方式,這一模式必須具備所收集到的在線問答數(shù)據(jù)作為支持,其擴(kuò)展性也會(huì)受到一定限制。以數(shù)據(jù)開發(fā)為基礎(chǔ)的軟件工程開源生態(tài)大數(shù)據(jù)所提煉出的軟件知識(shí)圖譜,語義更為豐富、規(guī)模更大并且所涵蓋的內(nèi)容更廣泛,且具備有效查詢、搜索和儲(chǔ)存知識(shí)圖譜的功能,以此為基礎(chǔ)進(jìn)行數(shù)據(jù)分析、融合和深度挖掘等工作。在數(shù)據(jù)分析的工作中,圖譜可與Word文檔、郵件列表日志、PDF文檔、網(wǎng)頁(yè)文檔、軟件源代碼和各類系統(tǒng)的版本記錄等多種類型的軟件工程數(shù)據(jù)相融合,同時(shí)具備更高的智能化程度,能夠及時(shí)地補(bǔ)全各類有較強(qiáng)關(guān)聯(lián)性的軟件數(shù)據(jù)以及整合出更易于被理解和接受的數(shù)據(jù)知識(shí)。

      2.2 基于缺陷與社區(qū)問答數(shù)據(jù)的軟件代碼缺陷智能定位與修復(fù)技術(shù)

      在軟件工程開源生態(tài)大數(shù)據(jù)中,相關(guān)的開發(fā)數(shù)據(jù)和應(yīng)用數(shù)據(jù)作用十分關(guān)鍵,在實(shí)際的研究工作中一定要重點(diǎn)關(guān)注基于缺陷和社區(qū)問答數(shù)據(jù)的軟件代碼缺陷的智能定位與修復(fù)技術(shù)。軟件缺陷出現(xiàn)的概率與代碼的實(shí)際規(guī)模呈現(xiàn)出正比例關(guān)系。同時(shí),缺陷報(bào)告文本附著的元數(shù)據(jù)以及缺陷報(bào)告與關(guān)聯(lián)代碼之間的密切關(guān)聯(lián)性都是其自身的顯著特點(diǎn)。在實(shí)際工作中所構(gòu)建的文本主題模型應(yīng)不僅能起到有效的監(jiān)督作用,還能明確具體預(yù)測(cè)和訓(xùn)練方法。這一方法比傳統(tǒng)更具修復(fù)能力,無論是實(shí)時(shí)的數(shù)據(jù)還是歷史數(shù)據(jù)都能夠?qū)⑵溆行迯?fù),還能夠?qū)⒄Z義相似度和文本相似度這兩大內(nèi)容緊密結(jié)合,缺陷智能定位的精度更高。在實(shí)際所采用的開源項(xiàng)目包含著多個(gè)子項(xiàng)目,如JDT,PDE和Platform等子項(xiàng)目,在進(jìn)行相同內(nèi)容的工作時(shí),這些子項(xiàng)目對(duì)信息數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確度得到了較大提高。由于缺陷定位的精準(zhǔn)性會(huì)受到缺陷報(bào)告中文本附加信息影響,研究人員提出了L2SS+模型簇的概念,并對(duì)多個(gè)數(shù)據(jù)集合進(jìn)行了實(shí)驗(yàn)工作,從實(shí)驗(yàn)中也更為明確了所構(gòu)建的產(chǎn)品模塊信息是能夠直接影響到缺陷定位的準(zhǔn)確性的,在同類工作中其準(zhǔn)確率提高了20%左右[2]。

      2.3 基于上下文感知的軟件問答資源推薦技術(shù)

      研究人員為了更好地認(rèn)知并掌握軟件工程開源生態(tài)大數(shù)據(jù)中交付數(shù)據(jù)和應(yīng)用數(shù)據(jù),在工作中還可以根據(jù)對(duì)上下文的感知情況來更有針對(duì)性地推薦軟件的問答資源,這一研究?jī)?nèi)容在軟件問答推薦領(lǐng)域中都具有前瞻性。以往也有一些研究感知考慮到上下文的感知情況,但其主要還是考慮代碼本身的關(guān)鍵詞,對(duì)于其中的語義內(nèi)容以及存在于系統(tǒng)中的大量問答知識(shí)都沒有被充分地考慮到,本系統(tǒng)研究人員主要采用的方法是將代碼上下文中的關(guān)鍵詞抽取出來并借助于檢索功能來縮小問答數(shù)據(jù)的實(shí)際集合,使每一個(gè)問答數(shù)據(jù)與上下文之間的關(guān)聯(lián)性能夠被計(jì)算出來,在整體排序各類計(jì)算結(jié)果后,直接推薦給軟件工程的開發(fā)者。

      3 結(jié)語

      通過以上的論述,本文對(duì)軟件工程開源生態(tài)大數(shù)據(jù)概述及基于軟件工程開源生態(tài)大數(shù)據(jù)的智能化軟件開發(fā)兩個(gè)方面的內(nèi)容進(jìn)行了詳細(xì)分析和探討,對(duì)其大數(shù)據(jù)的體系以及框架中的各類功能進(jìn)行了深入研究和探索,并對(duì)其知識(shí)圖譜構(gòu)造、缺陷智能定位與修復(fù)以及問答資源推薦等關(guān)鍵技術(shù)進(jìn)行了闡述,在對(duì)面向智能化軟件開發(fā)的各類開源生態(tài)大數(shù)據(jù)的研究工作中具有很強(qiáng)的實(shí)際應(yīng)用價(jià)值。

      猜你喜歡
      爬蟲開源圖譜
      利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
      基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
      繪一張成長(zhǎng)圖譜
      五毛錢能買多少頭牛
      利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
      電子制作(2017年9期)2017-04-17 03:00:46
      大家說:開源、人工智能及創(chuàng)新
      開源中國(guó)開源世界高峰論壇圓桌會(huì)議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
      主動(dòng)對(duì)接你思維的知識(shí)圖譜
      平湖市| 阿巴嘎旗| 岚皋县| 平遥县| 文成县| 克什克腾旗| 雷波县| 始兴县| 阳新县| 富平县| 建宁县| 河池市| 宜丰县| 玉龙| 奈曼旗| 南汇区| 镇安县| 武胜县| 宜良县| 科尔| 南昌县| 疏附县| 礼泉县| 同德县| 石首市| 东乡族自治县| 平塘县| 麦盖提县| 辽宁省| 威远县| 额敏县| 铜川市| 卓尼县| 永仁县| 固安县| 江孜县| 灵武市| 黑河市| 如东县| 汉寿县| 天柱县|