文/聶國(guó)平 羅漢云
為了擁有一個(gè)更加安全、可靠的網(wǎng)絡(luò)環(huán)境,傳統(tǒng)網(wǎng)絡(luò)架構(gòu)的優(yōu)化和調(diào)整工作勢(shì)在必行。加之IPv4 地址隨著使用人數(shù)的增加而變得越來越少[1]……為了解決這些問題,一些新興技術(shù)如雨后春筍般迅速發(fā)展壯大,像NAT444、隧道技術(shù)以及IPv4/IPv6 雙棧協(xié)議等等。目前,成熟且在投入使用的技術(shù)是NAT44 技術(shù),作為IPv6 過渡技術(shù)的IPv4/IPv6 雙棧協(xié)議以及隧道技術(shù)尚處于試運(yùn)行階段。為了推進(jìn)IPv6 技術(shù)的發(fā)展,各高校都在為豐富IPv6 的網(wǎng)絡(luò)資源而努力。大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)正是安慶師范大學(xué)在IPv4/IPv6 雙棧模式的網(wǎng)絡(luò)環(huán)境下開發(fā)的。這篇文章主要分為IPv6 技術(shù)的現(xiàn)狀、系統(tǒng)需求分析、系統(tǒng)研究對(duì)象和方法、系統(tǒng)平臺(tái)的設(shè)計(jì)和維護(hù)、系統(tǒng)中的關(guān)鍵技術(shù),系統(tǒng)升級(jí)與優(yōu)化六大部分。
國(guó)內(nèi)現(xiàn)狀
在中國(guó),廣泛應(yīng)用于商業(yè)的是IPv4 地址資源,所投入使用的主要技術(shù)是NAT44技術(shù)。IPv4/IPv6 雙棧協(xié)議和隧道技術(shù)等[3]IPv6 過渡技術(shù)仍然處于研究階段,主要用于一些科研機(jī)構(gòu)。為了加快推進(jìn)IPv6 發(fā)展,各高校已經(jīng)開始在學(xué)校的網(wǎng)絡(luò)基礎(chǔ)設(shè)施中部署IPv4/IPv6雙棧協(xié)議和隧道技術(shù);同時(shí),《推進(jìn)互聯(lián)網(wǎng)協(xié)議第六版(IPv6)規(guī)模部署行動(dòng)計(jì)劃》也在加緊進(jìn)行當(dāng)中。
國(guó)外現(xiàn)狀
美國(guó)和歐洲國(guó)家在IPv6 部署方面處于領(lǐng)先的狀態(tài)。美國(guó)互聯(lián)網(wǎng)用戶的IPv6 使用率達(dá)到22%,超過五家美國(guó)電信運(yùn)營(yíng)商的IPv6 使用率平均超過40%。印度的IPv6 部署率達(dá)到17%,已經(jīng)超過日本成為亞洲第一。日本的三大運(yùn)營(yíng)商在2017 年內(nèi)開啟全面IPv6 服務(wù)。美國(guó)、歐洲國(guó)家的網(wǎng)絡(luò)向IPv6 升級(jí),是國(guó)家級(jí)戰(zhàn)略部署,并得到堅(jiān)決執(zhí)行。因此美國(guó)、歐洲國(guó)家的IPv6 部署率一直在快速增加,各家電信運(yùn)營(yíng)商、教育機(jī)構(gòu)、政府機(jī)構(gòu),ICP 服務(wù)商的網(wǎng)絡(luò)都在積極向IPv4/IPv6 雙棧、甚至向IPv6-only 演進(jìn)[4]。
總而言之,全世界各個(gè)國(guó)家都清醒認(rèn)識(shí)到:IPv6 不僅僅是互聯(lián)網(wǎng)發(fā)展的一個(gè)趨勢(shì),更是未來的必然選擇。
價(jià)值需求分析
作為師范類高校,安慶師范大學(xué)一直關(guān)注著本科教育體制機(jī)制的改革,著力研究提高本科教學(xué)質(zhì)量的方案。研究大學(xué)生網(wǎng)絡(luò)行為對(duì)自身學(xué)業(yè)的影響便是我們的重要課題之一。眾所周知,對(duì)于學(xué)生,網(wǎng)絡(luò)在使用過程中利弊共存[5],在提供相關(guān)網(wǎng)絡(luò)資源和不同于傳統(tǒng)學(xué)習(xí)渠道的同時(shí)也會(huì)干擾學(xué)生的正常學(xué)習(xí)、影響學(xué)業(yè)。那么,學(xué)生網(wǎng)絡(luò)行為到底與學(xué)業(yè)之間存在著怎樣的關(guān)聯(lián)?如果能找到學(xué)生網(wǎng)絡(luò)行為與學(xué)業(yè)之間的某些細(xì)微的關(guān)聯(lián),就能夠通過對(duì)學(xué)生網(wǎng)絡(luò)行為的觀察及時(shí)進(jìn)行相應(yīng)預(yù)警,做到防患于未然。此次的課題正是在IPv4/IPv6 雙棧協(xié)議的網(wǎng)絡(luò)環(huán)境,通過對(duì)數(shù)據(jù)挖掘與分析技術(shù)的深入學(xué)習(xí)來研究學(xué)生的海量網(wǎng)絡(luò)行為數(shù)據(jù)并開發(fā)出大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)的一個(gè)過程。
大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)的開發(fā)不僅僅是為了豐富IPv6 的網(wǎng)絡(luò)資源,它還承載著教育價(jià)值?;谠撎匦?,系統(tǒng)設(shè)計(jì)過程中注重教育管理者與學(xué)生之間的雙向交互性。即管理者線上獲取學(xué)生日常網(wǎng)絡(luò)行為數(shù)據(jù),線下制定相應(yīng)策略對(duì)學(xué)生進(jìn)行良性引導(dǎo)。這種方式同樣符合未來本科教育的要求。
功能需求分析
學(xué)業(yè)預(yù)警系統(tǒng)從根本上解決了網(wǎng)絡(luò)行為審計(jì)系統(tǒng)和認(rèn)證計(jì)費(fèi)系統(tǒng)的數(shù)據(jù)無法直接使用的問題。通過該系統(tǒng),我們可以利用研究對(duì)象的網(wǎng)絡(luò)行為數(shù)據(jù),管理員用戶不僅能夠清楚地看到處理分析過后的學(xué)生網(wǎng)絡(luò)行為數(shù)據(jù),而且能夠通過對(duì)學(xué)生網(wǎng)絡(luò)行為統(tǒng)計(jì)數(shù)據(jù)的觀察進(jìn)行教學(xué)方面的決策,針對(duì)學(xué)生學(xué)業(yè)狀況提出合理的建議;甚至配合校學(xué)生管理處,對(duì)學(xué)生的學(xué)習(xí)、生活等方面出臺(tái)相關(guān)的規(guī)定和政策。該系統(tǒng)的整體模型如圖1 所示。
對(duì)象
學(xué)校教務(wù)管理系統(tǒng)中獲取到的2015年、2016 年,2017 年的學(xué)生補(bǔ)考名單和獲得國(guó)家勵(lì)志獎(jiǎng)學(xué)金、國(guó)家獎(jiǎng)學(xué)金的學(xué)生名單真實(shí)可靠。
根據(jù)學(xué)生名單,利用接口工具從審計(jì)系統(tǒng)和認(rèn)證計(jì)費(fèi)系統(tǒng)中導(dǎo)出的他們對(duì)應(yīng)的網(wǎng)絡(luò)行為數(shù)據(jù)客觀存在。
圖1 大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)平臺(tái)模型
方法
為了使學(xué)生網(wǎng)絡(luò)行為所反映的問題更具有代表性,本文研究了獲得獎(jiǎng)學(xué)金學(xué)生以及補(bǔ)考學(xué)生的上網(wǎng)行為。將學(xué)生拿獎(jiǎng)學(xué)金還是補(bǔ)考作為因變量,將學(xué)生各上網(wǎng)行為數(shù)據(jù)作為自變量建立函數(shù)關(guān)系。由于因變量為虛擬變量,所以本文建立二分類Logistic 回歸函數(shù)。利用2017 年的學(xué)生網(wǎng)絡(luò)行為樣本數(shù)據(jù)建立函數(shù)模型,通過2015 年和2016 年的學(xué)生網(wǎng)絡(luò)行為和學(xué)業(yè)情況的樣本數(shù)據(jù)進(jìn)行驗(yàn)證。通過大量的學(xué)生樣本數(shù)據(jù)利用SPSS 來建立二元Logistic回歸函數(shù)。結(jié)果如下:
其中p 表示學(xué)生獲得獎(jiǎng)學(xué)金的概率。變量x1、x2、x3表示的是對(duì)學(xué)業(yè)有影響的網(wǎng)絡(luò)行為數(shù)據(jù)變量,C 表示影響因素。
利用2015 年和2016 年的補(bǔ)考學(xué)生和獲獎(jiǎng)學(xué)生的網(wǎng)絡(luò)行為數(shù)據(jù)對(duì)該公式進(jìn)行驗(yàn)證,通過獲得獎(jiǎng)學(xué)金概率p 來進(jìn)行反饋,當(dāng)獲得獎(jiǎng)學(xué)金概率介于0~0.5 之間時(shí),說明學(xué)生學(xué)習(xí)狀態(tài)較差;若獲得獎(jiǎng)學(xué)金概率在0.5~1 之間,說明學(xué)生學(xué)習(xí)狀態(tài)良好。p 值越大時(shí)意味著獲得獎(jiǎng)學(xué)金概率越大,表明學(xué)生學(xué)習(xí)情況越好;p 值越小時(shí)意味著學(xué)生掛科概率越大,表明學(xué)生學(xué)習(xí)情況越差,最后將p 值所反映情況與原情況相對(duì)照。由于本文對(duì)研究對(duì)象是否獲取獎(jiǎng)學(xué)金的情況是已知的,所以通過兩者對(duì)比就可以驗(yàn)證預(yù)警系統(tǒng)的準(zhǔn)確性。在模型建立高度精確的情況下,將學(xué)生上網(wǎng)行為數(shù)據(jù)代入便可預(yù)測(cè)還未發(fā)生的情況。如2018 年,學(xué)期進(jìn)行了一半,此時(shí)可以通過對(duì)學(xué)生的網(wǎng)絡(luò)行為數(shù)據(jù)的觀察,利用預(yù)警系統(tǒng)進(jìn)行預(yù)警。其功能的簡(jiǎn)單層級(jí)數(shù)據(jù)流如圖2、3 所示。
圖2 為學(xué)業(yè)預(yù)警模塊的數(shù)據(jù)流
圖3 后臺(tái)處理模塊的數(shù)據(jù)流
平臺(tái)設(shè)計(jì)
以網(wǎng)站為媒介的大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)界面簡(jiǎn)潔、美觀。能夠給管理員用戶帶來一種視覺上的舒適感,方便其更好地了解學(xué)生信息。網(wǎng)站的語言選擇簡(jiǎn)體中文,整體結(jié)構(gòu)為垂直型網(wǎng)站結(jié)構(gòu)。管理員用戶通過分配的賬號(hào)和口令即可登錄預(yù)警系統(tǒng)。進(jìn)入系統(tǒng)后可看見導(dǎo)航區(qū)域分布在整個(gè)界面的上側(cè),通過點(diǎn)擊上網(wǎng)時(shí)長(zhǎng)、網(wǎng)上學(xué)習(xí)、網(wǎng)上娛樂、學(xué)業(yè)預(yù)警等系統(tǒng)功能名稱即可跳轉(zhuǎn)到相應(yīng)界面,完成不同功能的操作。本系統(tǒng)的流程如圖4 所示。
功能介紹
圖4 學(xué)業(yè)預(yù)警系統(tǒng)的邏輯流程
預(yù)警系統(tǒng)的界面主要分登錄界面和主功能界面。登錄界面作為區(qū)分普通用戶、教師管理員用戶和數(shù)據(jù)庫管理員用戶權(quán)限的界面,只有管理員用戶通過分配的賬號(hào)和口令才能夠進(jìn)入相關(guān)主功能界面。主功能界面是供教師管理員用戶操作的界面。其中,除預(yù)警系統(tǒng)功能以外,其他功能提供的是數(shù)據(jù)庫相應(yīng)數(shù)據(jù)的查詢、插入服務(wù),而學(xué)業(yè)預(yù)警功能為主要服務(wù),在該功能的子界面中教師管理員用戶可通過輸入學(xué)生對(duì)應(yīng)的網(wǎng)絡(luò)行為數(shù)據(jù)變量,點(diǎn)擊檢測(cè)按鈕后后臺(tái)經(jīng)過對(duì)算法的調(diào)度會(huì)計(jì)算出一個(gè)介于0~1 之間的值,該值會(huì)配合相應(yīng)的餅狀圖在界面呈現(xiàn),此時(shí)教師管理員用戶即可根據(jù)頁面的呈現(xiàn)情況對(duì)該學(xué)生網(wǎng)絡(luò)行為進(jìn)行分析。此外,系統(tǒng)當(dāng)中還有一個(gè)數(shù)據(jù)庫管理員用戶,其主要負(fù)責(zé)對(duì)數(shù)據(jù)庫的相關(guān)數(shù)據(jù)進(jìn)行維護(hù)操作。系統(tǒng)會(huì)為數(shù)據(jù)庫管理員用戶提供不同于教師管理員用戶的操作接口。本系統(tǒng)的用戶及其權(quán)限情況見表1。
表1 系統(tǒng)目標(biāo)用戶及相應(yīng)操作權(quán)限
維護(hù)
對(duì)服務(wù)器軟件環(huán)境和硬件環(huán)境的維護(hù)。對(duì)可能出現(xiàn)的問題進(jìn)行評(píng)估,制定響應(yīng)時(shí)間[6]。安排專門的技術(shù)人員定期檢查服務(wù)器周圍的環(huán)境。
對(duì)數(shù)據(jù)庫進(jìn)行維護(hù)。有效地利用數(shù)據(jù)是網(wǎng)站維護(hù)的重要內(nèi)容,因此數(shù)據(jù)庫的維護(hù)要受到重視。對(duì)數(shù)據(jù)庫的維護(hù)工作主要包括對(duì)數(shù)據(jù)規(guī)模的維護(hù)、進(jìn)行數(shù)據(jù)備份等等。
對(duì)網(wǎng)頁相關(guān)內(nèi)容進(jìn)行更新和調(diào)整,定期更新首頁的相關(guān)新聞動(dòng)態(tài)信息等。
制定相關(guān)網(wǎng)站維護(hù)的規(guī)定,將網(wǎng)站維護(hù)制度化、規(guī)范化。
Eclipse Jee Oxygen
大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)平臺(tái)使用Eclipse Jee Oxygen 進(jìn)行開發(fā)。通過IDE(集成開發(fā)環(huán)境)手動(dòng)搭建SSM 框架(Spring、SpringMVC、MyBatis)。SSM 框架作為當(dāng)下主流的開發(fā)框架,具有很好的穩(wěn)定性和安全性,適用于這種基于數(shù)據(jù)庫的網(wǎng)站系統(tǒng)的開發(fā)。系統(tǒng)前臺(tái)使用JSP、HTML、CSS、JavaScript 等技術(shù)實(shí)現(xiàn)管理員用戶與大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)之間的交互。過程中注重CSS 的各種樣式、特效以及div布局與現(xiàn)在的主流瀏覽器的兼容情況,利用editplus 文本編輯器編輯相關(guān)的代碼,使用火狐瀏覽器進(jìn)行調(diào)試。對(duì)于完成html+css+js 相關(guān)代碼的過程當(dāng)中,利用具有所見即所得特性的Dreamweav 軟件作為美工和相關(guān)查詢手冊(cè)。確保系統(tǒng)平臺(tái)能夠在面向?qū)I(yè)的Web 開發(fā)用戶(開發(fā)人員的瀏覽器多數(shù)為谷歌瀏覽器、火狐瀏覽器)和普通用戶(普通用戶多數(shù)使用IE 瀏覽器、360 瀏覽器)時(shí),都能夠正常顯示。后臺(tái)使用基于Java 面向?qū)ο缶幊陶Z言進(jìn)行業(yè)務(wù)邏輯的控制,Java 作為一種強(qiáng)類型的面向?qū)ο笳Z言,可以更好地防止XSS(跨站腳本攻擊)和SQL 注入等安全隱患[7]。
MySQL
大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)使用MySQL 數(shù)據(jù)庫管理系統(tǒng)來存儲(chǔ)研究對(duì)象的網(wǎng)絡(luò)行為數(shù)據(jù),使用視圖化操作軟件Navicat for MySQL 對(duì)數(shù)據(jù)系統(tǒng)進(jìn)行管理。
MySQL 作為時(shí)下比較流行的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),被廣泛應(yīng)用于研究型系統(tǒng)平臺(tái)的搭建。其開源靈活等特性不僅可以快速開發(fā)出應(yīng)用型系統(tǒng),而且,當(dāng)系統(tǒng)在運(yùn)行過程中出現(xiàn)故障時(shí),開發(fā)人員可快速發(fā)現(xiàn)問題并迅速解決。
Tomcat 服務(wù)器軟件
考慮到系統(tǒng)針對(duì)的用戶是教師管理員用戶和數(shù)據(jù)庫管理員用戶,在投入使用的過程當(dāng)中并發(fā)用戶并不會(huì)很多,所以系統(tǒng)的開發(fā)選擇了Tomcat 服務(wù)器軟件。
Tomcat 容器可以很好地支持和數(shù)據(jù)庫有大量交互的動(dòng)態(tài)Web 頁面,符合學(xué)業(yè)預(yù)警系統(tǒng)的特性。預(yù)警系統(tǒng)選擇的服務(wù)器軟件的版本是Tomcat-7.0.85 版本,具有較高的安全性,可以很好的防止CSRF(跨站點(diǎn)請(qǐng)求偽造)。
IPv4/IPv6 雙棧協(xié)議
大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)除了課題本身具有現(xiàn)實(shí)意義和價(jià)值之外,我校接入了作為IPv6 過渡技術(shù)之一的IPv4/IPv6 雙棧協(xié)議是又一個(gè)有利條件。所謂雙棧協(xié)議[8],是指在一臺(tái)服務(wù)器上同時(shí)啟用IPv4 協(xié)議棧和IPv6 協(xié)議棧[9]。終端用戶通過校園網(wǎng),啟動(dòng)DHCP 可自動(dòng)獲取到IPv4 協(xié)議和IPv6 協(xié)議的地址,從而通過IPv4 地址訪問服務(wù)器上的IPv4 資源,通過IPv6 地址訪問服務(wù)器上的IPv6 資源。
IPv6 的地址長(zhǎng)度是IPv4 地址長(zhǎng)度的4倍[8]。也就是說,一旦IPv6 技術(shù)真正投入使用,就可以在今后相當(dāng)長(zhǎng)的一段時(shí)間里解決IPv4 的地址資源不足等問題,滿足互聯(lián)網(wǎng)用戶的各種需求。但是IPv6 技術(shù)的現(xiàn)狀卻是鮮有普通用戶了解和使用過,原因在于IPv4 技術(shù)投入使用的時(shí)間過長(zhǎng),網(wǎng)絡(luò)上絕大多數(shù)資源都是IPv4 資源。如果要使用IPv6 資源,就需要對(duì)網(wǎng)絡(luò)上的IPv4 資源進(jìn)行整改,這需要巨大的經(jīng)費(fèi);而有些IPv4 資源正運(yùn)用于現(xiàn)代化建設(shè)當(dāng)中,整改過程中出現(xiàn)不穩(wěn)定的狀況就會(huì)對(duì)現(xiàn)實(shí)生產(chǎn)造成極大的影響。所以,IPv6 過渡技術(shù)是不二選擇。
國(guó)際國(guó)內(nèi)環(huán)境及定義
近幾年來,關(guān)于個(gè)人隱私數(shù)據(jù)的保護(hù)已經(jīng)成為國(guó)際國(guó)內(nèi)的一個(gè)熱門話題。對(duì)比我國(guó)的隱私數(shù)據(jù)保護(hù)的相關(guān)規(guī)范和歐盟的GDPR,我們對(duì)隱私數(shù)據(jù)有了一個(gè)清晰的認(rèn)識(shí)和了解。個(gè)人隱私數(shù)據(jù)是指一旦被泄露、非法提供或?yàn)E用可能危害人身和財(cái)產(chǎn)安全,極易導(dǎo)致個(gè)人名譽(yù)、身心健康受到損害或歧視性待遇的個(gè)人敏感信息數(shù)據(jù)。本文中涉及的個(gè)人隱私數(shù)據(jù)主要包括個(gè)人身份信息(學(xué)號(hào)、姓名、性別等),學(xué)習(xí)狀況信息(獲獎(jiǎng)學(xué)金、掛科)以及上網(wǎng)行為信息(上網(wǎng)時(shí)長(zhǎng)、瀏覽網(wǎng)頁的URL、郵件收發(fā)、賬號(hào)登錄、IP 地址、網(wǎng)頁標(biāo)題等信息)。
隱私數(shù)據(jù)收集處理的依據(jù)
本文中的學(xué)生獲獎(jiǎng)信息是學(xué)校在每學(xué)期都會(huì)在官網(wǎng)上發(fā)布的公開信息,互聯(lián)網(wǎng)用戶具有下載和瀏覽的權(quán)限;對(duì)于學(xué)生掛科信息,我們?cè)诮?jīng)過學(xué)工處的授權(quán)后,由教務(wù)系統(tǒng)的管理員從教務(wù)系統(tǒng)中所獲得;關(guān)于上網(wǎng)行為信息,我們則是從校網(wǎng)絡(luò)行為審計(jì)系統(tǒng)和認(rèn)證計(jì)費(fèi)系統(tǒng)中獲得,該系統(tǒng)是用于對(duì)內(nèi)部用戶連接到外部網(wǎng)絡(luò)的行為進(jìn)行檢查和審計(jì)的,是符合信息安全等級(jí)保護(hù)要求的國(guó)產(chǎn)安全設(shè)備。我們出于學(xué)術(shù)研究的目的對(duì)網(wǎng)絡(luò)行為數(shù)據(jù)的收集和分析在《中華人民共和國(guó)網(wǎng)絡(luò)安全法》、《中華人民共和國(guó)個(gè)人信息保護(hù)法(專家建議稿)》、公安部151 號(hào)令《公安機(jī)關(guān)互聯(lián)網(wǎng)安全監(jiān)督檢查規(guī)定》等都可以找到相關(guān)的依據(jù)和支持。
隱私數(shù)據(jù)脫敏性處理
本文對(duì)學(xué)生網(wǎng)絡(luò)行為數(shù)據(jù)進(jìn)行脫敏性處理,對(duì)敏感的關(guān)鍵詞進(jìn)行剔除及合并,且以較為寬泛的描述來呈現(xiàn),并在網(wǎng)站系統(tǒng)的呈現(xiàn)過程中刪除了學(xué)生姓名和性別等字段信息,對(duì)唯一標(biāo)識(shí)學(xué)生信息的學(xué)號(hào)按照特定規(guī)則進(jìn)行重組,以保證在網(wǎng)站系統(tǒng)的數(shù)據(jù)泄露時(shí)入侵者無法利用和識(shí)別網(wǎng)絡(luò)行為的實(shí)體及其敏感信息。
網(wǎng)絡(luò)行為數(shù)據(jù)挖掘
圖5 校園網(wǎng)主干網(wǎng)絡(luò)拓?fù)?/p>
從審計(jì)系統(tǒng)和認(rèn)證計(jì)費(fèi)系統(tǒng)中獲取到的網(wǎng)絡(luò)行為數(shù)據(jù)量龐大且繁雜,每一個(gè)獲得勵(lì)志獎(jiǎng)學(xué)金的學(xué)生或者重修補(bǔ)考的學(xué)生需要從行為審計(jì)系統(tǒng)中導(dǎo)出他們?yōu)槠诎肽甑木W(wǎng)絡(luò)行為數(shù)據(jù);從認(rèn)證計(jì)費(fèi)系統(tǒng)中導(dǎo)出他們?yōu)槠谝荒甑纳暇W(wǎng)時(shí)長(zhǎng)數(shù)據(jù)。由于認(rèn)證計(jì)費(fèi)系統(tǒng)的數(shù)據(jù)類型較為規(guī)則,所以導(dǎo)出過程相對(duì)順利。對(duì)于審計(jì)系統(tǒng),通過積累的導(dǎo)出數(shù)據(jù)的經(jīng)驗(yàn),我們制定了比較符合現(xiàn)狀的導(dǎo)出數(shù)據(jù)方案,即根據(jù)學(xué)生網(wǎng)絡(luò)行為的網(wǎng)頁標(biāo)題、外發(fā)信息,郵件收發(fā)和賬號(hào)登錄等選項(xiàng),以星期為單位向外導(dǎo)出數(shù)據(jù)。每個(gè)學(xué)生學(xué)期的總數(shù)據(jù)量為一萬條到十萬條不等,借助腳本工具按照導(dǎo)出方案完成數(shù)據(jù)導(dǎo)出工作。
網(wǎng)絡(luò)行為數(shù)據(jù)處理
對(duì)每一個(gè)研究對(duì)象的原始數(shù)據(jù)。我們經(jīng)過調(diào)查與研究之后人為的將其分成了三大類,即上網(wǎng)時(shí)長(zhǎng)、網(wǎng)上學(xué)習(xí)和網(wǎng)上娛樂。上網(wǎng)時(shí)長(zhǎng)又細(xì)分成學(xué)習(xí)日上網(wǎng)時(shí)長(zhǎng)和休息日上網(wǎng)時(shí)長(zhǎng);考慮全校學(xué)生的課表課程安排情況,將星期一至星期五的總上網(wǎng)時(shí)長(zhǎng)作為學(xué)習(xí)日上網(wǎng)時(shí)長(zhǎng),將星期六至星期日的總上網(wǎng)時(shí)長(zhǎng)作為雙休日的上網(wǎng)時(shí)長(zhǎng)。最后統(tǒng)計(jì)該學(xué)生在這一年總的上網(wǎng)時(shí)長(zhǎng)、總的學(xué)習(xí)日上網(wǎng)時(shí)長(zhǎng),總的雙休日上網(wǎng)時(shí)長(zhǎng),最后得出其年學(xué)習(xí)日上網(wǎng)時(shí)長(zhǎng)所占年總上網(wǎng)時(shí)長(zhǎng)的比例情況和年雙休日上網(wǎng)時(shí)長(zhǎng)所占年總上網(wǎng)時(shí)長(zhǎng)的比例情況。對(duì)于網(wǎng)上娛樂,我們將其細(xì)分成游戲、影視娛樂、社交購物;對(duì)于網(wǎng)上學(xué)習(xí),將其細(xì)分成文學(xué)、專業(yè)課和IT。我們通過網(wǎng)頁搜索、網(wǎng)頁標(biāo)題、外發(fā)信息和社交購物中的相關(guān)信息來判定該記錄是屬于游戲、影視娛樂當(dāng)中的哪一個(gè)小的類別。例如網(wǎng)頁標(biāo)題中的關(guān)鍵詞為“首頁-優(yōu)酷視頻”,那么我們將該記錄歸類到影視娛樂的類別下面。最后統(tǒng)計(jì)相關(guān)記錄數(shù)的條數(shù)。
網(wǎng)絡(luò)行為數(shù)據(jù)分析
通過相關(guān)變量的具體范圍劃分等級(jí),確定其定序變量。針對(duì)上網(wǎng)時(shí)長(zhǎng),根據(jù)年學(xué)習(xí)日上網(wǎng)時(shí)長(zhǎng)占年總上網(wǎng)時(shí)長(zhǎng)的比例情況劃分范圍,例如面對(duì)700 個(gè)研究對(duì)象的上網(wǎng)時(shí)長(zhǎng),年學(xué)習(xí)日上網(wǎng)時(shí)長(zhǎng)占年總上網(wǎng)時(shí)長(zhǎng)的比例在0%~80%之間;將其劃分成三個(gè)范圍即0%~26%,26%~52%,52%~80%。分別對(duì)應(yīng)的等級(jí)數(shù)為3、2、1。其中3 表示年學(xué)習(xí)日上網(wǎng)時(shí)長(zhǎng)占年總上網(wǎng)時(shí)長(zhǎng)的比例在0%~26%之間;2 表示年學(xué)習(xí)日上網(wǎng)時(shí)長(zhǎng)占年總上網(wǎng)時(shí)長(zhǎng)的比例在26%~52%之間;1 表示年學(xué)習(xí)日上網(wǎng)時(shí)長(zhǎng)占年總上網(wǎng)時(shí)長(zhǎng)的比例在52%~80%之間。同樣根據(jù)網(wǎng)上學(xué)習(xí)和網(wǎng)絡(luò)娛樂下的相關(guān)分類也進(jìn)行等級(jí)的劃分最后得到其等級(jí)值。根據(jù)相關(guān)數(shù)值化了的維度變量進(jìn)行二分類多元Logistic 回歸函數(shù)建立相關(guān)模型以及對(duì)模型進(jìn)行優(yōu)化。
通過數(shù)據(jù)挖掘與分析技術(shù),我們將海量網(wǎng)絡(luò)行為的原始數(shù)據(jù)經(jīng)過處理后得到了建立數(shù)學(xué)模型相關(guān)數(shù)值型變量,最后通過將數(shù)值型變量代入函數(shù)模型來檢驗(yàn)函數(shù)模型的精確性。
在后續(xù)工作過程中,我們會(huì)根據(jù)系統(tǒng)的使用狀況對(duì)系統(tǒng)的功能以及對(duì)用戶的友好程度進(jìn)行進(jìn)一步優(yōu)化與升級(jí)。對(duì)于系統(tǒng)功能,我們考慮在原有基礎(chǔ)上再進(jìn)行拓展,包括對(duì)具體的學(xué)生用戶進(jìn)行展開,讓他們了解自己的網(wǎng)絡(luò)行為習(xí)慣以便于更好地對(duì)自己的上網(wǎng)行為進(jìn)行調(diào)整。而關(guān)于具體的界面,我們可能會(huì)增加更加快捷、簡(jiǎn)單的操作方式,譬如在學(xué)業(yè)預(yù)警模塊將用戶輸入學(xué)生網(wǎng)絡(luò)行為數(shù)據(jù)相關(guān)變量的過程整合到后臺(tái)算法當(dāng)中。
本文將IPv6 技術(shù)和數(shù)據(jù)挖掘與分析技術(shù)并用到了大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)當(dāng)中,搭建了基于IPv6 的大學(xué)生學(xué)業(yè)預(yù)警系統(tǒng)平臺(tái)??紤]到系統(tǒng)的預(yù)測(cè)準(zhǔn)確性需要海量的網(wǎng)絡(luò)行為數(shù)據(jù)的支持,在今后的工作過程當(dāng)中,課題組將繼續(xù)收集新的學(xué)生網(wǎng)絡(luò)行為數(shù)據(jù),擴(kuò)充數(shù)據(jù)庫當(dāng)中的網(wǎng)絡(luò)行為數(shù)據(jù)量、更新算法,使我們的系統(tǒng)預(yù)測(cè)性更加精確,進(jìn)一步為本科教育體制機(jī)制改革,為未來IPv6 技術(shù)的發(fā)展貢獻(xiàn)出我們的力量。