劉娟,唐玄
(蚌埠學院 計算機科學與技術系,安徽 蚌埠 233000)
在高等院校的計算機教學中,計算機文化基礎課程是非常重要的一門必修課程.它是計算機專業(yè)和非專業(yè)的基礎課程,是其他計算機相關課程的重要前導課程.由于該門課程關系到學生升學或就業(yè)以后能迅速而熟練地使用計算機相關的專業(yè)和非專業(yè)軟件,高等院校非常重視學生對計算機文化基礎課程的學習,通常會要求學生在學習該門課程后統(tǒng)一參加省級計算機一級考試.通過參加等級考試,可以促進學生對計算機文化基礎的學習,增強學生學習計算機文化基礎的動力,提高學生操作計算機的技能.為了提高學生的計算機文化基礎理論知識和實踐能力,本文將采用基于粗糙集的數(shù)據(jù)挖掘方法對安徽省計算機一級考試成績進行分析,獲取有益于教學與學習的相關數(shù)據(jù)信息,從而提高學生計算機水平,還可以為進一步研究粗糙集打下堅實的理論與實踐基礎.
1982年,波蘭學者Z.Pawlak 提出了一種用來處理不確定數(shù)據(jù)信息的理論.該理論在不需要事先提供相關附加知識的前提下對原始數(shù)據(jù)集進行分析,直接從給定的數(shù)據(jù)集合中找出隱含的知識,并提供與要解決的問題有關的結論.
粗糙集通常被定義為一個四元組:S=(U,A,V,f).U 被定義為包含所有數(shù)據(jù)對象的對象集,有U={x1,x2,...,xn},也被稱作論域;A 為屬性集,包含條件屬性集C 和決策屬性集D,有A=C∪D={a1,a2,...,an},并且C∩D=Φ,其中C 通常為屬性集,而D 通常為單屬性集;V 為屬性集A的值域;f 被定義為論域S 中數(shù)據(jù)對象的屬性集A 到值域V的映射函數(shù).該四元組可簡寫為S=(U,A),S 也被稱為信息系統(tǒng)或決策表.D的C 正域被記為POS(C,D)=∪{C_(X):X ∈U/D},表示肯定屬于D的對象所組成的最大的集合.C 相對于D的屬性依賴度定義為γ(C,D)=|POS(C,D)|/|U|.屬性重要性被定義為σ(C,D,C')=γ(C,D)-γ(C-C',D),某屬性重要性越大,則該屬性對D 影響越大,即其取值對決策結果的影響就越大.
從某班級學生進行的一次模擬考試中獲取數(shù)據(jù)庫表,對其整理可得表1.
表1 部分原始數(shù)據(jù)
等級考試中,單項選擇題總分30分,多項選擇題總分10分,打字題10分,Windows 操作題8分,Word 操作題18分,Excel操作題14分,PowerPoint 操作題10分,總分100分.
首先,對各個題型的成績進行離散化處理.可以將各個題型的成績除以相應題型總分再乘以100.再按照[0,59]、[60-84]、[85-100]三個成績區(qū)間將各個題型成績及總分劃分為“不及格”、“及格”、“優(yōu)秀”三個等級,并設置其值分別為1、2、3.
為方便書寫,特對表中各個屬性名稱進行更改,使用A1-A7 代表各題型,使用T 代表總分.離散化后的數(shù)據(jù)結果為表2.
表2 離散化后的部分數(shù)據(jù)
根據(jù)粗糙集的定義,可得出:
根據(jù)公式計算可得每種題型屬性重要性分別為:
通過上面對給定的模擬考試數(shù)據(jù)集進行分析,表明單選題、多選題及Excel 操作題對學生成績影響比較大,打字題、Word題影響相對較小,Windows 操作題和PowerPoint 操作題影響基本可以忽略不計.再通過日常教學活動可知,學生由于對選擇題里的涉及的概念理解不深,對Excel的函數(shù)運用較為生疏,從而導致這兩種題型容易失分.而學生在日常上機和生活中,已經(jīng)熟悉與打字題、Windows 操作題、Word 操作題、PowerPoint 操作題相關的操作,所以這些題型分數(shù)相對較高.因此,應促使學生在日常學習中加強理論知識的理解,多多練習Excel的函數(shù)運用,增強程序設計能力,才能提高計算機操作水平,并為以后學習程序設計課程或其他計算機相關課程打下基礎.
本文通過粗糙集模型對安徽省一級計算機等級考試進行了分析,為計算機文化基礎教學提供了指導方向,也為更進一步地研究粗糙集提供了實踐基礎.由于本文所獲取的原始數(shù)據(jù)量較少且數(shù)據(jù)信息完整,不能體現(xiàn)大數(shù)據(jù)量、數(shù)據(jù)集不完備情況下使用粗糙集進行數(shù)據(jù)挖掘的優(yōu)點,希望下一次能進行改進.
[1]苗奪謙,王玨.粗糙集理論中概念與運算的信息表示[J].軟件學報,1999,10(2):113-116.
[2]張文修,吳偉志.粗糙集理論介紹和研究綜述[J].模糊系統(tǒng)與數(shù)學,2000,14(4):1-12.DOI:10.3969/j.issn.1001-7402.2000.04.001.
[3]韓禎祥,張琦,文福拴,等.粗糙集理論及其應用綜述[J].控制理論與應用,1999,16(2):153-157.DOI:10.3969/j.issn.1000-8152.1999.02.001.
[4]胡可云,陸玉昌,石純一,等.粗糙集理論及其應用進展[J].清華大學學報(自然科學版),2001,41(1):64-68.
[5]李永敏,朱善君,陳湘暉,等.基于粗糙集理論的數(shù)據(jù)挖掘模型[J].清華大學學報(自然科學版),1999,39(1):110-113.
[6]梁吉業(yè),曲開社,徐宗本,等.信息系統(tǒng)的屬性約簡[J].系統(tǒng)工程理論與實踐,2001,21(12):76-80.
[7]韓禎祥,張琦,文福拴,等.粗糙集理論及其應用[J].信息與控制,1998,27(1):37-45.DOI:10.3969/j.issn.1002-0411.1998.01.008.
[8]侯利娟,王國胤,聶能,等.粗糙集理論中的離散化問題[J].計算機科學,2000,27(12):89-94.DOI:10.3969/j.issn.1002-137X.2000.12.023.
[9]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟大學學報(自然科學版),2004,32(2):246-252.