• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    自學考試“臟數(shù)據(jù)”問題研究和應(yīng)對策略

    2023-02-17 06:09:20林華
    考試研究 2023年1期
    關(guān)鍵詞:自學考試標準

    林華

    高等教育自學考試制度以其開放、靈活的特點成為構(gòu)建高等教育立交橋的重要組成部分。數(shù)據(jù)作為信息化的基礎(chǔ),是自學考試最核心的部分之一,它能為用戶提供業(yè)務(wù)申請、存儲、檢索服務(wù),使其方便、準確、及時地從數(shù)據(jù)中獲得所需的信息,更可以為管理者提供決策依據(jù)。完整、準確的數(shù)據(jù)是保證自學考試業(yè)務(wù)正常運轉(zhuǎn)的重要因素。但隨著自學考試數(shù)據(jù)不斷積累且日益龐大,海量數(shù)據(jù)中不可避免的產(chǎn)生并積累了不同程度冗余的、失準的、無效的甚至是錯誤的數(shù)據(jù),形成所謂“臟數(shù)據(jù)”[1],給自學考試信息系統(tǒng)運行與維護都帶來了困擾,也直接影響到各項管理工作的效率,長此以往,甚至會造成自學考試政策制定的偏差。因此,清洗“臟數(shù)據(jù)”已成為亟待解決的問題。

    一、自學考試“臟數(shù)據(jù)”的概念與種類

    (一)“臟數(shù)據(jù)”的概念

    “臟數(shù)據(jù)”(Dirty Data),又稱“壞數(shù)據(jù)”(Bad Data),其概念最初源于西方,是指源系統(tǒng)中的數(shù)據(jù)不在給定的范圍內(nèi)或?qū)τ趯嶋H業(yè)務(wù)毫無意義,或是數(shù)據(jù)格式非法,以及在源系統(tǒng)中存在不規(guī)范的編碼和含糊的業(yè)務(wù)邏輯[2]。

    這個概念引申到自學考試中,是指隨著幾十年自學考試的發(fā)展沉積下來的,在目前或以后的數(shù)據(jù)使用過程中和數(shù)據(jù)管理中冗余的、失準的、無效的,甚至是錯誤的數(shù)據(jù)。這些數(shù)據(jù)不僅不能為系統(tǒng)的正常運行帶來價值,反而會隨時間推移逐漸占據(jù)存儲空間,浪費軟硬件資源,如不能得到及時的清理,而參與到正常的運算和檢索中,會出現(xiàn)嚴重的錯誤,影響數(shù)據(jù)庫的可信度。數(shù)據(jù)分析的最終目的是驅(qū)動決策,一旦“臟數(shù)據(jù)”使整個數(shù)據(jù)都不再可靠和準確的時候,那將會直接影響決策的質(zhì)量。

    (二)“臟數(shù)據(jù)”的分類與成因

    根據(jù)“臟數(shù)據(jù)”形成的主要原因,大致可將其分為以下四類。

    1.重復冗余數(shù)據(jù)

    隨著我國社會經(jīng)濟的高速發(fā)展,新的行業(yè)不斷涌現(xiàn),相應(yīng)的,自學考試新專業(yè)也應(yīng)運而生。與此同時,不再適應(yīng)社會人才需求的自學考試相關(guān)專業(yè)的生源則在逐漸萎縮。目前,全國自學考試的專業(yè)及課程體系又進入了一個調(diào)整期,隨著部分專業(yè)的關(guān)停并轉(zhuǎn),考生專業(yè)轉(zhuǎn)考的規(guī)模也將持續(xù)增加。

    圖1、圖2、圖3展示了在某個時間點,??紝I(yè)轉(zhuǎn)考的三種基本形式,在幾十年專業(yè)的不斷調(diào)整過程中,這三種簡單形式交錯演變形成圖4或圖5的復雜形式。

    圖1 ??紝I(yè)“多對一轉(zhuǎn)考”示例

    圖2 ??紝I(yè)“一對多轉(zhuǎn)考”示例

    圖3 ??紝I(yè)“一對一轉(zhuǎn)考”示例

    圖4 ??紝I(yè)鏈狀繼承圖

    圖5 停考專業(yè)網(wǎng)狀繼承圖

    例如,從圖4上看,一個A專業(yè)的考生,多年來一直參加自學考試但仍未畢業(yè),始終處在持合格成績轉(zhuǎn)考的過程中,其所在專業(yè)先后經(jīng)過了三次停、轉(zhuǎn)。由于自學考試是按照專業(yè)管理,考生報考任何專業(yè)均要申請該專業(yè)的準考證號,所以這個考生雖然目前留在專業(yè)D里繼續(xù)參加考試直至畢業(yè),但他此時會持有專業(yè)A、專業(yè)B、專業(yè)C以及專業(yè)D的四個準考證號。從專業(yè)管理的層面看,根據(jù)準考證號的不同,系統(tǒng)將會把該考生認作四個獨立的個體;而從身份管理的層面看,根據(jù)身份證號等個人信息,他又被系統(tǒng)視為同一個人。數(shù)據(jù)庫中每一位考生的信息是由多個具有不同屬性的字段組成的,當兩個考生記錄的大多數(shù)屬性字段值相同或絕大程度相似時,就將這兩條記錄判定為相似重復記錄[3]。從這個角度看,專業(yè)發(fā)展必定帶來??紝I(yè)考生集體的遷移,而考生的集體遷移便會在數(shù)據(jù)庫中形成大量人員的相似數(shù)據(jù)重復記錄。

    同樣,考生報考的多個專業(yè)之間的課程又存在向下可頂替的繼承關(guān)系,從圖5中可以看出,這個繼承關(guān)系可以是鏈狀繼承,也可以是樹狀甚至是網(wǎng)狀繼承,那么如果要使符合政策的考生的合格成績在申請畢業(yè)時生效,記錄成績數(shù)據(jù)中課程間的相互關(guān)系的過程,也是產(chǎn)生冗余數(shù)據(jù)的一個重要環(huán)節(jié)。如果能將這類重復冗余的數(shù)據(jù)加以“瘦身”,將大大簡化數(shù)據(jù)間的復雜結(jié)構(gòu),有效提升數(shù)據(jù)的檢索速度,降低系統(tǒng)運轉(zhuǎn)壓力。

    2.多重標準數(shù)據(jù)

    自學考試制度建立40多年來,從最初的全手工管理到20世紀90年代的信息系統(tǒng)管理,再從C/S模式升級到B/S模式,各項信息數(shù)據(jù)項采集標準在不斷提高,對數(shù)據(jù)內(nèi)容的校準也日趨完善。但數(shù)據(jù)標準的每一次提升,都成為那個階段新老數(shù)據(jù)的分水嶺,于是多重數(shù)據(jù)標準慢慢成型。

    如表1所示,以準考證號字段為例。通過比較發(fā)現(xiàn)數(shù)據(jù)標準的變化十分明顯。

    表1 準考證號編碼規(guī)則演變示例

    內(nèi)容變化:在前三個階段的準考證號的編制中都含有了考生的專業(yè)信息,其中第一個階段的專業(yè)代碼用兩位的英文字母表示,第二個階段的專業(yè)代碼為兩位的純數(shù)字,而第三個階段為三位的純數(shù)字專業(yè)代碼,在第四個階段中準考證編號中不再體現(xiàn)考生的專業(yè)信息。

    位數(shù)變化:準考證的位數(shù)先后經(jīng)歷了四個階段,即字母與數(shù)字結(jié)合的8位字符串、8位純數(shù)字字符串、10位純數(shù)字字符串、12位純數(shù)字字符串。

    位置變化:在四個階段的準考證號中都含有了考生所屬考區(qū)的信息,但不同之處在于前三個階段,考區(qū)的標志位,在第三、第四兩位體現(xiàn),而在第四個階段中考區(qū)標志位被提到了前兩位。

    從上面的分析可以看出,雖然字段表達內(nèi)容相同,但不同數(shù)據(jù)標準同時在系統(tǒng)中運轉(zhuǎn),加大了系統(tǒng)源代碼辨析的難度以及系統(tǒng)運行時對數(shù)據(jù)的兼容性要求,也勢必會提高系統(tǒng)運轉(zhuǎn)的錯誤率。同時,在上報國家考試中心相關(guān)數(shù)據(jù)時,還要額外增加字段轉(zhuǎn)換和補位工作,也增加了報送出錯的風險。

    此外,如表2所示,考生頭像照片的數(shù)據(jù)標準也是在不斷改進中。為使對考生身份的管理更加嚴謹,自從建立管理信息系統(tǒng)后,頭像照片的尺寸(由180×240提高到480×640)、分辨率(由96dpi提高到300dpi)和背景色(由多色統(tǒng)一為淺藍色)幾個維度都在不斷地提高照片的精準度。因此,多規(guī)格的照片在數(shù)據(jù)庫中在讀取和使用時,相對低像素的照片會出現(xiàn)模糊不清,為日后的入場考試身份驗證環(huán)節(jié)和畢業(yè)生學歷認證帶來不必要的麻煩。

    表2 考生頭像照片格式標準演變示例

    3.過時無效數(shù)據(jù)

    數(shù)據(jù)時效性是與時間相關(guān)的,表示數(shù)據(jù)是最新有效的,可以描述客觀實體。反之,過時無效數(shù)據(jù)是指由于其時間久遠,已不再準確、不應(yīng)參與到正常處理的、已經(jīng)失去使用價值的數(shù)據(jù)。自考中的過時無效數(shù)據(jù)指數(shù)據(jù)本身是真實的,但隨著時間的推移,其有效性在不斷降低。主要有以下幾類:

    (1)過時的考生頭像數(shù)據(jù)。由于考生參加考試數(shù)年,其容貌變化較大,無論是繼續(xù)考試還是申請畢業(yè),該頭像照片均已無法成為核驗其身份真實性的有效依據(jù)。

    (2)不再活躍的“僵尸”數(shù)據(jù)。例如,某些院校將自考本科段的英語(二)科目合格成績作為學士學位申請的必要條件之一,因此出現(xiàn)有考生注冊準考證號后,僅報考英語(二)這一個科目,便不再參加該專業(yè)內(nèi)的其他課程考試,成為“一次性考生”,這類考生本不應(yīng)屬于自考的在籍考生范疇,因此,這些數(shù)據(jù)不應(yīng)出現(xiàn)在各項各類統(tǒng)計中。

    (3)陳舊的聯(lián)系方式。20世紀八九十年代初期固定電話還不普及,移動通訊的手段更是少之又少,于是在自考剛開考的相當長的一段時間內(nèi)并未采集聯(lián)系電話這一數(shù)據(jù)項。在后期開發(fā)系統(tǒng)開始采集之后,考生提供的聯(lián)系方式多數(shù)為座機,但由于電話的升位、手機的普及,凡未及時更正的,也都成為了過時無效數(shù)據(jù)。通訊地址信息的數(shù)據(jù)變更存儲也有類似的情況。

    4.缺失完整性數(shù)據(jù)

    缺失完整性數(shù)據(jù)是指數(shù)據(jù)集合中的數(shù)據(jù)不能全面地、較完整地描述客觀事實,不能支持某種統(tǒng)計查詢、關(guān)聯(lián)計算和決策分析等應(yīng)用。在自學考試制度建立初期,受當時技術(shù)手段的限制,考生從初次報考到申請畢業(yè)中間各個環(huán)節(jié)的信息采集均為手工填表、紙質(zhì)管理,但因采集源不完整,又因缺乏完備的篩查手段而未得到及時更正,故而成為如今難以追溯的缺失數(shù)據(jù)。隨信息技術(shù)的不斷發(fā)展,考試的管理工作逐步由人工向計算機信息系統(tǒng)過渡,管理者做了大量的整理工作,嘗試將各種各類紙介質(zhì)檔案轉(zhuǎn)為數(shù)字化檔案錄入系統(tǒng),但在這個過程中,又會因為各種各樣的原因再次造成漏缺的數(shù)據(jù)。以考生身份證號為例,目前,考生一代、二代身份證號并存。截至2021年底,在籍考生中身份證號位數(shù)不滿18位的考生占到考生比例的36.33%,其中一大部分是因為開考初期的老考生自始至終未采集,另一部分是因為不再參加考試且沒有申請身份證號正常升位造成的。此外,早期畢業(yè)證書上均采用手貼照片的形式,而在實際系統(tǒng)中并未采集數(shù)字化信息,從而造成畢業(yè)生的照片信息缺失,進而導致畢業(yè)生身份認證時被質(zhì)疑。隨著信息時代的發(fā)展以及信息技術(shù)在社會各行各業(yè)工作中的全面應(yīng)用,這一問題也日益凸顯。

    二、自學考試數(shù)據(jù)清洗的途徑與辦法

    數(shù)據(jù)清洗(Data Cleaning)就是把“臟”的“洗掉”,發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別錯誤的一道程序,是對數(shù)據(jù)進行重新審查和校驗的過程,是按照一定的規(guī)則刪除重復信息,糾正存在的錯誤,處理無效值和缺失值,以提高數(shù)據(jù)一致性、準確性[4]。自學考試的數(shù)據(jù)清洗,必須要從自學考試自身特點入手,采用技術(shù)層面的數(shù)據(jù)清洗,以及與考試管理方式改革緊密結(jié)合的政策調(diào)整等方法,對臟數(shù)據(jù)進行清理并防止“臟數(shù)據(jù)”的進一步累積。

    (一)技術(shù)層面的數(shù)據(jù)清潔

    1.重復冗余數(shù)據(jù)清洗

    如上文所述,目前的自學考試按照專業(yè)管理的方式,一旦專業(yè)發(fā)生關(guān)停時,持有兩個或以上不同專業(yè)的準考證號的考生便會重新注冊新號。為避免重復的考生數(shù)據(jù)再次積累,可嘗試借鑒其他省市“一號通”概念,即一名考生自始至終僅有一個準考證號。對于這樣的考生可以采用機器自動合并、手工確認的方式,將每個考生現(xiàn)有的多個準考證號進行并檔操作。把多個準考證號歸并到其中一個準考證號下,并將此準考證號作為唯一準考證號在今后的考試中使用。自動合并就是機器通過分析考生姓名、身份證號和頭像照片等信息將確屬同一個考生的不同準考證號歸并到最新的一個號上,經(jīng)考辦專家審核后,提交給考生端,待考生本人確認無誤,并檔正式生效。對于姓名、身份證號不能完全匹配為同一考生的,可由考生自行補充相關(guān)準考證號信息,考辦專家審核通過后并檔生效。從而,完成多號歸一的去重工作。

    2.多重標準數(shù)據(jù)清潔

    多重數(shù)據(jù)標準在清洗前首先要做的是統(tǒng)一標準,在唯一的標準下,才能有針對性地對不符合標準的數(shù)據(jù)進行過濾篩查,并制定清洗方案。根據(jù)教育部教育考試院2020年發(fā)布的《關(guān)于開展高等教育自學考試考籍管理基礎(chǔ)信息歸集工作的通知》中的要求,統(tǒng)一準考證號采集標準,報考期間凡不符合標準的考生在登錄系統(tǒng)時,會自動賦予新的準考證號,老準考證號下的考生個人以及成績的各項信息經(jīng)過一系列審核通過后,歸并到新準考證號下,供日后使用。根據(jù)教育部教育考試院2021年發(fā)布《關(guān)于做好高等教育自學考試畢業(yè)證書電子注冊圖像采集工作的通知》中的要求,統(tǒng)一照片格式標準,在辦理畢業(yè)期間,凡老考生成功申請并由考區(qū)、市考辦審核通過的,須上傳符合標準的近期頭像,經(jīng)過系統(tǒng)人像對比和人工專家審核,確屬一人的方可準予畢業(yè),圖像被記錄到畢業(yè)生庫。新考生在注冊準考證號時,即按照此文件標準上傳圖像。對于已經(jīng)畢業(yè)的考生采用按照標準掃描其畢業(yè)生登記表上的照片信息、上傳至畢業(yè)生庫中的方法,進一步完善畢業(yè)生核驗信息,為學歷認證提供基礎(chǔ)。

    3.無效、缺失數(shù)據(jù)清洗

    對于過時的無效數(shù)據(jù),最重要的是保持數(shù)據(jù)的時效性,數(shù)據(jù)的時效性提高之后,缺失數(shù)據(jù)也會及時得到補充。為此,在考生服務(wù)系統(tǒng)中增加了信息更正環(huán)節(jié)??忌看蔚卿洉r,系統(tǒng)都自動彈出對話框,引導考生核對、更新對時效性要求比較高的相關(guān)信息。例如,考生需要將15位身份證號升至18位時,除填寫相關(guān)信息外,還須上傳佐證材料,之后考生服務(wù)系統(tǒng)會向公安部門身份證認證系統(tǒng)申請核驗,最后通過考區(qū)和市考辦的審核合格的方為更正成功。如考生修改聯(lián)系電話,那么系統(tǒng)會向其手機號發(fā)送驗證信息,確保其提交信息的準確性。通過長期的、反復的、大量的更正操作,無效或缺失數(shù)據(jù)的比例會逐漸減少,在一定時間內(nèi)都未申請修改的,將被其定義為“僵尸數(shù)據(jù)”,并轉(zhuǎn)移至不活躍數(shù)據(jù)表中,待日后激活使用,以提高系統(tǒng)運行效率。

    (二)政策層面的數(shù)據(jù)清洗

    1.轉(zhuǎn)變專業(yè)管理模式

    自學考試多年來一直采取專業(yè)管理的模式,考生的報考信息管理是按照從專業(yè)到課程的二維結(jié)構(gòu)實施的。若出現(xiàn)上述關(guān)、轉(zhuǎn)的專業(yè),為了從根本上改變數(shù)據(jù)冗余,要將原來的專業(yè)管理模式調(diào)整為課程管理模式,由原來的一考生一專業(yè)一準考證號,改為一考生一準考證號多專業(yè),即考生用唯一的準考證號選擇不同專業(yè)的課程參加考試。最后,將已取得合格成績的歷史課程與現(xiàn)行某專業(yè)計劃找出對應(yīng)替代關(guān)系,按照該專業(yè)要求篩選合格課程申請畢業(yè)。已畢業(yè)考生所有個人及成績信息歸檔到畢業(yè)生信息中。從源頭杜絕一人多號的重復數(shù)據(jù)和冗余數(shù)據(jù)產(chǎn)生。

    2.統(tǒng)一數(shù)據(jù)標準體系

    在規(guī)范數(shù)據(jù)標準問題上,首先要加強數(shù)據(jù)標準的頂層設(shè)計,盡量滿足唯一性、穩(wěn)定性、可拓展性、前瞻性和共享性標準規(guī)范要求。所有的業(yè)務(wù)系統(tǒng)均應(yīng)建設(shè)在統(tǒng)一數(shù)據(jù)平臺基礎(chǔ)之上。逐步統(tǒng)一數(shù)字化基礎(chǔ)管理和安全的數(shù)據(jù)標準體系,統(tǒng)一與國家考辦間的標準資源,完善跨省數(shù)據(jù)標準體系。通過建立統(tǒng)一的數(shù)據(jù)標準體系將為自考業(yè)務(wù)的創(chuàng)新和事業(yè)發(fā)展營造有利的環(huán)境。

    3.保障數(shù)據(jù)內(nèi)容真實

    從技術(shù)上增加校驗維度,提高數(shù)據(jù)標準的精度,可保證數(shù)據(jù)格式屬性的準確性。但對于數(shù)據(jù)本身的真?zhèn)危枰谄渌麊挝换虿块T的配合下,才能保障其內(nèi)容的真實性。因此,首先需要使用身份證識別設(shè)備或人臉識別設(shè)備等,核實新進入系統(tǒng)的考生身份號以及姓名的真?zhèn)?,防止冒名頂替考試的事件發(fā)生。其次,需要聯(lián)合學信網(wǎng),在考生畢業(yè)申請前,先確認該考生前置學歷的真?zhèn)危沤^假冒前置學歷的現(xiàn)象。最后,為保證所采集數(shù)據(jù)真實有效,增加考生到考區(qū)提交佐證材料的環(huán)節(jié)。

    三、結(jié)語

    本文對自學考試現(xiàn)有“臟數(shù)據(jù)”的類型進行分析,分別從技術(shù)和政策修訂的角度初步構(gòu)建了數(shù)據(jù)清洗策略,設(shè)計了數(shù)據(jù)清洗流程。在自學考試不斷發(fā)展的進程中,應(yīng)當從提高清洗精準度、清洗效率和調(diào)整相關(guān)政策等方面入手,建立更加完善的臟數(shù)據(jù)發(fā)現(xiàn)舉證機制、審核認定機制以及糾錯更新機制等[5],以進一步提高自考數(shù)據(jù)質(zhì)量,讓清潔的數(shù)據(jù)始終作為信息管理的優(yōu)質(zhì)基礎(chǔ),為決策的制定提供有力保障。

    猜你喜歡
    自學考試標準
    2022 年3 月實施的工程建設(shè)標準
    基于先學后教 培養(yǎng)自學力
    教學與自學
    對“自學·議論·引導”教學法的認識和思考
    甘肅教育(2020年2期)2020-09-11 08:00:46
    沈尹默:如何自學書法,才能少走彎路?
    忠誠的標準
    當代陜西(2019年8期)2019-05-09 02:22:48
    美還是丑?
    Japanese Artificial Intelligence Robotto Take Entrance Examinations
    中學科技(2017年5期)2017-06-07 13:01:01
    一家之言:新標準將解決快遞業(yè)“成長中的煩惱”
    專用汽車(2016年4期)2016-03-01 04:13:43
    你考試焦慮嗎?
    中學科技(2015年6期)2015-08-08 05:35:38
    克拉玛依市| 淅川县| 岳阳市| 淮阳县| 香港 | 乐业县| 潮安县| 洞头县| 闻喜县| 南木林县| 屯门区| 巴南区| 凤山县| 综艺| 阿克| 边坝县| 玛纳斯县| 金沙县| 仁寿县| 疏附县| 红河县| 平塘县| 若尔盖县| 望城县| 土默特右旗| 济阳县| 大英县| 景宁| 芦山县| 河东区| 峨边| 英吉沙县| 延边| 溧阳市| 东光县| 临洮县| 贵南县| 桃园县| 美姑县| 宜兴市| 嘉荫县|