武君 石媛媛
摘 ?要:文章以統(tǒng)計學(xué)和非結(jié)構(gòu)化數(shù)據(jù)分析為理論依據(jù),以統(tǒng)計軟件為手段,分別從知乎和今日頭條兩個平臺選取有關(guān)我國子女家庭教育問題的相關(guān)文本數(shù)據(jù),從數(shù)據(jù)層面對家庭教育的意見問題進行文本情感分析和LDA主題建模,以此了解我國子女家庭教育出現(xiàn)問題的原因和特征,提出相應(yīng)改進建議從而促進子女在家庭中健康茁壯成長,也為文本情感分析技術(shù)在教育領(lǐng)域的應(yīng)用提供實踐參考。
關(guān)鍵詞:子女家庭教育;文本情感分析;情感詞典
中圖分類號:TP391.1 ? ? ? 文獻標(biāo)識碼:A文章編號:2096-4706(2021)13-0087-04
Research on Children’s Family Education Based on Emotion Analysis Algorithm
WU Jun, SHI Yuanyuan
(School of Finance, Xi’an Eurasia University, Xi’an ?710065, China)
Abstract: Taking statistics and unstructured data analysis as the theoretical basis and statistical software as the means, this paper selects relevant text data on children’s family education in China from the two platforms of Zhihu and Today’s Headlines, and carries out text emotion analysis and LDA subject modeling on the opinions of family education from the data level, in order to understand the causes and characteristics of the problems in children’s family education in China, put forward corresponding improvement suggestions, so as to promote the healthy growth of children in the family, and also provide practical reference for the application of text emotion analysis technology in the field of education.
Keywords: children’s family education; text emotion analysis; emotion dictionary
0 ?引 ?言
國內(nèi)外文獻重點探討了農(nóng)民工子女教育公平問題現(xiàn)狀與對策研究和基于文本情感分析算法在不同領(lǐng)域的研究。對于農(nóng)民工子女教育現(xiàn)狀的研究一般采用相關(guān)政策文本分析,研究家庭關(guān)系、家庭收入對子女教育的影響,農(nóng)民工子女教育現(xiàn)狀剖析,農(nóng)民工子女教育不公平現(xiàn)象的原因分析等。對于文本情感分析算法的研究,一般步驟為先爬取帶有情感色彩的主觀性意見文本,然后基于該意見文本進行情感信息提取,可視化呈現(xiàn)、傾向性分析,最后提出相應(yīng)的改進建議等?!笆奈濉币?guī)劃中明確強調(diào)到二○三五年基本實現(xiàn)社會主義現(xiàn)代化遠景目標(biāo),其中教育問題仍是需要關(guān)注和解決的社會問題。在大數(shù)據(jù)、人工智能背景下,教育大數(shù)據(jù)時代已到來,教育大數(shù)據(jù)分析勢在必行,因此有必要將數(shù)據(jù)挖掘算法引入到教育領(lǐng)域進行深入研究,本項目就是為文本情感分析技術(shù)在教育領(lǐng)域的應(yīng)用提供實踐參考。
1 ?理論綜述
1.1 ?我國子女家庭教育現(xiàn)狀
中國雖然有著重視家庭教育的優(yōu)良傳統(tǒng),但是,目前我國子女家庭教育現(xiàn)狀不容樂觀,存在許多認識上的誤解和實踐中的錯誤做法。家長的教育觀念影響著孩子的成長和發(fā)展,但當(dāng)今父母的教育觀念卻存在著很多誤區(qū)。例如,只把孩子的考試分數(shù)當(dāng)作首要目標(biāo);只關(guān)心孩子的身體健康,卻忽視孩子的心理健康等,這些錯誤的觀念嚴重影響孩子的健康成長。
1.2 ?情感分析算法的介紹
情感分析是指通過文本來挖掘人們對于一些熱門事件、某個組織、個人、產(chǎn)品或服務(wù)等產(chǎn)生的觀點、態(tài)度、情感傾向等?,F(xiàn)階段關(guān)于情感分析方法主要有兩類:基于情感詞典的方法,主要依靠現(xiàn)有的情感詞典或領(lǐng)域詞典,以及主觀文本中帶有情感極性的語句來判斷句子的情感,通過計算情感值來作為判斷文本最終情感傾向的依據(jù)?;跈C器學(xué)習(xí)的方法,主要是使用機器學(xué)習(xí)的方法,將情感分析任務(wù)作為一個分類問題進行處理,通過選取有效特征數(shù)據(jù)來完成分類任務(wù)。本文基于情感詞典方法研究我國子女家庭教育問題,為情感分析技術(shù)在教育領(lǐng)域的應(yīng)用提供實踐參考。
2 ?實證分析
2.1 ?數(shù)據(jù)來源
本文運用八爪魚軟件從知乎和今日頭條兩個平臺上抓取200條不重復(fù)的有關(guān)我國子女家庭教育問題的相關(guān)文本數(shù)據(jù),包括標(biāo)題、時間和內(nèi)容三個字段,將每篇文本內(nèi)容作為主要研究對象。
2.2 ?數(shù)據(jù)預(yù)處理
利用JiebaR包進行分詞,將句子切分成一個個單獨的詞,經(jīng)過分詞處理后200篇文章的內(nèi)容變?yōu)椤霸~+空格+詞”的表現(xiàn)形式,隨后把句子當(dāng)中出現(xiàn)頻率高卻又沒有實際意義的停用詞去掉。本文基于四川大學(xué)機器智能實驗室停用詞庫、中文停用詞表和百度停用詞表構(gòu)建了包含4 934個詞的詞典,將無用的停用詞去掉。
2.3 ?計算關(guān)鍵詞
詞頻體現(xiàn)了同一類文檔中同一特征詞是否高頻的特點,而逆向文檔頻率則認為一個特征詞在文檔中出現(xiàn)的頻數(shù)越小,其文檔類別區(qū)分能力就越強。本文通過計算TF-IDF的值來說明這個詞是關(guān)鍵詞的概率。計算公式為:
TF=某個詞在文章中的出現(xiàn)次數(shù)/該篇文章的總詞數(shù) (1)
IDF=log(語料庫的文檔總數(shù)/包含該詞的文檔數(shù)+1)(2)
TF_IDF=TF·IDF ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
經(jīng)過處理后得出200篇文檔中的關(guān)鍵詞共有63 429個,為提煉出每個文檔中TF_IDF最高的n個詞,分別選取200篇文檔中每篇出現(xiàn)頻率最高的前50個詞,如圖1所示。
由圖可以看出,“爸爸”“大學(xué)”“成功”“成績”等詞在文中出現(xiàn)的頻率很高,表明如今的家庭教育中廣泛存在的一個問題,母親成為家庭教育的頂梁柱,父親通常在旁輔助,而有些父親直接不參與教育,還有大多數(shù)家長只關(guān)心孩子的成績,把每次的考試分數(shù)當(dāng)做評價優(yōu)劣的標(biāo)準(zhǔn),這也是目前的家庭教育中存在的一個很大的問題。同時還出現(xiàn)“打罵”“棍棒”“分歧”“吵架”“憤怒”“暴力”“干預(yù)”“挫折”“犯錯誤”等詞,這些負面詞嚴重影響子女的心理健康。
2.4 ?LDA主題模型
經(jīng)過數(shù)據(jù)預(yù)處理和計算關(guān)鍵詞后,需對文本內(nèi)容進行話題檢測。LDA模型是一種文檔主題生成模型?;诮Y(jié)果,我們得到這200篇文本內(nèi)容都是圍繞“孩子”“父母”“教育”這三類話題展開的,本文設(shè)置話題數(shù)量為3,對文本進行話題檢測。LDA主題模型輸出的結(jié)果如表1、圖2所示。
結(jié)果表明,每類話題中所占分布比例最大的前10個詞中,“孩子”“教育”“父母”“家長”“家庭教育”這幾個詞占比較大,尤其是“孩子”。說明這些文檔中都在重點描述孩子的教育問題和家庭相關(guān)的內(nèi)容。
2.5 ?情感分析
本文基于臺灣大學(xué)NTUSD簡體中文情感性詞典和知網(wǎng)Hownet情感分析詞典構(gòu)建了包含21 298個詞的情感詞典,對這兩個詞典進行了匯總、查重、合并,最終使用的情感詞匯庫中含有9 867個中文正面情感詞語和11 431個負面情感詞語。對正負情感詞進行權(quán)重設(shè)置,根據(jù)每個情感詞表達的情感意義強度,分別將它們分成5類。正負情感詞的第一類詞匯屬于情感表達很強烈的成語、動詞、形容詞;第二類詞匯屬于正面贊揚或負面批評的情感表達詞語;第三類詞匯相比第二類詞匯的情感表達較弱;第四類是普通屬于正面意思或負面意思的詞語;第五類詞匯則是一些正面或負面的名詞或單獨字。其中正面情感詞權(quán)重分別賦值為+5、+4、+3、+2、+1,負面情感詞權(quán)重分別賦值為-5、-4、-3、-2、-1。情感得分和為正值歸為正面類,得分和為負值歸為負面類。
這里分別選取正負情感詞每一類的前5個情感詞匯,如表2、表3所示。
2.6 ?情感得分
基于構(gòu)建好的情感詞典讀取其情感強度,計算正面情感和負面情感得分,用正面情感得分減去負面情感得分,得到句子的情感總分,分別計算出200篇文本的情感權(quán)值和。這里選取前50篇文本情感得分和,如表4所示。
200篇文本經(jīng)過計算后,共有170篇得分大于0,29篇文本得分小于0,1篇文本得分為0。其中把得分大于0的文本歸為正面類,小于0的文本歸為負面類,等于0的文本歸為中性類。200篇文本情感傾向占比如圖3所示。
由圖可知,絕大多數(shù)關(guān)于我國子女家庭教育問題的相關(guān)文本都屬于正面類的,關(guān)注點都在于家庭教育對子女成長的重要性,只有好的教育才能培養(yǎng)出好的孩子,說明人們對于解決家庭教育問題抱有正面支持的態(tài)度。極少數(shù)的文本屬于負面類,對此呈消極的態(tài)度,指出我國子女家庭教育存在諸多問題,影響子女成長。
2.7 ?負面情感分析
為分析負面文本所闡述的問題所在,選擇29篇負面文本并繪制詞云圖,如圖4所示。
由圖4可以看出,文本中頻率較高的詞匯有:“焦慮”“成績”“漠不關(guān)心”“情緒”等,其中包含許多負面詞匯:如“暴躁”“玻璃心”“吵架”“溺愛”“嘲笑”“缺乏自信”“矛盾”等,這些詞匯都極大地表明目前我國子女家庭教育存在諸多問題。
3 ?結(jié) ?論
本文利用情感分析算法,從實證角度分析得到目前我國子女家庭教育中存在的諸多問題,針對這些問題提出以下幾點建議:
(1)家長定位好自己的角色,給予孩子最大的安全感。對孩子來說最重要的是父母的陪伴,而不是物質(zhì)上的滿足,父母只有定位好自己的角色,才會更有利于孩子的成長教育。
(2)多個角度看待孩子。不以成績論孩子,更重要的是學(xué)會怎樣做人、怎樣學(xué)習(xí)、怎樣生活,培養(yǎng)孩子動手創(chuàng)造能力,獲得素質(zhì)教育。
(3)樹立正確的家庭教育觀念。每個人都會犯錯,面對孩子犯錯時,家長應(yīng)該采取正確的方法來對待。言中有愛,耐心教導(dǎo),尊重他們,同時也不要過度溺愛。
(4)營造和諧的家庭氛圍。家長教育孩子時應(yīng)該以身作則,用實際行動來做示范,不亂發(fā)脾氣,努力營造和諧親切的家庭氛圍。
參考文獻:
[1] 張威.中國家庭關(guān)系和家庭教育的結(jié)構(gòu)性特征與問題分析--基于華仁社會工作發(fā)展中心的家庭教育咨詢案例分析 [J].社會工作,2015(5):11-54+125-126.
[2] 秦昌才,郭斯雨,劉譯聰.家庭經(jīng)濟資本對子女教育獲得的影響[J].福建江夏學(xué)院學(xué)報,2019,9(5):16-23.
[3] 劉保中.“擴大中的鴻溝”:中國家庭子女教育投資狀況與群體差異比較 [J].北京工業(yè)大學(xué)學(xué)報(社會科學(xué)版),2020,20(2):16-24.
[4] 朱婭潔,白珂.家庭中子女受教育不平等問題分析 [J].環(huán)渤海經(jīng)濟瞭望,2019(3):121.
[5] 張娜,柳運昌,王若男.基于文本情感分析的社交媒體數(shù)據(jù)挖掘 [J].河南城建學(xué)院學(xué)報,2019,28(5):74-79.
作者簡介:武君(1989—),女,漢族,山東濰坊人,講師,碩士研究生,研究方向:教育大數(shù)據(jù)分析、文本挖掘分析。