• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大語言模型在中學(xué)歷史學(xué)科中的應(yīng)用測(cè)評(píng)分析

    2024-03-12 04:07:47申麗萍何朝帆曹東旭朱云彬吳永和
    現(xiàn)代教育技術(shù) 2024年2期
    關(guān)鍵詞:大語言模型教育應(yīng)用測(cè)評(píng)

    申麗萍 何朝帆 曹東旭 朱云彬 吳永和

    摘要:大語言模型一經(jīng)發(fā)布便獲得廣泛關(guān)注,但其在實(shí)際應(yīng)用特別是教育領(lǐng)域的應(yīng)用還存在諸多局限與挑戰(zhàn),因此需要對(duì)大語言模型在中文語境下的能力與風(fēng)險(xiǎn)進(jìn)行測(cè)評(píng)?;诖?,文章首先收集整理了一個(gè)包括10萬條客觀選擇題與10套中學(xué)主觀題測(cè)試卷的中學(xué)歷史數(shù)據(jù)集,并在以ChatGPT、GPT-4和訊飛星火為代表的大語言模型上測(cè)試了該數(shù)據(jù)集中題目的回答表現(xiàn)。然后,文章詳細(xì)分析了測(cè)試結(jié)果,發(fā)現(xiàn)雖然當(dāng)前大語言模型的突出能力在于能夠產(chǎn)生完整且流暢的表達(dá),但其在中學(xué)歷史知識(shí)測(cè)試中仍遠(yuǎn)低于適齡學(xué)生的平均水平,大語言模型應(yīng)用于教育領(lǐng)域仍存在可靠性較差、可信度較低、具有偏見與歧視、推理能力不足、無法自動(dòng)更新知識(shí)等問題。最后,文章針對(duì)大語言模型在中文語境下教育領(lǐng)域的應(yīng)用提出建議,以期助力大語言模型在教育領(lǐng)域發(fā)揮更大的作用,為學(xué)生、教師帶來更好的學(xué)習(xí)和教學(xué)體驗(yàn)。

    關(guān)鍵詞:大語言模型;ChatGPT;訊飛星火;教育應(yīng)用;測(cè)評(píng)

    【中圖分類號(hào)】G40-057 【文獻(xiàn)標(biāo)識(shí)碼】A 【論文編號(hào)】1009—8097(2024)02—0062—10 【DOI】10.3969/j.issn.1009-8097.2024.02.007

    引言

    自2022年11月30日美國(guó)人工智能研究公司OpenAI發(fā)布生成式交互工具ChatGPT以來[1],生成式大語言模型(Large Language Models,LLM)迅速進(jìn)入主流,引起了前所未有的關(guān)注,國(guó)內(nèi)外各大AI科技巨頭也紛紛投入其中,相繼發(fā)布各自的LLM。LLM通過模擬人類的語言交流,進(jìn)行文本生成、代碼生成和圖像生成,深刻地影響著人類的生產(chǎn)生活方式,其應(yīng)用場(chǎng)景非常廣泛[2],包括問答功能、多語言潤(rùn)色與翻譯、教育功能、內(nèi)容概述等[3],可以幫助用戶提高工作效率、生活質(zhì)量和服務(wù)質(zhì)量,幫助企業(yè)提高客戶滿意度和忠誠(chéng)度、產(chǎn)品的競(jìng)爭(zhēng)力和市場(chǎng)占有率[4]。然而,在進(jìn)行實(shí)際應(yīng)用時(shí)LLM仍存在一些局限和挑戰(zhàn),其生成內(nèi)容包含較大的不可解釋性和不穩(wěn)定性,在安全、隱私和倫理方面也具有較大風(fēng)險(xiǎn),這引起了全球范圍內(nèi)的關(guān)注和擔(dān)憂。特別是在教育領(lǐng)域,以上局限會(huì)引發(fā)教育生態(tài)的潛在風(fēng)險(xiǎn),包括知識(shí)異化的風(fēng)險(xiǎn)、學(xué)生主體性異化的風(fēng)險(xiǎn)、教學(xué)過程異化的風(fēng)險(xiǎn)、數(shù)字倫理風(fēng)險(xiǎn)、數(shù)字教育治理風(fēng)險(xiǎn)等[5]。

    對(duì)此,美國(guó)教育部于2023年5月發(fā)布人工智能教育報(bào)告《人工智能與教學(xué)的未來》,指出針對(duì)當(dāng)前人工智能在教育領(lǐng)域的大規(guī)模應(yīng)用風(fēng)險(xiǎn)制定政策法規(guī)是當(dāng)務(wù)之急[6]。同年6月,全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)教育技術(shù)分技術(shù)委員會(huì)暨教育教育技術(shù)標(biāo)準(zhǔn)化委員會(huì)批準(zhǔn)成立“教育通用人工智能大模型”系列標(biāo)準(zhǔn)工作組,以制定相關(guān)框架、數(shù)據(jù)、測(cè)評(píng)和安全標(biāo)準(zhǔn),促進(jìn)我國(guó)可信、安全、高效、好用的教育通用人工智能大模型的發(fā)展。除了相關(guān)的政策制定,大量國(guó)內(nèi)外研究還對(duì)以ChatGPT為代表的LLM進(jìn)行了傳統(tǒng)自然語言任務(wù)和各種考試能力的測(cè)評(píng)[7][8],試圖量化LLM的應(yīng)用能力與風(fēng)險(xiǎn),但這些測(cè)評(píng)大多以英文為主,中文語境下教育領(lǐng)域的測(cè)評(píng)還相當(dāng)缺乏[9],其在中文語境下教育領(lǐng)域的測(cè)評(píng)效果與風(fēng)險(xiǎn)還有待驗(yàn)證。為此,本研究以中學(xué)歷史學(xué)科為例,通過收集整理超過10萬條客觀選擇題和10套中學(xué)主觀題測(cè)試卷的中學(xué)歷史數(shù)據(jù)集,對(duì)ChatGPT、GPT-4等LLM在歷史知識(shí)掌握、審題、主客觀答題等方面的能力進(jìn)行測(cè)評(píng)和比較,分析大語言模型在歷史學(xué)科中的應(yīng)用成效與不足,為其在中文語境下教育領(lǐng)域的實(shí)際應(yīng)用提供參考與指導(dǎo)。

    一 研究現(xiàn)狀

    當(dāng)前,ChatGPT、訊飛星火等一系列大語言模型在已有的公開自然語言數(shù)據(jù)集上都展現(xiàn)出了優(yōu)秀的甚至最好的結(jié)果[10]。然而,這類傳統(tǒng)數(shù)據(jù)集可能已不再適用于評(píng)估LLM或已被其用于訓(xùn)練,因此有大量研究者嘗試使用真實(shí)的人類考試題目對(duì)LLM進(jìn)行測(cè)評(píng)。例如,GPT-4參加了美國(guó)律師資格考試Uniform Bar Exam、法學(xué)院入學(xué)考試LSAT、美國(guó)高考SAT數(shù)學(xué)部分和閱讀與寫作考試等。在這些考試中,GPT-4的得分高于88%的人類應(yīng)試者[11]。但LLM也并非全能,其在一致性、錯(cuò)誤示例響應(yīng)以及邏輯推理等方面仍有待提高,如Borji[12]對(duì)ChatGPT的錯(cuò)誤進(jìn)行了全面分析,并總結(jié)出主要的錯(cuò)誤類型,包括推理邏輯混亂、事實(shí)錯(cuò)誤、數(shù)學(xué)與編碼能力較差和容易輸出偏見內(nèi)容等。

    隨著LLM在英文數(shù)據(jù)集上的評(píng)測(cè)已日趨成熟,其在中文數(shù)據(jù)集上的評(píng)測(cè)也逐漸進(jìn)入研究者的視野,如有研究者測(cè)試和對(duì)比了ChatGPT[13]、文心一言[14]、盤古[15]、WeLM[16]、LaMDA[17]在中文情感分析、自動(dòng)摘要、閱讀理解和閉卷問答上的性能表現(xiàn),并測(cè)評(píng)了ChatGPT在中文語境下的問答知識(shí)錯(cuò)誤和風(fēng)險(xiǎn),以及錯(cuò)誤混淆、事實(shí)不一致等諸多風(fēng)險(xiǎn),認(rèn)為ChatGPT在自然語言處理的經(jīng)典任務(wù)中表現(xiàn)較好,但在閉卷問答方面出現(xiàn)錯(cuò)誤的概率較高。此外,復(fù)旦大學(xué)研究團(tuán)隊(duì)創(chuàng)建的評(píng)估大語言模型語言理解能力和邏輯推理能力的測(cè)評(píng)框架GAOKAO-bench收集了2010~2022年全國(guó)高考卷的題目,但僅包括1781道客觀題和1030道主觀題。可見,LLM在中文語境下教育領(lǐng)域的測(cè)評(píng)仍然不足。

    二 研究設(shè)計(jì)

    為填補(bǔ)LLM中文教育領(lǐng)域測(cè)評(píng)研究匱乏的現(xiàn)狀,本研究嘗試通過中學(xué)歷史題測(cè)評(píng)多個(gè)大語言模型在教育領(lǐng)域的應(yīng)用能力與局限。

    1 測(cè)評(píng)數(shù)據(jù)集

    本研究從作業(yè)幫、百度題庫(kù)等知名教輔資料網(wǎng)站分別搜集了國(guó)內(nèi)中學(xué)歷史(包括初中和高中歷史)的客觀選擇題超過10萬條,并與來自上海不同知名中學(xué)的兩位資深初高中歷史老師開展深度合作,獲得原創(chuàng)初、高中試卷(以主觀題為主)各10套,形成了一個(gè)用于測(cè)評(píng)LLM的中學(xué)歷史數(shù)據(jù)集,具體如下:

    (1)客觀選擇題

    本研究首先從教輔資料網(wǎng)站分別獲取初、高中歷史客觀選擇題約10萬多條??紤]到ChatGPT僅支持純文本形式輸入,本研究刪除了帶圖片以及重復(fù)的題目,驗(yàn)證篩選了初中題目6萬多條和高中題目8萬多條(如表1所示),其中包含答案解析的初、高中題目分別有2萬多條、5萬多條。每個(gè)客觀選擇題包含問題描述、選項(xiàng)、正確答案、背景知識(shí)、題目解析(可選)等。其中,問題描述的長(zhǎng)度一般不會(huì)超過50個(gè)中文字符,選項(xiàng)一般包含4個(gè),且每個(gè)選項(xiàng)的長(zhǎng)度平均為10個(gè)中文字符??陀^選擇題主要通過判斷和引用歷史事實(shí)以及分類、判斷、總結(jié)考察大模型的知識(shí)儲(chǔ)備能力和邏輯推理能力。

    (2)主觀題

    本研究與上海兩所知名中學(xué)開展合作,分別設(shè)計(jì)了初中、高中歷史學(xué)科的測(cè)試卷各10套,篩選出初中題目41條,高中題目58條,共99條。每道主觀題一般提供4~5個(gè)相關(guān)材料,并圍繞材料和中學(xué)教育的知識(shí)點(diǎn)設(shè)計(jì)3個(gè)小題,以對(duì)大語言模型學(xué)習(xí)能力、知識(shí)掌握能力、材料閱讀和知識(shí)歸納概括能力進(jìn)行綜合量化測(cè)評(píng)。

    2 測(cè)評(píng)方法

    本研究設(shè)計(jì)了一種人機(jī)協(xié)作測(cè)評(píng)方法,如圖1所示。其中,客觀選擇題主要基于微調(diào)模型和LLM進(jìn)行自動(dòng)評(píng)測(cè),主觀題主要基于專家進(jìn)行評(píng)估。

    (1)客觀選擇題測(cè)評(píng)方法

    對(duì)于客觀選擇題,其答案確定并唯一,只需判斷模型是否輸出了正確選項(xiàng),因此針對(duì)這種題型可采用簡(jiǎn)單、高效的大規(guī)模自動(dòng)測(cè)評(píng)。由于目前還無法訪問GPT-4和訊飛星火的API,因此本研究只測(cè)試了ChatGPT的答題情況,并針對(duì)答題準(zhǔn)確率進(jìn)行統(tǒng)計(jì)和分析。考慮到生成式大語言模型無法對(duì)歷史學(xué)科數(shù)據(jù)集進(jìn)行訓(xùn)練或微調(diào),本研究將它與深度學(xué)習(xí)預(yù)訓(xùn)練-微調(diào)語言模型(Bert、Roberta、T5)進(jìn)行比較。例如,本研究使用歷史客觀選擇題數(shù)據(jù)集作為一項(xiàng)分類任務(wù)微調(diào)預(yù)訓(xùn)練語言模型,使其將題目選項(xiàng)作為分類標(biāo)簽,對(duì)比其與大語言模型在測(cè)試數(shù)據(jù)集上的準(zhǔn)確率。

    另外,本研究希望進(jìn)行更有啟發(fā)性的實(shí)驗(yàn),使大語言模型更好地應(yīng)用于中文教育領(lǐng)域,因此進(jìn)行了知識(shí)融合的測(cè)試,即在提問中添加相關(guān)的知識(shí)點(diǎn),以測(cè)評(píng)大語言模型在給定相關(guān)知識(shí)情況下的理解能力是否有提升。

    由于生成式語言模型的本質(zhì)仍然是概率模型,因此即使輸入相同,每次生成的輸出也可能完全不同。如果模型每次生成的答案都一樣,那么模型對(duì)該答案的確信度就是100%?;诖硕x,本研究進(jìn)行了大語言模型對(duì)答案確信度的分析,即多次相同輸入的多數(shù)決采樣測(cè)試,來判斷ChatGPT答案的隨機(jī)性或確信度。

    (2)主觀題測(cè)評(píng)方法

    不同于客觀選擇題的自動(dòng)測(cè)評(píng),主觀題由專業(yè)老師進(jìn)行評(píng)閱和打分。主觀題同時(shí)測(cè)試ChatGPT和New Bing/GPT-4的性能,從以下五個(gè)方面進(jìn)行評(píng)分:

    ①得分率,即該題的分?jǐn)?shù),評(píng)價(jià)方式與批改學(xué)生試卷一致。

    ②知識(shí)點(diǎn)完整性(踩點(diǎn)率),即回答覆蓋標(biāo)準(zhǔn)答案的給分點(diǎn)數(shù)量。

    ③史實(shí)錯(cuò)誤率,即回答中是否存在歷史事實(shí)和知識(shí)點(diǎn)的錯(cuò)誤。

    ④邏輯合理性,即回答是否清晰易懂、邏輯是否合理,而與回答的正確性無關(guān)。

    ⑤語言自然通順性,即語言表達(dá)是否自然通順,是否符合中文的表達(dá)習(xí)慣,是否存在語法、拼寫等方面的錯(cuò)誤。

    除此之外,ChatGPT、New Bing/GPT-4以及訊飛星火分別參加了初、高中在校生的一次模擬考試。閱卷時(shí),教師知道哪些是LLM完成的試卷,但并不知道具體由哪一個(gè)模型完成,以此測(cè)評(píng)ChatGPT、New Bing/GPT-4和訊飛星火的答題能力及其對(duì)應(yīng)的學(xué)生層次。

    三 研究結(jié)果與分析

    1 客觀選擇題的結(jié)果

    根據(jù)上述測(cè)評(píng)方法,本研究對(duì)比了LLM與預(yù)訓(xùn)練-微調(diào)模型在歷史客觀選擇題上的測(cè)試結(jié)果,即Bert、Roberta、T5、ChatGPT在1000條歷史客觀選擇題上的測(cè)試結(jié)果,如表2所示。其中,預(yù)訓(xùn)練模型結(jié)果中同時(shí)給出了使用微調(diào)(w/ finetune)和不使用微調(diào)(w/o finetune)的結(jié)果。微調(diào)數(shù)據(jù)集使用總數(shù)據(jù)集中篩選出不包含1000條測(cè)試集的約8萬個(gè)樣本。由表2的測(cè)試結(jié)果可知,在不經(jīng)過訓(xùn)練的情況下,ChatGPT的參數(shù)量最多,且表現(xiàn)最佳:在初中題目上有超過60%的正確率,在高中題目上也有高于50%的正確率,平均正確率約為57%。用歷史客觀選擇題對(duì)Bert、Roberta、T5三個(gè)模型進(jìn)行微調(diào)之后,Bert、Roberta幾乎沒有提升,T5的準(zhǔn)確率大幅提高,平均達(dá)到75.63%。

    融合知識(shí)是將相關(guān)知識(shí)直接添加到提問中用于輔助大語言模型作答,包括詳細(xì)的題目解析和題目背景兩種知識(shí)。表3是ChatGPT對(duì)兩種知識(shí)融合方式在初、高中各1000題上的測(cè)試結(jié)果,可以看出:在提問時(shí)增加一定的相關(guān)知識(shí)會(huì)提高ChatGPT的性能,特別是在融合詳細(xì)題目解析時(shí),初中客觀選擇題的正確率從62.9%提升到了91.7%,高中客觀選擇題的正確率從50.1%提升到了68.5%。

    表4展示了ChatGPT回答確信度的測(cè)試結(jié)果。本研究對(duì)初、高中各500題分別進(jìn)行三次相同輸入,結(jié)果表明三次生成答案相同的分別只有54.8%、42.4%;其中,回答正確的占比更低,高中題目中ChatGPT回答的三次生成答案相同且回答正確的僅占三成。可見,ChatGPT的答案生成還不夠穩(wěn)定,其確信度還有待提高。

    2 主觀題的結(jié)果

    除客觀選擇題外,本研究還同時(shí)對(duì)ChatGPT和New Bing/GPT-4針對(duì)初、高中試卷主觀題的答題能力進(jìn)行了評(píng)測(cè)。由于評(píng)閱初中卷和高中卷的老師不同,兩者的主觀題試卷難度并沒有可比性,因此本研究主要關(guān)注同一年級(jí)試卷中ChatGPT和New Bing/GPT-4模型的結(jié)果對(duì)比情況,并進(jìn)行了分析。

    ChatGPT與GPT-4主觀題的測(cè)試結(jié)果如表5所示,可以看出:ChatGPT與New Bing/GPT-4在答題得分率上的表現(xiàn)皆不盡如人意。雖然GPT-4的得分率在初中水平測(cè)試中獲得了大幅的提升,但踩點(diǎn)率相比于ChatGPT卻下降了很多,這也體現(xiàn)了New Bing/GPT-4在答題上的保守性(在保證正確率的前提下再豐富作答角度)。在史實(shí)錯(cuò)誤率上,New Bing/GPT-4得益于聯(lián)網(wǎng)搜索和更完善的模型,相較于ChatGPT有更加精確的史料引用能力,錯(cuò)誤率大大降低,這也直接提升了New Bing/GPT-4邏輯推導(dǎo)的合理性。兩個(gè)模型的邏輯合理性和語言自然通順性都達(dá)到了較高的水平,能包含基本的論點(diǎn)、論據(jù)和結(jié)論,以對(duì)材料進(jìn)行較強(qiáng)的總結(jié)和記憶,并通順、自然地表達(dá)觀點(diǎn)。

    3 模擬考試的結(jié)果

    為了測(cè)評(píng)大型語言模型的答題能力是否與適齡學(xué)生相當(dāng),本研究選用三個(gè)大語言模型——ChatGPT、New Bing/GPT-4、訊飛星火,在完全相同的環(huán)境下分別面向初、高中學(xué)生開展模擬考試,其成績(jī)與排名如圖2所示。其中,圖2(a)為初中卷得分分布統(tǒng)計(jì)表,縱軸表示分?jǐn)?shù),滿分30分;橫軸表示按分?jǐn)?shù)高低排序后的學(xué)生序號(hào)。圖2(b)為高中卷得分分布統(tǒng)計(jì)表,縱軸表示分?jǐn)?shù),滿分100分;橫軸表示按分?jǐn)?shù)高低排序后的學(xué)生序號(hào)。

    由圖2可知,ChatGPT、New Bing/GPT-4、訊飛星火在初中卷的得分情況比較接近,而高中卷中New Bing/GPT-4的成績(jī)遙遙領(lǐng)先于ChatGPT和訊飛星火。但遺憾的是,三者的整體排名相對(duì)比較靠后,在初中共137位被測(cè)者(134位被測(cè)學(xué)生與3個(gè)被測(cè)模型)中,三個(gè)模型的排名分別為:New Bing/GPT-4、ChatGPT排名122,訊飛星火排名128;而在高中89位被測(cè)者(86位被測(cè)學(xué)生與3個(gè)被測(cè)模型)中,三個(gè)模型的排名分別為:New Bing/GPT-4排名60、ChatGPT排名84、訊飛星火排名86。

    4 討論與分析

    從以上結(jié)果可知,當(dāng)前LLM的突出優(yōu)勢(shì)在于其能夠產(chǎn)生完整且流暢的表達(dá),且語法和寫作能力已接近甚至超過人類的平均水平,但在中學(xué)歷史知識(shí)測(cè)試中仍然遠(yuǎn)遠(yuǎn)低于適齡學(xué)生的平均水平,并低于微調(diào)后的中型預(yù)訓(xùn)練生成模型。本次測(cè)評(píng)結(jié)果反映了LLM存在易輸出偏見內(nèi)容、不可靠性、低可信度、邏輯推理能力不足、數(shù)據(jù)具有時(shí)限性等問題,大模型典型錯(cuò)誤案例如表6所示。

    ①偏易輸出偏見內(nèi)容。LLM訓(xùn)練數(shù)據(jù)的全球性,從根本上決定了其價(jià)值觀不可能與我國(guó)社會(huì)的主流價(jià)值觀完全一致。例如,針對(duì)表6的問題1,ChatGPT的回答是維護(hù)人權(quán),GPT-4的回答是支持科索沃獨(dú)立,而正確答案應(yīng)為加強(qiáng)對(duì)巴爾干的控制。

    ②不可靠性。在測(cè)試的99個(gè)主觀歷史題目中,ChatGPT的38條回答出現(xiàn)了不同程度的歷史事實(shí)錯(cuò)誤或史實(shí)捏造。例如,針對(duì)表6的問題2,GPT-4和ChatGPT都無法正確回答“兩彈一星”具體所指的內(nèi)容,正確答案應(yīng)為原子彈、導(dǎo)彈、人造衛(wèi)星。

    ③低可信度。在對(duì)500道高中客觀選擇題進(jìn)行三次相同輸入,ChatGPT回答的三次生成答案相同的比例約占42.4%,其中只有30%的答案相同且回答正確,如表4所示??梢?,ChatGPT的答案生成還不夠穩(wěn)定,其確信度還有待提高。

    ④邏輯推理能力不足。雖然GPT-4表現(xiàn)了比ChatGPT、訊飛星火更強(qiáng)的推理能力,但與本研究合作的上海知名中學(xué)的兩位歷史老師認(rèn)為,對(duì)于歷史學(xué)科而言,GPT-4的很多回答并沒有聚焦核心史實(shí)的論證,也較少聯(lián)系材料,雖然其能夠辯證地看待觀點(diǎn)分析的題目,但是缺乏對(duì)深層次觀點(diǎn)的關(guān)注和論證。例如,針對(duì)表6的問題3,ChatGPT忽略了“導(dǎo)致清朝北洋艦隊(duì)全軍覆沒的戰(zhàn)役”和“威海衛(wèi)戰(zhàn)役”之間的強(qiáng)關(guān)聯(lián)。

    ⑤數(shù)據(jù)具有時(shí)限性。LLM的知識(shí)完全來源于所訓(xùn)練的數(shù)據(jù),它無法感知世界,無法自動(dòng)更新知識(shí),因此無法回答超出訓(xùn)練數(shù)據(jù)截止日期之后的事件和知識(shí)。例如,針對(duì)表6的問題4,ChatGPT和GPT-4明確表示無法回答2021年9月之后的事件;訊飛星火訓(xùn)練數(shù)據(jù)的截止日期未知,也同樣無法回答2022年11月11日的事件。

    四 總結(jié)與建議

    本研究以中學(xué)歷史學(xué)科為例,探討了大語言模型在教育領(lǐng)域的應(yīng)用能力與存在的局限,通過收集整理超過10萬條題目的中學(xué)歷史客觀測(cè)試數(shù)據(jù)集和原創(chuàng)初、高中主觀題試卷,在以ChatGPT、GPT-4和訊飛星火為代表的LLM模型上進(jìn)行了大量實(shí)驗(yàn)和分析。結(jié)果表明,當(dāng)前LLM的突出能力在于其能夠產(chǎn)生完整且流暢的表達(dá),其語法和寫作能力已接近甚至超過人類平均水平,但在中學(xué)歷史知識(shí)測(cè)試中仍然遠(yuǎn)遠(yuǎn)低于適齡學(xué)生的平均水平,在知識(shí)儲(chǔ)備、邏輯推理等方面還存在提升空間。在教育領(lǐng)域,LLM出色的文本生成能力,可以用于學(xué)生的學(xué)習(xí)和教師的輔助教學(xué),因此在應(yīng)用時(shí)應(yīng)該趨利避害,用積極的批判態(tài)度去擁抱代表更高生產(chǎn)力的新技術(shù)。針對(duì)LLM在中文語境下教育領(lǐng)域的應(yīng)用,本研究提出以下建議:

    ①學(xué)生方面,可以合理利用LLM提供的建議、思路或提示,但不建議完全照搬大語言模型的輸出結(jié)果。特別是對(duì)于低年級(jí)、低齡段的學(xué)生,大量的生成文本會(huì)含有冗余或完全錯(cuò)誤的內(nèi)容,甚至?xí)怀鲋形鞣絻r(jià)值觀的差異,這些都非常容易誤導(dǎo)學(xué)生,使其在學(xué)習(xí)過程中產(chǎn)生疑惑。因此,學(xué)生在使用LLM進(jìn)行學(xué)習(xí)的過程中要學(xué)會(huì)運(yùn)用批判性思維,分辨是非曲直。對(duì)此,大模型是一個(gè)非常好的對(duì)話工具,能夠循循善誘地為學(xué)生答疑解惑,提供引導(dǎo)式的學(xué)習(xí)體驗(yàn)和跨學(xué)科知識(shí)的支持。

    ②教師方面,需盡可能發(fā)揮LLM的輔助教學(xué)作用。在99道主觀題中,ChatGPT在8個(gè)回答中正確引用了超出課本的知識(shí)和史料記載等,因此可以在教學(xué)過程中將其作為輔助的教學(xué)材料,對(duì)課堂教學(xué)進(jìn)行補(bǔ)充。在能夠判斷大語言模型的回答是否正確的前提下,使用大語言模型進(jìn)行批判性的知識(shí)索引和審查可以提高教師的教學(xué)水平。其中,GPT-4的理論性更強(qiáng),答題的正確率較高,因此可以提供更多的教學(xué)和解題思路。此外,大模型具有強(qiáng)大的語言理解和生成能力,可以幫助教師進(jìn)行作文批改,從而為學(xué)生提供個(gè)性化的分析與指導(dǎo),實(shí)現(xiàn)對(duì)學(xué)生的因材施教。

    ③科研人員方面,解決LLM存在的諸多局限和問題是重要的研究任務(wù)。教育是特殊的應(yīng)用領(lǐng)域,具有知識(shí)準(zhǔn)確性、意識(shí)形態(tài)正確性、過程可解釋性等要求。要達(dá)到這樣的目標(biāo)還有大量的工作尚待完成,如獲取特定的學(xué)科相關(guān)訓(xùn)練數(shù)據(jù)、融合學(xué)科知識(shí)圖譜、保護(hù)用戶隱私數(shù)據(jù)、去除有害的或存在偏見的內(nèi)容等。當(dāng)前科研人員亟須解決LLM存在的諸多局限和問題,探索數(shù)字教育與智能教育的新范式,通過構(gòu)建可控、可信、安全、綠色、好用、高效的教育通用人工智能大模型,建立有教育溫度、以育人為本的人工智能及其智能教育環(huán)境,才能更好地賦能、賦智教育,推進(jìn)教育數(shù)字化發(fā)展。

    ④管理人員方面,需要制定相應(yīng)的政策和標(biāo)準(zhǔn),規(guī)范LLM功能、框架、數(shù)據(jù)和評(píng)測(cè)標(biāo)準(zhǔn),防止LLM在教育產(chǎn)品中的濫用。雖然對(duì)于LLM在中文語境下教育領(lǐng)域應(yīng)用的研究正在不斷推進(jìn),但是如何保證應(yīng)用過程中的規(guī)范性同樣重要,這就需要管理人員針對(duì)LLM的相關(guān)使用規(guī)則做出明確規(guī)定,引導(dǎo)正確的研究和應(yīng)用方向,從而推動(dòng)構(gòu)建適應(yīng)未來世界的教育模式,形成“思維比知道重要、問題比答案重要、邏輯比羅列重要”的學(xué)習(xí)評(píng)價(jià)新思維[18]。

    綜上所述,LLM在中文語境下教育領(lǐng)域的應(yīng)用既面臨挑戰(zhàn),也有較大的發(fā)展?jié)摿ΑMㄟ^解決模型的不足,不斷優(yōu)化模型,并與教育大數(shù)據(jù)對(duì)齊,可以讓大模型才能更好地賦能、賦智教育。期待大語言模型在教育領(lǐng)域發(fā)揮更大的作用,為學(xué)生和教師帶來更好的學(xué)習(xí)與教學(xué)體驗(yàn)。

    參考文獻(xiàn)

    [1]Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022,35:27730-27744.

    [2]Bubeck S, Chandrasekaran V, Eldan R, et al. Sparks of artificial general intelligence: Early experiments with GPT-4[OL].

    [3]Park J S, OBrien J, Cai C J, et al. Generative agents: Interactive simulacra of human behavior[A]. Proceedings of the 36th Annual ACM Symposium on User Interface Software and Technology[C]. 2023:1-22.

    [4]Eloundou T, Manning S, Mishkin P, et al. GPTs are GPTs: An early look at the labor market impact potential of large language models[OL].

    [5][9][13]張華平,李林翰,李春錦.ChatGPT中文性能測(cè)評(píng)與風(fēng)險(xiǎn)應(yīng)對(duì)[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2023,(3):16-25.

    [6]US Department of Education. AI and the future of teaching and learning: Insights and recommendations[OL].

    [7][10]Zhao W X, Zhou K, Li J, et al. A survey of large language models[OL].

    [8]Nunes D, Primi R, Pires R, et al. Evaluating GPT-3.5 and GPT-4 models on Brazilian university admission exams[OL]. .

    [11]OpenAI. GPT-4 technical report[OL].

    [12]Zeng W, Ren X, Su T, et al. Pangu-α: Large-scale autoregressive pretrained Chinese language models with auto-parallel computation[OL].

    [14]Wang S, Sun Y, Xiang Y, et al. Ernie 3.0 titan: Exploring larger-scale knowledge enhanced pre-training for language understanding and generation[OL].

    [15]Zeng W, Ren X, Su T, et al. Pangu-α: Large-scale autoregressive pretrained Chinese language models with auto-parallel computation[OL].

    [16]Su H, Zhou X, Yu H, et al. Welm: A well-read pre-trained language model for Chinese[OL].

    [17]Thoppilan R, De Freitas D, Hall J, et al. Lamda: Language models for dialog applications[OL].

    [18]沈書生,祝智庭.ChatGPT類產(chǎn)品:內(nèi)在機(jī)制及其對(duì)學(xué)習(xí)評(píng)價(jià)的影響[J].中國(guó)遠(yuǎn)程教育,2023,(4):8-15.

    Evaluation and Analysis of Large Language Models Application in of Historical Discipline Middle Schools

    Abstract: Large language models (LLMs) have received wide attention since its release, while there are still many limitations and challenges in their practical application, especially in the field of education. Therefore, it is necessary to evaluate the capability and risk of LLMs in the Chinese context. Based on this, this paper firstly collected and sorted out a historical dataset for middle school students including more than 100,000 objective multiple choice questions and 10 sets of subjective questions, and tested the answer performances of the questions in the data set of the LLMs represented by ChatGPT, GPT-4 and IFLYTEK Spark. Then, the paper analyzed the test results in detail and found that although the outstanding ability of the current LLMs lay in its ability to produce complete and fluent expression, and its performance in the history knowledge test of middle school was still far below the average level of school-age students.

    The application of LLMs in education still had some problems: such as poor reliability, low credibility, prejudice and discrimination, insufficient reasoning ability and inability to update knowledge automatically. Finally, some suggestions were proposed for the application of LLMs in the field of education in the Chinese context, in order to help LLMs play a greater role in the educational field and bring better learning and teaching experience for students and teachers.

    Keywords: large language models, ChatGPT, IFLYTEK Spark, education applicational, evaluation and analysis

    猜你喜歡
    大語言模型教育應(yīng)用測(cè)評(píng)
    ChatGPT技術(shù)原理及未來影響研究
    財(cái)務(wù)共享服務(wù)中心的大語言模型應(yīng)用探究
    人工智能需要“靈魂”嗎
    生成式人工智能的教育應(yīng)用與展望
    談?dòng)?jì)算機(jī)多媒體技術(shù)在中等職業(yè)教育中的應(yīng)用
    測(cè)評(píng)一款LED成像燈
    演藝科技(2016年11期)2016-12-24 18:26:11
    解析一款LED燈具
    演藝科技(2016年4期)2016-11-16 07:32:57
    西藏職業(yè)技術(shù)學(xué)院學(xué)生綜合素質(zhì)測(cè)評(píng)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
    社會(huì)治安防控體系建設(shè)中的公民參與度測(cè)評(píng)研究
    商(2016年30期)2016-11-09 11:04:38
    游戲教學(xué)法在幼兒教育中的應(yīng)用
    考試周刊(2016年71期)2016-09-20 07:15:03
    又大又爽又粗| 91字幕亚洲| 久久久久精品国产欧美久久久| 91久久精品国产一区二区成人 | 国产午夜福利久久久久久| 伦理电影免费视频| 久9热在线精品视频| 露出奶头的视频| 亚洲精品一区av在线观看| 免费在线观看视频国产中文字幕亚洲| 99久久综合精品五月天人人| 免费搜索国产男女视频| 欧美黄色片欧美黄色片| 久久精品人妻少妇| 国产毛片a区久久久久| 久久人妻av系列| 丰满人妻熟妇乱又伦精品不卡| 国产成人啪精品午夜网站| 国产久久久一区二区三区| 夜夜夜夜夜久久久久| aaaaa片日本免费| 女警被强在线播放| 丝袜人妻中文字幕| 九色成人免费人妻av| 村上凉子中文字幕在线| 亚洲av五月六月丁香网| 特级一级黄色大片| 97超级碰碰碰精品色视频在线观看| 偷拍熟女少妇极品色| 亚洲成人中文字幕在线播放| 亚洲熟女毛片儿| 免费一级毛片在线播放高清视频| 桃色一区二区三区在线观看| 嫩草影院入口| 久久香蕉国产精品| 国产一区二区在线观看日韩 | 欧美一级a爱片免费观看看| 午夜激情欧美在线| 国产精品久久视频播放| АⅤ资源中文在线天堂| 91av网一区二区| 亚洲成人免费电影在线观看| 国产伦精品一区二区三区四那| 国产97色在线日韩免费| 一个人观看的视频www高清免费观看 | 欧美绝顶高潮抽搐喷水| 欧美国产日韩亚洲一区| 国产成人av教育| 18美女黄网站色大片免费观看| 女生性感内裤真人,穿戴方法视频| 国产真人三级小视频在线观看| 成人av一区二区三区在线看| 99久久99久久久精品蜜桃| 级片在线观看| 成人鲁丝片一二三区免费| 亚洲五月婷婷丁香| 国产精品av久久久久免费| 在线永久观看黄色视频| 精品人妻1区二区| 国产亚洲精品久久久久久毛片| 国产亚洲精品av在线| 国产高清videossex| 精品一区二区三区四区五区乱码| 丝袜人妻中文字幕| 午夜亚洲福利在线播放| 国产精品久久久久久精品电影| 午夜福利18| 久久国产乱子伦精品免费另类| 村上凉子中文字幕在线| 亚洲成人精品中文字幕电影| 99国产极品粉嫩在线观看| 一进一出抽搐gif免费好疼| 999精品在线视频| 一二三四在线观看免费中文在| 国产伦一二天堂av在线观看| 欧美一级a爱片免费观看看| 色综合欧美亚洲国产小说| 亚洲欧美日韩高清专用| 老鸭窝网址在线观看| 国产精品av久久久久免费| 天堂√8在线中文| 免费av毛片视频| 最新中文字幕久久久久 | 在线免费观看的www视频| 成人三级黄色视频| 亚洲真实伦在线观看| 动漫黄色视频在线观看| 成年版毛片免费区| 欧美乱色亚洲激情| 18美女黄网站色大片免费观看| 色噜噜av男人的天堂激情| 成人国产一区最新在线观看| 国产亚洲精品久久久久久毛片| 亚洲自偷自拍图片 自拍| 日韩大尺度精品在线看网址| 熟女少妇亚洲综合色aaa.| 三级毛片av免费| 18禁裸乳无遮挡免费网站照片| 18禁美女被吸乳视频| 女生性感内裤真人,穿戴方法视频| 国产精品久久久久久精品电影| 美女大奶头视频| 久久精品人妻少妇| 在线视频色国产色| 国产精品综合久久久久久久免费| 国产午夜福利久久久久久| 老司机在亚洲福利影院| 亚洲无线观看免费| 一级毛片高清免费大全| 99热精品在线国产| 日韩大尺度精品在线看网址| 搡老熟女国产l中国老女人| 久久国产精品影院| 999久久久国产精品视频| 少妇人妻一区二区三区视频| 免费av毛片视频| 九九热线精品视视频播放| 亚洲欧美日韩卡通动漫| 成在线人永久免费视频| 国产三级黄色录像| 久久久久久久久久黄片| 国产免费av片在线观看野外av| 国产免费av片在线观看野外av| 亚洲成人久久性| 免费无遮挡裸体视频| 亚洲无线观看免费| 中文资源天堂在线| 小蜜桃在线观看免费完整版高清| 中文在线观看免费www的网站| 美女扒开内裤让男人捅视频| 99久久综合精品五月天人人| 国产69精品久久久久777片 | 日韩精品中文字幕看吧| 中文资源天堂在线| 欧美日本视频| 免费一级毛片在线播放高清视频| 亚洲av成人精品一区久久| 成人18禁在线播放| 美女扒开内裤让男人捅视频| 欧美成人免费av一区二区三区| e午夜精品久久久久久久| 很黄的视频免费| 欧美日韩一级在线毛片| 香蕉国产在线看| 午夜精品在线福利| 亚洲国产色片| 亚洲国产色片| 久9热在线精品视频| 男人和女人高潮做爰伦理| 这个男人来自地球电影免费观看| 夜夜爽天天搞| 亚洲aⅴ乱码一区二区在线播放| 观看美女的网站| 欧美日韩中文字幕国产精品一区二区三区| 免费高清视频大片| 97超视频在线观看视频| 国产91精品成人一区二区三区| 少妇丰满av| 国产精品香港三级国产av潘金莲| 国产一区在线观看成人免费| 97人妻精品一区二区三区麻豆| 亚洲美女黄片视频| 无遮挡黄片免费观看| 在线视频色国产色| 亚洲国产精品sss在线观看| 免费看a级黄色片| 亚洲精品一区av在线观看| 亚洲精品在线观看二区| 日本五十路高清| 久久久国产欧美日韩av| 亚洲美女黄片视频| 美女免费视频网站| 男女下面进入的视频免费午夜| 国产主播在线观看一区二区| 日本 av在线| 亚洲精品粉嫩美女一区| 午夜福利在线观看吧| 久久久国产成人精品二区| 一级毛片精品| 小说图片视频综合网站| 亚洲欧美日韩无卡精品| 国产一区二区在线av高清观看| 国产精品久久视频播放| 亚洲第一欧美日韩一区二区三区| 亚洲 欧美一区二区三区| 国产精品亚洲一级av第二区| av中文乱码字幕在线| 国产精品,欧美在线| 国产黄色小视频在线观看| 怎么达到女性高潮| 久久久久免费精品人妻一区二区| 一个人看视频在线观看www免费 | 欧美不卡视频在线免费观看| 9191精品国产免费久久| 日日摸夜夜添夜夜添小说| 精品久久久久久久人妻蜜臀av| 在线国产一区二区在线| 一本综合久久免费| 亚洲午夜精品一区,二区,三区| 亚洲色图av天堂| 熟女电影av网| 每晚都被弄得嗷嗷叫到高潮| 久久久久久九九精品二区国产| 99国产极品粉嫩在线观看| 少妇人妻一区二区三区视频| 黄色女人牲交| 十八禁网站免费在线| 女生性感内裤真人,穿戴方法视频| 国产一区二区三区在线臀色熟女| 偷拍熟女少妇极品色| 国产成人精品无人区| 一个人观看的视频www高清免费观看 | 免费高清视频大片| 久久久国产精品麻豆| 国产黄色小视频在线观看| 亚洲国产欧美一区二区综合| 给我免费播放毛片高清在线观看| 亚洲人成电影免费在线| 女人被狂操c到高潮| 日本在线视频免费播放| 人妻丰满熟妇av一区二区三区| 麻豆一二三区av精品| 欧美乱色亚洲激情| 国产精品一区二区精品视频观看| 国产精品久久久久久久电影 | 欧美不卡视频在线免费观看| 麻豆成人av在线观看| 999久久久精品免费观看国产| 此物有八面人人有两片| 国产真人三级小视频在线观看| 18禁国产床啪视频网站| 琪琪午夜伦伦电影理论片6080| 久久中文字幕一级| cao死你这个sao货| 老汉色av国产亚洲站长工具| 亚洲精品美女久久久久99蜜臀| 无遮挡黄片免费观看| 国产伦精品一区二区三区视频9 | 757午夜福利合集在线观看| 亚洲成人免费电影在线观看| 男人舔奶头视频| 男女做爰动态图高潮gif福利片| 精品乱码久久久久久99久播| 中文字幕熟女人妻在线| 日本 欧美在线| av女优亚洲男人天堂 | 日韩免费av在线播放| 五月伊人婷婷丁香| 88av欧美| 国产精品女同一区二区软件 | 在线免费观看不下载黄p国产 | 亚洲一区高清亚洲精品| 国产精品久久电影中文字幕| 久久国产精品人妻蜜桃| 99热精品在线国产| 亚洲专区字幕在线| 欧美日韩综合久久久久久 | 国产精品永久免费网站| 免费在线观看日本一区| 91在线观看av| 婷婷精品国产亚洲av| 国产高潮美女av| 亚洲美女黄片视频| 在线永久观看黄色视频| 麻豆国产97在线/欧美| 亚洲av第一区精品v没综合| 久久久久九九精品影院| 中文字幕精品亚洲无线码一区| 欧美极品一区二区三区四区| 一本精品99久久精品77| 午夜日韩欧美国产| 在线观看66精品国产| 人人妻,人人澡人人爽秒播| 久久99热这里只有精品18| 亚洲精品美女久久av网站| 观看美女的网站| 一本久久中文字幕| 日本撒尿小便嘘嘘汇集6| 伦理电影免费视频| 国产精品亚洲美女久久久| 欧美日韩黄片免| АⅤ资源中文在线天堂| av女优亚洲男人天堂 | 少妇丰满av| 天天躁日日操中文字幕| 亚洲av成人精品一区久久| 99久国产av精品| 女警被强在线播放| svipshipincom国产片| 久久精品91蜜桃| 黄片小视频在线播放| 好男人在线观看高清免费视频| 精品久久久久久久人妻蜜臀av| 成人三级黄色视频| 久久精品91无色码中文字幕| 久久国产精品人妻蜜桃| 18禁观看日本| 欧美性猛交╳xxx乱大交人| 欧美一级毛片孕妇| 国产亚洲av高清不卡| 变态另类丝袜制服| xxxwww97欧美| 欧美不卡视频在线免费观看| 美女高潮喷水抽搐中文字幕| 午夜激情福利司机影院| 搞女人的毛片| 一区福利在线观看| 午夜福利视频1000在线观看| 看黄色毛片网站| 色噜噜av男人的天堂激情| 日本一二三区视频观看| 看黄色毛片网站| 国产又色又爽无遮挡免费看| 午夜免费激情av| 在线国产一区二区在线| 男人舔女人下体高潮全视频| 禁无遮挡网站| 亚洲国产日韩欧美精品在线观看 | 亚洲成人精品中文字幕电影| 老鸭窝网址在线观看| 国产高清三级在线| 亚洲自拍偷在线| 18禁裸乳无遮挡免费网站照片| 久久久久久久久免费视频了| 一进一出抽搐gif免费好疼| or卡值多少钱| 久99久视频精品免费| 欧美最黄视频在线播放免费| 此物有八面人人有两片| 国产高清有码在线观看视频| 日韩大尺度精品在线看网址| 欧美又色又爽又黄视频| 欧美zozozo另类| 亚洲在线自拍视频| 亚洲美女黄片视频| 国产亚洲精品久久久com| netflix在线观看网站| 久久婷婷人人爽人人干人人爱| 99热6这里只有精品| 免费av不卡在线播放| 嫩草影院精品99| 欧美国产日韩亚洲一区| 成年女人看的毛片在线观看| 亚洲精品美女久久久久99蜜臀| 老司机午夜十八禁免费视频| 日韩精品中文字幕看吧| 精品乱码久久久久久99久播| 国产美女午夜福利| 国产av一区在线观看免费| 在线观看66精品国产| 亚洲精品一区av在线观看| 国产精品爽爽va在线观看网站| 桃色一区二区三区在线观看| 好看av亚洲va欧美ⅴa在| av中文乱码字幕在线| 国产精品久久视频播放| 国产伦精品一区二区三区四那| 男女下面进入的视频免费午夜| 真人一进一出gif抽搐免费| 欧美日韩国产亚洲二区| 99久久精品热视频| x7x7x7水蜜桃| 好看av亚洲va欧美ⅴa在| 久久欧美精品欧美久久欧美| 69av精品久久久久久| 亚洲在线观看片| 欧美日本亚洲视频在线播放| 免费看十八禁软件| 99热精品在线国产| 18禁黄网站禁片免费观看直播| 男插女下体视频免费在线播放| 久久精品国产综合久久久| 日韩欧美一区二区三区在线观看| 后天国语完整版免费观看| 亚洲自偷自拍图片 自拍| 亚洲,欧美精品.| 桃色一区二区三区在线观看| 黑人巨大精品欧美一区二区mp4| www.999成人在线观看| 18禁黄网站禁片午夜丰满| 午夜日韩欧美国产| www日本黄色视频网| 一本久久中文字幕| 天堂av国产一区二区熟女人妻| 天天躁狠狠躁夜夜躁狠狠躁| 欧美xxxx黑人xx丫x性爽| 啦啦啦韩国在线观看视频| 久久久国产欧美日韩av| 免费看美女性在线毛片视频| 亚洲精品456在线播放app | www.熟女人妻精品国产| 变态另类成人亚洲欧美熟女| 91麻豆精品激情在线观看国产| 国产成人影院久久av| 一本精品99久久精品77| 亚洲中文字幕日韩| 亚洲,欧美精品.| 麻豆国产av国片精品| 一级毛片高清免费大全| 99国产极品粉嫩在线观看| 在线观看美女被高潮喷水网站 | www日本在线高清视频| 国内揄拍国产精品人妻在线| 好男人在线观看高清免费视频| 国产成+人综合+亚洲专区| 色综合亚洲欧美另类图片| 女警被强在线播放| 757午夜福利合集在线观看| 欧美黑人欧美精品刺激| 午夜激情欧美在线| 亚洲专区字幕在线| 日韩 欧美 亚洲 中文字幕| 久久天躁狠狠躁夜夜2o2o| 亚洲av成人精品一区久久| 日韩欧美国产一区二区入口| 免费观看人在逋| 国产久久久一区二区三区| 国产一级毛片七仙女欲春2| 成人特级av手机在线观看| 久久草成人影院| 亚洲精品一卡2卡三卡4卡5卡| 波多野结衣高清作品| 老司机午夜十八禁免费视频| 国产野战对白在线观看| 午夜福利成人在线免费观看| 亚洲专区国产一区二区| 91av网站免费观看| 日日夜夜操网爽| 在线观看一区二区三区| 成人无遮挡网站| 国产又黄又爽又无遮挡在线| 色哟哟哟哟哟哟| 亚洲狠狠婷婷综合久久图片| 亚洲精品456在线播放app | 看黄色毛片网站| 无遮挡黄片免费观看| 色播亚洲综合网| 久久热在线av| 午夜视频精品福利| 极品教师在线免费播放| 一本精品99久久精品77| 国产一区二区三区视频了| 国产一区二区在线av高清观看| 成年免费大片在线观看| 又黄又爽又免费观看的视频| 国产精品久久久久久精品电影| 久久久色成人| 韩国av一区二区三区四区| 亚洲成人中文字幕在线播放| 黄片大片在线免费观看| 麻豆一二三区av精品| 亚洲成人中文字幕在线播放| 亚洲国产色片| 小说图片视频综合网站| 最近视频中文字幕2019在线8| 中文在线观看免费www的网站| 男女下面进入的视频免费午夜| 亚洲一区高清亚洲精品| 在线a可以看的网站| 97超视频在线观看视频| 午夜成年电影在线免费观看| 丁香欧美五月| 成年免费大片在线观看| 国产午夜福利久久久久久| a在线观看视频网站| 欧美不卡视频在线免费观看| 我要搜黄色片| 91九色精品人成在线观看| 国产三级黄色录像| 人妻丰满熟妇av一区二区三区| 久久这里只有精品中国| 国产成人欧美在线观看| 国产三级在线视频| 久久久久性生活片| 日韩欧美国产一区二区入口| 最近在线观看免费完整版| 亚洲精品在线美女| 国模一区二区三区四区视频 | av视频在线观看入口| 在线国产一区二区在线| 美女黄网站色视频| 国产精品久久电影中文字幕| 久久人人精品亚洲av| 美女 人体艺术 gogo| 日本黄色视频三级网站网址| 极品教师在线免费播放| 国产探花在线观看一区二区| 18禁国产床啪视频网站| 亚洲avbb在线观看| 少妇丰满av| 精品99又大又爽又粗少妇毛片 | 午夜福利欧美成人| 精品熟女少妇八av免费久了| 亚洲精品在线美女| 91久久精品国产一区二区成人 | 男人和女人高潮做爰伦理| 在线十欧美十亚洲十日本专区| 99精品欧美一区二区三区四区| 蜜桃久久精品国产亚洲av| 国产精品久久久久久亚洲av鲁大| 麻豆成人午夜福利视频| 精品国产超薄肉色丝袜足j| a级毛片在线看网站| 婷婷亚洲欧美| 男女之事视频高清在线观看| 亚洲av成人一区二区三| 琪琪午夜伦伦电影理论片6080| 亚洲 欧美一区二区三区| 天堂动漫精品| 久久午夜综合久久蜜桃| 他把我摸到了高潮在线观看| 蜜桃久久精品国产亚洲av| 中文字幕人成人乱码亚洲影| 国产精品亚洲av一区麻豆| 人人妻人人澡欧美一区二区| 中文字幕精品亚洲无线码一区| 一区二区三区高清视频在线| 别揉我奶头~嗯~啊~动态视频| 国产一区二区三区视频了| 高清毛片免费观看视频网站| 亚洲午夜精品一区,二区,三区| 欧美乱妇无乱码| 99国产极品粉嫩在线观看| 国产激情久久老熟女| 亚洲精品美女久久av网站| 国产免费男女视频| 国产精华一区二区三区| 最好的美女福利视频网| 国产av一区在线观看免费| 亚洲中文av在线| 日韩精品中文字幕看吧| 麻豆成人午夜福利视频| 日韩 欧美 亚洲 中文字幕| 夜夜躁狠狠躁天天躁| 免费观看人在逋| 日韩中文字幕欧美一区二区| 国产亚洲欧美98| 国产精品久久久久久精品电影| 真人做人爱边吃奶动态| 亚洲欧美日韩卡通动漫| 成人av一区二区三区在线看| 精品日产1卡2卡| 亚洲av成人av| 欧美绝顶高潮抽搐喷水| 欧美成狂野欧美在线观看| 无遮挡黄片免费观看| xxx96com| 我要搜黄色片| 国产99白浆流出| 成年免费大片在线观看| 丰满人妻一区二区三区视频av | 亚洲午夜精品一区,二区,三区| 精品一区二区三区视频在线 | 日本免费a在线| 久久精品91蜜桃| 女人被狂操c到高潮| 亚洲精品色激情综合| 熟妇人妻久久中文字幕3abv| 成年人黄色毛片网站| 成人三级黄色视频| 啦啦啦观看免费观看视频高清| 免费观看人在逋| 亚洲中文字幕一区二区三区有码在线看 | 欧美乱码精品一区二区三区| 18禁裸乳无遮挡免费网站照片| 国产男靠女视频免费网站| 国产又黄又爽又无遮挡在线| 我要搜黄色片| 国产一区二区三区视频了| 久久久久国产一级毛片高清牌| 亚洲av成人av| ponron亚洲| 日韩欧美在线二视频| 九九热线精品视视频播放| 在线a可以看的网站| 国产视频内射| 88av欧美| 国内精品一区二区在线观看| 欧美日韩福利视频一区二区| 国产精品av视频在线免费观看| 久久久久久久久中文| www.www免费av| 日韩成人在线观看一区二区三区| 夜夜躁狠狠躁天天躁| 国产成人精品久久二区二区91| 两个人的视频大全免费| 99热这里只有精品一区 | 国产综合懂色| 日本免费a在线| 黄色 视频免费看| 欧美中文综合在线视频| 国产精品爽爽va在线观看网站| 国产精品亚洲一级av第二区| 女人被狂操c到高潮| 亚洲精品美女久久av网站| 网址你懂的国产日韩在线| 老司机午夜十八禁免费视频| 亚洲av美国av| 色老头精品视频在线观看| 国产成人一区二区三区免费视频网站| 91麻豆精品激情在线观看国产| 国产精品99久久久久久久久| 国产淫片久久久久久久久 | 亚洲va日本ⅴa欧美va伊人久久| 别揉我奶头~嗯~啊~动态视频| 久久这里只有精品中国| 欧美日本视频| 给我免费播放毛片高清在线观看| 99re在线观看精品视频| 看黄色毛片网站| 禁无遮挡网站| 亚洲国产看品久久| 亚洲国产欧美网| 欧美乱妇无乱码| 热99在线观看视频|