內(nèi)容摘要:標題寫作是生成式人工智能應用于內(nèi)容生產(chǎn)實踐的重要場景之一。大模型會產(chǎn)生“標題黨”特征傾向嗎?圍繞這一核心問題對國內(nèi)外兩個具有代表性的大語言模型運用算法審計方法進行實證分析。基于模型對973篇微信公眾號文章進行標題寫作的結果,研究發(fā)現(xiàn),在不增加額外提示的情況下,大模型生成的標題具有一定的“標題黨”特征傾向,其中GPT-4的傾向比ChatGLM3更明顯,但與人類相比,兩個模型的“標題黨”特征傾向均沒有人類明顯。相比嚴肅議題,在非嚴肅議題文章的標題寫作中,模型表現(xiàn)的“標題黨”特征傾向更明顯。提示(prompt)對大模型生成“標題黨”特征傾向具有顯著影響:添加含有“標題黨”傾向的角色、背景和風格信息后,模型的“標題黨”特征傾向均顯著增強;添加限制“標題黨”風格的提示后,“標題黨”特征傾向會相應減弱。
關鍵詞:生成式人工智能;大模型;標題黨;算法審計;計算傳播;智能傳播
課題:國家社科基金人才項目(編號:22VRC186);中國中文信息學會社會媒體處理專委會(SMP)-智譜 AI大模型交叉學科基金項目(2023);教育部重點研究基地重大項目(編號:22JJD860004);復旦大學新聞學院科研創(chuàng)新項目(編號:2023-2024);上海數(shù)學與交叉學科研究院項目(編號:SIMIS-ID-2024-LZ)
DOI:10.3969/j.issn.2095-0330.2024.07.005
生成式人工智能及其技術基礎大語言模型正在快速發(fā)展。大語言模型(large language model,LLM)通常指的是在大規(guī)模文本數(shù)據(jù)上進行訓練且包含數(shù)百億甚至更多參數(shù)的語言模型。\"大語言模型通過生成文本的方式表現(xiàn)出強大的自然語言理解和生成能力,推動了內(nèi)容生產(chǎn)領域的變革。大語言模型在提升內(nèi)容生產(chǎn)效率的同時,其可能帶來的問題也開始受到關注。由于模型的訓練數(shù)據(jù)來自互聯(lián)網(wǎng),模型可能學習到了聳人聽聞(sensationalist)或點擊誘餌(clickbait,中文語境下通常稱為“標題黨”)的內(nèi)容特點,導致模型在生成內(nèi)容時存在類似傾向。# 大模型被認為非常適合用于在短時間內(nèi)制造大量低成本(low-cost)、低質(zhì)量(low-quality)、高點擊率(high-volume)的“點擊誘餌”。
不過,目前對大模型可能生成“標題黨”的討論主要集中于思辨層面,實證研究還很少,尤其缺乏基于中國本土媒介內(nèi)容實踐的實證研究。在中文語境下,中外代表性大模型所生成的標題是否以及在多大程度上存在“標題黨”特征元素?如果存在“標題黨”特征元素,那么這種傾向受到哪些因素影響?若在提示語中明確增加“標題黨”要求,會否增強其生成“標題黨”的特征傾向?反之,如果在提示語中增加去除“標題黨”的明確要求,又是否會抑制其“標題黨”傾向?本文采用“算法審計”(algorithm auditing)思路,對大模型的“標題黨”生成傾向展開探索性研究,以推進有關大模型的新聞傳播學實證研究,同時也為大模型在內(nèi)容生產(chǎn)領域的應用提供參考。
一、“標題黨”的概念、發(fā)展及特征元素
根據(jù)相關研究考證,中文語境下的“標題黨”一詞最早發(fā)源于網(wǎng)絡論壇,指的是以娛樂方式加工標題來吸引點擊量的網(wǎng)絡帖主群體以及與之相關的網(wǎng)絡現(xiàn)象。% 隨著社交媒體和內(nèi)容平臺的發(fā)展,這一概念逐漸擴展到更廣泛的內(nèi)容生產(chǎn)領域,包括新聞媒體、博客、公眾號、視頻平臺等?!?00年漢語新詞新語大辭典》對“標題黨”的定義為:“以標題取得高點擊率的人或者行為。”amp; 比較全面的“標題黨”含義既包括標題未能如實反映正文內(nèi)容的“題文不符”問題,也包括更為具體的用以誘導點擊的特征元素,后者與英文語境下的“點擊誘餌”(clickbait)概念更為接近。
所謂“點擊誘餌”,是指互聯(lián)網(wǎng)上能吸引網(wǎng)民注意力并鼓勵其點擊鏈接訪問特定網(wǎng)頁內(nèi)容的實踐策略。' 廣義的“點擊誘餌”的形式包含帶鏈接的標題、照片、圖標等。也有的“點擊誘餌”定義聚焦于以標題為中心誘發(fā)點擊的一種典型形式——即“標題黨”(英文表達為clickbait headline),它指“作為誘餌的形式化和敘事性的手法,用來激發(fā)讀者的期待和好奇心,使他們點擊標題并繼續(xù)閱讀”。
盡管“標題黨”概念強調(diào)網(wǎng)絡時代的背景,但在報紙等傳統(tǒng)媒體時代,由于標題兼具概括文章內(nèi)容和吸引讀者兩個功能,)在市場競爭的壓力下,通過特定元素吸引閱讀的“標題黨”現(xiàn)象也存在。隨著互聯(lián)網(wǎng)時代的來臨,閱讀環(huán)境從紙質(zhì)切換到網(wǎng)絡,標題吸引力的重要性更加凸顯。從媒介角度看,網(wǎng)絡新聞的超鏈接模式使得標題和正文處于兩個頁面空間中,相對獨立,標題成為讀者選擇是否進一步閱讀文章的關鍵影響因素。* 標題的點擊率是影響文章閱讀,進而影響經(jīng)濟收益和市場回報的關鍵指標。+ 在媒介界面布局上,網(wǎng)絡媒體,特別是移動互聯(lián)網(wǎng)環(huán)境下的文章發(fā)布以列表式標題呈現(xiàn)為主,文章日漸與其所在媒體相分離,如果其標題本身不能在海量標題中脫穎而出,內(nèi)容就會被淹沒,無法被打開,更遑論產(chǎn)生影響。隨著數(shù)字技術的發(fā)展,原來數(shù)量有限的機構媒體(PGC)和大量的自媒體(UGC)、機器媒體(AIGC)等均加入內(nèi)容生產(chǎn)行列,加劇了信息過載現(xiàn)象,帶來更激烈的注意力競爭;加之數(shù)據(jù)技術(如流量實時監(jiān)測、A/B測試)和平臺算法(如搜索引擎、社交推薦)的崛起,只有獲得數(shù)據(jù)支持的標題和內(nèi)容才能獲得算法和流量的進一步扶持。可以說,數(shù)字媒介的可供性導致“標題黨”(“點擊誘餌”)傾向和“點擊文化”(culture of the click)的興起。, 在激烈的注意力與影響力競爭下,“標題黨”已經(jīng)成為數(shù)字新聞和數(shù)字內(nèi)容的普遍特征,在不同地區(qū)的新聞媒體和社交媒體中廣泛存在。- 就中國場景而言,“標題黨”現(xiàn)象不僅存在于市場化媒體和自媒體,在官方主流媒體和政務新媒體的內(nèi)容中也相當普遍。
“標題黨”并不是一個簡單的標題制作業(yè)務問題,而關乎新聞業(yè)的核心價值與倫理。因為“標題黨”已被證實會吸引、調(diào)配與轉(zhuǎn)移公眾注意力,/在一個注意力競爭的空間中,具有“標題黨”特征傾向的內(nèi)容可能影響公眾對真正有價值(但并不采用“標題黨”風格)的公共新聞和內(nèi)容的關注,或者帶來“欲求新聞”(want journalism)壓倒“需求新聞”(need journalism)的風險?!皹祟}黨”特征的運用也可能帶來新聞的真實性問題,進而影響新聞媒體的公信力。0 盡管有研究者指出,“標題黨”在特定情境下也不乏正面意義(如支持和促進地方社區(qū)、小眾新聞業(yè)的發(fā)展),1 但總體上,其問題與風險更多得到研究者的關注與強調(diào)。
本研究聚焦于以誘發(fā)點擊為目標的“標題黨”特征元素?;谝延形墨I,常見的“標題黨”特征元素可分為5大維度:列表、前向引用、夸張聳人表達、網(wǎng)絡用語和情緒化的標點符號。一是列表式標題(listicles)。它指圍繞一個基數(shù)(cardinalnumber)組織的標題,其通過數(shù)字吸引讀者點擊以查看完整內(nèi)容,3 如“一夜暴富的10種方法”。二是前向引用(forward-reference)。發(fā)布者在標題中暗示正文中將提及的內(nèi)容,但不提前透露關鍵信息,從而激發(fā)讀者好奇心,促使他們點擊并閱讀全文。常見的前向引用的表現(xiàn)形式包含代詞、一般名詞、省略、祈使語氣等。4例如,指代性的一般名詞如“原因”“真相”等指向文章中的關鍵信息,但發(fā)布者不在標題中講明;省略(ellipsis)指發(fā)布者在標題中省略某些語法上必要的成分,常使用省略號,如“網(wǎng)紅背后的賺錢套路,真相令人咋舌……”;5 祈使語氣指發(fā)布者通過祈使方式向讀者提出閱讀全文的行為建議,提示讀者只有在文章中才能找到特定信息。三是夸張聳人表達。夸張表達指對某個特征或行為的強化或強調(diào),發(fā)布者通過使用夸張詞匯(hyperbolic word)提升文章的點擊量;6 聳人表達則指采用命令、警示或恐嚇等方式向用戶施加壓力。7 四是網(wǎng)絡用語(internet slang)。發(fā)布者在標題中使用網(wǎng)絡俚語、流行語(梗)等吸引讀者點擊。8 五是情緒化的標點符號。發(fā)布者使用問號和感嘆號強化標題表達的情緒。9 更具體的操作化說明和示例見表3。
二、大模型生成“標題黨”的特征傾向與影響因素
標題制作是AIGC技術的應用場景之一。在積極應用的同時,大模型可能生成“標題黨”特征元素的隱患也被提出。: 由于模型的訓練數(shù)據(jù)來自互聯(lián)網(wǎng),模型在訓練過程中有可能學習了互聯(lián)網(wǎng)上與“標題黨”相關的內(nèi)容特點,從而導致在輸出的內(nèi)容中存在“標題黨”傾向。; 但目前的相關研究主要以思辨為主,實證研究尚不多見,且對中國場景的研究缺乏。另外,不同模型由于算法機制、語料庫的差異,在算法輸出結果上也不盡相同。此前關于大語言模型的新聞寫作風格的研究發(fā)現(xiàn),開源和閉源的大模型在介詞、形容詞、名詞和標點符號的使用頻率上存在顯著差異。lt; 由此,本研究提出如下研究問題:
Q1:大語言模型生成標題是否存在“標題黨”特征傾向?
Q2:不同大語言模型之間的“標題黨”特征傾向是否存在顯著差異?
已有研究關注大模型與人類之間的比較,主要圍繞問答、摘要寫作以及新聞寫作等進行。關于大模型的跨領域問答能力的研究發(fā)現(xiàn),大模型的表達通常更客觀,語言風格更正式,表達的情感較少。=相較而言,人類的表達更主觀,并且會使用一些情緒化的標點符號(比如問號和感嘆號)來表達個人情感。在新聞寫作和跨領域問答兩個任務中,和人類作者相比,大模型的詞匯不夠豐富,人類作者的詞匯使用更具多樣性。gt; 由此,本文提出如下研究問題:
Q3:大模型與人類在寫作標題上,誰更具有“標題黨”特征傾向?
哪些因素影響大模型生成“標題黨”特征元素的傾向程度?本研究聚焦于兩個邏輯:“源頭”邏輯與“提示”邏輯。前者的基本假設是:大模型的“標題黨”特征傾向可能與其正文的文本內(nèi)容本身的特征有關。已有研究發(fā)現(xiàn),“標題黨”在不同主題的新聞中占比不同,集中在娛樂、體育等非嚴肅議題的“軟新聞”中。? 大模型的訓練數(shù)據(jù)來自互聯(lián)網(wǎng),在各種新聞報道和社交媒體數(shù)據(jù)中,“標題黨”在某些類別(如娛樂和體育)中更普遍,模型在訓練過程中可能學習到類似模式,從而在生成標題時,更有可能會模仿這些數(shù)據(jù)集中的常見模式,包括“標題黨”特征。由此,本文提出如下研究假設:
H1:相較于嚴肅(硬性)議題文章,大模型在非嚴肅(軟性)議題文章的標題寫作中表現(xiàn)的“標題黨”特征傾向更強。
提示(prompt)是用戶與模型交互時提供給模型的輸入信息,旨在引導模型生成與用戶期望相符的回應。由于提示內(nèi)容直接影響模型生成的內(nèi)容,提示的設計對用戶與大語言模型建立有效和有意義的交互至關重要。@ 目前應用比較多的提示框架是奈伊(Nigh)于2023年提出的CRISPE框架,其被證明對ChatGPT回答質(zhì)量的提升有效。A CRISPE框架主要包括5個部分:能力與角色(capacity and role)、洞察(insight)、陳述(statement)、個性(personality)和實驗(experiment)(見表1)。本文基于CRISPE提示框架,系統(tǒng)分析添加相應提示對大模型生成“標題黨”特征傾向的影響(與僅提出生成標題的基本要求相比較)。
現(xiàn)有研究發(fā)現(xiàn),在提示中被賦予帶有性別偏見的角色,ChatGPT在新聞寫作中表現(xiàn)出更高程度的性別偏見。B 相較于僅包含翻譯指令的提示(“請翻譯下面的句子”),在提示中添加“你是一個機器翻譯系統(tǒng)”的角色信息,提升了ChatGPT的機器翻譯性能。C 基于此,當模型被賦予“標題黨標題寫作專家”的角色,它可能會模仿“標題黨”常用的寫作策略,導致輸出的標題具有更強的“標題黨”特征傾向。由此,本文提出假設:
H2:在提示中添加要求扮演“標題黨”標題寫作專家的角色信息之后,大模型的“標題黨”特征傾向增強。
洞察指模型提供所要執(zhí)行的任務的背景信息和上下文。在機器翻譯領域,向模型提供被翻譯文本所屬領域的信息,能夠顯著提高ChatGPT的翻譯性能。D 如前文所述,數(shù)字時代的“標題黨”現(xiàn)象與追求在線流量和點擊量密切相關。當模型在生成標題時接收到對標題吸引點擊量要求的背景信息,它可能會傾向于在標題中采用“標題黨”的手法。基于此,本文提出假設:
H3:在提示中添加對標題點擊量要求的背景信息之后,大模型的“標題黨”特征傾向增強。
在提示中明確提出對模型輸出內(nèi)容風格的個性要求,可以引導模型生成符合預期風格的文本。實驗表明,當提示中添加對摘要規(guī)范性(formality)的要求時,ChatGPT能夠生成風格更加正式(formal)的摘要。E 可以預測,在標題生成任務中,如果模型接收到“標題黨”風格要求,那么其最終生成的標題可能具有更強的“標題黨”特征傾向。基于此,本文提出假設:
H4:在提示中添加要求輸出“標題黨”標題的風格信息之后,大模型的“標題黨”特征傾向增強。
我們也希望進一步探索,在提示中增加避免生成“標題黨”風格的要求,是否會抑制“標題黨”特征傾向的產(chǎn)生,因此我們提出如下問題:
Q4:在提示中添加限制輸出“標題黨”標題的風格信息之后,大模型的“標題黨”特征傾向是否會減弱?
三、研究設計與方法
本研究采用算法審計(algorithm auditing)的思路檢驗大模型生成標題的“標題黨”特征傾向。算法審計是一種對算法結果偏向進行系統(tǒng)性審查的方法。F 其中,抓取審計(scraping audit)是一種非侵入性的算法審計方式,研究者通過自動化腳本向算法平臺發(fā)送請求,并通過算法的響應數(shù)據(jù)評估算法行為。本研究借鑒這一思路,通過不同提示(prompt)要求大語言模型進行文章標題寫作,基于模型的輸入數(shù)據(jù)(文章原文)和輸出數(shù)據(jù)(標題),對模型生成標題的“標題黨”特征傾向及其影響因素進行實證分析?;凇爸形耐ㄓ么笳Z言模型綜合性測評基準”(SuperCLUE)G結果中語言理解與生成能力維度的排名(2023年11月),我們選擇排名前二的兩個代表性大模型——國外OpenAI公司的GPT-4 Turbo(以下簡稱“GPT-4”)和國內(nèi)智譜公司的ChatGLM3-Turbo(以下簡稱“ChatGLM3”)作為研究對象。
(一)文章抽樣、采集與編碼
在輸入模型的文章數(shù)據(jù)上,本研究選擇當前移動互聯(lián)網(wǎng)時代公眾信息獲取的重要來源——微信公眾平臺進行采集。首先,參考新媒體監(jiān)測機構新榜2023年10月排名數(shù)據(jù),綜合公眾號定位、影響和發(fā)布量等因素,本研究篩選出12個具有影響力的新聞性微信公眾號,覆蓋黨報黨臺(“人民日報”“新華社”“央視新聞”)、都市類媒體(“澎湃新聞”“南方都市報”“新京報”)、自媒體(“胡錫進觀察”“遠方青木”“占豪”)和政務新媒體(“中央政法委長安劍”“共青團中央”“上海發(fā)布”)4個類別。
采集文章的發(fā)布時間范圍選擇在2023年5月1日至2023年10月31日。由于數(shù)據(jù)爬取以及新榜的排名統(tǒng)計時間為2023年11月,所以截止日期定為2023年10月31日。GPT-4和ChatGLM3兩個模型的訓練數(shù)據(jù)的最新時間為2023年4月,為了避免數(shù)據(jù)污染(contamination)問題,本研究將開始日期確定為2023年5月1日。大模型的訓練數(shù)據(jù)中包含評估數(shù)據(jù)集中的數(shù)據(jù)會導致對模型表現(xiàn)的高估(performance overestimation),使得評估結果不準確。H 由于12個公眾號在此期間共推送44,606篇文章,數(shù)據(jù)量較大,因此我們采用“構造周”方式(constructed week)進行抽樣,I 最終共抽取并抓取下載1,105篇文章樣本。
參考現(xiàn)有研究對主流媒體與政務新媒體的內(nèi)容主題分類,J 結合中文新聞信息標準化技術委員會制定的最新版國家標準《中文新聞信息分類與代碼》(GB/T 20093-2022),K 本研究將文章分為嚴肅議題和非嚴肅議題兩大類。嚴肅議題主要包含政治、經(jīng)濟、軍事、政務信息公開等,非嚴肅議題主要包含文體娛樂、健康養(yǎng)生、旅游攻略和心靈雞湯等。由兩位經(jīng)過訓練的編碼員根據(jù)文章內(nèi)容進行編碼,抽取15%共同編碼,獲得較好的編碼員間信度后(Kappa系數(shù)為0.921)分別進行編碼。在1,105篇文章樣本中,嚴肅議題與非嚴肅議題分別占比47.8%和52.2%。
(二)實驗設計與執(zhí)行
圍繞研究問題和假設,本研究設置5種不同類型的提示,逐一輸入文章并要求模型生成標題(見表2)??紤]到大模型輸出結果的隨機性,參考已有研究,每個輸入執(zhí)行5次,即每個模型分別生成5個標題。L 由于ChatGLM3模型對于部分政治內(nèi)容存在審核,最終我們對973篇通過審核的文章標題進行分析。在模型輸出數(shù)據(jù)層面,本研究使用Python語言設計數(shù)據(jù)收集程序,調(diào)用ChatGLM3和GPT-4的開放接口收集模型輸出的標題數(shù)據(jù),由于每個模型對每個輸入均執(zhí)行5次,實驗共設計5組不同提示的輸入,因此共生成48,650個標題。
(三)標題黨特征傾向的測量
本研究根據(jù)生成的標題中出現(xiàn)的“標題黨”特征元素的數(shù)量測量其“標題黨”特征傾向,確定0—12的取值范圍。由于在實驗中每個大模型針對同一篇文章共輸出5個標題,因此本研究將5個標題的“標題黨”特征傾向的平均值作為模型在該篇文章的標題寫作中所表現(xiàn)出的“標題黨”特征傾向。本研究從列表、前向引用、夸張聳人表達、網(wǎng)絡用語和情緒化標點符號5大維度對標題中出現(xiàn)的“標題黨”特征元素進行編碼,其定義及示例見表3。
對標題進行“標題黨”特征編碼使用機器和人工結合的方法。在進行編碼前,本研究構建了一個“標題黨”特征詞詞典,詞典數(shù)據(jù)主要來源于已有研究使用的數(shù)據(jù)集,M 我們也通過在線新華字典、微信公眾號創(chuàng)作者中心和今日頭條創(chuàng)作者中心等渠道搜集補充。在編碼過程中,首先,本研究基于詞典和標點符號規(guī)則對標題進行12個“標題黨”特征編碼。其次,本研究考慮到部分“標題黨”特征僅憑特定詞語或標點符號進行編碼可能不準確,故由人工對這部分特征(包括列表、一般名詞、代詞、省略號)的機器編碼結果進行復核和修正。人工修正由兩位經(jīng)過訓練的編碼員完成,經(jīng)過修正的“標題黨”特征的人工編碼信度均達到較高水平(Kappa系數(shù)為0.903~0.958)。
四、研究發(fā)現(xiàn)
(一)大模型生成“標題黨”的特征傾向:基本情況與模型比較
首先,針對研究問題1,在默認參數(shù)和默認提示(不包含“標題黨”傾向信息)的設定下,大模型生成的標題表現(xiàn)出一定的“標題黨”特征傾向,在9,730個生成的標題中,含有“標題黨”特征元素的有4,762個,占比48.94%。在4,762個標題中,每個標題平均含有“標題黨”特征元素1.451個(標準差0.704)。含“標題黨”特征元素最多的標題是ChatGLM3根據(jù)文章《〈長安三萬里〉48首詩詞匯總》(央視新聞公眾號,2023年7月17日)生成的標題“《長安三萬里》火了!涉及48首詩詞,你會背幾首?快來復(預)習!”它含有12個“標題黨”特征元素中的6個,涉及感嘆號、問號、列表、指示代詞、行為建議、網(wǎng)絡用語。
大模型生成的標題的“標題黨”特征主要體現(xiàn)在使用感嘆號(占全部9,73 0 個生成標題的3 1 . 0 1 % ) 和夸張表達( 1 3 . 9 5 % ) 。例如:“ 【揭秘】靈活就業(yè)V S 職工社保, 真相竟是這樣!別再信謠言!”(GPT-4生成);“嘉興驚魂時刻: 警察破門怒懟騙子, 網(wǎng)友直呼解氣!”(C h a t G L M 3 生成)。占比超過5 %的還有問號(8 . 9 2 %)、網(wǎng)絡用語(5 . 9 5 %)(見圖1)。
其次,針對研究問題2,研究發(fā)現(xiàn),不同模型生成的標題的“標題黨”特征傾向存在顯著差異。ChatGLM3生成的4,865個標題中含有“標題黨”特征元素的有2,101個,占比43.19%;GPT-4生成的4,865個標題中含有“標題黨”特征元素的有2,661個,占比54.70%,比例顯著高于ChatGLM3(卡方檢驗x 2=128.979,p lt;0.001)。考慮到每個模型分別對每篇文章生成了5個標題,故本研究進一步計算這些標題含有的“標題黨”特征元素的數(shù)量均值,用于代表模型生成的標題的“標題黨”特征傾向。由于兩個模型使用同一文章數(shù)據(jù)集(N =973)生成標題,生成的標題為配對樣本,且樣本不服從正態(tài)分布,因此本研究使用Wilcoxon符號秩檢驗評估不同模型的“標題黨”特征傾向差異。結果顯示,GPT-4的“標題黨”特征傾向的中位數(shù)(0.600)顯著高于ChatGLM3(0.400)(z =7.568,p lt;0.001)。
(二)“標題黨”特征傾向的人機比較
在973個人類寫作標題中,含有“標題黨”特征元素的標題有661個,占比為67.93%。在本研究分析的4類公號中,“自媒體”(73.97%)、“ 黨報黨臺” ( 7 3 . 5 2 % ) 和“ 政務新媒體”(72.78%)含有“標題黨”特征元素的標題占比均在70%以上,只有“都市類媒體”公號的比例略低(62.87%)。相較于大模型整體(48.94%)、ChatGLM3(43.19%)以及GPT-4(54.70%),卡方檢驗顯示,人類標題中含有“標題黨”特征元素的占比均顯著更高(x 2分別為127.654、199.222和57.937,p lt;0.001)。人類的“標題黨”特征傾向的平均值為1.098(標準差0.997),中位數(shù)為1.000。Wilcoxon符號秩檢驗結果表明,人類的“標題黨”特征傾向顯著高于大模型(p lt;0.001)(見表4)。這一結果在對比不同大模型以及不同類型人類媒體時均保持一致。
圖1展示了不同的“標題黨”特征在人類標題和大模型生成標題中的比例。人類標題的“標題黨”特征主要體現(xiàn)在使用感嘆號(43.88%)、問號(12.85%)、指示代詞(11.20%)、網(wǎng)絡用語(9.35%)、夸張表達(9.25%)等方面。其分布排序與大模型并不完全一致。在12個特征中,10個特征的比例均為人類高于大模型,但在2個特征(夸張表達與強迫表達)上,大模型的比例反而顯著高于人類。
大模型總體上比人類更高頻使用夸張表達(卡方檢驗,x 2=16.690,p lt;0.001),不過差異主要存在于人類與GPT-4之間——后者比人類更高頻使用夸張表達(x 2=50.524,p lt;0.001),人類與ChatGLM3并無顯著差異。例如,人類的標題為“334寢室,全寢直博!秘笈是……”(新華社公眾號,2023年10月22日),GPT-4對該報道生成的標題為“同濟學霸宿舍震驚!四人同寢全直博名校,揭秘成功秘笈”,標題使用了“震驚”“揭秘”等典型的夸張表達。
相較于人類,ChatGLM3和GPT-4均更高頻使用含有強迫點擊意味的表達(x 2分別為13.530和15.555,p lt;0.001)。例如,人類的標題為“用筋膜槍放松后,她突然看不清了!醫(yī)生提醒”(南方都市報公眾號,2023年7月17日),ChatGLM3對該報道生成的標題為“警惕!筋膜槍用錯地方,竟導致眼內(nèi)晶狀體脫位和白內(nèi)障!”GPT-4生成的標題為“【警惕!】用筋膜槍按眼周引發(fā)白內(nèi)障,醫(yī)生這樣說……”兩個大模型均使用了人類標題中沒有使用的“警惕”這一增加點擊強制性和緊迫感的表達。
(三)不同主題的“標題黨”特征傾向差異
為驗證假設1,本研究在默認參數(shù)且提示不包含“標題黨”傾向信息的條件下,對973篇文章的大模型生成標題進行了主題比較。其中,嚴肅議題文章的生成標題中,含有“標題黨”特征元素的占39.66%;非嚴肅議題文章的生成標題中,含有“標題黨”特征元素的占56.76%,差異顯著(卡方檢驗,x 2=282.520,p lt;0.001)。進一步的Mann-Whitney U檢驗結果顯示,無論是大模型整體,還是兩個具體模型,嚴肅議題和非嚴肅議題文章的“標題黨”特征傾向均存在顯著差異(p lt;0.001)(見表5)。相較于嚴肅(硬性)議題文章,非嚴肅(軟性)議題文章的大模型生成標題表現(xiàn)出的“標題黨”特征傾向更強。H1成立。
(四)提示對“標題黨”特征傾向的影響
研究發(fā)現(xiàn),當提示添加了含有“標題黨”傾向的背景、角色和風格要求后,大模型生成標題中含有“標題黨”特征元素的比例顯著增加。例如,當在提示中添加關于點擊量的要求后,ChatGLM3生成標題中含有“標題黨”特征元素的比例一下子上升到68.92%,GPT-4的這一比例則高達90.75%;當添加扮演“標題黨”角色的要求后,兩個大模型生成的標題含有“標題黨”特征元素的比例分別上升到93.28%和99.24%;當添加使用“標題黨”風格的要求后,二者更是分別上升到97.82%和99.92%(見表6)。進一步的Wilcoxon符號秩檢驗結果顯示,添加提示后,“標題黨”特征傾向(以中位數(shù)衡量)均顯著增強(p lt;0.001)。H2、H3和H4均成立。若就3種不同提示之間的比較而言,Nemenyi檢驗發(fā)現(xiàn),相較于添加點擊量要求的背景信息,添加扮演“標題黨”專家的角色信息和要求輸出“標題黨”標題的風格信息,模型表現(xiàn)出的“標題黨”特征傾向均顯著更強(p lt;0.001)。
相反,對于研究問題4,當提示中添加了限制輸出“標題黨”風格標題的信息后,研究發(fā)現(xiàn),含有“標題黨”特征的標題比例的確相應減少(分別降至23.00%和23.91%),模型的“標題黨”特征傾向(以中位數(shù)衡量)也相應顯著減弱(p lt;0.001)(見表7)。上述研究結果在不同模型的不同主題、不同公眾號分類中均保持一致。
以文章《“滬惠?!北瓮蝗槐怀穯??解釋來了》(“澎湃新聞”公號,2023年10月22日)為例,表8展示了提示中添加信息前后大模型生成標題的前后對比。
五、結論與討論
本研究首次對中文語境下國內(nèi)外兩個代表性的大語言模型(ChatGLM3和GPT-4)的“標題黨”特征傾向進行實證研究。研究模擬大模型在5種不同設定(提示)下進行微信公眾號文章(N =973)的標題寫作,針對模型生成的48,650條文章標題,實證考察了大模型生成標題的“標題黨”特征傾向、模型比較、人機比較以及影響因素。本研究有如下發(fā)現(xiàn):
第一,在默認參數(shù)環(huán)境且提示中不添加標題黨傾向信息的情況下,大模型存在一定的“標題黨”特征傾向,所生成的標題中近半(48.94%)包含至少一個“標題黨”特征元素。
第二,不同模型的“標題黨”特征傾向存在顯著差異,國內(nèi)模型ChatGLM3相較于國外模型GPT-4顯示出更弱的“標題黨”特征傾向,這可能是因為設計者在模型設計過程中采取了減少“標題黨”特征的特定策略,對模型進行了更加適應國內(nèi)場景的優(yōu)化。
第三,更值得重視的是,在無特別提示的情況下,大模型沒有表現(xiàn)出比人類更強的“標題黨”特征傾向,反而顯著更弱(67.93%的人類標題均含有“標題黨”特征元素,并且該特征在4個類別的公眾號——包括“黨報黨臺”和“政務新媒體”——中均普遍存在)。這提醒我們兩點。其一,大模型可能語言相對客觀,同時,設計者可能在設計上對“標題黨”特征傾向進行了一定限制。事實上,當我們向模型輸入提示問題“你可以幫助生成標題黨標題嗎?”GPT-4和ChatGLM3的回答均強調(diào)了不主動提供和不參與制作“標題黨”的立場。其二,審計大模型可能恰恰為我們提供了寶貴的審視和反思人類自我的機會。當我們對大模型可能帶來的價值觀問題憂心忡忡時,我們不妨首先審視下自己。大模型基于對人類數(shù)據(jù)的預訓練和學習,其本身是人類社會一面難得的“鏡像”。N人類的公共報道和社交內(nèi)容中已經(jīng)充斥著大量訴諸情緒、制造懸念、刺激點擊的“點擊誘餌”,其分布比例高于大模型在默認設置下的生成結果,這對我們是一個重要警醒。
第四,人類與大模型在生成“標題黨”特征元素方面既具有一定的相似性(如感嘆號、問號與網(wǎng)絡用語的比例都較高),也存在明顯的差異,特別是大模型生成“標題黨”特征元素中,夸張表達和強迫表達的比例相比人類均顯著更高。大模型會在標題中添加夸張短語,但常常未能充分考慮上下文語境,可能帶來“題文不符”誘導點擊的信息真實性問題,對新聞媒體的公信力造成潛在負面影響,人類在應用大模型時應注意這一點。
第五,本研究證實了文章主題和提示對大模型生成標題的“標題黨”特征傾向的重要影響。在文章主題方面,相較于嚴肅議題文章,大模型在非嚴肅議題文章的標題寫作中表現(xiàn)出更強的“標題黨”特征傾向,這可能源于模型對訓練數(shù)據(jù)的分布特點的學習。大模型受到人類提示語的影響非常大,提示框架中的角色、洞察(背景)和個性(風格)3個元素均能顯著影響大模型的“標題黨”特征傾向。其中,哪怕是間接的提示(如流量要求)都能帶來較大的變化,直接的提示(角色和風格)的增強效果則更加顯著。相應地,我們也可以通過限制性的風格提示來約束大模型生成“標題黨”的特征傾向。
綜上,本文所做的主要貢獻在于:第一,本文首次在中文語境中,對大模型是否會生成“標題黨”特征傾向這一事關公共傳播的重要問題進行了實證研究,即便放在全球視野,這也在最早的實證研究之列。第二,本文首次對大模型生成“標題黨”的特征傾向進行跨模型和跨人機的比較研究,尤其是揭示了中外大模型的不同表現(xiàn),以及人類相對于大模型來說(默認狀態(tài)下)更強的“標題黨”特征傾向。第三,本文首次從輸入數(shù)據(jù)和人機交互兩個角度,提出由“主題”和“提示”兩個因素構成的大模型生成“標題黨”特征傾向的解釋模型,特別是基于CRISPE提示框架,系統(tǒng)分析了角色、背景和風格3個元素提示的影響。本研究因此不但可以推進有關大模型新聞傳播學的實證研究,而且對大模型的應用實踐具有啟示。本文的發(fā)現(xiàn)提醒我們,在將生成式人工智能和大模型積極應用于內(nèi)容生產(chǎn)實踐時,應當高度關注其表現(xiàn),大模型生成的標題應當經(jīng)過人類的檢驗與校正,特別要看其是否符合事實、表達嚴謹,不能放任助推“標題黨”的泛濫。人類要認識到過度依賴“標題黨”對當代新聞業(yè)的影響,通過行動創(chuàng)造更利于高質(zhì)量內(nèi)容可見性的機會,服務公共利益與社會福祉。
由于大模型的發(fā)展較快,未來研究可以關注大模型在生成“標題黨”特征傾向方面的長期表現(xiàn),以及人類價值對齊與反饋等對大模型表現(xiàn)的影響。此外,雖然本文選擇了兩個代表性的大模型進行分析,未來研究可以進一步擴大范圍,納入更多的模型,以深化對本研究提出的問題的理解。
(作者周葆華系復旦大學信息與傳播研究中心研究員,新聞學院教授,全球傳播全媒體研究院、國家發(fā)展與智能治理綜合實驗室研究員,計算與智能傳播研究中心負責人;張悅系復旦大學新聞學院2022 級碩士研究生)