• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      “大數(shù)據(jù)時(shí)代”的自動(dòng)化新聞寫作的歷史、實(shí)踐與未來

      2017-05-13 23:03:02沈浩元方
      新聞愛好者 2017年4期
      關(guān)鍵詞:大數(shù)據(jù)時(shí)代

      沈浩+元方

      【摘要】大數(shù)據(jù)時(shí)代已經(jīng)到來,而大數(shù)據(jù)的一個(gè)顯著特點(diǎn),就是分析的對(duì)象正在從結(jié)構(gòu)化數(shù)據(jù)向半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變。這正和新聞文本的特點(diǎn)相契合,因此,大數(shù)據(jù)中文本挖掘、情感分析的相關(guān)方法必將在新聞業(yè)中發(fā)揮重要作用。

      【關(guān)鍵詞】自動(dòng)化生成新聞;機(jī)器人新聞寫作;計(jì)算新聞

      每天股市收盤時(shí),許多投資者的手機(jī)上都會(huì)收到一條行情軟件的推送消息“今日股市開盤XXXX點(diǎn),收盤XXXX點(diǎn),最高XXXX點(diǎn),最低XXXX點(diǎn)……”。寫這樣一條消息不難,然而,每天下午3點(diǎn)收盤,最遲3:01這條信息就需要完成推送,如果靠人力寫作,顯然是一項(xiàng)非常枯燥乏味的工作,但如果依靠機(jī)器自動(dòng)化寫作,這就是一條最簡(jiǎn)單的自動(dòng)化生成新聞。除了收盤時(shí)的簡(jiǎn)報(bào),也有軟件可以提供更加詳細(xì)的市場(chǎng)資訊,來自于自動(dòng)化寫作的這樣一條新聞,可以涉及很多名詞:數(shù)據(jù)(驅(qū)動(dòng))新聞、計(jì)算新聞、程序新聞、算法新聞、機(jī)器人報(bào)告、自動(dòng)化新聞,而這些術(shù)語都與數(shù)據(jù)和計(jì)算機(jī)的使用直接相關(guān),更確切地說,與當(dāng)下這樣的大數(shù)據(jù)時(shí)代直接相關(guān)。

      大數(shù)據(jù)時(shí)代已經(jīng)到來,而大數(shù)據(jù)的一個(gè)顯著特點(diǎn),就是分析的對(duì)象正在從結(jié)構(gòu)化數(shù)據(jù)向半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變。這正和新聞文本的特點(diǎn)相契合,因此,大數(shù)據(jù)中文本挖掘、情感分析的相關(guān)方法必將在新聞業(yè)中發(fā)揮重要作用。

      文本挖掘分析的是包含在自然語言文本中的數(shù)據(jù),它可以幫助一個(gè)組織從基于文本的內(nèi)容中獲得有價(jià)值的潛在業(yè)務(wù)洞察力。例如文檔、郵件和社交媒體中發(fā)布的帖子。在某種意義上,它被定義為從無處不在的文本中發(fā)現(xiàn)知識(shí)的方式,而且通常這些文本可以在網(wǎng)絡(luò)上直接獲取。而文本挖掘中的情感分析更是為新聞自動(dòng)化寫作打下了很好的基礎(chǔ)。情感分析是指使用自然語言處理、文本分析和計(jì)算語言學(xué)確定一段文本的作者對(duì)某一特定主體的態(tài)度,它可以幫助確定文本表達(dá)的態(tài)度是積極的、消極的還是中立的,情感分析現(xiàn)在經(jīng)常用于發(fā)現(xiàn)消費(fèi)者對(duì)特定主題、產(chǎn)品或想法的感受。在未來,它們可能幫助新聞從業(yè)人員發(fā)現(xiàn)社交媒體上流行的熱點(diǎn)事件,收集事件的情報(bào);可能發(fā)現(xiàn)受眾的情緒所在,從而抓住他們的興趣;還可能幫助機(jī)器自動(dòng)生成的新聞變得更加平易近人,而不僅僅是冷冰冰的客觀陳述。大數(shù)據(jù)的方法越來越多地滲入各個(gè)領(lǐng)域和各個(gè)行業(yè)中,潛移默化地改變它們。

      新聞業(yè)確實(shí)正在發(fā)生改變,從計(jì)算機(jī)輔助報(bào)道到數(shù)據(jù)新聞,再到自動(dòng)化新聞寫作,這種術(shù)語的變化體現(xiàn)了一個(gè)事實(shí),計(jì)算機(jī)和數(shù)據(jù)正在逐漸成為關(guān)系中的主體。這種變化不僅是由新技術(shù)驅(qū)動(dòng),而且結(jié)合了更廣泛的背景?!按髷?shù)據(jù)”仍然是一個(gè)相對(duì)較新的概念,人類正身處數(shù)據(jù)洪流之中,產(chǎn)生了兩種深刻的發(fā)展。[1]第一是由于人類(和自然)活動(dòng)產(chǎn)生的關(guān)于人類(和自然)活動(dòng)的數(shù)字化信息的種類和數(shù)量都非常多,通過移動(dòng)設(shè)備、跟蹤工具、傳感器以及便宜的計(jì)算存儲(chǔ)等來記錄這些信息也日益普及?!霸谝粋€(gè)數(shù)字化的世界里,消費(fèi)者每天的活動(dòng)——溝通、瀏覽、購(gòu)買、分享、搜索——?jiǎng)?chuàng)造了他們自己巨大的數(shù)據(jù)流量”[2]。第二個(gè)主要發(fā)展涉及計(jì)算過程、機(jī)器學(xué)習(xí)、算法和數(shù)據(jù)科學(xué)的快速進(jìn)步和擴(kuò)散。這些發(fā)展使得公司、政府和研究人員更容易地分析公共生活中的數(shù)據(jù)。無論是稱為大數(shù)據(jù)還是別的什么,這一時(shí)刻都是數(shù)據(jù)中的一部分,它的收集分析和展現(xiàn),以及相關(guān)數(shù)據(jù)驅(qū)動(dòng)技術(shù)的應(yīng)用,都對(duì)理解媒體、技術(shù)和社會(huì)的交叉點(diǎn)產(chǎn)生了極大的共鳴。

      這種深刻的發(fā)展讓我們認(rèn)識(shí)到,日常生活的數(shù)據(jù)化有助于我們理解世界上發(fā)生了什么,從而做出更好的決定。重要的是,這種理解不是來自人類社會(huì)創(chuàng)造的理論或者假設(shè)檢驗(yàn),而是計(jì)算機(jī)處理大數(shù)據(jù)所揭示的相關(guān)性。

      這種深刻的發(fā)展也使得新聞生產(chǎn)和分發(fā)中的重要方面發(fā)生著變化??梢钥吹降氖牵谛侣剺I(yè)大規(guī)模數(shù)據(jù)集及它們的收集、分析和解釋對(duì)于從數(shù)字化信息中獲取價(jià)值和意義變得越來越重要,也成為一種趨勢(shì)。大數(shù)據(jù)和數(shù)據(jù)新聞越來越多地被作為一種思維方式來理解,它體現(xiàn)了我們?nèi)绾嗡伎既祟愔黝}以及探索作為對(duì)象的世界的能力。

      一、數(shù)據(jù)導(dǎo)向的新聞業(yè)發(fā)展

      在新聞中使用計(jì)算機(jī)和數(shù)據(jù)是一個(gè)沿革的過程,精確新聞、計(jì)算機(jī)輔助報(bào)道、數(shù)據(jù)新聞、數(shù)據(jù)庫(kù)新聞、數(shù)據(jù)驅(qū)動(dòng)新聞和計(jì)算新聞,乃至自動(dòng)化新聞寫作,它們的共同點(diǎn)都是計(jì)算機(jī)導(dǎo)向的方法,并且對(duì)從業(yè)人員來說,需要更多高級(jí)的計(jì)算機(jī)技能。但是本質(zhì)上,精確新聞強(qiáng)調(diào)使用科學(xué)方法,計(jì)算機(jī)輔助報(bào)道強(qiáng)調(diào)數(shù)字化工具的使用,數(shù)據(jù)庫(kù)新聞強(qiáng)調(diào)信息存儲(chǔ)和檢索的結(jié)構(gòu),數(shù)據(jù)和數(shù)據(jù)驅(qū)動(dòng)的新聞強(qiáng)調(diào)在數(shù)據(jù)集中找到故事,而計(jì)算新聞強(qiáng)調(diào)在工具和方法應(yīng)用中融合計(jì)算和新聞價(jià)值。(數(shù)據(jù)導(dǎo)向的新聞生產(chǎn)模式見表1)

      [表1 數(shù)據(jù)導(dǎo)向的新聞生產(chǎn)模式[3]][\&精確新聞\&計(jì)算機(jī)輔助報(bào)道\&數(shù)據(jù)新聞\&數(shù)據(jù)驅(qū)動(dòng)新聞\&計(jì)算新聞\&焦點(diǎn)\&新聞的科學(xué)性\&利用計(jì)算機(jī)技術(shù)報(bào)道新聞\&在新聞中發(fā)現(xiàn)、分析和展示數(shù)據(jù)\&跟隨“數(shù)據(jù)線索”追蹤未知或推測(cè)的故事\&創(chuàng)造、適應(yīng)或使用計(jì)算工具和方法,在新聞中或作為新聞本身\&技能\&社會(huì)科學(xué)方法\&高級(jí)計(jì)算機(jī)使用\&數(shù)據(jù)處理,數(shù)據(jù)敘事\&分析性和探索性的研究\&計(jì)算思維,編程\&]

      (一)計(jì)算機(jī)輔助報(bào)道和精確新聞

      計(jì)算機(jī)輔助報(bào)道于19世紀(jì)50-60年代出現(xiàn)在美國(guó),1952年CBS使用計(jì)算機(jī)預(yù)測(cè)美國(guó)總統(tǒng)選舉的結(jié)果,1967年P(guān)hilip Meyer使用計(jì)算機(jī)報(bào)道底特律暴亂,并且他在1973年出版了《精確新聞學(xué)》一書,幾乎可以作為數(shù)據(jù)分析正式成為新聞重要組成部分的一個(gè)里程碑。Meyer在書中提倡新聞的“科學(xué)”方法:“新的精確新聞是科學(xué)新聞……采用科學(xué)方法、科學(xué)的客觀性和科學(xué)理想?!盵4]他認(rèn)為,計(jì)算機(jī)輔助報(bào)道就是采用計(jì)算機(jī)獲得信息和分析信息的報(bào)道,上述兩個(gè)方向正是計(jì)算機(jī)輔助的方向。精確新聞是通過應(yīng)用社會(huì)科學(xué)中的方法使新聞更負(fù)責(zé)任和更科學(xué),而計(jì)算機(jī)使這種方法的實(shí)現(xiàn)更實(shí)用。

      在19世紀(jì)70—80年代,新聞業(yè)開始引入數(shù)據(jù)庫(kù)作為工具,有幾個(gè)普利策獎(jiǎng)獲獎(jiǎng)作品的關(guān)鍵方法是引入兩個(gè)數(shù)據(jù)集(例如駕駛學(xué)校班車的人與被判定有交通違規(guī)的人),找到兩個(gè)數(shù)據(jù)集中交叉的行,或者縮小大型數(shù)據(jù)集的范圍,從而用于假設(shè)檢驗(yàn)。

      計(jì)算機(jī)輔助報(bào)道的基本工具被描述為電子表格、數(shù)據(jù)庫(kù)管理器和在線資源,還包括Web訪問和電子郵件等作為重要技術(shù)進(jìn)步[5]。

      (二)數(shù)據(jù)(驅(qū)動(dòng))新聞

      雖然數(shù)據(jù)新聞的一些特點(diǎn)與計(jì)算機(jī)輔助報(bào)道非常相似,但是兩者其實(shí)存在非常明顯的區(qū)別?!皵?shù)據(jù)”在這里表示數(shù)字的結(jié)構(gòu)化或非結(jié)構(gòu)化的原始資料,記者用它們調(diào)查和解釋事實(shí)。典型的數(shù)據(jù)一般包括稅收記錄、政府預(yù)算、普查數(shù)據(jù)等公開數(shù)據(jù),推特和微博等社交媒體數(shù)據(jù)以及交易日志等私有數(shù)據(jù)。并且數(shù)據(jù)新聞是通過可視化和講故事向公眾解釋復(fù)雜的數(shù)據(jù)。(McGhee 2010;Segel and Heer 2010;Weber and Rall 2013)

      “數(shù)據(jù)新聞”這個(gè)名字可能更傾向于專門收集和分析數(shù)據(jù)的“分析師”或“數(shù)據(jù)科學(xué)家”角色,處理數(shù)據(jù)是新聞生產(chǎn)中最核心的部分,解釋數(shù)據(jù)是技術(shù)之外的挑戰(zhàn)。另一個(gè)用計(jì)算機(jī)制作新聞的名詞是“數(shù)據(jù)驅(qū)動(dòng)新聞”。它通過追蹤數(shù)據(jù)中的線索完成故事本身,在分析完成前沒有人知道這個(gè)故事是什么樣的,強(qiáng)調(diào)分析數(shù)據(jù)是比管理數(shù)據(jù)更重要的東西。

      (三)計(jì)算新聞

      但是,并不是上述所有的數(shù)據(jù)新聞都與大數(shù)據(jù)有關(guān),大部分?jǐn)?shù)據(jù)新聞還只停留在“使用數(shù)據(jù)寫作新聞”這個(gè)層面上。與大數(shù)據(jù)最直接相關(guān)的則是計(jì)算新聞,它還被稱為:自動(dòng)化新聞、算法新聞或者機(jī)器人新聞寫作的部分。

      我們可以將計(jì)算新聞定義為算法、數(shù)據(jù)和知識(shí)的組合,從某些方面而言,計(jì)算新聞建立在前述所有術(shù)語的基礎(chǔ)之上,“機(jī)器做的更好的事情之一是從大量數(shù)據(jù)中快讀創(chuàng)造價(jià)值。自動(dòng)化過程和內(nèi)容是降低新聞成本和提高編輯輸出的最缺乏探索的領(lǐng)域”[6]。這就是計(jì)算新聞的意義所在,它通過對(duì)計(jì)算方法的應(yīng)用創(chuàng)造新聞價(jià)值,很少或根本不需要記者的參與。計(jì)算新聞的目的是讓新聞生產(chǎn)過程中能夠探索越來越多的結(jié)構(gòu)化和非結(jié)構(gòu)化信息。

      Diakopoulos在他的《計(jì)算新聞中的創(chuàng)新功能路線圖》一文中提到了一個(gè)更加面向過程的定義?!鞍延?jì)算方法和計(jì)算思維應(yīng)用于新聞活動(dòng),包含信息收集、組織和意義建構(gòu),傳播和展現(xiàn),以及散發(fā)和新信息的公眾反饋”[7]。這種新聞生產(chǎn)的最新發(fā)展伴隨著自然語言生成技術(shù)的進(jìn)步,作為自然語言處理的子領(lǐng)域,自然語言生成被定義為從信息的計(jì)算中自動(dòng)生產(chǎn)人類(自然)語言的軟件和計(jì)算機(jī)系統(tǒng)[8]。

      計(jì)算機(jī)和其他相關(guān)技術(shù)的進(jìn)步持續(xù)改變著新聞業(yè)。這些技術(shù)變革成為新的工具,可以幫助記者提高報(bào)道質(zhì)量和效率,還成為講故事的人本身。尤其是在當(dāng)下大數(shù)據(jù)時(shí)代的背景下,大數(shù)據(jù)、算法和代碼的興起導(dǎo)致越來越多的新聞媒體開始熱衷于雇用數(shù)據(jù)科學(xué)家?guī)椭踔令I(lǐng)導(dǎo)他們的數(shù)據(jù)分析。這種轉(zhuǎn)變表明了記者所需技能的變化,傳統(tǒng)意義上的記者技能通常包含采訪能力和寫作能力,而現(xiàn)在,編寫代碼、參與社交媒體和多媒體交互敘事這些數(shù)字化的技能越來越重要。計(jì)算新聞的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面[9]:

      (1)提高對(duì)紛繁復(fù)雜來源的事件的感知速度,識(shí)別通向原始新聞的數(shù)據(jù)模式;

      (2)更有效地利用公開數(shù)據(jù),調(diào)查記者可以對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分析,結(jié)合專門知識(shí)形成新聞內(nèi)容;

      (3)為數(shù)字新聞增加價(jià)值,為受眾提供可以檢查事實(shí)的工具,使用多媒體和互動(dòng)元素吸引受眾;

      (4)能最大限度地減少花在繁瑣的背景研究和事實(shí)檢查上的時(shí)間,創(chuàng)建代碼和挖掘數(shù)據(jù),然后可以在其他項(xiàng)目上重復(fù)使用。

      當(dāng)然,也有人認(rèn)為這些變化可能引起法律與倫理問題,威脅到隱私,或者帶來黑客風(fēng)險(xiǎn),新聞業(yè)將會(huì)被算法驅(qū)動(dòng)的數(shù)字記者取代。但從另外一個(gè)方面看,算法、AI(人工智能)和大數(shù)據(jù)為新聞?dòng)浾咛峁┝艘粋€(gè)機(jī)會(huì),利用這些新興技術(shù)增強(qiáng)人類記者的工作,重塑新聞的性質(zhì)和實(shí)踐。這不僅可以帶來更高的效率,還可以提高人類記者的質(zhì)量和生產(chǎn)力。

      二、自動(dòng)化新聞的基本流程

      從內(nèi)容和形式上考慮,我們可以把自動(dòng)化新聞分為五個(gè)層次。第一個(gè)層次是簡(jiǎn)單描述事件。例如當(dāng)某地發(fā)生地震后,軟件通過接口或其他方式從外部數(shù)據(jù)獲取到該地震的具體時(shí)間、震源經(jīng)緯度、深度、烈度等級(jí)等信息,然后將數(shù)據(jù)填入編寫好的模板中,模板的形式可能是這樣:“今天下午XX時(shí)XX分XX秒某地發(fā)生X.X級(jí)地震,震源位于北緯XX.XX度,東經(jīng)XXX.XX度,深度XX千米?!痹摋l填寫完畢的新聞自動(dòng)被發(fā)布到媒體的新聞網(wǎng)站或社交媒體上。這是最簡(jiǎn)單的簡(jiǎn)訊形式,如果從數(shù)據(jù)庫(kù)的角度考慮,事實(shí)上它相當(dāng)于在地震數(shù)據(jù)庫(kù)中插入一條記錄。第二個(gè)層次是結(jié)合外部數(shù)據(jù)進(jìn)行分析。在這一層次,媒體通常會(huì)維護(hù)一個(gè)包含歷史數(shù)據(jù)和其他相關(guān)數(shù)據(jù)的數(shù)據(jù)庫(kù),當(dāng)?shù)卣鸢l(fā)生時(shí),模板可能變成這樣:“今天下午XX時(shí)XX分XX秒某地發(fā)生X.X級(jí)地震,震源位于北緯XX.XX度,東經(jīng)XXX.XX度,深度XX千米。這次地震僅低于XXXX年在該地發(fā)生的X.X級(jí)地震,烈度排名第二……。”雖然形式上仍然是填入模板,但由于結(jié)合了歷史數(shù)據(jù)的分析,可能會(huì)出現(xiàn)一些重要的結(jié)論作為新的新聞線索。進(jìn)入到第三個(gè)層次,除了填模板,會(huì)有一些與大數(shù)據(jù)真正相關(guān)的智能算法加入進(jìn)來,例如利用文本分析構(gòu)造新的句子,利用情感分析改變句子語氣等。這時(shí)候生成的新聞,就不像前面兩個(gè)層次那樣千篇一律,而會(huì)加入與情感相關(guān)的因素,這樣可以在一定程度上提高新聞的可讀性。

      前三個(gè)層次是集中在文章的寫作方面的,雖然我們經(jīng)常將這套程序稱之為自動(dòng)化新聞寫作或者機(jī)器人新聞寫作,但是事實(shí)上,完整的新聞生產(chǎn)流程除了寫作,還包括發(fā)布。在第四個(gè)層次中,應(yīng)該可以做到發(fā)布新聞的分群體推送,類似數(shù)據(jù)挖掘中的精準(zhǔn)營(yíng)銷。自動(dòng)化生成的新聞除了發(fā)布在新聞網(wǎng)站和社交媒體上以外,還應(yīng)該可以通過APP推送、私信推送等方式,針對(duì)不同群體推送不同的新聞。這就涉及要對(duì)受眾做受眾細(xì)分,要收集歸納每一類受眾的特征,為受眾細(xì)分群體打標(biāo)簽,通過標(biāo)簽決定推送內(nèi)容。而到了第五個(gè)層次,這種推送應(yīng)該得到進(jìn)一步細(xì)化,做到真正的“個(gè)性化推薦”,根據(jù)每個(gè)受眾不同的特性個(gè)性化推送新聞。標(biāo)簽會(huì)從受眾群體細(xì)化到受眾個(gè)體身上,協(xié)同過濾等個(gè)性化推薦算法也可能在這里發(fā)揮作用。更為關(guān)鍵的是,在第四和第五層次,生成程序的算法也會(huì)隨著標(biāo)簽不同而采用不同的參數(shù)甚至不同的算法,生成盡可能個(gè)性化的內(nèi)容??偠灾?dāng)自動(dòng)化新聞達(dá)到第五個(gè)層次時(shí),它已經(jīng)成為一個(gè)完全的智能化系統(tǒng),會(huì)根據(jù)每個(gè)受眾特征的不同,選擇不同的新聞事件、不同的生成算法或者算法參數(shù)生成不同的文章,并推送到每個(gè)人的媒體終端上。這才是真正的大數(shù)據(jù)時(shí)代的新聞。

      結(jié)合上述五個(gè)層次,我們來梳理一下自動(dòng)化新聞的基本流程。簡(jiǎn)單的方法是指從數(shù)據(jù)庫(kù)中提取數(shù)字,然后將這些數(shù)字用于填充預(yù)先編寫的模板故事中的空白,從而完成新聞的寫作。還有更復(fù)雜的方法,需要分析數(shù)據(jù),獲得更多信息,并創(chuàng)建更有說服力的敘述,這主要依賴于大數(shù)據(jù)分析和自然語言生成技術(shù),此種方法的成果最初經(jīng)常出現(xiàn)在體育報(bào)道中,Graefe總結(jié)了自動(dòng)化新聞的流程[10](見圖1),這里我們結(jié)合一場(chǎng)籃球比賽的報(bào)道詳細(xì)解釋一條新聞是如何生成的。

      首先,軟件收集可用的數(shù)據(jù),例如比賽中的得分、籃板、助攻和歷史記錄,運(yùn)動(dòng)員的背景資料等,既可以收集到當(dāng)前籃球比賽的實(shí)時(shí)數(shù)據(jù),還可以從數(shù)據(jù)庫(kù)中讀取歷史比賽數(shù)據(jù),得到趨勢(shì)性的數(shù)據(jù)。第二步,算法采用統(tǒng)計(jì)方法識(shí)別數(shù)據(jù)中重要和有趣的事件,比如可以定義如下規(guī)則作為事件的判定依據(jù):某球員連續(xù)20場(chǎng)得分在25+;某球隊(duì)本場(chǎng)投進(jìn)20個(gè)三分球創(chuàng)賽季最佳;某球隊(duì)在第三節(jié)比賽的最后5分鐘時(shí)間內(nèi)打出了個(gè)10:0,從而反超了比分等。第三步,軟件按照重要性對(duì)所識(shí)別和洞察到的信息進(jìn)行分類排序,如比賽情況可以分為球隊(duì)表現(xiàn)和球員表現(xiàn),球員表現(xiàn)中又包括明星球員的表現(xiàn),由此新聞自動(dòng)寫作程序?qū)⒈荣惐憩F(xiàn)與受眾的關(guān)注程度等結(jié)合,從而可以實(shí)現(xiàn)第四步,遵循定義的規(guī)則安排新聞價(jià)值元素,以生成陳述。最后,故事上傳到發(fā)布者的內(nèi)容管理平臺(tái),并可以自動(dòng)發(fā)布。

      在此過程中,軟件依賴于一組特定的預(yù)先定義規(guī)則,這些規(guī)則需要工程師、記者和計(jì)算機(jī)語言學(xué)家的協(xié)作。工程師實(shí)現(xiàn)分析程序,記者定義新聞價(jià)值的標(biāo)準(zhǔn),根據(jù)該標(biāo)準(zhǔn)、算法尋找重要事件并排列它們,計(jì)算機(jī)語言學(xué)家通過新聞?wù)Z料識(shí)別潛在的邏輯,并將它們轉(zhuǎn)換為能夠構(gòu)造句子的基于規(guī)則的系統(tǒng)。

      圖1 算法如何生成新聞

      三、自動(dòng)化新聞寫作的實(shí)踐

      體育和金融新聞已經(jīng)使用算法自動(dòng)生成并發(fā)布了數(shù)以千計(jì)的新聞故事,它們不需要人工干預(yù),成本很低或沒有成本[11],還有一種說法,即自動(dòng)生成的新聞將在五年內(nèi)贏得普利策獎(jiǎng)[12]。不管未來自動(dòng)化新聞寫作能不能贏得人類世界的獎(jiǎng)項(xiàng),它在近兩年的發(fā)展中已經(jīng)被越來越多成功的實(shí)踐所證明。

      從2014年起,美聯(lián)社使用自動(dòng)化洞察(Automated Insights)公司的Wordsmith軟件撰寫每個(gè)季度的公司財(cái)報(bào),算法挖掘財(cái)務(wù)報(bào)告,總結(jié)每份報(bào)告中的關(guān)鍵要素并生成敘述。Wordsmith平臺(tái)每秒最多可以產(chǎn)出2000篇此類新聞,而且出錯(cuò)率極低,美聯(lián)社采用機(jī)器人自動(dòng)寫稿是之前人工報(bào)道發(fā)稿量的1.4倍[13]。

      2014年3月17日,洛杉磯發(fā)生了4.7級(jí)地震。3分鐘內(nèi),洛杉磯時(shí)報(bào)的網(wǎng)站就發(fā)布了關(guān)于此事的第一條新聞。雖然該新聞很短,但是它的作者是一個(gè)叫做Quakebot的機(jī)器人。此外,洛杉磯時(shí)報(bào)還使用另一個(gè)程序報(bào)道殺人事件,依靠數(shù)據(jù)分析和人工智能建立起了一個(gè)數(shù)據(jù)庫(kù),用于追蹤事件并撰寫新聞。此外,自動(dòng)化寫作的應(yīng)用案例還包括美國(guó)紐約公共廣播電臺(tái)“美國(guó)全國(guó)大學(xué)體育協(xié)會(huì)”賽事報(bào)道的NailbiterBot,等等。

      新聞寫作系統(tǒng)中甚至可以使用更高級(jí)的人工智能技術(shù),這樣的AI系統(tǒng)可以對(duì)人類記者的行為方式建模。想象一個(gè)系統(tǒng),該系統(tǒng)基于機(jī)器學(xué)習(xí)和人工智能的相關(guān)技術(shù),它監(jiān)測(cè)微博或者推特這樣的社交媒體,學(xué)習(xí)人類記者的監(jiān)測(cè)方式,選擇有新聞價(jià)值的事件,并根據(jù)該事件在社交媒體上討論的發(fā)展趨勢(shì)自動(dòng)寫成故事。這套系統(tǒng)很容易讓人們聯(lián)想起英國(guó)《衛(wèi)報(bào)》2014年推出的“#Open001”,這是一份紙質(zhì)報(bào)紙,但是其中幾乎所有內(nèi)容都由算法生成。預(yù)先編寫好的機(jī)器人程序分析社交媒體上的熱門分享,并對(duì)其進(jìn)行篩選、編輯和排版,生成一份報(bào)紙。這雖然只是一個(gè)嘗試,但是表現(xiàn)出了無限的可能。在未來,對(duì)應(yīng)于不同來源的大數(shù)據(jù),例如傳感器和移動(dòng)設(shè)備,可以形成不同的寫作系統(tǒng)。

      雖然自動(dòng)化新聞寫作最早出現(xiàn)于國(guó)外,國(guó)內(nèi)的相關(guān)研究與應(yīng)用起步較晚,但已有成功案例。在中國(guó),2015年9月,騰訊財(cái)經(jīng)發(fā)表了一篇《8月CPI同比上漲2.0% 創(chuàng)12個(gè)月新高》的文章,署名為自動(dòng)化新聞協(xié)作機(jī)器人Dreamwriter,可以視為自動(dòng)化新聞寫作第一次在國(guó)內(nèi)得到應(yīng)用。隨后騰訊又在10月份發(fā)布了三篇不同類型的CPI數(shù)據(jù)報(bào)道,分別為“精要版”“研判版”和“民生版”,這四篇新聞報(bào)道均采取官方數(shù)據(jù)加專家分析的結(jié)構(gòu),讀起來段落間銜接略有不連貫[14]。2015年11月,新華社也推出了自己的寫作機(jī)器人——“快筆小新”,它輸入股票代碼,3秒鐘就能完成一篇財(cái)報(bào)分析,稿件中大小標(biāo)題一應(yīng)俱全,還配有圖表等信息[15]。然而,“快筆小新”也只是基于人工錄入的知識(shí)庫(kù)和模板,寫出的稿件結(jié)構(gòu)單一,內(nèi)容乏味。2016年里約奧運(yùn)會(huì)期間,今日頭條推出了新聞機(jī)器人“張小明”,“小明”作為第二代新聞機(jī)器人,除了生成賽事新聞報(bào)道外,還能智能檢索并選擇圖片,根據(jù)比賽結(jié)果模仿人類語氣等[16]。雖然比起單純套用模板進(jìn)步了不少,但是從“小明”發(fā)布的報(bào)道中,還是能見到一些由于對(duì)語義理解不夠而造成的錯(cuò)誤??傮w來說,比起《洛杉磯時(shí)報(bào)》、美聯(lián)社等已經(jīng)在日常的新聞發(fā)布中采用成熟的寫作機(jī)器人產(chǎn)品,國(guó)內(nèi)的自動(dòng)化新聞寫作發(fā)展還處在相對(duì)初級(jí)的階段。

      隨著自動(dòng)化新聞寫作的興起,計(jì)算新聞?lì)I(lǐng)域也在深度和廣度上得到長(zhǎng)足的發(fā)展。一方面,新技術(shù)的進(jìn)一步革新,深化了其應(yīng)用功能,如機(jī)器人視覺的持續(xù)發(fā)展也為新聞攝影的未來帶來了其他可能;有多種智能技術(shù)可以捕獲高質(zhì)量的音頻、視頻,這種技術(shù)同樣可以獲取新聞事件照片,因此自動(dòng)化新聞不僅限于文字寫作,有可能實(shí)現(xiàn)多種媒介展現(xiàn)方式的融合,也彌補(bǔ)了其在新聞價(jià)值方面的部分缺失。另一方面,計(jì)算新聞的發(fā)展拓展了其應(yīng)用范圍,如2016年年底,基于人工智能的新聞?wù)鎸?shí)性核查再次掀起了一股熱潮。人工智能和自然語言處理的技術(shù)可以用來檢測(cè)見聞背后的語義,也可以通過查看其他網(wǎng)站尤其是權(quán)威媒體來源佐證消息的真實(shí)性。全球數(shù)億網(wǎng)站會(huì)形成超級(jí)巨大的數(shù)據(jù)集,在這個(gè)數(shù)據(jù)集上利用人工智能檢測(cè)假新聞非常具有優(yōu)勢(shì)。

      四、自動(dòng)化新聞寫作和新聞的未來

      自動(dòng)化新聞已經(jīng)成為一個(gè)需要認(rèn)真對(duì)待的趨勢(shì)。首先,新聞職業(yè)越來越商業(yè)化,基于商業(yè)邏輯運(yùn)轉(zhuǎn),新聞任務(wù)的自動(dòng)化生成可以提高利潤(rùn)率和降低生產(chǎn)成本。其次,盡管計(jì)算機(jī)生成的新聞可能無法與主要新聞媒體提供的高質(zhì)量新聞相競(jìng)爭(zhēng),這些媒體上的文章注重細(xì)節(jié)、分析并且語言更活潑,但是對(duì)于在互聯(lián)網(wǎng)上可以自由獲取的信息,自動(dòng)化生成的新聞可以擊敗它們。

      如前所述,體育報(bào)道通常被認(rèn)為是自動(dòng)化生成內(nèi)容的理想選擇,因?yàn)楸荣愔械慕y(tǒng)計(jì)數(shù)據(jù)非常豐富,并且很容易創(chuàng)建用于比賽的報(bào)道模板和短語。除此之外,該技術(shù)的應(yīng)用范圍還包括房地產(chǎn)、財(cái)務(wù)金融、天氣預(yù)報(bào)和自然災(zāi)害,甚至在更長(zhǎng)的時(shí)間內(nèi),一些關(guān)于政治的新聞也可以自動(dòng)化。

      自動(dòng)化新聞被看作是對(duì)傳統(tǒng)新聞業(yè)的威脅。它吸引了眾多記者的注意力,這主要集中在技術(shù)將如何改變記者這個(gè)角色,以及隨著技術(shù)的發(fā)展,記者所需的技能如何變化這樣兩個(gè)問題上。自動(dòng)化技術(shù)與傳統(tǒng)記者的關(guān)系事實(shí)上是取決于記者的任務(wù)和技能的,在常規(guī)的重復(fù)性任務(wù)中,通常只需要把原始數(shù)據(jù)轉(zhuǎn)換為符合某種標(biāo)準(zhǔn)的文章,這時(shí)候人類記者很難與自動(dòng)化生成程序的速度和規(guī)模相競(jìng)爭(zhēng),最典型的例子就是在體育賽事和財(cái)報(bào)分析領(lǐng)域,這兩個(gè)領(lǐng)域也是自動(dòng)化新聞寫作應(yīng)用得最廣泛的領(lǐng)域。

      在樂觀人士的視角下,自動(dòng)化新聞寫作程序可以提高常規(guī)新聞質(zhì)量,從繁瑣的重復(fù)性勞動(dòng)中解放人類,使他們可以有更多的時(shí)間花費(fèi)在深入分析、評(píng)論和調(diào)查工作上,寫出更具有深度的新聞文章。而在悲觀人士的視角下,自動(dòng)化新聞與人類記者是競(jìng)爭(zhēng)關(guān)系,自動(dòng)化本身是為了減少成本,而原本完成這類任務(wù)的常規(guī)記者如果不能寫出更好的文章,或者專注于人類勝過算法的技能,他們就將被取代。其實(shí)從這種角度看,樂觀人士和悲觀人士的看法在某些方面是具有共同性的。

      Reginald Chua提出了一種“人機(jī)聯(lián)姻”的說法。他認(rèn)為在未來,人類和自動(dòng)化新聞將會(huì)緊密結(jié)合,算法分析數(shù)據(jù),找到有趣的故事并形成初稿,之后記者進(jìn)行深度調(diào)查,通過加入對(duì)關(guān)鍵人物的訪談及背景資料豐富報(bào)道。

      隨著自動(dòng)化新聞寫作的發(fā)展,記者也會(huì)逐漸找到新的定位。自動(dòng)化新聞的一大挑戰(zhàn)是定義算法從數(shù)據(jù)創(chuàng)建故事時(shí)所遵循的規(guī)則與標(biāo)準(zhǔn),一名體育記者會(huì)了解哪些時(shí)刻對(duì)比賽結(jié)果是至關(guān)重要的,他可以將這種知識(shí)轉(zhuǎn)化為基于規(guī)則的系統(tǒng),該任務(wù)需要分析思維、創(chuàng)造力和一定的統(tǒng)計(jì)能力。

      從普遍意義來看,自動(dòng)化新聞寫作技術(shù)是可以使新聞消費(fèi)者受益的。機(jī)器人程序快速批量寫作能力可以覆蓋新聞的長(zhǎng)尾需求,使更多的細(xì)分受眾得到滿足。但是如果把視角切換到整體的角度,受眾可能會(huì)關(guān)注的兩個(gè)問題是自動(dòng)化新聞的質(zhì)量和算法透明度。

      Clerwall(2014)使用可信度和可讀性兩個(gè)指標(biāo)分析了記者和計(jì)算機(jī)寫作新聞在感知質(zhì)量上的差異,受眾在閱讀文章時(shí)并不知道作者的身份,他們被要求對(duì)新聞進(jìn)行打分。總體來說,這兩種新聞的差異很小,但是計(jì)算機(jī)寫的文章傾向于收到更高的可信度評(píng)價(jià),而記者寫的文章則在可讀性方面得分較高[17]。不過他使用的樣本較小,這使得結(jié)果的可靠性容易被質(zhì)疑。

      Andreas等人設(shè)計(jì)了一個(gè)線上實(shí)驗(yàn)研究受眾對(duì)計(jì)算機(jī)寫作的新聞的看法。他們使用222的設(shè)計(jì),改變文章主題以及文章的實(shí)際和聲明來源。研究發(fā)現(xiàn),改變聲明來源具有較小但一致的效果,表明人類寫作的文章總是被評(píng)價(jià)為更親切,無論其實(shí)際來源如何。改變實(shí)際來源則具有更大的影響,計(jì)算機(jī)寫作的文章被被試者評(píng)價(jià)為更可信、更具有新聞專業(yè)性,但是可讀性較差[18]。

      這并不奇怪,常規(guī)的新聞寫作經(jīng)常處于簡(jiǎn)單敘述事實(shí)的層面,使用程序自動(dòng)化生成內(nèi)容嚴(yán)格遵循這樣的標(biāo)準(zhǔn),因此人們自然傾向于在可信度上打分更高,但是這些結(jié)果并不能推廣到描述事實(shí)之外的主題。記者能夠?yàn)樾侣劰适绿峁﹥r(jià)值的部分,也就是深度報(bào)道,仍然沒有自動(dòng)化程序出現(xiàn)。而當(dāng)對(duì)新技術(shù)的興奮退去時(shí),我們可能會(huì)發(fā)現(xiàn),新鮮和具有創(chuàng)造力的人類寫作風(fēng)格依然具有吸引力。

      算法透明度則是基于新聞寫作程序中算法的黑箱問題而存在的。寫作程序可能是跨層次的,涉及輸入數(shù)據(jù)、模型、推理規(guī)則和外部接口。數(shù)據(jù)的質(zhì)量(包括準(zhǔn)確性、誤差范圍、及時(shí)性和完整性等),抽樣方法,變量定義,權(quán)威性;模型輸入變量和特征,目標(biāo)變量,特征權(quán)重,建模工具,源代碼或偽代碼,參數(shù)及可能的人工調(diào)整;推理規(guī)則的持續(xù)性,準(zhǔn)確度基準(zhǔn)值,誤差分析和置信度等不確定性信息;還有外部接口的開關(guān),輸入和權(quán)重的可調(diào)整性等多個(gè)因素都會(huì)影響到寫作文章的質(zhì)量[19]。這些內(nèi)容的披露機(jī)制在非常大的程度上能決定透明度。然而,可以想到的是,許多專業(yè)人士之外的受眾可能難以理解這些內(nèi)容或?qū)χ桓信d趣,因此確定關(guān)于算法透明度的真實(shí)受眾需求,以及如何解決這些需求就成了重要的問題。

      對(duì)新聞機(jī)構(gòu)來說,正如前文所述,更多的機(jī)器人新聞寫作無疑有助于降低機(jī)構(gòu)成本和減少編輯的工作量。但他們同樣有需要考慮的問題,他們的問題集中在源數(shù)據(jù)、數(shù)據(jù)處理和輸出新聞質(zhì)量三個(gè)方面。新聞機(jī)構(gòu)需要對(duì)源數(shù)據(jù)的版權(quán)和準(zhǔn)確性負(fù)責(zé),他們需要保證該數(shù)據(jù)確實(shí)可用,因此需要數(shù)據(jù)管理和驗(yàn)證的程序。同樣,如果算法的數(shù)據(jù)處理過程存在錯(cuò)誤,也會(huì)造成大量虛假新聞,這可能對(duì)新聞機(jī)構(gòu)的聲譽(yù)帶來災(zāi)難性的影響。自動(dòng)化新聞寫作程序在首次發(fā)布前需要徹底的測(cè)試。而對(duì)最后輸出的新聞,可能需要匹配新聞機(jī)構(gòu)的官方樣式與風(fēng)格,此外機(jī)構(gòu)也要意識(shí)到可能出現(xiàn)的法律和道德問題。

      如果把目光投向整個(gè)社會(huì),對(duì)自動(dòng)化新聞的應(yīng)用事實(shí)上是在一個(gè)更大的話語體系內(nèi)部的,那就是,考慮到新聞媒體的輿論監(jiān)督功能,更大范圍地應(yīng)用更復(fù)雜的由機(jī)器人寫作的新聞,是否意味著把這種監(jiān)督的主體由人讓渡到算法?我們是否可以信任算法作為檢查、識(shí)別重要社會(huì)問題的機(jī)制?算法已經(jīng)參與到社會(huì)管理中的很多方面,它決定了你多長(zhǎng)時(shí)間能夠打到一輛車,銀行是否應(yīng)該批準(zhǔn)你的信用卡,甚至警察應(yīng)該監(jiān)控誰和監(jiān)控哪里。而接下來,它們還可能會(huì)影響你的公共生活,你會(huì)在新聞媒體上看到什么,甚至你會(huì)處于一個(gè)什么樣的社會(huì)。

      參考文獻(xiàn):

      [1]S.C.Lewis,Journalism in an Era of Big Data:Cases,concepts,and critiques.Taylor & Francis,2015.

      [2]J.Manyika et al.,“Big data:The next frontier for innovation,competition,and productivity,”May 2011.

      [3] E.Stavelin,Computational Journalism.When journalism meets programming.The University of Bergen,2014.

      [4]P.Meyer,Precision journalism:A reporters introduction to social science methods.Rowman & Littlefield,2002.

      [5]Cox M.The development of computer-assisted reporting.Informe presentado en Association for Education in Jornalism end Mass Comunication).Chapel Hill,EEUU:Universidad de Carolina del Norte,2000.

      [6] M.Carlson,“The robotic reporter:Automated journalism and the redefinition of labor, compositional forms, and journalistic authority,”Digital Journalism,vol.3,no.3,pp.416–431,2015.

      [7]N.Diakopoulos,A functional roadmap for innovation in computational journalism.http://www.nickdiakopoulos.com/2011/04/22/a-functional-roadmap-for-innovation-in-computational-journalism/, 2011.

      [8]K.N.D?rr,“Mapping the field of Algorithmic Journalism,”Digital Journalism,vol.4,no.6,pp.700–722,Aug.2016.

      [9] T.Flew,C.Spurgeon,A.Daniel,and A.Swift,“The promise of computational journalism,”Journalism Practice,vol.6,no.2,pp.157–171,2012.

      [10]A.Graefe,Guide to automated journalism.2016.

      [11]A.Van Dalen,“The algorithms behind the headlines:How machine-written news redefines the core skills of human journalists,”Journalism Practice,vol.6,no.5–6,pp.648–658,2012.

      [12]M.L.Young and A.Hermida,“From Mr.and Mrs.outlier to central tendencies:Computational journalism and crime reporting at the Los Angeles Times,”Digital Journalism,vol.3,no.3,pp.381–397,2015.

      [13]徐曼. 國(guó)外機(jī)器人新聞寫手的發(fā)展與思考[J]. 中國(guó)報(bào)業(yè),2015,(23):32-34.

      [14]王江濤. 機(jī)器人新聞寫作的局限與不足——基于騰訊財(cái)經(jīng)寫作機(jī)器人Dream writer作品的分析[J].傳媒觀察,2016,(7):12-14.

      [15]王悅,支庭榮. 機(jī)器人寫作對(duì)未來新聞生產(chǎn)的深遠(yuǎn)影響——兼評(píng)新華社的“快筆小新”[J].新聞與寫作,2016,(2):12-14.

      [16]趙禹橋. 新聞寫作機(jī)器人的應(yīng)用及前景展望——以今日頭條新聞機(jī)器人張小明(xiaomingbot)為例[EB/OL].http://media.people.com.cn/GB/n1/2017/0111/c409691-29014245.html,2017.1.

      [17]C. Clerwall,“Enter the Robot Journalist,” Journalism Practice, vol. 8, no. 5, pp. 519–531, Sep.2014.

      [18]A. Graefe, M. Haim, B. Haarmann, and H.-B. Brosius, “Readers perception of computer-generated news: Credibility, expertise, and readability,” Journalism, p.1464884916641269, Apr. 2016.

      [19]N. Diakopoulos and M. Koliska, “Algorithmic transparency in the news media,” Digital Journalism, pp. 1–20, 2016.

      (沈浩為中國(guó)傳媒大學(xué)新聞學(xué)院教授、博士生導(dǎo)師;元方為中國(guó)傳媒大學(xué)互聯(lián)網(wǎng)信息研究院互聯(lián)網(wǎng)信息專業(yè)媒體大數(shù)據(jù)與社會(huì)計(jì)算方向博士生)

      編校:鄭 艷

      猜你喜歡
      大數(shù)據(jù)時(shí)代
      大數(shù)據(jù)時(shí)代互聯(lián)網(wǎng)金融沖擊下商業(yè)銀行發(fā)展的SWOT分析
      商(2016年33期)2016-11-24 23:01:08
      大數(shù)據(jù)時(shí)代檔案管理模式的轉(zhuǎn)換與創(chuàng)新
      資治文摘(2016年7期)2016-11-23 02:29:01
      大數(shù)據(jù)時(shí)代宏觀經(jīng)濟(jì)分析的相關(guān)探討
      智慧城市與大數(shù)據(jù)時(shí)代的政府治理
      大數(shù)據(jù)時(shí)代互聯(lián)網(wǎng)金融對(duì)傳統(tǒng)商業(yè)銀行的影響研究
      大數(shù)據(jù)時(shí)代下計(jì)算機(jī)信息處理技術(shù)的應(yīng)用
      大數(shù)據(jù)時(shí)代背景下高職院校宣傳思想工作的思考與實(shí)踐
      文教資料(2016年20期)2016-11-07 11:56:39
      大數(shù)據(jù)時(shí)代下圖書館的服務(wù)創(chuàng)新與發(fā)展
      科技視界(2016年21期)2016-10-17 19:30:45
      大數(shù)據(jù)時(shí)代高校學(xué)生知識(shí)管理
      科技視界(2016年21期)2016-10-17 18:42:37
      從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
      今傳媒(2016年9期)2016-10-15 22:06:04
      西林县| 平利县| 滁州市| 中西区| 灌云县| 无锡市| 布尔津县| 苍溪县| 东乡族自治县| 苍梧县| 佛教| 南宫市| 重庆市| 南和县| 海原县| 湖州市| 松滋市| 贺兰县| 绵阳市| 西安市| 海原县| 健康| 比如县| 沂水县| 廊坊市| 韩城市| 黄大仙区| 莫力| 济宁市| 宜兰县| 永顺县| 洱源县| 麦盖提县| 乐山市| 莱阳市| 腾冲县| 绥芬河市| 惠水县| 涿鹿县| 高唐县| 沙田区|