□文│張梓軒 王 冰
隨著軟件開發(fā)技術(shù)的發(fā)展,對用戶進行數(shù)據(jù)挖掘與分析,已有相關(guān)的應(yīng)用在市場上不斷出現(xiàn),生產(chǎn)機構(gòu)自身或第三方機構(gòu)均可使用,以對信息的生產(chǎn)或發(fā)布環(huán)節(jié)提供數(shù)據(jù)指導。A/B測試的出現(xiàn),便是將用戶行為分析與新聞網(wǎng)頁設(shè)計、新聞內(nèi)容編輯等生產(chǎn)環(huán)節(jié)直接對應(yīng),以測試數(shù)據(jù)直接指導生產(chǎn)環(huán)節(jié)。其核心是“確定兩個元素或版本(A和B)哪個版本更好,需要同時實驗兩個版本,最后,選擇最好的版本使用。網(wǎng)絡(luò)上的A/B測試,即所設(shè)計的頁面有兩個版本(A和B),A為現(xiàn)行的設(shè)計,B是新的設(shè)計,比較這兩個版本之間測試者所關(guān)心的數(shù)據(jù)(轉(zhuǎn)化率,業(yè)績,跳出率等),最后選擇效果最好的版本?!盵1]
美國著名的新聞博客網(wǎng)站赫芬頓郵報在其網(wǎng)站上測試頭條新聞的標題寫法,使用的就是A/B測試的方法。當用戶的請求到達服務(wù)器時,通過服務(wù)器端的自動“分流”環(huán)節(jié),服務(wù)器可給點擊閱讀該新聞的不同讀者分配不同的版本,同時對閱讀行為數(shù)據(jù)進行記錄。也就是說,同一條新聞內(nèi)容有兩個標題文本,參與到測試中的網(wǎng)站讀者隨機看到其中的一個標題版本,一定時間段內(nèi)點擊量最大的標題則將會成為這條新聞最終的標題。
雖然A/B測試作為測試方法具有很大的優(yōu)點,但A/B測試的結(jié)果,具有一次性適用性,其使用跨度存在局限,新聞生產(chǎn)者僅通過實施某一次測試,雖然可以調(diào)整版面或內(nèi)容,對短期的情況做出改善,但在進行長期的、持續(xù)性的測試方面,A/B測試存在潛在的成本。[2]面對這樣的情況,為降低反復(fù)測試、動態(tài)測試中的大量人力成本、時間成本,并且提高測試的準確性,結(jié)合人工智能的A/B測試(AB Testing Combined With Artificial Intelligence),在實踐中得到應(yīng)用。在幫助測試者創(chuàng)建高效的分組測試、收集和分析用戶行為數(shù)據(jù)、將操作過程自動化等各個方面,人工智能對A/B測試進行了有效的輔助。
A/B測試的具體實施方式有很多種,網(wǎng)站、桌面應(yīng)用、手機應(yīng)用等對應(yīng)不同的實施方式,但均是將選定的用戶分為兩組,一組使用舊版本,一組使用新版本,對試驗中收集到的效果指標數(shù)據(jù),應(yīng)用統(tǒng)計學上的方法進行驗證,選擇效果最好的版本正式上線推廣。
A/B測試的實質(zhì),是對照實驗法在線上的實施,是與控制組、實驗組的自然科學實驗一脈相承的,其原理應(yīng)用的是統(tǒng)計學上的一種假設(shè)檢驗(顯著性檢驗)。在這一過程中,“假設(shè)檢驗是先對總體的參數(shù)提出某種假設(shè)(比如說轉(zhuǎn)化率的平均值),然后利用樣本數(shù)據(jù)判斷假設(shè)是否成立的過程。邏輯上采用反證法,先提出假設(shè),再計算該假設(shè)可能性的大小?!捎诮y(tǒng)計得出的結(jié)果來自于隨機樣本的數(shù)據(jù),結(jié)論不可能為絕對的,所以只能根據(jù)概率上的一些依據(jù)進行相關(guān)的判斷。依據(jù)小概率思想(即顯著性水平p<0.05的小概率事件在一次試驗中基本上不會發(fā)生),也就是說當原假設(shè)的可能性小于認定的某一標準的話,則拒絕原假設(shè)(認為這個假設(shè)是不成立的),反之則接受原假設(shè)?!盵3]
具體到A/B測試里的假設(shè)檢驗,試驗的目的就在于推翻“A/B兩個版本無差異”的原假設(shè),驗證“A/B兩個版本有差異”的備擇假設(shè)。最終,通過比較A/B兩個版本樣本數(shù)據(jù)的相關(guān)參數(shù),來決定最終投放使用的版本采用哪一個。
進行A/B測試時,測試用戶的選取是十分關(guān)鍵的環(huán)節(jié),為保證試驗結(jié)果的準確性,一是要保證一定的樣本數(shù)量,二是要考慮用戶細分。“在A/B測試的實驗中,需要保證小流量的實驗具備代表性,也就是說1%的流量做出來的實驗結(jié)果,可以推廣到100%的用戶,為了保證這一點,需要保證1%的流量的樣本特征與100%流量的樣本特征具備相似性。”[4]具體來講,要將在某一特征上具有相似性的用戶聚為一類,再將其隨機分為控制組與實驗組,如果“所有用戶雜糅在一起,導致即使我們做了A/B測試,也得不出有效結(jié)果。所以,我們需要按用戶群體細分去做A/B測試,高質(zhì)量用戶、留存用戶、低質(zhì)量用戶、不活躍用戶,它們的行為是怎么樣的,這才是有效A/B測試的關(guān)鍵?!盵5]
具體的用戶細分,要根據(jù)不同的測試目的來區(qū)分,但通常比較關(guān)鍵的用戶特征有這幾種區(qū)分,新、老用戶的區(qū)分,用戶流量來源(自然流量、付費流量、推薦流量、Email流量、社交媒體流量)的區(qū)分,主頁訪問、內(nèi)部訪問的區(qū)分,首次購買、反復(fù)購買的區(qū)分等等。不同細分用戶的行為分別是怎樣的,是進行有效A/B測試的關(guān)鍵。臉書(Facebook)、推特(Twitter)等公司在分析用戶行為時,會通過數(shù)據(jù)分析工具篩選出不同的用戶分類,再通過用戶行為跟蹤,分別查看各類用戶獨特的具體行為,這樣在分類中發(fā)掘出可以進一步實現(xiàn)用戶增長的空間。
法國國家科學研究中心的數(shù)據(jù)科學家巴拉茲·克格利(Balázs Kégl)認為,對于A/B測試這樣一種對控制變量進行重復(fù)實驗的方法,人工智能未來可將整個過程實現(xiàn)自動化操作。[6]結(jié)合人工智能的A/B測試,其強大的功能在于“不僅可以提高測試的準確度及轉(zhuǎn)化率,自動化的操作過程還能節(jié)省大量的時間成本”。[7]
A/B測試的實現(xiàn)過程涉及四個關(guān)鍵角色、三種訪問形式及五個環(huán)節(jié),其中很多環(huán)節(jié)可實現(xiàn)自動化操作。四個關(guān)鍵角色為“客戶端(Client)、服務(wù)器(Server)、數(shù)據(jù)層(Data)、數(shù)據(jù)倉庫(Data Warehouse)。三種訪問形式即無A/B測試的普通訪問流程(Non AB test)、基于后端的A/B測試訪問流程(Back-end AB test)和基于前端的A/B測試訪問流程(Front-end AB test)。用戶在一次瀏覽中,會從客戶端(Client)發(fā)起一個請求,請求被傳到服務(wù)器(Server),服務(wù)器的后臺程序根據(jù)計算得出要給用戶返回的內(nèi)容(Data),并向數(shù)據(jù)倉庫(Data Warehouse)添加一條相應(yīng)的打點信息記錄本次訪問的相關(guān)信息,數(shù)據(jù)倉庫收集到足夠的數(shù)據(jù)之后,就可以開始進行分析了?!盵8]基于前端的A/B測試一般來說只是UI(用戶界面)上的測試,比如頁面展示端的策略方案測試。而基于后端的A/B測試是對返回給客戶一端的數(shù)據(jù)的內(nèi)容做試驗,比如對推薦的策略、對訂單列表等方面進行測試。
在這樣一種測試流程中,結(jié)合人工智能的A/B測試,其首先能夠自動地根據(jù)多個參數(shù)細分用戶,因為它能高效地區(qū)分出自然搜索、付費搜索的流量或任何其他流量。[9]這種對受眾群體細分的自動實現(xiàn),幫助測試者創(chuàng)建有效的分組方式,事實上實現(xiàn)了根據(jù)特定用戶群體來測試不同目標網(wǎng)頁配置的有效性,提高了測試的準確度,這是實現(xiàn)轉(zhuǎn)化率提高的重要基礎(chǔ)。
在接下來的環(huán)節(jié)中,“人工智能的應(yīng)用程序隨機地將不同的用戶分放在不同的測試版本中,并運行A/B測試。初始階段,該程序收集關(guān)于每個版本的信息,這一階段為探索期。然后,在達到預(yù)定的統(tǒng)計閾值后,需要一個人力分析師根據(jù)測試結(jié)果,對人工智能應(yīng)用程序的行動選擇策略進行相應(yīng)調(diào)整。分析師會選擇出用戶體驗較好的測試版本作為‘勝者’,并刪除其余的版本,在這一階段,人工智能的應(yīng)用程序正在利用整個過程進行學習,以獲知如何提供最佳的用戶體驗?!诓扇∵M一步的操作時,人工智能的應(yīng)用程序則可自動化上述過程,以消除人類直接參與的需要,人類只需要審查進度即可。這其實屬于自適應(yīng)動態(tài)編程或增強學習?!盵10]
盡管每一次A/B測試的內(nèi)容都是獨一無二的,但通常A/B測試會對下列內(nèi)容進行測試: “行動按鈕的措辭、大小、顏色和位置,標題或產(chǎn)品說明,表單的數(shù)量和字段類型,網(wǎng)站的布局和風格,登錄和產(chǎn)品頁面上的圖片,頁面上文字的長度”,[11]等等。一些工具如Google Website Optimizer或者Visual Website Optimizer、Vertster,SiteSpect等,可以省時省力地進行網(wǎng)頁的A/B測試。
在移動終端可以進行A/B測試的內(nèi)容更加豐富,不只是測試用戶界面元素設(shè)計的變化。通常來說,移動端可進行的A/B測試包括:UI設(shè)計、內(nèi)容以及渠道。UI設(shè)計又可以細分為“按鈕、文本、圖片、隱藏元素、應(yīng)用邏輯”。內(nèi)容方面包括“用戶細分、時間、信息渠道、入門教程、深度鏈接、權(quán)限獲取”等,例如推送內(nèi)容的時間,入門教程的哪些內(nèi)容需要進行改善,鏈接到哪些進一步解釋的相關(guān)內(nèi)容等等。渠道方面包括“信息推送、內(nèi)置消息、郵件”等,例如信息通過哪些平臺進行推送效果會更好,頁面可以內(nèi)置哪些信息,郵件推送給用戶哪些信息,等等。[12]
對于基于移動智能終端的一些應(yīng)用,若想通過A/B測試實現(xiàn)內(nèi)容優(yōu)化、轉(zhuǎn)化率提升,那么對每個變量進行測試都是有意義的。因為對于版本更新這一行為而言,有可能新版本會給用戶帶來不好的體驗,甚至導致用戶對軟件的卸載,因此,要確保版本的更新與轉(zhuǎn)變不對用戶體驗造成負面影響,“對消極和積極影響的權(quán)衡評估,也就是‘雙邊測試’,對積極的改變跟消極的改變同時觀測,是A/B測試的重要測試環(huán)節(jié)。具有雙邊測試功能的A/B測試,會根據(jù)得到的全面的數(shù)據(jù)來權(quán)衡決策,不必擔心增加打開率的同時出現(xiàn)增加卸載率的問題”。[13]
A/B測試一般用于做網(wǎng)站解析和搜索引擎優(yōu)化,以此來判斷哪種頁面組合辦法對網(wǎng)站用戶更有吸引力。隨著軟件技術(shù)的發(fā)展,在包括網(wǎng)站設(shè)計、APP開發(fā)、廣告投放、新聞發(fā)布等在內(nèi)的諸多領(lǐng)域,A/B測試已得到了一定程度的應(yīng)用。通常情況下,創(chuàng)業(yè)公司、營銷人員、新聞編輯等,為深入了解用戶的行為模式,通過采用A/B測試的方法,可找出提高轉(zhuǎn)化率的最佳辦法。
新聞領(lǐng)域使用A/B測試已有先例,A/B測試可以通過跟蹤同一篇新聞,測試使用不同標題、報道結(jié)構(gòu)、新聞配圖等對流量產(chǎn)生的影響,從而實現(xiàn)新聞內(nèi)容的優(yōu)化,再以測試出的最優(yōu)組合來發(fā)布新聞報道。使用A/B測試可以依據(jù)真實的傳播數(shù)據(jù),指導新聞生產(chǎn)環(huán)節(jié)的改造,從而進一步引發(fā)傳播效果的提升。
華盛頓郵報在紙媒時代一直具有較大的傳播力和影響力。然而,進入數(shù)字時代后,讀者閱讀新聞的方式發(fā)生了改變,造成傳統(tǒng)的紙質(zhì)報紙廣告收入和讀者量急劇下降。像許多傳統(tǒng)媒體一樣,華盛頓郵報也在進行新媒體時代的轉(zhuǎn)型,其策略之一就是使用A/B測試進行新聞報道的內(nèi)容優(yōu)化。華盛頓郵報使用一款名為“PageBuilder”的軟件對新聞報道進行實時的內(nèi)容測試,“這款工具可以讓該報的新聞編輯更加輕松地對新聞報道的內(nèi)容進行調(diào)整,實時在網(wǎng)站上添加或者強調(diào)一些內(nèi)容”。[14]
在互聯(lián)網(wǎng)轉(zhuǎn)型中,衛(wèi)報采取“數(shù)字第一”的理念和“數(shù)據(jù)驅(qū)動”的文化。自2012年初以來,衛(wèi)報與Optimizely合作,來增長其網(wǎng)絡(luò)讀者,并且使用A/B測試做網(wǎng)頁和性能測試。衛(wèi)報的產(chǎn)品經(jīng)理克斯廷·??怂辜{(Kerstin Exner)表示,只要可能都應(yīng)該對內(nèi)容進行A/B測試。其業(yè)務(wù)和產(chǎn)品開發(fā)總監(jiān)奈杰爾·比克內(nèi)爾(Nigel Bicknell)則提到,“對于做大大小小的設(shè)計決策,A/B測試都很重要。從頁面布局的細節(jié)到按鈕的措辭、鏈接等許多變量,衛(wèi)報都會進行測試,因為通常一些細小的變化就能帶來很大的轉(zhuǎn)變”。[15]
衛(wèi)報使用A/B測試進行內(nèi)容優(yōu)化主要體現(xiàn)在對其推出的一款名為“Soulmates(知音)”的社交網(wǎng)站上,該網(wǎng)站獲得利潤的方式是訂閱用戶按月支付訂閱費。A/B測試被應(yīng)用于對不同的頁面布局進行測試,監(jiān)測布局更改之后是否會使轉(zhuǎn)化率發(fā)生變化,在一段時間內(nèi),他們對四種不同的頁面布局進行了測試,測試結(jié)束后,得出的最佳頁面布局帶來的就業(yè)申請率增加了8%;再例如,網(wǎng)站導航菜單上的用詞也會使用A/B測試的辦法決定,他們通過對“sector insight”(行業(yè)洞察力)、“sector advice”(部門意見)、“industry analysis”(行業(yè)分析)、“insight from your sector”(從你的角度來洞察)等多個不同選項進行測試,最終選定“insight from your sector”的導航菜單,使點擊率增加了224%。[16]
在A/B測試的基礎(chǔ)上,“MAB(multi-armed bandit)是一種動態(tài)隨機最優(yōu)化的范疇,是特殊類型的動態(tài)隨機控制模型,用于處理如何最優(yōu)地進行稀缺資源的分配。”[17]相比原有的A/B測試,MAB測試更加靈活,在測試運行過程中可以增加或者刪減變量。因此,MAB范式既符合做內(nèi)容測試的基本要求,特別是在做網(wǎng)站優(yōu)化的時候,同時,它又符合對網(wǎng)站的多個變量進行快速跟蹤測試的要求?!懊看螠y試可以有多個變量,每個變量被視為一個臂(arm),首先對全部的變量進行整體的測量,并監(jiān)測讀者對于每一個變量的反饋,每個變量的次數(shù)送達和讀者點擊數(shù),用來計算該變量與讀者之間的嚙合程度。讀者的實時反饋用來衡量是否已經(jīng)達到了最佳的變量組合,因為并沒有明確的標準來衡量測試何時結(jié)束,所以這是一個完全自動化的測量過程,直到達到最佳變量組合?!盵18]MAB測試可以用來測試標題、圖片縮略圖、視頻、推薦文章、熱門文章等等。
近來,華盛頓郵報在原有的“PageBuilder”的基礎(chǔ)上,增加了基于MAB范式的對網(wǎng)站內(nèi)容進行實時測試的功能,推出了“Bandito”測試工具,“旨在通過實時監(jiān)測發(fā)現(xiàn)讀者對于那些內(nèi)容反應(yīng)更加積極。當編輯添加一個變量到PageBuilder網(wǎng)站的模塊并對網(wǎng)頁進行發(fā)布時,MAB測試的算法會自動注冊一個有關(guān)新變量與默認變量的新測試,同時也會發(fā)布到網(wǎng)站頁面上,該算法開始在測試頁上跟蹤與測試相關(guān)的讀者反映。根據(jù)讀者的實時反饋,算法選擇出最佳的變量?!盵19]這種最新的測試方法的優(yōu)勢不僅在于變量的組合能夠最大限度地引起讀者的參與,并且能夠花費最少的成本探索出最佳的變量組合。
華盛頓郵報的數(shù)據(jù)科學家認為,網(wǎng)站內(nèi)容優(yōu)化具有重要性,抓取和分析讀者的實時反饋可以幫助有效地進行內(nèi)容的優(yōu)化,并提供了基于MAB的具體測試案例,如下圖所示:最開始測試不同標題對于讀者的影響,即test 1和test 2版本之間的測量,在該變量測試活躍一段時間后,收集相關(guān)的數(shù)據(jù)得出最合適的新聞標題為test 2版本,則可以添加另一變量,即新聞配圖,即test 2與test 3版本之間的測量對比——MAB測試的最終測試結(jié)果會反饋出三種變量組合的點擊率,分別為3.3%、3.9%和4.8%,通過比較和分析反饋的數(shù)據(jù),最終呈現(xiàn)在網(wǎng)頁上的版本則選定為test 3版本。[20]
A/B測試是西方主流新聞媒體以及包括谷歌、臉書在內(nèi)的大型平臺型媒體正在采納的一種前沿模式,在國內(nèi),其在商業(yè)傳播領(lǐng)域的應(yīng)用已經(jīng)嶄露頭角,在新聞、資訊等的信息發(fā)布領(lǐng)域,已被“今日頭條”這一以智能分發(fā)平臺為定位的產(chǎn)品所采納?!敖袢疹^條”為入駐其平臺開設(shè)“頭條號”的部分資質(zhì)較高的新聞媒體機構(gòu)和自媒體運營者,開發(fā)并授權(quán)使用A/B測試,應(yīng)用于標題測試、封面配圖測試等環(huán)節(jié),并對傳播效果的提升,帶來顯著的效果。隨著這一應(yīng)用及其背后所代表的邏輯與理念被越來越多的媒體機構(gòu)及新聞生產(chǎn)者所認可與熟悉,其對我國新聞業(yè)在融合時代的變革,具有一系列潛在的影響。
目前在國內(nèi),A/B測試已在原生廣告的傳播效果測試領(lǐng)域得到應(yīng)用,而新聞媒體對A/B測試的應(yīng)用還未普及,一個重要原因是,新聞從業(yè)者對于“以用戶為中心”的落實,仍然停留在較為模糊而籠統(tǒng)的理念層面,對于如何才是真正實現(xiàn)“以用戶為中心”,這需要新聞媒體在融合轉(zhuǎn)型中首先對這一理念做出明確而充分的認知。A/B測試的邏輯,是以用戶為中心的邏輯,或者說用戶思維的邏輯,它使得發(fā)布者不是僅憑經(jīng)驗性的判斷將自己想象為用戶、替代用戶去做出內(nèi)容編輯方式的選擇,而是使其具備相應(yīng)的技術(shù)素養(yǎng),通過采納這一應(yīng)用,為明確了解用戶需求、滿足用戶需求獲得有效的數(shù)據(jù)支持,這是傳者思維到用戶思維的真正落實。
在信息傳播的整個生態(tài)中觀察A/B測試,會發(fā)現(xiàn)技術(shù)實現(xiàn)了海量內(nèi)容與海量人的高效對接。結(jié)合人工智能的A/B測試,其核心是為了更好地理解內(nèi)容、理解用戶,通過程序的運行,把二者有機地融為一體。基于技術(shù)的這一連通機制,它一方面為用戶推薦相對而言更為合適的內(nèi)容,同時因為回收大量的線上測試的用戶行為數(shù)據(jù),可以智能地理解用戶的行為與意圖,將用戶的喜好通過數(shù)據(jù)的方式與內(nèi)容產(chǎn)生互動,優(yōu)化、激發(fā)內(nèi)容創(chuàng)作的創(chuàng)造力,提升內(nèi)容生產(chǎn)方的傳播效果。同時,通過人工智能解放出的人力,可以更好地投入到更有創(chuàng)造力的內(nèi)容生產(chǎn)環(huán)節(jié),從而更好地為用戶提供服務(wù)。
2017年1月,劉奇葆同志在出席推進媒體深度融合工作座談會時,強調(diào)要深入貫徹落實習近平總書記系列重要講話精神,明確提出要確立移動優(yōu)先戰(zhàn)略,推進傳統(tǒng)媒體和新興媒體深度融合。不同于PC端的使用特點,移動端的使用與每一個更為固定而明確的用戶個體直接對接,這為媒體的內(nèi)容發(fā)布帶來重大的機遇。由于移動終端固有的特性,A/B測試在移動互聯(lián)網(wǎng)時代有了新的發(fā)展。一些新開發(fā)的A/B測試工具,可充分結(jié)合移動設(shè)備的特點,對移動用戶的使用行為做出充分分析。APP開發(fā)者在APP中嵌入A/B測試的代碼后,就可以收集用戶使用手機進行的交互活動,然后建立針對該用戶的數(shù)據(jù),并以可視化功能,提供視覺密度地圖,用戶在內(nèi)容使用、地理位置、時間等各個方面做出交叉分析。這一系列功能,將更加準確的在用戶與內(nèi)容之間架起橋梁,進而為媒體基于移動優(yōu)先戰(zhàn)略實現(xiàn)融合轉(zhuǎn)型帶來巨大優(yōu)勢。