• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種基于因子圖的搜索廣告轉(zhuǎn)化預(yù)測(cè)模型

      2015-04-21 08:33:40顧智宇
      中文信息學(xué)報(bào) 2015年3期
      關(guān)鍵詞:搜索引擎轉(zhuǎn)化率概率

      顧智宇,秦 濤,王 斌

      (1. 中國科學(xué)院 計(jì)算技術(shù)研究所,北京 100190;2. 微軟亞洲研究院,北京 100080)

      ?

      一種基于因子圖的搜索廣告轉(zhuǎn)化預(yù)測(cè)模型

      顧智宇1,秦 濤2,王 斌1

      (1. 中國科學(xué)院 計(jì)算技術(shù)研究所,北京 100190;2. 微軟亞洲研究院,北京 100080)

      基于轉(zhuǎn)化的廣告方式在應(yīng)用和研究中逐漸得到重視,采用該方式的搜索廣告在廣告排序時(shí)需要對(duì)候選廣告的轉(zhuǎn)化概率進(jìn)行預(yù)測(cè),以提高廣告的轉(zhuǎn)化率,優(yōu)化搜索引擎的廣告收益。該文在對(duì)搜索廣告中影響轉(zhuǎn)化的各特征進(jìn)行提取與分析的基礎(chǔ)上,提出了描述廣告、查詢、用戶三個(gè)因素與轉(zhuǎn)化事件關(guān)系的概率因子圖模型,并基于該模型對(duì)廣告轉(zhuǎn)化進(jìn)行預(yù)測(cè)。最后我們使用從某商業(yè)搜索引擎采集的實(shí)際數(shù)據(jù)對(duì)預(yù)測(cè)模型進(jìn)行評(píng)價(jià)并與樸素貝葉斯方法進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果表明,三類因素對(duì)轉(zhuǎn)化具有不同程度的影響,我們提出的因子圖模型可以較好地預(yù)測(cè)廣告的轉(zhuǎn)化。

      搜索廣告;概率預(yù)測(cè)模型;CPA廣告

      1 引言

      互聯(lián)網(wǎng)廣告的形式主要有搜索廣告(Sponsored Search)、上下文廣告(Contextual Advertising)、展示廣告(Display Advertising)等。其中搜索廣告約占互聯(lián)網(wǎng)廣告總份額的46%,是互聯(lián)網(wǎng)廣告中最為重要的部分。并且,廣告收入尤其是搜索廣告收入是大部分搜索引擎公司的主要收入來源。例如Google在2010年的總營(yíng)收中廣告收入所占比例在96%以上,在廣告收入中66%為搜索廣告收入。搜索廣告模式從早期的基于展示次數(shù)收費(fèi)(Cost-per-mille,CPM)發(fā)展到當(dāng)前主流的基于點(diǎn)擊收費(fèi)(Cost-per-click,CPC)后,近年來提出了基于轉(zhuǎn)化收費(fèi)的廣告模式(Cost-per-Action,CPA)?;谵D(zhuǎn)化的搜索廣告的流程如圖1所示。當(dāng)用戶使用搜索引擎進(jìn)行查詢時(shí),搜索引擎將相關(guān)廣告展示于搜索結(jié)果頁面上,典型地在搜索結(jié)果的右側(cè)或上方。若用戶點(diǎn)擊感興趣的廣告,則將被帶到廣告的著陸頁。當(dāng)用戶進(jìn)一步在著陸頁上進(jìn)行特定的動(dòng)作,例如點(diǎn)擊著陸頁中的“下載”按鈕時(shí),將觸發(fā)搜索引擎植入在著陸頁中的一段腳本,該腳本把用戶的本次動(dòng)作反饋到搜索引擎,記錄為一次轉(zhuǎn)化,搜索引擎據(jù)此進(jìn)行收費(fèi)。被稱為轉(zhuǎn)化(Conversion or Action)的上述用戶特定動(dòng)作由廣告商定義,常見的有購買商品、注冊(cè)信息、下載軟件等。對(duì)于廣告商, 由于CPA廣告在廣告產(chǎn)生效果后才支付廣告費(fèi)用,減少了廣告的風(fēng)險(xiǎn);而對(duì)于搜索引擎,CPA廣告能夠避免CPC廣告中可能出現(xiàn)的點(diǎn)擊欺詐現(xiàn)象[1],因而近年來CPA廣告逐漸得到重視和發(fā)展。

      圖1 基于轉(zhuǎn)化的搜索廣告的流程

      (1)

      在本文的余下部分中,首先在第2節(jié)介紹相關(guān)的研究工作,然后在第3節(jié)對(duì)影響轉(zhuǎn)化率的各因素進(jìn)行分析,從中提取特征,第4節(jié)用描述因子圖用于轉(zhuǎn)化預(yù)測(cè)的概率模型,并在第5節(jié)給出相關(guān)實(shí)驗(yàn)結(jié)果和分析,最后在第6節(jié)進(jìn)行總結(jié)。

      2 相關(guān)工作

      目前為止針對(duì)廣告轉(zhuǎn)化預(yù)測(cè)的研究為數(shù)不多,而且尚未有面向搜索廣告的轉(zhuǎn)化預(yù)測(cè)研究。文獻(xiàn)[2]對(duì)展示廣告的點(diǎn)擊后轉(zhuǎn)化事件進(jìn)行了分析,從廣告商、發(fā)布商、用戶等信息中提取特征,在進(jìn)行特征選擇后建立最大熵模型對(duì)轉(zhuǎn)化事件進(jìn)行預(yù)測(cè)。而文獻(xiàn)[3]則著重考慮了廣告的點(diǎn)擊/轉(zhuǎn)化預(yù)測(cè)中的數(shù)據(jù)稀疏性問題,針對(duì)性地提出了利用廣告商和發(fā)布商信息的層次樹結(jié)構(gòu)對(duì)數(shù)據(jù)在不同層次上進(jìn)行聚合的方法。但上述工作都是針對(duì)展示廣告進(jìn)行,而搜索廣告與展示廣告有較大的差異,首先搜索廣告發(fā)布的形式不同,由于搜索廣告是在同一搜索引擎上發(fā)布,并不具備展示廣告在各種不同網(wǎng)頁上發(fā)布時(shí)的不同發(fā)布商信息,更重要的是,搜索廣告由于是被用戶搜索時(shí)所輸入的查詢所觸發(fā),而用戶查詢是用戶意圖的重要指示,對(duì)廣告的轉(zhuǎn)化有較強(qiáng)影響,因此在進(jìn)行搜索廣告的轉(zhuǎn)化預(yù)測(cè)時(shí),必須對(duì)用戶查詢進(jìn)行分析和利用。

      目前對(duì)于搜索廣告的轉(zhuǎn)化主要集中在經(jīng)驗(yàn)性分析上,其中,文獻(xiàn)[4]分析了廣告的關(guān)鍵字對(duì)轉(zhuǎn)化率的影響,以幫助廣告商優(yōu)化廣告。文獻(xiàn)[5]則分析了廣告的著陸頁與轉(zhuǎn)化率的關(guān)系,他們發(fā)現(xiàn)大部分著陸頁可劃分為廣告商主頁、搜索轉(zhuǎn)移(SearchTransfer)、分類瀏覽這三種類型,對(duì)Yahoo搜索廣告數(shù)據(jù)進(jìn)行的統(tǒng)計(jì)表明不同類型的著陸頁的平均轉(zhuǎn)化率有明顯的差異。而文獻(xiàn)[6]則主要針對(duì)用戶查詢與轉(zhuǎn)化的關(guān)系進(jìn)行了分析,通過回歸分析計(jì)算了查詢長(zhǎng)度、查詢中是否包含特定關(guān)鍵字等特征與廣告轉(zhuǎn)化率的相關(guān)性。其結(jié)果表明某些特定關(guān)鍵字對(duì)轉(zhuǎn)化率有較大影響。但是上述工作都沒有建立理論模型來對(duì)搜索廣告的轉(zhuǎn)化進(jìn)行直接預(yù)測(cè)。

      圖2 廣告點(diǎn)擊率與轉(zhuǎn)化率的分布

      針對(duì)CPC廣告的點(diǎn)擊預(yù)測(cè)已有較多的研究工作,如文獻(xiàn)[7-8]等提出了基于概率的點(diǎn)擊預(yù)測(cè)方法。然而廣告的點(diǎn)擊與轉(zhuǎn)化是兩個(gè)不同的事件,具有不同的性質(zhì)和影響因素。通過利用某商業(yè)搜索引擎所記錄的兩個(gè)星期內(nèi)的廣告展示、點(diǎn)擊與轉(zhuǎn)化數(shù)據(jù),我們計(jì)算了廣告點(diǎn)擊率與轉(zhuǎn)化率分布,其中點(diǎn)擊率定義為廣告該時(shí)間段內(nèi)點(diǎn)擊次數(shù)與展示次數(shù)之比,轉(zhuǎn)化率定義為廣告一定時(shí)間段內(nèi)轉(zhuǎn)化次數(shù)與點(diǎn)擊次數(shù)之比,并在圖2中進(jìn)行了對(duì)比。從圖中可見雖然大部分廣告都分布于轉(zhuǎn)化率/點(diǎn)擊率較低的區(qū)間,但轉(zhuǎn)化率的分布更為不均勻,曲線更陡。并且,廣告的點(diǎn)擊率與轉(zhuǎn)化率的關(guān)聯(lián)性很弱,具有高點(diǎn)擊率的廣告并不一定具有高轉(zhuǎn)化率,反之亦然。經(jīng)計(jì)算,上述數(shù)據(jù)集的廣告點(diǎn)擊率與轉(zhuǎn)化率的相關(guān)系數(shù)僅為0.023。此外,影響廣告的點(diǎn)擊與轉(zhuǎn)化的因素并不完全相同。例如,如圖3所示,在上述廣告數(shù)據(jù)中可發(fā)現(xiàn)廣告的顯示位置對(duì)廣告的點(diǎn)擊率有大的影響,廣告在展示于搜索結(jié)果上方時(shí)點(diǎn)擊率明顯高于廣告顯示在結(jié)果右側(cè),而對(duì)轉(zhuǎn)化率的影響卻很微小。因此,對(duì)于廣告的轉(zhuǎn)化預(yù)測(cè),有必要對(duì)特征重新分析并建立不同的模型。

      圖3 廣告顯示于搜索結(jié)果上方或右側(cè)對(duì)點(diǎn)擊率與轉(zhuǎn)化率的不同影響

      3 影響轉(zhuǎn)化的特征分析

      為了研究影響轉(zhuǎn)化的因素,我們對(duì)某商業(yè)搜索引擎的廣告日志進(jìn)行采樣,分析各因素與轉(zhuǎn)化率的關(guān)系,從中提取用于預(yù)測(cè)廣告轉(zhuǎn)化的特征。廣告的轉(zhuǎn)化首先受廣告自身影響,例如廣告的內(nèi)容和向用戶展示的廣告文本,尤其是著陸頁的類型和內(nèi)容。其次是觸發(fā)廣告的查詢,包括查詢的意圖、查詢與廣告的相關(guān)程度以及查詢進(jìn)行的時(shí)間等。由于轉(zhuǎn)化實(shí)際是用戶的行為,所以用戶因素也是影響轉(zhuǎn)化的原因,包括用戶的性別、年齡等個(gè)人信息,以及用戶的搜索歷史、廣告點(diǎn)擊歷史、廣告轉(zhuǎn)化歷史數(shù)據(jù)等。在文獻(xiàn)[7-8]等點(diǎn)擊率預(yù)測(cè)等工作中也曾使用了與廣告、查詢或者用戶相關(guān)的特征,但考慮到轉(zhuǎn)化率預(yù)測(cè)問題與點(diǎn)擊率預(yù)測(cè)問題的上述差異,本工作不僅增加了歷史轉(zhuǎn)化率、著陸頁文本、查詢時(shí)間及用戶轉(zhuǎn)化歷史等對(duì)轉(zhuǎn)化影響密切的新特征,并對(duì)特征重新分析,建立不同的模型,即利用因子圖進(jìn)行預(yù)測(cè)。以下首先對(duì)這三組特征逐一分析。

      3.1 廣告特征

      不同內(nèi)容的廣告的轉(zhuǎn)化概率有明顯不同,例如軟件下載廣告的轉(zhuǎn)化概率可能比銷售電器的廣告的轉(zhuǎn)化概率高很多。從搜索引擎的角度看,一個(gè)廣告包括三部分: 向用戶顯示的內(nèi)容、用戶點(diǎn)擊后顯示的著陸頁、廣告數(shù)據(jù)庫中的元信息。廣告顯示的內(nèi)容包括廣告的標(biāo)題、正文和顯示URL。廣告數(shù)據(jù)庫中元信息包括廣告競(jìng)價(jià)關(guān)鍵字、廣告商對(duì)廣告的出價(jià)、廣告所屬的廣告活動(dòng)(Campaign)、廣告商ID等。從各部分中可提取下列與廣告轉(zhuǎn)化率相關(guān)聯(lián)的特征。

      (2)

      廣告標(biāo)題與文本: 廣告的標(biāo)題與文本同樣表示了廣告的內(nèi)容,我們從廣告的標(biāo)題和文本中提取有用詞項(xiàng),同樣地使用上述方法計(jì)算相關(guān)系數(shù)并選擇前100個(gè)詞項(xiàng)作為二元特征。

      著陸頁文本: 由于著陸頁對(duì)轉(zhuǎn)化有較大影響,因此我們抓取了每個(gè)廣告的著陸頁并提取其中的文本,同樣地用上述方法選擇前100個(gè)詞項(xiàng)作為特征。不同的是,由于在上面廣告標(biāo)題與文本為短文本,我們僅將詞項(xiàng)出現(xiàn)與否作為二元特征,而在此著陸頁文本為較長(zhǎng)的文本,因此使用詞項(xiàng)的TF-IDF值作為連續(xù)值特征。

      廣告歷史轉(zhuǎn)化率: 大部分廣告的轉(zhuǎn)化率在時(shí)間上都比較平穩(wěn),這意味著可以使用廣告的歷史轉(zhuǎn)化率預(yù)測(cè)當(dāng)前廣告的轉(zhuǎn)化。我們將廣告在過去一星期的轉(zhuǎn)化率的平均值作為廣告的歷史轉(zhuǎn)化率特征。

      廣告出價(jià): 圖4表示了廣告出價(jià)與轉(zhuǎn)化率的關(guān)系,其中橫軸表示廣告出價(jià),正規(guī)化到(0, 1)區(qū)間,縱軸為轉(zhuǎn)化率。圖中轉(zhuǎn)化率與報(bào)價(jià)顯示出相關(guān)性。在(0,0.8)區(qū)間內(nèi),隨著廣告出價(jià)的提高,廣告的轉(zhuǎn)化率有上升的趨勢(shì)。這是因?yàn)檗D(zhuǎn)化率高的廣告可以給廣告商帶來更多的收益,因此廣告商傾向于提高其報(bào)價(jià)。而在0.8以上的出價(jià)可認(rèn)為是廣告商的競(jìng)爭(zhēng)性出價(jià)而非合理出價(jià),所以該區(qū)間的轉(zhuǎn)化率反而有所下降。由此,我們將正規(guī)化后的廣告出價(jià)作為轉(zhuǎn)化預(yù)測(cè)的一個(gè)特征。

      圖4 廣告出價(jià)與轉(zhuǎn)化率的關(guān)系

      3.2 查詢特征

      如上所述,搜索廣告與網(wǎng)頁廣告的最大區(qū)別是搜索廣告由用戶的查詢所觸發(fā),而查詢揭示了用戶當(dāng)前的意圖,與轉(zhuǎn)化緊密關(guān)聯(lián),例如具有購買意圖的用戶往往有更高的轉(zhuǎn)化率。查詢中所包含的影響轉(zhuǎn)化率的特征包括查詢本身的特征以及查詢與廣告的相關(guān)特征,如下所示。

      查詢類別: 我們按照ODP目錄將查詢分類為12個(gè)類別,作為查詢的類別特征。圖5展示了每種類別所對(duì)應(yīng)的廣告平均轉(zhuǎn)化率??梢姼黝悇e的平均轉(zhuǎn)化率有較大的差別,其中Business(商業(yè))、Recreation(娛樂)、Shopping(購物)等具有商業(yè)意圖的類別的轉(zhuǎn)化率明顯高于Science(科技)等類別。

      圖5 不同查詢類別的轉(zhuǎn)化率

      查詢的歷史轉(zhuǎn)化率: 與廣告類似,查詢的歷史信息同樣可作為預(yù)測(cè)轉(zhuǎn)化的特征。除了查詢串本身的歷史轉(zhuǎn)化率之外,我們還對(duì)每個(gè)查詢中各詞項(xiàng)分別統(tǒng)計(jì)包含該詞項(xiàng)的查詢的歷史轉(zhuǎn)化率,將上述各詞項(xiàng)歷史轉(zhuǎn)化率的平均值和最大值作為特征。使用的歷史數(shù)據(jù)的時(shí)間窗口長(zhǎng)度為一個(gè)星期。

      查詢時(shí)間: 圖6表示一天中的查詢時(shí)間與轉(zhuǎn)化率的關(guān)系,在不同時(shí)間的查詢轉(zhuǎn)化率有明顯差別,10點(diǎn)左右的查詢轉(zhuǎn)化率最低,而晚上的轉(zhuǎn)化率則較高,這可以理解為人們?cè)诠ぷ鲿r(shí)間和休息時(shí)間對(duì)待購物的區(qū)別。因此我們將查詢?cè)谝惶熘械臅r(shí)間作為特征。

      圖6 查詢時(shí)間與轉(zhuǎn)化率的關(guān)系

      查詢與關(guān)鍵字的匹配類型: 搜索引擎在利用廣告的競(jìng)價(jià)關(guān)鍵字與查詢匹配時(shí),有多種匹配方式,包括查詢與關(guān)鍵字完全一致的精確匹配、關(guān)鍵字為查詢的一個(gè)子串的部分匹配、關(guān)鍵字為查詢的一個(gè)子集的寬泛匹配等。不同的匹配方式所返回的廣告與查詢的相關(guān)程度不同,導(dǎo)致轉(zhuǎn)化率有所不同,因此我們將匹配類型作為一個(gè)特征。

      查詢與廣告文本的相似度: 除了使用競(jìng)價(jià)關(guān)鍵字的匹配類型外,我們還考慮使用廣告的文本信息作為廣告與查詢的相關(guān)度的衡量。在此使用向量空間模型計(jì)算廣告文本與查詢的相似度作為特征,見式(3)。

      (3)

      其中wiq、wia分別是查詢Q和廣告A的文本的各詞項(xiàng)的TF-IDF值。

      3.3 用戶特征

      用戶特征包括兩類,一類為用戶年齡、性別、位置等用戶的個(gè)人信息,另一類為用戶的歷史記錄如用戶的搜索歷史和廣告點(diǎn)擊歷史。

      愛德華·薩義德在《東方學(xué)》一書中,提出東方主義是與西方殖民主義和帝國主義緊密聯(lián)系在一起的西方關(guān)于東方的話語形式,通過使東方成為西方屬下的“他者”,使東方主義臣服于西方對(duì)東方的霸權(quán)統(tǒng)治。在東方主義話語中,東方國家被標(biāo)以五花八門的消極特征:無聲、淫逸、陰弱、專制、落后、非理性。相反,西方則總是被賦予積極的特征:陽剛、民主、理性、道德、強(qiáng)悍、進(jìn)步。在薩義德的后殖民理論中,西方人往往被稱為具有主體性的“自我”,殖民地人民則被稱為“他者”(薩義德 2007:1-36)。薩義德認(rèn)為,在西方文學(xué)家或者學(xué)者眼里的“東方并非現(xiàn)實(shí)存在的東方,而是被東方化了的東方”(同上:136),是被西方控制的對(duì)象。

      用戶性別、年齡: 我們將用戶以10歲為間隔劃分為八個(gè)年齡段,圖7中表示了不同年齡段用戶的轉(zhuǎn)化率。 從圖中可見,除了0-10歲區(qū)間,年齡較大的用戶具有較高的轉(zhuǎn)化率,這可能是因?yàn)樵摬糠钟脩艚?jīng)濟(jì)條件較好而具有較高的購買力。而對(duì)于0-10歲區(qū)間用戶,考慮到其使用搜索引擎、點(diǎn)擊廣告并發(fā)生消費(fèi)的可能性,我們認(rèn)為該年齡段的異常是由于用戶注冊(cè)搜索引擎帳戶時(shí)未正確填寫真實(shí)年齡所致,故不考慮該年齡段,將其余年齡段作為用戶的年齡特征。此外用戶的性別也作為特征之一。

      圖7 年齡與轉(zhuǎn)化率的關(guān)系

      用戶地理位置: 由于使用的廣告數(shù)據(jù)為英文廣告,受眾主要分布在英語國家,因此將用戶的地理位置劃分為美國、加拿大、英國、其他地區(qū)等四個(gè)范圍,將其作為地理位置特征。

      用戶搜索歷史: 用戶的搜索提示了該用戶的興趣與關(guān)注點(diǎn),把用戶最近一個(gè)星期內(nèi)的查詢的集合視為表示用戶興趣的一個(gè)文檔,來計(jì)算其和廣告文本在向量空間模型中的相似度,計(jì)算公式仍為與3.2節(jié)中文本相似度計(jì)算公式(3)類似,其中wiq換成查詢集合文檔中詞項(xiàng)的權(quán)值。

      用戶廣告轉(zhuǎn)化歷史: 為了表示用戶是否有在網(wǎng)上購物的習(xí)慣,我們對(duì)每個(gè)用戶統(tǒng)計(jì)了最近60天內(nèi)的轉(zhuǎn)化次數(shù)作為用戶轉(zhuǎn)化特征。

      4 轉(zhuǎn)化預(yù)測(cè)模型

      基于上述特征,我們提出用于預(yù)測(cè)廣告轉(zhuǎn)化的概率模型,下面首先利用因子圖(FactorGraph)對(duì)模型的各層次進(jìn)行描述,然后給出模型的學(xué)習(xí)和推斷的方法。因子圖[9]是概率圖模型的一種,它通過二分圖的形式表示函數(shù)與變量的依賴關(guān)系,二分圖中的一類頂點(diǎn)表示函數(shù),另一類頂點(diǎn)表示變量,下面用實(shí)心框和空心圓區(qū)分這兩類頂點(diǎn)。頂點(diǎn)之間的連線表示依賴關(guān)系。借助因子圖我們可以將概率函數(shù)分解為各因子,用子圖清晰地表示各因子的關(guān)系,并能夠在其上利用消息傳播算法有效地進(jìn)行概率推斷。

      4.1 轉(zhuǎn)化預(yù)測(cè)模型描述

      ? 廣告得分:sa

      ? 用戶得分:su

      ? 總得分:s

      其中,總得分由各因素得分決定:

      (4)

      上式中N(·)表示正態(tài)分布概率。通過f函數(shù)建立總得分s與子項(xiàng)得分sa,sq,su的聯(lián)系,即總得分s具有以w1·sa+w2·sq+w3·sa為中心,以β為標(biāo)準(zhǔn)差的正態(tài)分布。隱變量w1~3分別為各子項(xiàng)得分的權(quán)值,具有正態(tài)分布的先驗(yàn)。因此,包含上述兩個(gè)函數(shù)的因子圖如圖8所示,它表示了總得分與子項(xiàng)得分的關(guān)系。

      圖8 總得分與各子項(xiàng)得分的概率關(guān)系的因子圖

      而子項(xiàng)得分將分別由廣告特征、查詢特征、用戶特征決定,即sa,sq,su由xa,xq,xu以及權(quán)值wa,wq,wu決定:

      (5)

      其中作為隱變量的wa,wq,wu也具有正態(tài)分布的先驗(yàn)。上述函數(shù)的因子圖可分別用圖9中各圖表示。

      圖9 各子項(xiàng)得分與特征的概率關(guān)系的因子圖

      最后,我們使用logistic函數(shù)建立總得分s與轉(zhuǎn)化事件的概率關(guān)系,即給定s下的轉(zhuǎn)化概率為式(6)。

      (6)

      (7)

      圖10 包含隱變量的聯(lián)合概率的因子圖

      4.2 模型訓(xùn)練與預(yù)測(cè)

      5 實(shí)驗(yàn)與分析

      5.1 實(shí)驗(yàn)數(shù)據(jù)與評(píng)價(jià)標(biāo)準(zhǔn)

      實(shí)驗(yàn)使用的數(shù)據(jù)來自于某商業(yè)搜索引擎,該搜索引擎的廣告服務(wù)器可獲取的日志信息中每天記錄了數(shù)千萬條點(diǎn)擊信息,并且記錄了與點(diǎn)擊相關(guān)的查詢信息與用戶信息,我們將從中采樣作為實(shí)驗(yàn)數(shù)據(jù),并進(jìn)一步從中提取特征。我們從搜索引擎2011年12月的前兩周的廣告日志中隨機(jī)采樣了200 000條廣告點(diǎn)擊記錄作為實(shí)驗(yàn)數(shù)據(jù),每周各100 000條記錄,從中抽取轉(zhuǎn)化結(jié)果與特征。使用了轉(zhuǎn)化歷史信息的特征則從相應(yīng)時(shí)間段的廣告日志中統(tǒng)計(jì),例如12月5日的記錄所對(duì)應(yīng)廣告的歷史轉(zhuǎn)化率的值將從11月28日至12月4日一個(gè)星期全部的廣告日志中統(tǒng)計(jì)。對(duì)于特征提取完成的數(shù)據(jù),我們把第一周的數(shù)據(jù)用作訓(xùn)練數(shù)據(jù),第二周的數(shù)據(jù)作為測(cè)試數(shù)據(jù)。

      (8)

      (9)

      (10)

      而AUC值為ROC曲線(ReceiverOperatingCharacteristiccurve)下的面積,ROC曲線是表示測(cè)試中假陽率與真陽率關(guān)系的曲線,廣泛用于衡量分類器的性能。一般認(rèn)為若AUC值在0.8以上則可視為較好的結(jié)果。

      5.2 實(shí)驗(yàn)結(jié)果

      根據(jù)上述評(píng)價(jià)指標(biāo),我們將本文提出的概率預(yù)測(cè)模型與樸素貝葉斯(Na?veBayesian)方法進(jìn)行對(duì)比。本概率預(yù)測(cè)模型采用Infer.Net實(shí)現(xiàn)[11],樸素貝葉斯方法則使用weka工具包*http://www.cs.waikato.ac.nz/ml/weka/實(shí)現(xiàn)。

      表1 模型性能對(duì)比

      表1列出了概率預(yù)測(cè)模型與樸素貝葉斯方法下的相對(duì)信息增益和AUC值,圖11為兩者的準(zhǔn)確率-召回率曲線。概率預(yù)測(cè)模型其準(zhǔn)確率-召回率曲線在樸素貝葉斯的曲線之上,相對(duì)信息增益與樸素貝葉斯方法相比有23.3%的提升。概率預(yù)測(cè)模型的AUC值為0.852,可認(rèn)為它能夠?qū)D(zhuǎn)化事件進(jìn)行較好的預(yù)測(cè)。

      圖11 準(zhǔn)確率-召回率曲線

      5.3 各因子對(duì)轉(zhuǎn)化預(yù)測(cè)的影響

      為了分別考察廣告、查詢、用戶在轉(zhuǎn)化中的重要性,我們分別從模型中移除這三個(gè)因子,即從圖10的模型中依次移除圖9中代表廣告因子、查詢因子、用戶因子的三個(gè)部分,將移除后的模型與原模型進(jìn)行對(duì)比。圖12表示了原模型與分別移除部分因子后的相對(duì)信息增益。從圖中可見, 移除任何一個(gè)因子后相對(duì)信息增益都有顯著降低,但各因子的影響并非完全相同。其中,移除查詢因子后性能下降最大,說明相對(duì)其他兩類因子,查詢?cè)谵D(zhuǎn)化預(yù)測(cè)中起到更重要的作用,證明了代表用戶當(dāng)前意圖的查詢?cè)谵D(zhuǎn)化中的重要作用,這正是搜索廣告相對(duì)于上下文廣告的不同之處。相對(duì)地,移除用戶因子后性能下降相對(duì)較小,說明用戶的長(zhǎng)期興趣對(duì)轉(zhuǎn)化的作用不如當(dāng)前意圖的對(duì)轉(zhuǎn)化的作用大。

      圖12 模型移除不同因子后對(duì)性能的影響

      6 總結(jié)

      在本文中,我們通過分析搜索廣告中影響廣告轉(zhuǎn)化的各因素,包括廣告因素、查詢因素和用戶因素,從中提取特征,并建立概率預(yù)測(cè)模型用三個(gè)因子描述上述因素,用以預(yù)測(cè)廣告的轉(zhuǎn)化概率。通過實(shí)驗(yàn)證明了該模型具有較好的性能,有效地解決了基于轉(zhuǎn)化的搜索廣告的廣告排序問題。

      [1] Mitchell D. Click fraud and halli-bloggers[J]. New York Times, 2005, July.

      [2] Rosales R, Cheng H, Manavoglu E. Post-click conversion modeling and analysis for non-guaranteed delivery display advertising[C]//Proceedings of the fifth ACM international conference on Web search and data mining. 2012:293-302.

      [3] Kota N, Agarwal D. Temporal multi-hierarchy smoothing for estimating rates of rare events[C]//Proceedings of the 17th ACM SIGKDD international conference on knowledge discovery and data mining. 2011:1361-1369.

      [4] Rutz O, Bucklin R. A model of individual keyword performance in paid search advertising[OL]. 2007. http://dx.doi.org/10.2139/ssrn.

      [5] Becker H, Broder A, Gabrilovich E, et al. What happens after an ad click?: quantifying the impact of landing pages in web advertising[C]//Proceeding of the 18th ACM conference on information and knowledge management. 2009:57-66.

      [6] Ghose A, Yang S. An empirical analysis of sponsored search performance in search engine advertising[C]//Proceedings of the international conference on Web search and web data mining. 2008:241-250.

      [7] Graepel T, Candela J, Borchert T, et al. Web-scale Bayesian click-through rate prediction for sponsored search advertising in Microsoft’s Bing search engine[C]//Proceedings of the Twenty-Seventh International Conference on Machine Learning (ICML-10). 2010:13-20.

      [8] Hillard D, Manavoglu E, Raghavan H, et al. The sum of its parts: reducing sparsity in click estimation with query segments[J]. Information Retrieval, 2011:1-22.

      [9] Kschischang F, Frey B, Loeliger H. Factor graphs and the sum-product algorithm[J]. Information Theory, IEEE Transactions on, 2001, 47(2):498-519.

      [10] Minka T. Expectation Propagation for approximate Bayesian inference[C]//Proceedings of the Seventeenth Conference Annual Conference on Uncertainty in Artificial Intelligence (UAI-01). San Francisco, CA: Morgan Kaufmann, 2001:362-369.

      [11] T Minka J G, J Winn, Knowles D. Infer.NET 2.4[OL]. Microsoft Research Cambridge, 2010, http://research.microsoft.com/infernet.

      A Factor Graph Based Conversion Prediction Model for Sponsored Search

      GU Zhiyu1, QIN Tao2, WANG Bing1

      (1.Institue of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China; 2. Microsoft Research Asia, Beijing 100080, China)

      The CPA (Cost-per-Action) Advertising is attracting more and more attention in both industry and research. Sponsored search based on CPA requires predicting conversion probability for each candidate ad during ad ranking, in order to raise conversion rate and optimize ad revenue for search engine. After extracting and analyzing features which may influence conversion of ads, we propose a probabilistic factor graph based model for ad conversion prediction which describes the relation between the conversion event and three factors, i.e. ad, query, and user. The model is evaluated and compared with Naive Bayesian method on real-world data gathered from a commercial search engine. The experiment demonstrates a good result in the ad conversion prediction, as well as different influences of the three factors.

      sponsored search;probabilistic prediction model;CPA advertising

      顧智宇(1981-),博士研究生,主要研究領(lǐng)域?yàn)樾畔z索、計(jì)算廣告學(xué)。E?mail:guzhiyu@ict.a(chǎn)c.cn秦濤(1981-),博士,研究員,主要研究領(lǐng)域?yàn)榛ヂ?lián)網(wǎng)經(jīng)濟(jì)、博弈論、機(jī)器學(xué)習(xí)、信息檢索和計(jì)算廣告學(xué)。E?mail:taoqin@microsoft.com王斌(1972-),博士,研究員,主要研究領(lǐng)域?yàn)樾畔z索與自然語言處理。E?mail:wangbin@iie.a(chǎn)c.cn

      1003-0077(2015)03-0140-10

      2012-04-18 定稿日期: 2012-07-16

      TP391

      A

      猜你喜歡
      搜索引擎轉(zhuǎn)化率概率
      我國全產(chǎn)業(yè)領(lǐng)域平均國際標(biāo)準(zhǔn)轉(zhuǎn)化率已達(dá)75%
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      第6講 “統(tǒng)計(jì)與概率”復(fù)習(xí)精講
      概率與統(tǒng)計(jì)(一)
      概率與統(tǒng)計(jì)(二)
      曲料配比與米渣生醬油蛋白質(zhì)轉(zhuǎn)化率的相關(guān)性
      網(wǎng)絡(luò)搜索引擎亟待規(guī)范
      透視化學(xué)平衡中的轉(zhuǎn)化率
      基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
      廣告主與搜索引擎的雙向博弈分析
      高雄县| 利川市| 堆龙德庆县| 宝清县| 正蓝旗| 六枝特区| 深水埗区| 盐池县| 翼城县| 嘉善县| 广德县| 靖远县| 泾川县| 麦盖提县| 汉中市| 新平| 乌鲁木齐县| 东乡县| 封丘县| 荆州市| 思南县| 余姚市| 许昌县| 叶城县| 建平县| 防城港市| 赣州市| 普安县| 万宁市| 桃园县| 肇庆市| 华池县| 富民县| 喀喇| 大洼县| 保靖县| 葫芦岛市| 隆回县| 天峻县| 云林县| 南郑县|