• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      小紅書對于人們?nèi)粘g覽行為的影響分析

      2022-02-13 17:38:39◎黃
      傳播力研究 2022年32期
      關(guān)鍵詞:紅書類別聚類

      ◎黃 丹

      (廣州航海學(xué)院,廣東 廣州 510725)

      一、引言

      借助于互聯(lián)網(wǎng),人們的社交圈越來越大。本文以小紅書為例,闡述互聯(lián)網(wǎng)媒體給用戶帶來的與傳統(tǒng)社交媒體平臺的不同體驗。另外,小紅書雖然給用戶提供了豐富的內(nèi)容資源,但是每個用戶都有著自己的喜好。當(dāng)用戶進(jìn)行搜索查找內(nèi)容時,往往會出現(xiàn)許多無關(guān)的信息甚至是干擾的信息。這不僅僅給用戶造成時間上的浪費(fèi),而且也讓用戶耗費(fèi)了更多的精力篩選出符合自己的信息。這些將給用戶帶來不愉快的體驗,同時也讓用戶抱怨該軟件的效率。長此以往,勢必導(dǎo)致軟件平臺用戶的流失甚至是被邊緣化。

      如何根據(jù)用戶使用中的行為模式,對用戶進(jìn)行精準(zhǔn)的肖像刻畫,從而把每個用戶定位出一個合適的標(biāo)簽,根據(jù)這個標(biāo)簽對用戶進(jìn)行相關(guān)的內(nèi)容和信息推薦,這將是現(xiàn)階段以及未來一段時間內(nèi)的主流研究方向之一,也是未來互聯(lián)網(wǎng)傳媒以及數(shù)據(jù)分析和挖掘的一個熱門方向。同時,精準(zhǔn)的肖像刻畫,也能讓互聯(lián)網(wǎng)傳媒進(jìn)行精準(zhǔn)的廣告投放,從而取得更加有效的收益,也可以避免傳統(tǒng)廣告粗獷式投放的資源浪費(fèi)。當(dāng)用戶用互聯(lián)網(wǎng)進(jìn)行瀏覽搜索時,會留下許多搜索痕跡和數(shù)據(jù)。這些數(shù)據(jù)常見的有圖片、文字,甚至是語音?;ヂ?lián)網(wǎng)會記錄用戶的搜索痕跡,以便于下次用戶登陸平臺時,為其推薦更多相關(guān)的內(nèi)容。

      二、機(jī)器學(xué)習(xí)算法介紹

      近年來,由于計算機(jī)技術(shù)的高速發(fā)展,人們能更快地處理信息,這使得人們能夠?qū)π〖t書等社交媒體進(jìn)行有別于傳統(tǒng)的手機(jī)日志分析,從而更近一步對圖片、語音等大數(shù)據(jù)進(jìn)行分析。這也是近年來傳媒分析的主流趨勢之一。

      本文以機(jī)器學(xué)習(xí)的一些算法為依據(jù),利用機(jī)器學(xué)習(xí)對小紅書進(jìn)行一些分析、解釋和預(yù)測。一般應(yīng)用較為廣泛的機(jī)器學(xué)習(xí)算法有分類算法、貝葉斯分析、聚類算法、主成分分析、決策樹等。當(dāng)用戶瀏覽搜索時,互聯(lián)網(wǎng)會相應(yīng)地記錄下用戶的信息。比如用戶甲,我們可以通過觀察其每個月瀏覽小紅書的次數(shù),記錄下該用戶這個月內(nèi)的瀏覽的各種行為,以此來對該用戶進(jìn)行分析和推薦。下面我們通過一些例子進(jìn)行說明。例如,用戶甲一個月內(nèi)瀏覽了3 000次小紅書,則平臺會記住該用戶的瀏覽習(xí)慣。我們不妨假設(shè)這個用戶在3 000次瀏覽記錄中,有1 000次涉及到了美食、800次涉及時尚博主明星藝人、600次涉及搞笑視頻圖片、400次涉及服飾穿搭、200次涉及玩樂及其他。

      三、主成分分析

      主成分分析法是一種挑重點(diǎn)分析的方法,也是一種基于數(shù)學(xué)變換的方法,它通過對原變量進(jìn)行一系列數(shù)學(xué)變換,然后得到新的變量。新變量的主成分將是原變量的線性組合(因為線性組合是比較容易計算的,計算機(jī)能快速處理,這也是線性變換的優(yōu)勢),而后通過在新變量中選擇那些在變差信息量中占比較大的主成分,以此進(jìn)行分析建模,從而達(dá)到數(shù)據(jù)分析和挖掘的目的。主成分在變差信息量中的比例越大,它對數(shù)據(jù)分析和評估的用處就越大。

      假設(shè)我們拿到了一份數(shù)據(jù)集,有m個樣本,每個樣本由n個特征(變量)來描述,那么我們可以按照以下的步驟進(jìn)行降維。

      1.將數(shù)據(jù)集中的每個樣本作為列向量,按列排列構(gòu)成一個n行m列的矩陣。

      2.將矩陣的每一個行向量(每個變量)都減去該行向量的均值,從而使得新行向量的均值為0,得到新的數(shù)據(jù)集矩陣X。

      3.求X的協(xié)方差矩陣,并求出協(xié)方差矩陣的特征值λ和單位特征向量e。

      4.按照由大至小的特征值順序,將單位特征向量排列成矩陣,得到轉(zhuǎn)換矩陣P,并按PX得出主成分矩陣。

      5.用特征值得到方差貢獻(xiàn)率和方差累計貢獻(xiàn)率,利用方差累計貢獻(xiàn)率超過85%的前k個主成分,或者想降至特定的k維,直接取前k個主成分。

      我們依然用上例來做解釋,在上例中用戶1 000次美食記錄的數(shù)據(jù)肯定是有很多種類,不會是單一的美食。其他幾種瀏覽記錄的數(shù)據(jù)構(gòu)成也是有很多細(xì)小的分類。那我們該如何確定該用戶對哪些美食有特殊的鐘愛,或者對哪些時尚博主有特殊鐘愛,這里就需要采用主成分分析算法進(jìn)行分析。

      根據(jù)主成分分析的原理,我們把用戶每種瀏覽數(shù)據(jù)做成一個矩陣。矩陣的第一列是美食數(shù)據(jù),第二列是時尚博主明星,等等。然后根據(jù)算法中的2、3、4、5進(jìn)行相應(yīng)的計算分析得出每一種喜好偏愛的那些類別。比如,用戶鐘愛粵菜、江浙菜或者西點(diǎn)等。如此小紅書將對用戶進(jìn)行相關(guān)的推薦,給用戶推出更多的相關(guān)內(nèi)容,減少用戶自己搜索的麻煩。與貝葉斯分析相比,主成分分析在算法上是更細(xì)致的。我們可以看到,貝葉斯算法是告訴我們用戶行為喜好的類別,然后根據(jù)最大概率出現(xiàn)進(jìn)行推薦。但是用戶喜愛的食物內(nèi)部的喜愛度如何,貝葉斯并未進(jìn)行分析。當(dāng)然我們可以在將喜愛的食物進(jìn)行再一次貝葉斯分析,這就可以得到喜愛事物內(nèi)部的喜愛度。然而主成分分析卻可以直接告訴你用戶喜愛哪些事情和喜愛度。利用這個算法進(jìn)行用戶行為刻畫和偏好推薦,有著非常大的優(yōu)勢。

      四、分類算法和聚類算法分析

      接下來我們分析另外兩種算法,即分類算法和聚類算法。我們將這兩種算法放在一起講,是為了更好地讓讀者加以理解區(qū)別。

      分類算法的目標(biāo)是通過對數(shù)據(jù)進(jìn)行分析,把未知的數(shù)據(jù)對應(yīng)數(shù)據(jù)庫中已有數(shù)據(jù)的類別。從這里可以看出,分類算法的一個前提是,我們必須要知道目標(biāo)數(shù)據(jù)庫中的數(shù)據(jù)類別,然后將不同的數(shù)據(jù)精準(zhǔn)地分類到已有類別之中,我們稱分類算法有監(jiān)督的學(xué)習(xí)過程。

      由于分類算法要求事先知道數(shù)據(jù)庫中信息的全部類別,并且所有待分類的信息最后都將要被分類為已有對應(yīng)的類別,因此分類算法也有其局限性,當(dāng)上述條件無法滿足時,我們就需要嘗試聚類分析。

      (一)當(dāng)用戶瀏覽小紅書后,他們會留下各種數(shù)據(jù)信息,在收集這些信息然后如何進(jìn)行處理,這是一個非常重要的問題

      比如,某個用戶瀏覽記錄只有10 000條數(shù)據(jù),我們知道這些數(shù)據(jù)來自于幾個大的類別。比如屬于小紅書中常見的幾個類別之中,但是具體位于哪些類別,這是需要我們盡心分析的。這個時候我們可以用分類算法,去判斷某個樣本數(shù)據(jù)的類別歸屬。簡單來說,如果我們能確定已經(jīng)有1 000條數(shù)據(jù)屬于美食,則對下一個數(shù)據(jù),我們通過判斷它與這1 000條數(shù)據(jù)的相似度確來認(rèn)定它是否屬于這一類別。如果該數(shù)據(jù)與這1 000條數(shù)據(jù)的距離度不超過某一個事先確定的值,我們就可以判斷出該數(shù)據(jù)屬于這一類別。否則該數(shù)據(jù)就要與其他組別的數(shù)據(jù)進(jìn)行再次計算,進(jìn)行相應(yīng)的判斷即可,直到每個數(shù)據(jù)都有其所屬的類別。

      分類算法從直觀上看,它更多的是在已經(jīng)知道總體的一些分類,設(shè)置一個相似度后,將每個數(shù)據(jù)進(jìn)行類別劃分,從而得到數(shù)據(jù)的分類。這也為我們對用戶的行為刻畫提供了理論支撐。因為我們只有知道用戶瀏覽數(shù)據(jù)的類別后,才能進(jìn)一步對用戶喜好進(jìn)行分析,比如用貝葉斯算法、主成分分析進(jìn)行喜好推薦。如果沒有分類,我們就無法準(zhǔn)確地刻畫用戶的行為,也就無法達(dá)到精準(zhǔn)的投放和推廣。

      由于分類算法是事先知道總體類別后,對新的數(shù)據(jù)進(jìn)行類別歸屬的分析,所以我們稱分類算法是有監(jiān)督的學(xué)習(xí)算法。如果我們未知總體類別,只有數(shù)據(jù),那該如何確定總體的類別,這就要用到我們說的聚類算法了。

      (二)聚類與分類的區(qū)別

      對于分類和聚類的區(qū)別,我們給出如下三點(diǎn)分析。

      第一,不論是分類還是聚類算法,它們都是通過建立數(shù)學(xué)模型,特別是統(tǒng)計學(xué)模型,從而對數(shù)據(jù)進(jìn)行分析和挖掘?,F(xiàn)有常見的分類算法包括貝葉斯分類算法、決策樹、主成分分析、羅輯回歸、支持向量機(jī)等。而常見的聚類算法有k-均值、k-中心點(diǎn)、bi-kmeas等算法。同時,許多統(tǒng)計學(xué)軟件也在聚類分析中發(fā)揮了巨大作用,例如SPSS、SAS等。這是二者在算法和數(shù)學(xué)模型上的區(qū)別,也是一種統(tǒng)計學(xué)上的區(qū)別。

      第二,雖然二者同屬于機(jī)器學(xué)習(xí)的算法類別,但是根據(jù)前文的內(nèi)容,我們知道分類算法是一種有監(jiān)督的學(xué)習(xí),類似我們已經(jīng)知道總體或者數(shù)據(jù)庫的類別情況,然后想要確定新數(shù)據(jù)屬于總體或者數(shù)據(jù)庫中的哪個類別。而聚類算法它的特點(diǎn)是,我們事先不知道總體或者數(shù)據(jù)庫的類型或者類別,甚至是不是同一種類型的數(shù)據(jù)也不一定知道。而聚類算法的過程是給出數(shù)據(jù)庫中全體數(shù)據(jù)所屬的類型,告訴我們數(shù)據(jù)庫的數(shù)據(jù)是什么類型的。這是一種無監(jiān)督學(xué)習(xí),因為我們事先并不清楚數(shù)據(jù)庫類型,也不知道最終會有什么類型反饋給我們。

      分類算法通過有監(jiān)督的學(xué)習(xí),將每一條未知數(shù)據(jù)歸結(jié)到總體數(shù)據(jù)的對應(yīng)類別之中,它需要事先有數(shù)據(jù)庫進(jìn)行訓(xùn)練分析,確定數(shù)據(jù)庫的類別之后,才可以進(jìn)行未知數(shù)據(jù)的分類,這是一種監(jiān)督訓(xùn)練算法模型。

      聚類算法是一種嘗試性、探索性的分析,在分析開始之前我們并不知數(shù)據(jù)的類型,也并沒有數(shù)據(jù)分類的標(biāo)準(zhǔn)。聚類分析的過程是將總體中的數(shù)據(jù)按照算法的要求,進(jìn)行自動的分類,在聚類分析結(jié)果未出之前,我們是不知道數(shù)據(jù)類型的。正是由于此,采用不同的聚類算法往往可能會得出不同的結(jié)果,不同的數(shù)據(jù)分析人員即使對同一組數(shù)據(jù)使用不同的聚類算法,也不一定會得到相同的結(jié)果,這是聚類算法的一大特點(diǎn),也是其魅力所在,因為未出結(jié)果之前,很難知道是什么類別。

      第三,二者在實際中的應(yīng)用也是不一樣的。分類算法的主要目的更多地集中于對已有數(shù)據(jù)進(jìn)行分類,可以認(rèn)為是重點(diǎn)在于數(shù)據(jù)分析。畢竟我們已經(jīng)知道新數(shù)據(jù)是屬于總體的某一個類別之中,目的是分析它屬于哪個類別,并將得到的結(jié)果作為下一步分析應(yīng)用的依據(jù)和基礎(chǔ)。而聚類算法的目的在于探索未知數(shù)據(jù)類型,更像是在進(jìn)行數(shù)據(jù)挖掘。通過對未知總體的聚類分析,挖掘出總體數(shù)據(jù)類型,從而得到那些對我們有用的信息。這就相當(dāng)于在一群未知的數(shù)據(jù)庫中,篩選挖掘出有價值的信息。正是如此,聚類分析成為數(shù)據(jù)挖掘的主要目的之一。過去和現(xiàn)在數(shù)據(jù)分析是互聯(lián)網(wǎng)傳媒的一大熱點(diǎn),但是現(xiàn)在和未來,數(shù)據(jù)挖掘越來越重要,不僅在理論研究、信息安全,而且在商業(yè)應(yīng)用上也已經(jīng)越來越重要,將成為互聯(lián)網(wǎng)傳媒的重要研究內(nèi)容之一。

      我們通過舉例進(jìn)行解釋聚類算法的應(yīng)用。小到個人大到群體,每年都會在小紅書留下許許多多的痕跡。這些數(shù)據(jù)會被小紅書記錄下來,用作分析和計算。如何確定這些數(shù)據(jù)是什么類型至關(guān)重要。比如,有些數(shù)據(jù)是美食、有些數(shù)據(jù)是旅行、有些數(shù)據(jù)是服飾等。我們把這些數(shù)據(jù)收集在一起,使用聚類算法對其進(jìn)行分析,最后會得到許多的類別,這些類別是小紅書平臺進(jìn)行推廣應(yīng)用的基礎(chǔ)。比如,平臺每年的數(shù)據(jù)分析發(fā)現(xiàn)在結(jié)果組別中,美食占據(jù)了很高的比例,而且在進(jìn)行多次聚類分析時發(fā)現(xiàn)這個比例都是非常高的。如此小紅書就會對美食這一主題進(jìn)行大量的投放和推廣,并且能據(jù)此獲得很大的廣告收益。這也是如今互聯(lián)網(wǎng)媒體收入的一種渠道,通過對用戶的行為刻畫分析,進(jìn)行商業(yè)合作,對事物進(jìn)行定點(diǎn)精準(zhǔn)推廣,從而取得收益,節(jié)約成本并留住以及吸引更多的客戶。

      五、結(jié)語

      本文通過介紹幾種機(jī)器學(xué)習(xí)的算法,解釋了小紅書如何根據(jù)用戶瀏覽的行為和喜好,為他們推薦更多的內(nèi)容,以此節(jié)省用戶搜索尋找的時間。同時,也介紹了如何精準(zhǔn)地推送用戶感興趣的內(nèi)容,而非單一模式的粗獷的信息轟炸。小紅書的精準(zhǔn)推送讓用戶擁有了更多更好的體驗,使得越來越多的用戶加入使用小紅書的隊列中。同時更多用戶的加入,也讓小紅書成為傳媒廣告投放的優(yōu)選平臺。許許多多的廣告商正是看重了小紅書精準(zhǔn)投放運(yùn)營模式,以及大量的用戶群體而紛紛選擇在小紅書平臺上投放廣告。這也是互聯(lián)網(wǎng)時代的一種多贏局面。

      隨著計算機(jī)軟件和硬件的快速發(fā)展,如今的互聯(lián)網(wǎng)時代已經(jīng)遠(yuǎn)遠(yuǎn)超過傳統(tǒng)互聯(lián)網(wǎng)時代。當(dāng)今的計算機(jī)已擁有更強(qiáng)大的計算能力、更智能的工作模式?;诖耍F(xiàn)在的計算機(jī)能處理更多的數(shù)據(jù),并能得到更精準(zhǔn)的結(jié)果。這為現(xiàn)代傳媒提供了強(qiáng)有力的技術(shù)支撐,如今的傳媒工作再也不是滿大街的奔跑采訪,而是可以借助計算機(jī)和互聯(lián)網(wǎng)分析用戶的行為,刻畫用戶的心理,從而達(dá)到所需要的目的。

      本文研究了基于機(jī)器學(xué)習(xí)算法進(jìn)行大數(shù)據(jù)分析,進(jìn)行用戶個性化推送的方法,使用大數(shù)據(jù)分析算法內(nèi)的相似度方法分析用戶偏好、廣告投放推廣之間的互惠相關(guān)性等,以此向平臺用戶推送符合個人偏好的廣告信息。將本文的方法應(yīng)用于平臺內(nèi),實驗結(jié)果表明該方法具備較強(qiáng)的信息抽取能力,且為用戶推送的信息有效性強(qiáng),應(yīng)用后相關(guān)產(chǎn)品廣告收益與宣傳效果明顯增強(qiáng),取得了較好的實際應(yīng)用效果。

      最后,在借助計算機(jī)和互聯(lián)網(wǎng)的強(qiáng)大工具的同時,新傳媒時代也要注重用戶的信息安全和網(wǎng)絡(luò)安全。如何保護(hù)用戶的信息安全,對于傳媒來說是重要的,也是首要的問題。依賴于計算機(jī)技術(shù)的革新,新時代的傳媒面臨著巨大的變革機(jī)遇,誰能精準(zhǔn)地把握用戶行為和心理,進(jìn)行精準(zhǔn)的用戶刻畫從而做出精準(zhǔn)的推送內(nèi)容,誰就能獲得成功。但同時也面臨風(fēng)險,如何維護(hù)用戶的信息安全,這也將是一個不可避免的問題。只有兼顧二者,新時代的傳媒才有可能取得成功,立于不敗之地。

      猜你喜歡
      紅書類別聚類
      手繪萌寵
      “炫卡”招招鮮 愛上讀紅書——讀書活動 教你一招
      少先隊活動(2021年4期)2021-07-23 01:46:28
      小紅書遭投訴:網(wǎng)購商品與實體店不一樣!
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      服務(wù)類別
      新校長(2016年8期)2016-01-10 06:43:59
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
      論類別股東會
      商事法論集(2014年1期)2014-06-27 01:20:42
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      黔江区| 兴安县| 塔城市| 阿图什市| 汾阳市| 三都| 东至县| 繁昌县| 徐闻县| 贺州市| 丁青县| 文安县| 石楼县| 苍梧县| 金堂县| 津市市| 东乡| 宁津县| 杨浦区| 怀仁县| 青龙| 固安县| 兖州市| 逊克县| 台东县| 大丰市| 忻州市| 盱眙县| 高邮市| 板桥市| 黎川县| 古浪县| 缙云县| 麻江县| 和林格尔县| 平湖市| 水城县| 昔阳县| 竹山县| 绿春县| 且末县|