王寧江
·首席論衡·
大數(shù)據(jù)“長(zhǎng)尾”
王寧江
在一次研究工作中,有同事說到,目前輿情分析產(chǎn)品提供的信息量還不夠多,用戶在閱讀時(shí)感覺還不解渴。于是,憑著感性和記憶,現(xiàn)場(chǎng)就做了呼應(yīng):要做大數(shù)據(jù)長(zhǎng)尾,充分應(yīng)用大數(shù)據(jù)技術(shù),拉長(zhǎng)輿情分析產(chǎn)品的信息“尾巴”。
回到案前,又誠(chéng)惶誠(chéng)恐,擔(dān)心一時(shí)的心血來潮,用新名詞誤導(dǎo)同事。即刻又開始上網(wǎng)查找大數(shù)據(jù)“長(zhǎng)尾”的理論依據(jù)。幸好,所查長(zhǎng)尾理論的觀點(diǎn)與我的理解基本一致,一塊石頭落下。覺得這個(gè)題目蠻好,所以,把觀點(diǎn)和大家分享。
還是先翻一下燒餅,對(duì)長(zhǎng)尾理論做個(gè)注釋。長(zhǎng)尾理論是統(tǒng)計(jì)學(xué)中對(duì)冪律特征的一個(gè)口語化表達(dá),正因?yàn)榫W(wǎng)絡(luò)經(jīng)濟(jì)的發(fā)展,該理論廣為傳播。長(zhǎng)尾理論與生活中最接近的事例便是字頻,少數(shù)的漢字使用頻度較高,大量的漢字使用頻度并不大,所以形成了一個(gè)長(zhǎng)長(zhǎng)的“尾巴”。大概意思是,沒有長(zhǎng)尾不行,少數(shù)的漢字表達(dá)不了完整的詞意;同樣,若長(zhǎng)尾足夠長(zhǎng),大量不常用漢字的低頻使用所發(fā)揮的作用,不亞于少數(shù)高頻字。也就是我們平常所述的“螞蟻扳倒大象”、“螞蟻雄兵”之類的現(xiàn)象。
在傳統(tǒng)經(jīng)濟(jì)時(shí)代,企業(yè)的成本分析、資本的逐利傾向、人們的行為選擇,往往會(huì)遵循“二八法則”,或者說是“二八”特征比較顯著。大家在選擇上,基于成本和效率的考慮,不愿意為蠅頭小利而大投入。但在互聯(lián)網(wǎng)時(shí)代,由于科學(xué)技術(shù)的突飛猛進(jìn),這一思維被顛覆和創(chuàng)新。一方面,通過互聯(lián)網(wǎng)提供服務(wù)和產(chǎn)品的成本顯著降低,包括存儲(chǔ)、運(yùn)算、信息收集和渠道等等,投入變得可以接受;另一方面,人類的需求由低向高層次發(fā)展,基于社交、尊重和自我實(shí)現(xiàn)的需求變得趨于個(gè)性化、扁平化、專業(yè)化、小眾化,在客觀上要求有個(gè)“長(zhǎng)尾”供給。于是,網(wǎng)絡(luò)時(shí)代長(zhǎng)尾理論盛起,長(zhǎng)尾事例也比比皆是。
再深的理論留給統(tǒng)計(jì)學(xué)家和其他研究者。本文的觀點(diǎn)是:大數(shù)據(jù)并不排斥“二八法則”,但更適用長(zhǎng)尾理論;大數(shù)據(jù)“長(zhǎng)尾”的長(zhǎng)度由需求決定,而需求的空間可以是無限想象。有人或許還有個(gè)疑問,大數(shù)據(jù)長(zhǎng)尾和“數(shù)據(jù)+”有啥區(qū)別?說實(shí)話,筆者并不認(rèn)可“數(shù)據(jù)+”的觀點(diǎn)。簡(jiǎn)單的理由:數(shù)據(jù)是內(nèi)生的、資源性質(zhì)的,不是外部強(qiáng)加或疊加于他的,不是工具化的手段,所以,定義“數(shù)據(jù)+”是欠妥的。
如何去做大數(shù)據(jù)的“長(zhǎng)尾”?一句話,充分地挖掘需求、迎合需求,讓需求得到無限地滿足?;氐轿念^提到的輿情分析報(bào)告信息量不足的問題,完全可以用大數(shù)據(jù)和大數(shù)據(jù)技術(shù)滿足之??偟乃悸肥沁@樣的,輿情分析產(chǎn)品的主體部分還是尊重“二八法則”,畢竟有個(gè)主次和閱讀習(xí)慣問題,不能喧賓奪主。然后,運(yùn)用大數(shù)據(jù)技術(shù)作出一個(gè)輿情分析產(chǎn)品的“長(zhǎng)尾”。目前想到的,至少可以由這幾方面組成,如輿情事件地的概貌、風(fēng)土人情、經(jīng)濟(jì)社會(huì)信息,與輿情事件相關(guān)的市場(chǎng)主體信息,類似輿情事件的演變參照,此次輿情事件的發(fā)展推演,針對(duì)輿情事件的專家觀點(diǎn)等等。雖然需求可能不大,但萬一需要呢!這就是大數(shù)據(jù)長(zhǎng)尾的益處,哪怕是一丁點(diǎn)的需求,信息技術(shù)的發(fā)展給了我們實(shí)現(xiàn)需求的支撐。更何況還有個(gè)“98法則”,數(shù)字音樂點(diǎn)播統(tǒng)計(jì)表明,聽眾對(duì)98%的非熱門音樂有著無限的需求。套用馬云的“夢(mèng)想體”,改成大數(shù)據(jù)版:“信息還是要給的,萬一有需求呢?”
輿情分析產(chǎn)品是事件級(jí)的大數(shù)據(jù)長(zhǎng)尾案例,企業(yè)信用報(bào)告同樣可以做成主體級(jí)的大數(shù)據(jù)長(zhǎng)尾產(chǎn)品,思路也基本類似。專業(yè)數(shù)據(jù)庫構(gòu)成信用報(bào)告的“實(shí)體”,主要由信用服務(wù)機(jī)構(gòu)通過盡職調(diào)查獲取的專業(yè)數(shù)據(jù)和專家分析組成,這部分?jǐn)?shù)據(jù)屬于信息價(jià)值密度較高的數(shù)據(jù)。然后,進(jìn)行其他數(shù)據(jù)或信息的疊加,包括通過互聯(lián)網(wǎng)采集的電子商務(wù)、新聞媒體、科技文獻(xiàn)、社交等數(shù)據(jù),以及與主體相關(guān)的“董高監(jiān)”個(gè)人的信用行為記錄信息,分門別類地做成“長(zhǎng)尾”。如此通過多個(gè)維度勾勒出一個(gè)市場(chǎng)主體的信用畫像。想必,這樣一份信用報(bào)告的價(jià)值對(duì)于交易伙伴來說,含金量要遠(yuǎn)遠(yuǎn)大于傳統(tǒng)的評(píng)級(jí)報(bào)告、征信報(bào)告。所以,大數(shù)據(jù)這個(gè)“尾”是“虎尾”,在于創(chuàng)新、霹靂有聲。
作者為浙江省經(jīng)濟(jì)信息中心副主任、浙江省信用中心主任