劉卓軍
數(shù)據(jù)是原料,信息是產(chǎn)品,毫無疑問,“信息是力量”。在大數(shù)據(jù)概念受到廣泛“宣傳”和追捧的今天,開始于發(fā)現(xiàn)問題,落腳于解決問題的信息之精準(zhǔn)提取變得越來越重要。要發(fā)揮出信息的力量,就需要有適當(dāng)?shù)墓ぞ?- 這正是阿萊克斯(Alexa)的理念。它多少有些像使原油能呈現(xiàn)給人類社會(huì)巨大價(jià)值的做法一樣,首先需要把原油提煉出各類成品油才能讓其能量有效可控地釋放出來。問題是,如何提煉?
根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心2016年初發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,目前中國的網(wǎng)民規(guī)模已達(dá)到6.88億人,手機(jī)網(wǎng)民規(guī)模則達(dá)到6.20億人,中國的域名總數(shù)為3102萬個(gè),網(wǎng)站總數(shù)為423萬個(gè)。作為各類信息的重要載體,400多萬個(gè)網(wǎng)站顯然為一般網(wǎng)民及手機(jī)網(wǎng)民提供了豐富的數(shù)據(jù)源。
人們可能出于多種目的,希望知道每個(gè)網(wǎng)站的排名情況。很顯然,主要是基于訪問量因素的網(wǎng)站排名是比較客觀和合理的。目前,在網(wǎng)站排名方面做得最好的當(dāng)屬阿萊克斯提供的工具。阿萊克斯是1996年4月成立的一家美國公司,其取名表達(dá)了對(duì)埃及托勒密王朝時(shí)期建造的亞歷山大圖書館的敬意—公司發(fā)起人希望互聯(lián)網(wǎng)的潛在發(fā)展能夠與古代最大的知識(shí)藏庫相媲美,如今這個(gè)期望早就超額兌現(xiàn)了。20年來,阿萊克斯每天都要在網(wǎng)上搜集超過TB級(jí)的數(shù)據(jù),將全球如雨后春筍般建立起來的網(wǎng)站盡可能地鏈接起來,并為鏈接起來的網(wǎng)站進(jìn)行流量排名。1999年,互聯(lián)網(wǎng)巨頭亞馬遜以2.5億美元將阿克萊斯購入其旗下。經(jīng)過持續(xù)的積累和固定的業(yè)務(wù)完善,阿萊克斯已經(jīng)成為當(dāng)前擁有URL數(shù)量最龐大,排名信息發(fā)布最詳盡的網(wǎng)站。為了應(yīng)用阿萊克斯提供的功能和服務(wù),你首先需要登錄其網(wǎng)站:www.alexa.com,然后輸入你希望了解的網(wǎng)站網(wǎng)址,如此這般就可以獲得相應(yīng)網(wǎng)站受到關(guān)注的綜合信息了。比如,北京大學(xué)網(wǎng)站(www.pku.edu.cn)受到關(guān)注的程度是比較高的。在中國排名第944位,在全球的排名是第10473位。該網(wǎng)站的訪問者主要來自中國(85.1%)、美國(7.0%)、印度(1.1%)、香港(1.0%)及我國的臺(tái)灣地區(qū)(0.7%)。類似地,可以知道清華大學(xué)(www.tsinghua.edu.cn)受到關(guān)注的程度。其網(wǎng)站在中國的排名是第548位,在全球的排名是第7285位,這個(gè)排名要比北京大學(xué)多出3000多位。但做進(jìn)一步比較會(huì)發(fā)現(xiàn),清華大學(xué)受到更多關(guān)注的主要原因是來自中國國內(nèi)的互聯(lián)網(wǎng)用戶的大量訪問。然而在美國、香港及印度,相比之下北京大學(xué)都受到了更多的關(guān)注。不難看出,細(xì)致分析有關(guān)網(wǎng)站被訪問的情況,能夠獲得對(duì)事物更多的理性認(rèn)識(shí),自然有助于開展相關(guān)工作,做出相關(guān)決策。
從技術(shù)上講,阿萊克斯需要和主要的瀏覽器公司及其產(chǎn)品進(jìn)行合作,這是采集相關(guān)數(shù)據(jù)的有效方式。事實(shí)上,Alexa Toolbar就是阿萊克斯開發(fā)出來的用于這一目的的基本工具。能夠通過積累而選取到超過百萬的互聯(lián)網(wǎng)用戶作為網(wǎng)站流量分析樣本,他們使用著超過25000多種不同種類的瀏覽器擴(kuò)展套件,這是阿萊克斯具有的行業(yè)優(yōu)勢(shì)、先發(fā)優(yōu)勢(shì)。在這個(gè)基礎(chǔ)上進(jìn)行網(wǎng)站鏈接構(gòu)建,進(jìn)行網(wǎng)頁停留時(shí)間(ToP)、網(wǎng)站停留時(shí)間(ToS)、日訪問量(DPv)、日獨(dú)立訪客量(DUU)、跳出率(BR)等分析,并對(duì)過往3個(gè)月滾動(dòng)梳理起來的相關(guān)數(shù)據(jù)進(jìn)行綜合,這些構(gòu)成了阿萊克斯實(shí)現(xiàn)網(wǎng)站流量分析的基本要素。
然而,阿萊克斯工具并非完美無瑕,對(duì)于任何一個(gè)在全球排名超過10萬位的網(wǎng)站,阿萊克斯給出的流量分析結(jié)果都是不能完全信賴的。這說明發(fā)展和完善網(wǎng)站排序的空間仍然很大,有關(guān)的技術(shù)團(tuán)隊(duì)和企業(yè)仍有巨大的機(jī)會(huì)。
由數(shù)據(jù)到信息到知識(shí)到智能到智慧,這是人類尋求不斷發(fā)展的一條重要途徑。根據(jù)世界著名網(wǎng)絡(luò)公司Netcraft發(fā)布的報(bào)告,目前全球有各類網(wǎng)站超過10億個(gè),互聯(lián)網(wǎng)用戶大約30億人。按照這個(gè)比例,中國的網(wǎng)站建設(shè)還會(huì)有新的發(fā)展。獲得數(shù)據(jù)、提取信息、分析洞察、做出決策、循環(huán)往復(fù)、不斷提升,是信息時(shí)代永恒的主題。這其中若能開發(fā)出中國自己的阿萊克斯工具,必然對(duì)“信息就是力量”形成最好的支撐!