張雨龍,孫曉鵬,王曉東(中國(guó)聯(lián)通網(wǎng)絡(luò)技術(shù)研究院,北京100048)
固網(wǎng)寬帶接入市場(chǎng)一直是電信運(yùn)營(yíng)商角逐的傳統(tǒng)重要陣地。各個(gè)電信運(yùn)營(yíng)商都在持續(xù)加大固網(wǎng)寬帶建設(shè)力度,投入大量資金。但是隨著家庭寬帶用戶數(shù)量接近飽和,“二級(jí)”代理商發(fā)力占領(lǐng)市場(chǎng),家庭寬帶用戶ARPU逐漸降低,電信運(yùn)營(yíng)商把投資重點(diǎn)逐步從家庭客戶轉(zhuǎn)變?yōu)樯唐罂蛻簟?/p>
商企客戶一般分布在寫(xiě)字樓、工業(yè)園區(qū)、專業(yè)/聚類市場(chǎng)等區(qū)域。這類場(chǎng)景的網(wǎng)絡(luò)覆蓋、商業(yè)營(yíng)銷與家庭寬帶明顯不同。特別是寫(xiě)字樓,需要按照樓宇面積、層數(shù)、商戶數(shù)量、商戶屬性、物業(yè)公司、已入駐企業(yè)等多個(gè)維度進(jìn)行分級(jí)分類的建設(shè)和營(yíng)銷。銀行等金融類企業(yè)、大型連鎖公司、創(chuàng)業(yè)型小型公司對(duì)網(wǎng)絡(luò)的需求明顯不同,具有明顯的個(gè)體性和差異性。同時(shí),我國(guó)經(jīng)濟(jì)迅猛發(fā)展,商務(wù)樓宇信息與商戶信息每時(shí)每刻都在發(fā)生變化。
因此,如何準(zhǔn)確實(shí)時(shí)獲取海量的樓宇信息與商戶信息是電信運(yùn)營(yíng)商當(dāng)前要解決的重要難題。
目前主要通過(guò)號(hào)線系統(tǒng)、整理現(xiàn)有信息(臺(tái)賬)和人工摸查3種方法獲取樓宇和商戶信息。
號(hào)線系統(tǒng):對(duì)于固網(wǎng)資源已經(jīng)覆蓋的樓宇,可以通過(guò)號(hào)線系統(tǒng)導(dǎo)出樓宇和商戶信息。一般導(dǎo)出的數(shù)據(jù)比較準(zhǔn)確,但是此方法僅適用于已覆蓋固網(wǎng)資源的區(qū)域,且時(shí)效性較低。
現(xiàn)有信息整理(臺(tái)賬):各運(yùn)營(yíng)商經(jīng)過(guò)多年的規(guī)劃與系統(tǒng)建設(shè),積累了一定數(shù)量的樓宇信息,可以直接輸出。但這種數(shù)據(jù)質(zhì)量一般不高,存在樓宇條目重復(fù)、樓宇信息錯(cuò)誤、格式不統(tǒng)一等問(wèn)題,信息時(shí)效性差。而且處理海量數(shù)據(jù)也耗費(fèi)了大量的人力物力。
人工摸查:這種方法需要相應(yīng)人員逐片區(qū)域、逐個(gè)樓宇、逐層樓進(jìn)行信息摸查,需要消耗大量的人力物力,效率較低。同時(shí)人工錄入信息格式難以統(tǒng)一,后期還需要花費(fèi)大量時(shí)間處理數(shù)據(jù),后續(xù)數(shù)據(jù)更新維護(hù)也不方便。
在“互聯(lián)網(wǎng)+”的大數(shù)據(jù)信息時(shí)代,通過(guò)互聯(lián)網(wǎng)手段可以獲得海量的樓宇信息和商戶信息數(shù)據(jù)。網(wǎng)絡(luò)爬蟲(chóng)作為獲取數(shù)據(jù)的一種新興方法,具有效率高、成本低、數(shù)據(jù)時(shí)效性高等特點(diǎn)。
通過(guò)高德地圖/百度地圖可以查詢到絕大多數(shù)樓宇和商戶信息。同時(shí)由于商業(yè)經(jīng)營(yíng)等原因,商戶會(huì)要求地圖公司及時(shí)更新自己的地圖信息。商戶信息更新速度快、時(shí)效性高。因此,本方案通過(guò)高德地圖/百度地圖提供的接口爬取樓宇和商戶信息,然后整理這些信息,利用數(shù)學(xué)算法,將商戶信息匹配到特定的樓宇中,最后輸出相匹配的樓宇和商戶信息。
本方案中的網(wǎng)絡(luò)爬蟲(chóng)通過(guò)Python語(yǔ)言編寫(xiě),數(shù)據(jù)通過(guò)MongoDB數(shù)據(jù)庫(kù)存儲(chǔ)。整體流程如圖1所示。
圖1 整體流程圖
下面結(jié)合具體案例介紹方案的實(shí)施步驟。本方案的目標(biāo)是獲取“上地大廈”區(qū)域內(nèi)的所有樓宇和商戶信息。
在確定樓宇和商戶的地理位置后,在地圖上選取對(duì)應(yīng)的矩形區(qū)域即可(見(jiàn)圖2),其中選擇的范圍(矩形區(qū)域大小)沒(méi)有限制,按需即可。通過(guò)高德開(kāi)放平臺(tái),可以獲取任一點(diǎn)的經(jīng)緯度。如圖2所示獲取并記錄紅色矩形的左上和右下2個(gè)點(diǎn)的經(jīng)緯坐標(biāo)。這2個(gè)點(diǎn)的經(jīng)緯度坐標(biāo)會(huì)作為后續(xù)爬蟲(chóng)程序的輸入信息。
在大數(shù)據(jù)和人工智能蓬勃發(fā)展的時(shí)期,為了搶占開(kāi)發(fā)市場(chǎng)和話語(yǔ)權(quán),高德、百度等互聯(lián)網(wǎng)企業(yè)都開(kāi)放應(yīng)用程序接口(API),供開(kāi)發(fā)者免費(fèi)使用。
圖2 自主劃定區(qū)域示意圖
為了通過(guò)API獲取數(shù)據(jù),需要向地圖公司申請(qǐng)大數(shù)據(jù)平臺(tái)權(quán)限。首先要注冊(cè)成為開(kāi)發(fā)者,即用戶注冊(cè),然后去控制臺(tái)創(chuàng)建Web服務(wù)應(yīng)用。經(jīng)過(guò)以上步驟,得到API的唯一識(shí)別碼KEY,該識(shí)別碼是用戶獲取數(shù)據(jù)的權(quán)限標(biāo)識(shí),也是后續(xù)爬蟲(chóng)程序的輸入信息。
按照API接口的網(wǎng)址要求,將獲得的2個(gè)經(jīng)緯度坐標(biāo)、唯一識(shí)別碼KEY和其他規(guī)定的信息(如商戶類型等,高德API接口有分類文檔,在官網(wǎng)查詢即可)進(jìn)行拼接,從而得到數(shù)據(jù)信息的網(wǎng)址,通過(guò)該網(wǎng)址,即可得到相應(yīng)的信息數(shù)據(jù)。將上述操作過(guò)程編寫(xiě)為自動(dòng)化的爬蟲(chóng)程序,獲取數(shù)據(jù)并將返回的信息數(shù)據(jù)(即獲取的樓宇和商戶信息)存儲(chǔ)進(jìn)MongoDB數(shù)據(jù)庫(kù)。
上一個(gè)步驟輸出的信息數(shù)據(jù)中,樓宇信息和商戶信息是獨(dú)立的,沒(méi)有形成完備的數(shù)據(jù)集合,所以需要對(duì)輸出的數(shù)據(jù)進(jìn)行整理和歸類。
整理:根據(jù)建設(shè)和營(yíng)銷的需求,選取有效字段(一般包括名稱、類型、地址、經(jīng)緯度、邊框經(jīng)緯度、電話、網(wǎng)址等信息),具體操作如圖3所示。
圖3 API輸出數(shù)據(jù)示意圖
歸類:樓宇和商戶信息均有經(jīng)緯度,其中樓宇信息包含區(qū)域邊框頂點(diǎn)經(jīng)緯度。通過(guò)樓宇的邊框頂點(diǎn)經(jīng)緯度信息和商戶的經(jīng)緯度信息,可以判斷商戶的經(jīng)緯度點(diǎn)是否在樓宇的邊框區(qū)域內(nèi)。如商戶的經(jīng)緯度在樓宇的邊框區(qū)域中,那么就把該商戶匹配到對(duì)應(yīng)樓宇中,以實(shí)現(xiàn)商戶與樓宇的關(guān)聯(lián)。
通過(guò)上述步驟,最終輸出樓宇信息表和商戶信息表。表1是樓宇信息表,主要包含名稱、地址、經(jīng)緯度、包含的商戶數(shù)量、商戶名稱、電話、網(wǎng)站、所屬城市、所屬區(qū)域等信息。其中“商戶名稱”一行應(yīng)包括所有商戶的名稱,本表只是選取其中4個(gè)作為示例。表2是輸出的樓宇信息情況,每一行為1個(gè)樓宇。
表1 樓宇信息示意表
表2 輸出數(shù)據(jù)示意表
經(jīng)過(guò)現(xiàn)場(chǎng)抽樣摸查核實(shí),抽取區(qū)域內(nèi)5%的樓宇作為樣本。經(jīng)測(cè)算,樓宇信息準(zhǔn)確率為100%,商戶信息準(zhǔn)確率為80%左右。商戶信息出現(xiàn)錯(cuò)誤的原因多為地圖公司更新不及時(shí)、中小企業(yè)破產(chǎn)或商戶變更地址后沒(méi)有及時(shí)通知地圖公司。
利用互聯(lián)網(wǎng)化的技術(shù)手段來(lái)獲取高質(zhì)量的用戶信息以拓展用戶市場(chǎng),是運(yùn)營(yíng)商互聯(lián)網(wǎng)化運(yùn)營(yíng)的重要組成部分。本文所提到的方案在實(shí)際應(yīng)用中可能面臨以下的問(wèn)題。
a)缺乏專業(yè)技術(shù)人員。掌握網(wǎng)絡(luò)爬蟲(chóng)技術(shù)需要一定的專業(yè)知識(shí),運(yùn)營(yíng)商的傳統(tǒng)業(yè)務(wù)人員不能滿足技術(shù)要求,需要組建專門(mén)的團(tuán)隊(duì)進(jìn)行該工作。
b)大數(shù)據(jù)處理問(wèn)題。面對(duì)海量數(shù)據(jù),EXCEL臺(tái)賬等傳統(tǒng)工具已不適用。如何從不同維度對(duì)海量數(shù)據(jù)進(jìn)行分析并使其適用于運(yùn)營(yíng)商的業(yè)務(wù)發(fā)展,是下一步工作的關(guān)鍵。
c)數(shù)據(jù)共享與更新機(jī)制問(wèn)題。網(wǎng)絡(luò)爬蟲(chóng)獲取的數(shù)據(jù)與工程核實(shí)確認(rèn)的數(shù)據(jù)如何相互補(bǔ)充共享、如何更新是也是運(yùn)營(yíng)商需要解決的問(wèn)題。
面對(duì)上述問(wèn)題,筆者有以下幾點(diǎn)建議。
a)推進(jìn)大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)的應(yīng)用。在信息資源時(shí)代,電信運(yùn)營(yíng)商應(yīng)充分利用大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù),摸清現(xiàn)狀,精準(zhǔn)建設(shè),精準(zhǔn)發(fā)力,開(kāi)拓市場(chǎng),抓住戰(zhàn)略機(jī)遇,與互聯(lián)網(wǎng)企業(yè)合作利用其技術(shù)優(yōu)勢(shì),實(shí)現(xiàn)資源收益最大化。
b)加快互聯(lián)網(wǎng)化運(yùn)營(yíng)轉(zhuǎn)型。在寬帶專業(yè)運(yùn)用大數(shù)據(jù)和互聯(lián)網(wǎng)方法,為市場(chǎng)前端業(yè)務(wù)開(kāi)展提供支撐。在后續(xù)的網(wǎng)絡(luò)建設(shè)中用數(shù)據(jù)說(shuō)話,轉(zhuǎn)變思路,加快互聯(lián)網(wǎng)化轉(zhuǎn)型。
c)提升工作效率,接軌大數(shù)據(jù)。運(yùn)營(yíng)商應(yīng)該摒棄以往人工費(fèi)時(shí)費(fèi)力的方法,引入網(wǎng)絡(luò)爬蟲(chóng),通過(guò)互聯(lián)網(wǎng)的公開(kāi)信息,按需獲取信息數(shù)據(jù),提升工作效率。