朱 杰
互聯(lián)網(wǎng)行業(yè)競(jìng)爭(zhēng)激烈,能否得到更多用戶(hù)的認(rèn)可是企業(yè)生存的根本,而認(rèn)可的關(guān)鍵就在于服務(wù)是否及時(shí)、優(yōu)質(zhì)、準(zhǔn)確。搜狗是搜狐于2005年推出的全球首個(gè)第三代互動(dòng)式中文搜索引擎,在搜狐的整體發(fā)展戰(zhàn)略中占據(jù)十分重要的地位。搜狗的產(chǎn)品線(xiàn)包括了網(wǎng)頁(yè)應(yīng)用和桌面應(yīng)用兩大部分。如何在強(qiáng)手如林的搜索引擎市場(chǎng)占據(jù)有利地形,是一個(gè)必須回答的重要“命題”。
海量數(shù)據(jù)檢索帶來(lái)的挑戰(zhàn)
搜索引擎的最大難題是正確理解和滿(mǎn)足用戶(hù)的需求,而這一切,都必須基于一個(gè)強(qiáng)大的數(shù)據(jù)中心來(lái)完成。提升數(shù)據(jù)中心的效能,是提升用戶(hù)滿(mǎn)意度的關(guān)鍵要素。基于這種考慮,搜狐特別啟動(dòng)了搜狗新一代數(shù)據(jù)中心項(xiàng)目的建設(shè),希望通過(guò)技術(shù)創(chuàng)新,提升搜狗的服務(wù)品質(zhì),從而贏(yíng)得用戶(hù)的青睞。
“搜狐追求新技術(shù)應(yīng)用是有傳統(tǒng)的,搜狗引擎就是搜狐在搜索技術(shù)領(lǐng)域追求創(chuàng)新的一個(gè)結(jié)果。我們希望能利用各種領(lǐng)先的技術(shù)與設(shè)備,讓我們的產(chǎn)品與服務(wù)為用戶(hù)帶來(lái)更好的感受。尤其對(duì)于搜狗數(shù)據(jù)中心,我們更希望規(guī)避傳統(tǒng)數(shù)據(jù)中心的‘短板,進(jìn)一步提升數(shù)據(jù)中心網(wǎng)絡(luò)的性能、效率與可靠性,讓用戶(hù)訪(fǎng)問(wèn)起來(lái)感覺(jué)更加良好?!彼押W(wǎng)絡(luò)運(yùn)維部某負(fù)責(zé)人解釋了采用新一代數(shù)據(jù)中心解決方案的初衷。
此外,搜狐在數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)上不斷“求新”是形勢(shì)使然,從2007年搜狐正式推出搜狗網(wǎng)頁(yè)搜索3.0版本之后,搜狗搜索引擎的中文網(wǎng)頁(yè)收錄量已超過(guò)100億,每天的網(wǎng)頁(yè)更新量則有5億之多,激增的海量數(shù)據(jù)對(duì)搜狗數(shù)據(jù)中心帶來(lái)了前所未有的壓力。新的搜狗業(yè)務(wù)應(yīng)用要求數(shù)據(jù)中心網(wǎng)絡(luò)平臺(tái)能支撐百億海量網(wǎng)頁(yè)收錄、及時(shí)更新網(wǎng)頁(yè)和網(wǎng)頁(yè)評(píng)級(jí)體系,滿(mǎn)足高密度服務(wù)器集群的高性能并行抓取工作,同時(shí)網(wǎng)絡(luò)系統(tǒng)要具備后期靈活的擴(kuò)展能力。面對(duì)超高的網(wǎng)絡(luò)流量與數(shù)量龐大的服務(wù)器集群,原有的搜狗數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)與設(shè)備性能已無(wú)法滿(mǎn)足這一要求,采用新一代數(shù)據(jù)中心架構(gòu)來(lái)建設(shè)搜狗IDC新機(jī)房成為必然的選擇。
根據(jù)這一需求,2009年初,搜狐公司征集了業(yè)內(nèi)多家廠(chǎng)商的設(shè)備,進(jìn)行了全方位考察和比較。最終, H3C公司集S12508數(shù)據(jù)中心級(jí)核心交換機(jī)、S75E高端多業(yè)務(wù)路由交換機(jī)、S5800萬(wàn)兆交換機(jī)、iMC智能管理中心等軟硬件設(shè)備為一體的統(tǒng)一交換架構(gòu)數(shù)據(jù)中心解決方案獲得了該項(xiàng)目的全部份額,搜狗新一代數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)的大幕也由此拉開(kāi)。
讓大流量不再是問(wèn)題
據(jù)記者了解,在搜狗數(shù)據(jù)中心網(wǎng)絡(luò)體系中,部署了兩臺(tái)H3C S12500交換機(jī)作為整個(gè)網(wǎng)絡(luò)的核心,同時(shí),兩臺(tái)
S75E高端多業(yè)務(wù)路由交換機(jī)承擔(dān)起數(shù)據(jù)傳輸網(wǎng)的重任,而數(shù)十臺(tái)S5800交換機(jī)則作為接入交換機(jī),將2000多臺(tái)服務(wù)器連成了一個(gè)大的網(wǎng)絡(luò)。
據(jù)H3C網(wǎng)絡(luò)產(chǎn)品線(xiàn)副總裁孫德和介紹,S12500的設(shè)計(jì)瞄準(zhǔn)的就是數(shù)據(jù)中心高密度、大流量和大緩存的特點(diǎn),其單臺(tái)設(shè)備容量已達(dá)到5.76T,而且能支持多達(dá)576個(gè)萬(wàn)兆端口,能夠充分滿(mǎn)足搜狗數(shù)據(jù)中心高密度萬(wàn)兆應(yīng)用的需求,這也是傳統(tǒng)的萬(wàn)兆交換機(jī)很難做到的一點(diǎn)。
眾所周知,網(wǎng)頁(yè)搜索最重要的就是搜索速度與結(jié)果準(zhǔn)確性,這也是搜狗引擎持續(xù)不斷優(yōu)化改進(jìn)的目標(biāo),它依托的是系統(tǒng)在瞬間對(duì)海量網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行挖掘、分析、顯示的結(jié)果。在這一過(guò)程中,數(shù)據(jù)中心網(wǎng)絡(luò)承擔(dān)的帶寬壓力非常大。為了保證用戶(hù)能夠得到及時(shí)、準(zhǔn)確的搜索結(jié)果,當(dāng)搜狗引擎接收到一個(gè)網(wǎng)頁(yè)搜索請(qǐng)求時(shí),往往會(huì)向高密度服務(wù)器群同時(shí)發(fā)起檢索需求,并在非常短的時(shí)間內(nèi)接收幾百臺(tái)服務(wù)器幾乎同時(shí)發(fā)回的搜索結(jié)果,巨大的數(shù)據(jù)流量如果不能及時(shí)吸收,那么很容易出現(xiàn)網(wǎng)絡(luò)擁塞的現(xiàn)象。
而S12500的大緩存能力很好地解決了這個(gè)問(wèn)題,不僅每個(gè)端口擁有256M的大緩存能力,更重要的是它支持分布式緩存機(jī)制,當(dāng)搜索數(shù)據(jù)浪涌到來(lái)時(shí),一部分報(bào)文被緩存在接入交換機(jī)S5800的8M緩存中,另一些則緩存在S12500的更大緩存中,有效地利用了各級(jí)設(shè)備的端口緩存能力,最大限度地吸收突發(fā)流量,這樣,就減少了丟包的可能性,盡可能地減少了對(duì)業(yè)務(wù)的影響。先期開(kāi)展的實(shí)地測(cè)試結(jié)果表明,每次浪涌的收斂時(shí)間都控制在幾十毫秒之內(nèi)。
搜狐網(wǎng)絡(luò)運(yùn)維部負(fù)責(zé)人表示,通過(guò)建設(shè)新一代數(shù)據(jù)中心網(wǎng)絡(luò),解決了搜索引擎業(yè)務(wù)普遍感到頭疼的浪涌問(wèn)題,對(duì)普通用戶(hù)來(lái)說(shuō),意味著搜索結(jié)果中的死鏈接會(huì)更少??梢哉f(shuō),H3C S12500核心交換機(jī)起到了非常關(guān)鍵的作用。
創(chuàng)新架構(gòu)帶來(lái)新價(jià)值
在搜狗數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)中,數(shù)十臺(tái)作為接入交換機(jī)的S5800并非是簡(jiǎn)單的并列關(guān)系,而是每四臺(tái)虛擬成一臺(tái)虛擬交換機(jī),然后并列著接入核心交換機(jī)S125000。對(duì)此,該負(fù)責(zé)人解釋道,這里采用的是H3C推出的IRF2(第二代智能彈性架構(gòu),Intelligent Resilient Framework 2)技術(shù),這也正是搜狐最終選擇H3C新一代數(shù)據(jù)中心解決方案來(lái)構(gòu)建搜狗網(wǎng)絡(luò)的另一個(gè)重要因素。
智能彈性架構(gòu)技術(shù)簡(jiǎn)單的說(shuō),是把多臺(tái)物理設(shè)備互相連接起來(lái),使其成為一臺(tái)統(tǒng)一的邏輯設(shè)備。也就是說(shuō),用戶(hù)可以將多臺(tái)設(shè)備真正當(dāng)作一臺(tái)設(shè)備進(jìn)行管理和使用,從而為用戶(hù)帶來(lái)簡(jiǎn)化管理、簡(jiǎn)化網(wǎng)絡(luò)業(yè)務(wù)、彈性擴(kuò)展、1∶N可靠、性能加倍提升和增值業(yè)務(wù)擴(kuò)展等多方面的網(wǎng)絡(luò)使用新體驗(yàn)。目前,H3C的眾多網(wǎng)絡(luò)設(shè)備都支持這一技術(shù)。
在H3C提出的搜狗數(shù)據(jù)中心網(wǎng)絡(luò)解決方案中,這一創(chuàng)新技術(shù)也在多處得以體現(xiàn)。上面提到的S5800堆疊就是其中之一。在實(shí)際應(yīng)用中,四臺(tái)S5800通過(guò)IRF2實(shí)現(xiàn)40G互聯(lián),然后10組S5800堆疊接入雙機(jī)互備的S12500,也就是說(shuō),S12500只需要10個(gè)端口,就可實(shí)現(xiàn)40個(gè)萬(wàn)兆互聯(lián)。這使得搜狗數(shù)據(jù)中心網(wǎng)絡(luò)具有了良好的可擴(kuò)展性,日后網(wǎng)絡(luò)擴(kuò)容時(shí),可直接利用其他多余端口,而無(wú)須額外投資。
兩臺(tái)核心交換機(jī)S12500雙機(jī)互聯(lián)同樣采用了IRF2架構(gòu),它所帶來(lái)的價(jià)值同樣十分明顯。以往搜狗數(shù)據(jù)中心網(wǎng)絡(luò)采用的是傳統(tǒng)的環(huán)路設(shè)計(jì),這樣有一半的網(wǎng)絡(luò)帶寬必須讓道給環(huán)路,帶寬利用率低,而且容易出現(xiàn)環(huán)路堵塞鏈路,在維護(hù)上也容易出現(xiàn)問(wèn)題。采用IRF2技術(shù)則可以有效避免這些問(wèn)題。現(xiàn)在的搜狗數(shù)據(jù)中心網(wǎng)絡(luò)采用MSTP+VRRP+BFD的方式構(gòu)建,去掉了令人煩惱的環(huán)路。這不僅意味著網(wǎng)絡(luò)運(yùn)維更為簡(jiǎn)單,不會(huì)出現(xiàn)環(huán)路故障,而且,也意味著整個(gè)網(wǎng)絡(luò)在不增加投資的情況下,可利用的帶寬相比以前增加了一倍。
在搜狐對(duì)IRF2性能實(shí)際測(cè)試中,搜狐數(shù)據(jù)中心網(wǎng)絡(luò)的穩(wěn)定性表現(xiàn)得十分突出,無(wú)論是S12500內(nèi)部雙引擎的主備倒換,還是鏈路級(jí)的倒換,系統(tǒng)的恢復(fù)時(shí)間都小于30毫秒。也就是說(shuō),即使對(duì)網(wǎng)絡(luò)連續(xù)性要求高達(dá)50毫秒的延遲敏感型應(yīng)用,網(wǎng)絡(luò)的穩(wěn)定性也不會(huì)對(duì)業(yè)務(wù)造成不良影響,也有利于搜狗業(yè)務(wù)的進(jìn)一步發(fā)展。
“正是因?yàn)镮RF2技術(shù)可以讓整個(gè)網(wǎng)絡(luò)的擴(kuò)展性更好,而且ROI投資回報(bào)率更高,為搜狗業(yè)務(wù)的未來(lái)提供了堅(jiān)實(shí)的基礎(chǔ),所以我們對(duì)H3C提出的解決方案更為滿(mǎn)意?!痹撠?fù)責(zé)人表示。
在數(shù)據(jù)中心應(yīng)用領(lǐng)域,互聯(lián)網(wǎng)企業(yè)由于其業(yè)務(wù)特點(diǎn),一直走在應(yīng)用的前列,他們的選擇往往代表著市場(chǎng)的風(fēng)向標(biāo)。從實(shí)際效果來(lái)看,H3C新一代數(shù)據(jù)中心解決方案,不僅保障了搜狐現(xiàn)有業(yè)務(wù)的連續(xù)性,可滿(mǎn)足搜狐不斷增長(zhǎng)的業(yè)務(wù)帶寬需求,同時(shí)面向未來(lái)可以承載更多不斷涌現(xiàn)的新業(yè)務(wù)。