• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    超大容量云服務(wù)算法分析

    2017-10-31 12:19:01于家浩王哲李迅黃金俠
    電腦知識與技術(shù) 2017年23期
    關(guān)鍵詞:空間

    于家浩 王哲 李迅 黃金俠

    摘要:目前國內(nèi)多數(shù)知名云服務(wù)開放空間已經(jīng)達(dá)到2T之多,如此巨大的免費空間是使用各種節(jié)約、合并資源的算法實現(xiàn)的,通過同文件識別、空間的虛擬分配和計存儲集群等方式實現(xiàn)。各種先進(jìn)的算法使云服務(wù)開放空間巨大,資源利用率得到提高,同時降低了硬件上的開發(fā)成本,為企業(yè)帶來利益。

    關(guān)鍵詞:空間;計存儲集群;重復(fù)文件;MD5值

    1概述

    近年來云端技術(shù)被論證、開發(fā),現(xiàn)已完成設(shè)計、上市等過程;以百度云、360云、阿里云、華為云、新浪云等為最受歡迎。多數(shù)網(wǎng)盤免費贈送容量就已經(jīng)達(dá)到2T甚至4T,常常有人提出這樣的問題,每個人免費分派2T甚至更多的存儲空間,數(shù)億人使用,也就是有接近10億T的空間啊,一塊lT的硬盤價格最低也要四五百元,開發(fā)一個開放云盤技術(shù),企業(yè)需要送出四五千億的資金么,幾乎是整個萬達(dá)集團(tuán)的市值了!

    其實呢,企業(yè)才不會那么傻,商人是要賺錢的,工人也是需要工資的,企業(yè)這么做云的方式當(dāng)然也有利可圖,企業(yè)之所以能賺錢,就是因為機智的程序員提供了幾個節(jié)省資源的小算法,但這幾個看似簡單的小算法卻節(jié)省掉了上千億的成本,使本該巨量的投入變成了源源不斷的利潤產(chǎn)出。但是節(jié)約算法并不算是商業(yè)欺騙,企業(yè)既做到了如承諾的開放了應(yīng)有的存儲空間,又節(jié)約了自身成本,節(jié)省了社會資源,這樣的思想是值得我們贊賞和學(xué)習(xí)的。商,不一定奸,節(jié)約也并不意味著降低質(zhì)量,只要用對了方法,行行出狀元。

    2空間分配

    首先從空間角度看,為數(shù)億用戶設(shè)置10億的存儲空間、準(zhǔn)備上千億的資金顯然是不現(xiàn)實的,一來成本是嚴(yán)重問題,二來沒有那么大的地點可以用來存放并及時維護(hù)這些存儲器,為了解決這個問題,便有了以下幾個空間管理方案。

    2.1虛擬空間限額

    以2T開放空間為例,每位用戶的使用空間都是2T,這樣假設(shè)500位用戶使用的話,理論上企業(yè)需要開設(shè)一臺1000T的存儲器,這么大空間的機械硬盤可能花費十萬元到二十萬元之多,占據(jù)相當(dāng)一部分的空間,而這500位用戶卻幾乎產(chǎn)生不了利潤,或者說,他們之中存在愿意為獲得更大空間而消費的人的幾率太小。

    但是這樣的空間分配有一個嚴(yán)重的問題,在云技術(shù)普及以前,大多數(shù)用戶傳輸數(shù)據(jù)使用的是u盤,而u盤的容量一般低于128G,多數(shù)人群使用8G、16G或32GU盤空間就已經(jīng)綽綽有余,也就是說每位用戶配額為2048G,然而卻只被使用了低于1.5%的空間,多數(shù)空間被浪費了,浪費空間意味著浪費了初始資金。

    因此我們可以變通了一下,同樣是1000T的空間,但面向用戶的數(shù)量設(shè)定為了10萬人,但是每個人的可用空間仍舊顯示為2T,這樣給用戶產(chǎn)生了一種我仍舊占便宜的想法,但卻空余出了上萬G的存儲空間足夠迎接其他客戶??紤]到可能存在意外風(fēng)險,數(shù)據(jù)上傳量瞬間過大,因此可以將用戶額度縮小至8萬人,多余空間用來應(yīng)急,延長工作人員補充用盤數(shù)量的操作時間。

    即使是這樣的設(shè)定,用戶數(shù)也瞬間被提升了160倍,這樣其中存在消費者的概率也被提升了160倍,企業(yè)將開始回本。而以上的數(shù)據(jù)是基于最小設(shè)定,因為1000T只是個小數(shù)字。

    2.2計存儲集群

    為了應(yīng)對突發(fā)數(shù)據(jù)傳輸量過大的情況,每臺存儲器都預(yù)留了應(yīng)急空間,但是存儲器數(shù)量巨大,每臺都留應(yīng)急空間的話,應(yīng)急空間又將造成上萬G的存儲空間被浪費掉。

    同樣出于降低成本、節(jié)省資源考慮,于是誕生了計存儲集群。

    理解這個概念可以參考機械硬盤的分盤,我們之所以將硬盤分成C、D、E盤等幾個扇區(qū),是為了方便隔離使用,如果某扇區(qū)發(fā)生問題可以單獨格式化而不影響其他部分,運行產(chǎn)生的數(shù)據(jù)也不會相互干擾。但是這樣的做法在軟件如此發(fā)達(dá)的今天可以說并沒有太大的實際用處了,使用者往往是根據(jù)習(xí)慣或者購買到電腦時已經(jīng)被設(shè)定成這個樣子了。而對于已經(jīng)統(tǒng)一管理了的企業(yè)存儲器,安保措施和容錯性極好,這樣設(shè)定就顯得多此一舉了,因此每個存儲器被直接調(diào)用,過程簡單快捷。

    為了節(jié)省應(yīng)急空間,從分盤的思想逆向思考,我們可以預(yù)先設(shè)定一個程序包,將上傳的數(shù)據(jù)依次填人每個存儲器,填滿了一個再去填下一個,應(yīng)急空間完全交給某幾個存儲器。這樣我們就不需要預(yù)留真正的應(yīng)急空間,而是存儲器占滿數(shù)量達(dá)到一定數(shù)字時發(fā)出警報,工作人員隨手差兩塊硬盤就可以了。這樣算下來,資源利用率已經(jīng)被提高了近千倍,同樣的,1000T只是個小數(shù)字。

    2.3零空間分配預(yù)設(shè)

    長期使用u盤的人也知道,塞滿自己的u盤并不是一瞬間的,而是經(jīng)年累月的積累,多數(shù)數(shù)據(jù)使用了就刪,真正有用的可能隨時看的都存在電腦硬盤里了也不一定用得到云盤,這樣的話預(yù)留大量應(yīng)急空間和設(shè)置初始空間都造成了大量的浪費。

    因此解決這個問題,干脆不給用戶分配使用空間,只分配一個“計算器”,用戶存什么我們都不去管他,如圖1,計算器只負(fù)責(zé)記錄用戶已使用的空間。這樣在用戶角度看并沒有什么區(qū)別,但從商業(yè)發(fā)展角度,卻為企業(yè)提供了大量融資時間。

    一旦選擇了這樣的分配方式,不算夸張地說,企業(yè)可以在第一天只開放一個2T的空間,但仍舊供10萬人使用,隨著注冊的人越來越多,廣告效應(yīng)和需求效應(yīng)等會為企業(yè)帶來大量資金,企業(yè)可以慢慢填充存儲器,而存儲器屬于電子行業(yè)的技術(shù),價格降低也非常快,本來用于購置1000臺存儲器的資金,在一段時間之后可能可以購置1500臺到2500臺,而根據(jù)之前的空間設(shè)置方案,每增加幾百T的存儲空間,面向的用戶數(shù)就可以增加到幾十幾百萬人,此時即使每位用戶交一塊錢的使用費,企業(yè)也早就回本了。而且也的營銷制度是會員制,每位會員價格也僅為12到32元,小部分會員即可抵消多數(shù)免費用戶。

    3重復(fù)文件管理

    有了空間管理方案,企業(yè)的硬件成本就已經(jīng)幾乎完全沒有了,但畢竟工作都是為了賺錢嘛,不能是成本沒了就完了,還需要贏利啊,但硬件設(shè)定也就只能做到這了,那么剩下的當(dāng)然就是軟件。有效的管理用戶的數(shù)據(jù),將更大程度的節(jié)省云盤開發(fā)的成本,從而大幅提升盈利。

    3.1同文件識別

    平時使用中存儲占用空間最大的也就是視頻文件了,各類電影、綜藝、連續(xù)劇等等,還有就是各種小說、文獻(xiàn)、圖紙、軟件安裝包等等,這些文件可能同時有成百上千萬人擁有或需要,大家會通過云來存儲、分享,而眾多用戶使用這些相同的大文件將極大地造成資源利用率降低。

    解決這個問題,我們可以將每次上傳的文件與存儲空間現(xiàn)有文件進(jìn)行比對,如果存在了,則只設(shè)置一個鏈接,這樣同一個文件的利用率就被大幅地提升了,而用戶看起來也像是從自己的空間打開了一樣。這樣做的好處包括用戶的云空間可以多出來了回收站的功能,因為誤刪的文件不會被真的刪除;同時對于處理違規(guī)違法外泄的文件,只需要從源文件直接刪除即可,所有存儲用戶都將失去文件,而不用一一刪除。

    不過這種情況有個小瑕疵,多數(shù)用戶喜歡自己起名字,有的甚至更改尾綴,這樣電腦系統(tǒng)便會把文件識別成多個,更改尾綴還會導(dǎo)致電腦識別為別的文件或識別不了該文件。因此為了解決這個問題,不能只是單純的讓電腦自己判斷,而是需要加上其他的判斷算法。

    判斷文件是否重復(fù)的算法有很多,比如計算MD5值進(jìn)行比對,相同即為同一文件。

    3.2MD5值

    MD5是一種加密密碼時常用的算法,比如黑客黑人某網(wǎng)站,取得管理員密碼時,一般獲得的是MD5值加密過的密碼,直接使用是不好使的,需要經(jīng)過逆向MD5解密,解密后的才是真實密碼,計算過程如圖2。

    計算機方面有一個思想:所有的數(shù)據(jù),都只是0和l構(gòu)成的,所有的音頻、視頻、圖片等等都只是不同的排列而已,通過進(jìn)制的轉(zhuǎn)換、語言的開發(fā),使人可以理解或改造這些文件。因此一切都是數(shù)字而已,所以名稱的改變并不會影響文件的內(nèi)容,因而比較MD5值可以有效判斷文件是否相同,無關(guān)乎文件種類、名稱或被各種設(shè)置等等。但計算過程是需要占用CPU處理空間的,在大量用戶使用時會造成主機服務(wù)器卡頓,甚至卡死,所以這個任務(wù)就光榮地落在了用戶的個人電腦上,分?jǐn)傁聛淼挠嬎懔烤臀⒑跗湮⒘?,上傳文件已有,則知建立連接,這就是“秒傳”和“免流量傳輸”的原理,這也是這類功能為什么沒有設(shè)定用戶設(shè)置口的原因,因為文件是否存在已有文件是不確定事件,無法進(jìn)行預(yù)先設(shè)定。

    4結(jié)束語

    作為資源共享的工具,應(yīng)該更為注重的不應(yīng)該是如何深入的研究安全,而應(yīng)是用戶體驗,云服務(wù)重點還是做的服務(wù),大空間、大數(shù)據(jù),而服務(wù)都是要成本的,所以解約成本,同時又極其方便用戶使用的算法一直在不斷地被開發(fā)出來,技術(shù)使買家賣家越來越接近雙贏。

    猜你喜歡
    空間
    您好!新“第三空間”
    NewsPicks GINZA創(chuàng)意空間
    Dust of Time-Maò空間
    創(chuàng)享空間
    空間是什么?
    PLAN B地下居住空間
    十月·空間
    創(chuàng)享空間
    創(chuàng)享空間
    結(jié)婚后為什么還需要獨處空間
    海峽姐妹(2017年8期)2017-09-08 12:16:45
    揭西县| 万年县| 米泉市| 健康| 吉木乃县| 常宁市| 寿阳县| 原阳县| 博野县| 黄冈市| 大悟县| 呼和浩特市| 枝江市| 建水县| 曲靖市| 中超| 镶黄旗| 武汉市| 石狮市| 浦北县| 南江县| 子长县| 玛曲县| 桃园市| 莫力| 平潭县| 杭锦旗| 台州市| 密云县| 嘉黎县| 新干县| 三河市| 东乡族自治县| 平凉市| 四川省| 社旗县| 营口市| 永春县| 延吉市| 静海县| 斗六市|