成都柳沈知識產(chǎn)權(quán)服務(wù)有限公司 王琦玥
隨著計算機性能以及存儲能力的不斷增加,數(shù)據(jù)的產(chǎn)生以及獲取變得越來越容易。我們正處于一個數(shù)據(jù)爆炸的年代,然而面對海量的數(shù)據(jù),如何通過計算機進(jìn)行分析從而利用真正有用的信息是現(xiàn)代社會急需解決的問題。Hadoop是目前最流行的共享存儲和分析系統(tǒng),為高效正確的處理海量的Web數(shù)據(jù)提供了可能性。它通過HDFS實現(xiàn)數(shù)據(jù)的存儲,然后通過MapReduce來實現(xiàn)數(shù)據(jù)的分析和處理,提高了數(shù)據(jù)的處理能力,并有機會針對海量的數(shù)據(jù)進(jìn)行分析與創(chuàng)新。目前公開的國內(nèi)外專利中與Hadoop技術(shù)相關(guān)的專利有11448篇,國內(nèi)專利有4816篇,大多數(shù)申請均集中在2013年-2017年間。目前,Hadoop已經(jīng)廣泛應(yīng)用于各個領(lǐng)域中,比如,醫(yī)療物聯(lián)網(wǎng),電力物聯(lián)網(wǎng),地理時空數(shù)據(jù)采集與預(yù)測,監(jiān)控數(shù)據(jù)分析采集等,Hadoop為各個領(lǐng)域的數(shù)據(jù)挖掘提供了基礎(chǔ)的數(shù)據(jù)分析支持,給數(shù)據(jù)賦予了全新的意義。
為了獲得用于Hadoop專利技術(shù)的相關(guān)情況,本文選擇Google Patent系統(tǒng),選擇相關(guān)的關(guān)鍵詞,如云計算、Hadoop分布式文件系統(tǒng)、數(shù)據(jù)集、鍵值對、半結(jié)構(gòu)化數(shù)據(jù)、Hadoop、cloud computing、HDFS、clust+、mapper、unstructured data、MapReduce等關(guān)鍵詞,檢索Google Patent數(shù)據(jù)庫來獲得進(jìn)行統(tǒng)計分析的專利樣本。檢索的截止日期為2018年1月24日,由于未申請?zhí)崆肮_的發(fā)明專利申請通常在申請日之后18個月才公開,由此導(dǎo)致部分的專利申請由于未公開而不再本次文獻(xiàn)采集之列。
本章從Hadoop技術(shù)的分類、專利分布、主流技術(shù)發(fā)展等角度分析了Hadoop技術(shù)的技術(shù)演進(jìn)過程以及Hadoop的主要技術(shù)特點。
與Hadoop相關(guān)的技術(shù)相關(guān)的工具構(gòu)成了Hadoop生態(tài)圈,各大工具從數(shù)據(jù)庫、存儲、管理、配置、一致性等方面對Hadoop進(jìn)行了相關(guān)的改進(jìn)。由于Hadoop技術(shù)的核心價值在于MapReduce和HDFS,這兩項技術(shù)使得Hadoop相比與其他的數(shù)據(jù)存儲分析系統(tǒng)具備了獨特的優(yōu)勢。下面就這兩方面進(jìn)行重點分析。
(1)MapReduce
在Google Patent專利庫中涉及到MapReduce的專利文件約8000篇,中國專利申請約3000篇。MapReduce是一種數(shù)據(jù)并行處理的編程模型,其將大規(guī)模的數(shù)據(jù)分析任務(wù)分發(fā)給擁有足夠多機器的數(shù)據(jù)中心,可以在很短的時間內(nèi)處理大規(guī)模數(shù)據(jù)集[1]。MapReduce相對于關(guān)系數(shù)據(jù)庫的優(yōu)勢是非常明顯的,它可以處理半結(jié)構(gòu)化的數(shù)據(jù),并僅在處理數(shù)據(jù)時才對數(shù)據(jù)進(jìn)行解釋,即是是冗余或是不完整的數(shù)據(jù)也可以獲得可用的分析結(jié)果。MapReduce包括兩個處理階段,Map和Reduce。
Map(映射)是MapReduce中進(jìn)行數(shù)據(jù)處理的數(shù)據(jù)準(zhǔn)備階段,其主要目的是進(jìn)行數(shù)據(jù)的提取以及去除受損數(shù)據(jù),為之后的數(shù)據(jù)優(yōu)化做準(zhǔn)備。在向中國專利局申請的專利中涉及到map函數(shù)的共2112篇,其主要改進(jìn)點在于針對冗余數(shù)據(jù)的處理、負(fù)載均衡、聚類與屬性約簡。由于原始數(shù)據(jù)的特性不同,有近四分之一的專利申請將mapper針對其應(yīng)用領(lǐng)域進(jìn)行了定制化的改進(jìn),例如針對用電數(shù)據(jù)、行車記錄數(shù)據(jù)、物聯(lián)網(wǎng)、視頻數(shù)據(jù)使用特殊的聚類方式以及針對各個領(lǐng)域的特殊性建立與領(lǐng)域相適應(yīng)的聚類表。
圖1 Hadoop技術(shù)演進(jìn)年代圖
Reduce(歸約)的主要功能則在于將mapper的輸出作為輸入,進(jìn)行數(shù)據(jù)的合并,最后將數(shù)據(jù)寫入HDFS系統(tǒng)中。Reduce通常是基于數(shù)據(jù)分析的需求,進(jìn)而獲取與需求數(shù)據(jù)特征匹配的數(shù)據(jù)。在向中國專利局申請的專利中涉及到reduce函數(shù)共2774篇,其主要改進(jìn)點在于數(shù)據(jù)的分類與聚類以及冗余、錯誤數(shù)據(jù)的清洗。由于Reduce函數(shù)是根據(jù)數(shù)據(jù)分析需求建立的,因此大約70%的專利均涉及了具體的數(shù)據(jù)類型的處理,例如針對人臉識別的圖像數(shù)據(jù)處理,針對用電量流量流向的分析處理等等。
(2)HDFS
在全球?qū)@麕熘猩婕暗紿DFS的專利文件共4481篇,中國專利申請占2400項。HDFS作為Hadoop特有的分布式文件存儲系統(tǒng),其具備超大文件、流式數(shù)據(jù)訪問、低時間延遲的數(shù)據(jù)訪問、支持多用戶寫入修改文件、以及將一個數(shù)據(jù)集分化為多個小文件等特性[1]。目前來看,近一半的Hadoop技術(shù)專利申請中涉及到HDFS系統(tǒng)。
HDFS通常具有兩類節(jié)點,namenode和datanode,分別在HDFS集群中擔(dān)任管理者和工作者的角色。Namenode管理以及維護(hù)文件系統(tǒng)的目錄,Dadanode則是文件系統(tǒng)的工作節(jié)點,定期向Namenode發(fā)送相應(yīng)的塊列表。在Google patent中涉及到這兩類節(jié)點的專利共723篇,其多數(shù)改進(jìn)在于故障修復(fù),調(diào)度選擇,提高傳輸效率,完整性驗證等等。
HDFS作為一種文件存儲系統(tǒng),其演進(jìn)基本遵循存儲系統(tǒng)的改進(jìn)特點,基本針對輸入輸出的改進(jìn)、文件尋址索引、文件壓縮分片等方面進(jìn)行相應(yīng)的改進(jìn),同時由于HDFS是一種典型的分布式結(jié)構(gòu),因此針對各個文件的傳輸流程、傳輸方式的優(yōu)化也具備不錯的應(yīng)用前景。目前HDFS在文件系統(tǒng)以及文件傳輸?shù)闹髁鞴ぞ甙ǎ篺lume、sqoop、distcp、avro、sequencefile、mapfile、fuse、blob、hbase等,在Google patent中涉及到這些工具的使用的中國專利文獻(xiàn)占HDFS相關(guān)文件的39%左右。
從專利的角度進(jìn)行分析,Hadoop的專利申請中的技術(shù)特征也基本遵循著Hadoop技術(shù)的發(fā)展歷史路線,根據(jù)Google最初設(shè)計的MapReduce框架以及HDFS存儲結(jié)構(gòu),針對資源/數(shù)據(jù)的在實際應(yīng)用中的各個層面進(jìn)行了相關(guān)的改進(jìn)。作為一個共享存儲和分析系統(tǒng),針對該系統(tǒng)的改進(jìn)主要還是在數(shù)據(jù)管理(Data Management)、數(shù)據(jù)獲?。―ata Access)、數(shù)據(jù)處理(Data Processing)和數(shù)據(jù)存儲(Data Storage)這4個方面。圖1是根據(jù)技術(shù)分類表以及技術(shù)演進(jìn)方向做出的年代圖。
由上述技術(shù)演進(jìn)圖可以看到,目前Hadoop生態(tài)圈中主流的工具YARN、Hive以及Flume都能在公開的專利申請中找到其演變來源。
從HadoopV2中的YARN工具的發(fā)展分析,可以看到MapReduce框架的演變。目前MapReduce已經(jīng)從一個版本0.0的簡單的集中式集群構(gòu)架演變?yōu)榘姹?.0雙層調(diào)度架構(gòu),將單一的Jobtracker分成三個不同的管理角色Resource Manager、Node Manager和Application Master,簡化了Jobtracker的任務(wù),提高了集群規(guī)模,并易于擴展。YARN的相關(guān)技術(shù)特征可以從亞馬遜公司獲得的兩篇公開號分別為US8260840B1和US9210048B1授權(quán)專利中一窺一二,這兩篇專利分別從MapReduce中集群節(jié)點的動態(tài)任務(wù)調(diào)配和通過網(wǎng)絡(luò)流量調(diào)配節(jié)點之間的任務(wù)負(fù)載的角度去優(yōu)化MapReduce的框架,以實現(xiàn)各個節(jié)點的負(fù)載均衡。尤其在US8260840B1中指出,采用一種動態(tài)決定集群的規(guī)模大小的框架,包括使用一部分節(jié)點作為核心節(jié)點參與任務(wù)的分配管理,另一部分節(jié)點作為輔助節(jié)點,可以進(jìn)一步提高集群的運行速度。這兩篇專利的技術(shù)特征不僅體現(xiàn)在了工具YARN中,還應(yīng)用于亞馬遜公司EC2云計算體系里,為亞馬遜公司的發(fā)展帶來了巨大的經(jīng)濟利益?,F(xiàn)在YARN已經(jīng)從MapReduce的結(jié)構(gòu)中獨立出來,作為一個獨立的工具,使得MapReduce的工作更輕量。
Hive原本是Facebook構(gòu)建在Hadoop的數(shù)據(jù)倉庫框架,其設(shè)計目的是為了讓Hadoop精通SQL技能[1],它目前成為了應(yīng)用于各種數(shù)據(jù)分析場景中的一個通用的、可伸縮的數(shù)據(jù)平臺。在Hive誕生之前,曾經(jīng)就有兩篇專利嘗試將SQL技術(shù)與Hadoop技術(shù)結(jié)合起來,它們分別是Yahoo!公司的US7921416B2和US8150723B2,它們嘗試將結(jié)構(gòu)化,正式化的SQL語言翻譯為可以被并行處理的語言,進(jìn)而將SQL語言準(zhǔn)確、冗余量少與Hadoop并行高速處理的特性,使得大量采用SQL搭建的數(shù)據(jù)庫也可以享受分布式運算的優(yōu)點。進(jìn)一步,它們采取的方式是在SQL語言和可以被Hadoop處理的語言中建立一個新的綜合了聲明性和程序性的語言,以讓其支持多個數(shù)據(jù)表之間的協(xié)同工作,而在這兩篇專利中提到這種新型語言則演進(jìn)成Hive中的HiveQL語言,輔助Hive外殼環(huán)境和HDFS的交互。
Flume是cloudera提供的一個高可用、高可靠的開源分布式海量日志收集系統(tǒng),日志數(shù)據(jù)可以經(jīng)過Flume流向需要存儲終端目的地[2]。關(guān)于日志數(shù)據(jù)收集早在2010年的專利US931772B2中提到,該授權(quán)專利就提出了需要對Hadoop集群中的各個節(jié)點進(jìn)行日志分析與收集,以便于監(jiān)控各個節(jié)點的狀態(tài)。Cloudera公司的重點專利US8880592B2則進(jìn)一步的在日志收集的基礎(chǔ)上,提出了部分日志的采集與更新,作為Hadoop的后臺進(jìn)行集群節(jié)點監(jiān)管的軟件,其性能得到了進(jìn)一步的提升。
在Hadoop領(lǐng)域申請量排名靠前的國外主要申請人包括國家商業(yè)機器公司、威睿、雅虎、甲骨文、Cloudera等公司,主要涉及用于針對Hadoop系統(tǒng)的管理、配置、監(jiān)管和接入的相關(guān)改進(jìn)。國內(nèi)主要申請人包括南京大學(xué)、國家電網(wǎng)、華中科技大學(xué)。和國外相比,中國在Hadoop相關(guān)技術(shù)的申請主要是針對特定領(lǐng)域使用Hadoop技術(shù),并根據(jù)該領(lǐng)域的特性,對Hadoop技術(shù)進(jìn)行定制化改進(jìn),其主要的考慮還是希望通過專利的方式對相關(guān)產(chǎn)品(比如南京大學(xué)的醫(yī)藥軟件和國家電網(wǎng)的用電數(shù)據(jù)軟件)進(jìn)行保護(hù)。
本文對用于Hadoop專利技術(shù)進(jìn)行分析和整理,除了以上內(nèi)容,還關(guān)注了本領(lǐng)域的核心專利以及專利技術(shù)發(fā)展演進(jìn)路線,得出的結(jié)論對于相關(guān)公司的專利布局具有一定的參考意義。
[1]Tom White.Hadoop權(quán)威指南(第3版)[M].清華大學(xué)出版社,2010:19-23,49-50.
[2]http://www.cnblogs.com/edisonchou/p/4445491.html,2017年7月24日訪問.