郭毅可 潘 為 于思淼 吳 超 王世才倫敦帝國(guó)理工學(xué)院數(shù)據(jù)科學(xué)研究所 倫敦 SW7 2AZ, 英國(guó)
為科學(xué)服務(wù)的大數(shù)據(jù)*
郭毅可潘為于思淼吳超王世才
倫敦帝國(guó)理工學(xué)院數(shù)據(jù)科學(xué)研究所倫敦SW7 2AZ, 英國(guó)
數(shù)據(jù)驅(qū)動(dòng)的科研活動(dòng)已蔚為大觀,然而厘清關(guān)于數(shù)據(jù)研究的基本問(wèn)題仍是數(shù)據(jù)科學(xué)的首要任務(wù)。文章根據(jù)倫敦帝國(guó)理工學(xué)院建設(shè)數(shù)據(jù)科學(xué)研究院的經(jīng)驗(yàn),將數(shù)據(jù)科學(xué)聚焦于交叉研究上,討論從數(shù)據(jù)整合與理解,到數(shù)據(jù)感知與交互,再到數(shù)據(jù)學(xué)習(xí)與認(rèn)知,最后到數(shù)據(jù)交換與經(jīng)濟(jì)的完整鏈條,并結(jié)合開(kāi)展的科研實(shí)踐工作,分析了其中的基本研究問(wèn)題。
大數(shù)據(jù),數(shù)據(jù)科學(xué),數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究
微軟研究院以 Jim Gray 曾經(jīng)對(duì)科學(xué)研究方法的歷史作了一個(gè)精辟的總結(jié)[1]:幾百年前,科學(xué)研究是完全通過(guò)實(shí)驗(yàn)來(lái)觀察自然、理解自然;到了近代數(shù)百年,科學(xué)才開(kāi)始注重理論研究,通過(guò)建模和抽象來(lái)總結(jié)揭示自然的規(guī)律;近幾十年來(lái),計(jì)算機(jī)的廣泛使用,使得計(jì)算模擬成了科學(xué)研究的一個(gè)重要手段。到了今天,計(jì)算技術(shù)已經(jīng)完全普適化??茖W(xué)儀器已經(jīng)成為高通量數(shù)據(jù)采集的工具,由模擬和儀器采集的數(shù)據(jù)經(jīng)過(guò)計(jì)算機(jī)的處理分析形成信息和知識(shí)。數(shù)據(jù)驅(qū)動(dòng)已成為今天科學(xué)研究的新的方法。
如今,海量數(shù)據(jù)源源不斷地被產(chǎn)生出來(lái)??茖W(xué)家和工程師通過(guò)對(duì)數(shù)據(jù)的觀察、整合、分析和解釋,不斷創(chuàng)造知識(shí),推動(dòng)著科學(xué)技術(shù)的進(jìn)步和社會(huì)的發(fā)展。在這種背景下,在中國(guó)乃至世界各地,各類以數(shù)據(jù)為驅(qū)動(dòng)或以數(shù)據(jù)科學(xué)為目標(biāo)的研究單位如雨后春筍般涌現(xiàn),在可預(yù)見(jiàn)的未來(lái),數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究必將得到蓬勃發(fā)展,蔚為大觀。然而,在目前的探索階段,厘清關(guān)于數(shù)據(jù)科學(xué)的基本問(wèn)題仍然是首要任務(wù),例如數(shù)據(jù)科學(xué)應(yīng)該研究什么?它與傳統(tǒng)計(jì)算機(jī)研究和統(tǒng)計(jì)分析到底有什么區(qū)別?它在學(xué)科交叉中應(yīng)該扮演什么角色?本文根據(jù)倫敦帝國(guó)理工學(xué)院建設(shè)數(shù)據(jù)研究院(Data Science Institute)的實(shí)際經(jīng)驗(yàn),提出對(duì)如何建設(shè)一個(gè)支持以數(shù)據(jù)作為驅(qū)動(dòng)為己任的數(shù)據(jù)研究院的見(jiàn)解,試圖從我們的研究脈絡(luò)中尋找共性問(wèn)題,拋磚引玉,希望能在更廣大范圍內(nèi)引起對(duì)這些基本問(wèn)題的思考和討論。
倫敦帝國(guó)理工學(xué)院是一所專注于科學(xué)技術(shù)、醫(yī)學(xué)和商學(xué)的世界頂級(jí)名校。從事的科學(xué)研究和數(shù)據(jù)緊密相關(guān):從個(gè)人醫(yī)療數(shù)據(jù)到科學(xué)實(shí)驗(yàn)數(shù)據(jù),從公共數(shù)據(jù)到商業(yè)數(shù)據(jù)。這樣一個(gè)大學(xué)必須有一個(gè)數(shù)據(jù)研究所作為支撐學(xué)校數(shù)據(jù)驅(qū)動(dòng)研究的科研機(jī)構(gòu)。于 2014 年 4 月成立,其建所宗旨是:“研究先進(jìn)的大數(shù)據(jù)管理和分析技術(shù),并以此來(lái)促進(jìn)數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究及技術(shù)發(fā)展,造福人類社會(huì)?!彼炎约旱娜蝿?wù)定義為:(1)作為學(xué)校交叉學(xué)科發(fā)展的樞紐,組織并推進(jìn)以大數(shù)據(jù)為基礎(chǔ)的多學(xué)科合作;(2)培養(yǎng)新一代有創(chuàng)新能力的數(shù)據(jù)科學(xué)家;(3)為學(xué)校的數(shù)據(jù)驅(qū)動(dòng)的科學(xué)研究提供技術(shù)與設(shè)施的支持;(4)作為學(xué)校對(duì)外合作的窗口,與全世界工業(yè)界及學(xué)術(shù)界廣泛開(kāi)展大數(shù)據(jù)科研合作;(5)向政府、公共管理機(jī)構(gòu)及全社會(huì)提供有關(guān)大數(shù)據(jù)的政策與技術(shù)咨詢。
研究所自成立以來(lái),秉承其宗旨,在上述 5 個(gè)方向上做出了許多努力,取得了令人矚目的成果,得到了學(xué)界和社會(huì)的廣泛關(guān)注和肯定,很多研究成果產(chǎn)生了國(guó)際影響力。因此,習(xí)近平主席 2015 年對(duì)英國(guó)進(jìn)行國(guó)事訪問(wèn)期間專門(mén)參觀了數(shù)據(jù)科學(xué)研究所,聽(tīng)取了一些研究成果匯報(bào),包括:和浙江大學(xué)合作的對(duì)中國(guó)人口遷移的分析;和維也納國(guó)際應(yīng)用系統(tǒng)分析研究所、美國(guó)大氣研究中心和上海大學(xué)合作有關(guān)“一帶一路”戰(zhàn)略國(guó)際影響力分析;和英國(guó)國(guó)家基因組計(jì)劃、歐盟創(chuàng)新制藥計(jì)劃合作的有關(guān)精準(zhǔn)醫(yī)學(xué)的合作研究;以及和上海地鐵在交通監(jiān)測(cè)和預(yù)測(cè)方面的合作。習(xí)近平主席認(rèn)為用大數(shù)據(jù)做交叉學(xué)科研究很有意義,和實(shí)際應(yīng)用相結(jié)合是個(gè)好方向。習(xí)近平主席對(duì)我們的這些工作表示贊賞,肯定了研究所對(duì)大數(shù)據(jù)研究方向的思考和策略,使研究所倍受鼓舞。
科學(xué)技術(shù)的偉大進(jìn)步往往需要多學(xué)科的交叉融合,數(shù)據(jù)科學(xué)的交叉同樣會(huì)驅(qū)動(dòng)產(chǎn)生重大的科學(xué)發(fā)現(xiàn)。而且我們認(rèn)為數(shù)據(jù)科學(xué)無(wú)法作為獨(dú)立學(xué)科存在,必須和特定領(lǐng)域結(jié)合在一起;如不對(duì)交叉學(xué)科的領(lǐng)域知識(shí)有深入的理解,而設(shè)計(jì)脫離實(shí)際的數(shù)據(jù)分析方法是很難有發(fā)展前途的。
以目前熱門(mén)的“精準(zhǔn)醫(yī)療”為例,其涉及到生理學(xué)、分子生物學(xué)、藥理學(xué)、化學(xué)、營(yíng)養(yǎng)學(xué)、環(huán)境學(xué)、生物物理學(xué)等眾多學(xué)科,很多學(xué)科在各自的領(lǐng)域?qū)ο嚓P(guān)問(wèn)題已經(jīng)有了很長(zhǎng)的研究歷史,然而只有當(dāng)交叉出現(xiàn),特別是針對(duì)生物醫(yī)學(xué)的大數(shù)據(jù)分析方法和工具出現(xiàn)之后,結(jié)合患者生活環(huán)境、生物信息、臨床和藥物等各種數(shù)據(jù),實(shí)現(xiàn)精準(zhǔn)醫(yī)療才有可能。
由此可見(jiàn),數(shù)據(jù)科學(xué)是一個(gè)組合體,它在明確的應(yīng)用目標(biāo)下,驅(qū)動(dòng)和連接各種學(xué)科,形成有機(jī)統(tǒng)一。把數(shù)據(jù)科學(xué)作為統(tǒng)計(jì)學(xué)和計(jì)算機(jī)科學(xué)的分支應(yīng)用,把機(jī)器學(xué)習(xí)和大數(shù)據(jù)管理技術(shù)等數(shù)據(jù)科學(xué)的具體技術(shù)作為數(shù)據(jù)科學(xué)的主要內(nèi)涵的思路與做法,未免是太狹隘了。
進(jìn)而言之, 數(shù)據(jù)科學(xué)的許多方法也來(lái)自于不同領(lǐng)域的科學(xué)研究,以今天非常流行的深度學(xué)習(xí)技術(shù)為例,它的許多進(jìn)步是基于神經(jīng)生物學(xué)和信號(hào)處理技術(shù)的研究。從數(shù)據(jù)驅(qū)動(dòng)的領(lǐng)域科學(xué)研究中獲取養(yǎng)料和動(dòng)力,是數(shù)據(jù)科學(xué)研究的一個(gè)重要途徑。
數(shù)據(jù)科學(xué)有自己的學(xué)科內(nèi)涵,即基于數(shù)據(jù)的獲取,清理、建模、分析等方法,從這個(gè)角度說(shuō),數(shù)據(jù)科學(xué)與數(shù)學(xué)及計(jì)算機(jī)科學(xué)一脈相承;它也有自己的外延,即面向各種應(yīng)用問(wèn)題,從這個(gè)角度說(shuō),數(shù)據(jù)科學(xué)又是各個(gè)交叉科學(xué)的載體。在后文中,我們將結(jié)合數(shù)據(jù)科學(xué)的內(nèi)涵,即其研究問(wèn)題,以及外延,即其應(yīng)用領(lǐng)域,談?wù)勎覀兊睦斫狻?/p>
數(shù)據(jù)科學(xué)研究是一條完整的鏈條,由 4 個(gè)關(guān)鍵的環(huán)節(jié)串聯(lián)在一起。我們將這 4 個(gè)環(huán)節(jié)定義為數(shù)據(jù)整合與理解(Data Integration and Understanding)、數(shù)據(jù)感知與交互(Data Sensing and Interaction)、數(shù)據(jù)學(xué)習(xí)與認(rèn)知(Data Learning and Cognition)、數(shù)據(jù)交換與經(jīng)濟(jì)(Data Exchange and Economy)。倫敦帝國(guó)理工學(xué)院數(shù)據(jù)科學(xué)研究所在這 4 個(gè)方面同時(shí)開(kāi)展研究,并且將幾方面的研究緊密地整合到一起。下面具體地闡釋每部分的研究?jī)?nèi)容。
3.1 數(shù)據(jù)整合與理解
一份數(shù)據(jù),從采集到分析,需要經(jīng)歷一系列的處理、理解和整合,這部分的工作,毫不夸張地說(shuō),可以占到整個(gè)數(shù)據(jù)研究工作量的80%。
(1)在數(shù)據(jù)整合與理解方面,數(shù)據(jù)集成是大數(shù)據(jù)研究的關(guān)鍵。眾所周知,數(shù)據(jù)的多樣性和復(fù)雜性往往使得無(wú)法將所有數(shù)據(jù)進(jìn)行整合,并為領(lǐng)域內(nèi)的所有研究人員所共同使用。很多擁有相同實(shí)驗(yàn)?zāi)康牡慕Y(jié)果數(shù)據(jù)無(wú)法相互兼容。例如,在生命科學(xué)領(lǐng)域,在利用mRNA分析基因表達(dá)的過(guò)程中,基因芯片產(chǎn)生的表達(dá)程度數(shù)據(jù)通常用CEL格式存取,而如果使用mRNA測(cè)序技術(shù)則會(huì)產(chǎn)生大量基因序列的原始片段。兩種數(shù)據(jù)都可以通過(guò)各自的計(jì)算方法得到基因表達(dá)的程度,但數(shù)據(jù)的格式天差地別,專業(yè)的分析人員也需要借助多種不同的技術(shù)分析匯總其中的結(jié)果,讓計(jì)算機(jī)對(duì)此做出統(tǒng)一正確的理解可以說(shuō)是困難重重。隨著信息需求不斷發(fā)展和增長(zhǎng),數(shù)據(jù)一體化的需求也不斷增長(zhǎng)。適當(dāng)?shù)臉?biāo)準(zhǔn)化方法可以有效幫助數(shù)據(jù)的集成,標(biāo)準(zhǔn)化方法往往取決于數(shù)據(jù)集和特定領(lǐng)域的慣例,標(biāo)準(zhǔn)分?jǐn)?shù)和T-統(tǒng)計(jì)量是轉(zhuǎn)換醫(yī)學(xué)研究中常用的標(biāo)準(zhǔn)化方法。
(2)現(xiàn)有的數(shù)據(jù)集成技術(shù), 如本體論,語(yǔ)義W eb 可以起到關(guān)鍵的作用。這些現(xiàn)有語(yǔ)義框架和技術(shù)可以被用來(lái)建立各種數(shù)據(jù)之間的聯(lián)系,并通過(guò)已有的映射關(guān)系拓展并建立新的聯(lián)系。例如,對(duì)于醫(yī)療數(shù)據(jù),可以通過(guò)預(yù)定義的、映射一致的本體森林模型來(lái)為臨床數(shù)據(jù)和分子分析數(shù)據(jù)提供一個(gè)更加統(tǒng)一的數(shù)據(jù)表示,每一棵子樹(shù)都表示一個(gè)研究項(xiàng)目,通過(guò)拓展子樹(shù)節(jié)點(diǎn)之間的語(yǔ)義關(guān)系建立聯(lián)系,獲得新的語(yǔ)義知識(shí)。新的知識(shí)可以是擁有相同或相似病理特征的人的集合,或是治愈某種疾病的治療方法的集合。
(3)對(duì)數(shù)據(jù)標(biāo)注,整理和ETL( Extract,Transform,Load)自動(dòng)化的研究是大數(shù)據(jù)研究的重要課題。
ETL,用來(lái)描述將數(shù)據(jù)從來(lái)源端經(jīng)過(guò)提?。╡xtract)、轉(zhuǎn)換(transform)、加載(load)至目的端的過(guò)程,也是對(duì)數(shù)據(jù)集成各個(gè)過(guò)程的集成和自動(dòng)化過(guò)程[2]。ETL 通過(guò)提取和轉(zhuǎn)換完成數(shù)據(jù)清洗、標(biāo)準(zhǔn)化和語(yǔ)義建模的過(guò)程,使原始數(shù)據(jù)轉(zhuǎn)換成人、機(jī)都能理解的有效信息。ETL 的核心在于減少繁復(fù)的數(shù)據(jù)預(yù)處理中的人工干預(yù),自動(dòng)化完成數(shù)據(jù)整合的各個(gè)步驟。其難點(diǎn)在于通過(guò)人工智能的方法對(duì)原始數(shù)據(jù)進(jìn)行自動(dòng)化標(biāo)注,并利用語(yǔ)義分析的方法將被標(biāo)注的對(duì)象加入語(yǔ)義網(wǎng)絡(luò)。
(4)對(duì)于數(shù)據(jù)的標(biāo)準(zhǔn)化和統(tǒng)一化,質(zhì)量控制是關(guān)鍵技術(shù)。在標(biāo)準(zhǔn)化的過(guò)程中,需要特別重視數(shù)據(jù)質(zhì)量控制。仍以 mRNA 分析基因表達(dá)為例,相對(duì)于基因芯片產(chǎn)生的少量高質(zhì)量數(shù)據(jù),mRNA 測(cè)序技術(shù)產(chǎn)生基因序列數(shù)據(jù)量較大,但可靠性較差。通常的基因表達(dá)分析結(jié)果中都需要加注每個(gè)基因序列片段分析結(jié)果的質(zhì)量,對(duì)于質(zhì)量較差的片段,通常的分析中一般不予采用。
我們主持的“歐洲轉(zhuǎn)化醫(yī)學(xué)信息與知識(shí)管理服務(wù)”(European Translational Information & Know ledge Managem ent Services,eTRIKS)項(xiàng)目就是以數(shù)據(jù)標(biāo)準(zhǔn)化和質(zhì)量控制為目標(biāo)的一個(gè)典型的數(shù)據(jù)質(zhì)量工程。eTRIKS是由歐洲創(chuàng)新藥物計(jì)劃(Innovative M edicines Initiative)發(fā)起的 5 年科研總經(jīng)費(fèi)達(dá) 2 300 萬(wàn)歐元的研發(fā)項(xiàng)目,由世界 12 大制藥廠參與,旨在建設(shè)基于云計(jì)算的全歐洲范圍內(nèi)的醫(yī)學(xué)研究標(biāo)準(zhǔn)大數(shù)據(jù)平臺(tái),成為歐盟醫(yī)學(xué)臨床研究的大數(shù)據(jù)標(biāo)準(zhǔn)。由全球性非盈利性組織 tranSMART 基金會(huì)主導(dǎo)開(kāi)發(fā)的知識(shí)管理平臺(tái)是 eTRIKS 平臺(tái)的核心系統(tǒng)。它以系統(tǒng)級(jí)的方法來(lái)解決數(shù)據(jù)集成和理解的問(wèn)題,其具體架構(gòu)如圖 1 所示。
圖1 歐洲轉(zhuǎn)化醫(yī)學(xué)信息與知識(shí)管理服務(wù)(eTRIKS)項(xiàng)目技術(shù)框架圖
此平臺(tái)上的研究主要包括生物信息數(shù)據(jù)聯(lián)邦、高效數(shù)據(jù)存儲(chǔ)架構(gòu)設(shè)計(jì)以及相關(guān)數(shù)據(jù)索引技術(shù)。生物信息數(shù)據(jù)聯(lián)邦主要用于解決生物信息的多元化帶來(lái)的異構(gòu)信息抽象和整合等問(wèn)題,使得各種數(shù)據(jù)源可以依據(jù)其自身特點(diǎn),以各自特有的模式進(jìn)行低成本、高效率存儲(chǔ)和處理。例如,基因芯片所產(chǎn)生的數(shù)據(jù)主要存儲(chǔ)在 CEL 格式的元信息矩陣和數(shù)據(jù)信息矩陣中,高通量測(cè)序數(shù)據(jù)結(jié)果多存儲(chǔ)在 FASTA 或 FASTQ 文件中,而單核苷酸多態(tài)性統(tǒng)計(jì)數(shù)據(jù)多以關(guān)系型數(shù)據(jù)庫(kù)模型存儲(chǔ)。一個(gè)復(fù)雜的病理研究通常需要綜合多種來(lái)源的各種信息共同計(jì)算,而數(shù)據(jù)聯(lián)邦通過(guò)抽象和整合這些多元數(shù)據(jù),使得這種基于混合數(shù)據(jù)結(jié)構(gòu)的高效海量數(shù)據(jù)計(jì)算成為可能。
在考慮多種信息集中處理的同時(shí),我們也關(guān)注于對(duì)各類數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)的優(yōu)化[3,4],通過(guò)引入先進(jìn)的存儲(chǔ)技術(shù)提高數(shù)據(jù)的存取效率。例如,數(shù)據(jù)科學(xué)中心設(shè)計(jì)實(shí)現(xiàn)的 CGC 索引(Collaborating Global Clustering Index)是針對(duì)遺傳信息的高效數(shù)據(jù)存儲(chǔ)和檢索方法。
3.2 數(shù)據(jù)感知與交互
隨著傳感器技術(shù)及其產(chǎn)業(yè)的發(fā)展,傳感網(wǎng)絡(luò)大規(guī)模地被應(yīng)用于收集不同領(lǐng)域的數(shù)據(jù)[5],其進(jìn)一步所帶來(lái)的普適感測(cè)促進(jìn)了物聯(lián)網(wǎng)這個(gè)新興領(lǐng)域的發(fā)展[6],帶來(lái)了廣闊的未來(lái)潛在應(yīng)用,包括產(chǎn)品追蹤、智慧環(huán)境、社會(huì)感知、智能設(shè)備、災(zāi)害預(yù)測(cè)等等[7]。 面對(duì)感知大數(shù)據(jù),如何構(gòu)建針對(duì)物聯(lián)網(wǎng)的通用高性能數(shù)據(jù)處理平臺(tái),及研究針對(duì)物聯(lián)網(wǎng)和大數(shù)據(jù)感測(cè)的高性能數(shù)據(jù)管理方法成為關(guān)鍵。
在這方面,數(shù)據(jù)科學(xué)研究所提出了“認(rèn)知感知”的方法論,認(rèn)為感知數(shù)據(jù)的作用在于建立、驗(yàn)證和糾正模型。一旦一個(gè)目標(biāo)感知對(duì)象被建模之后,其模型預(yù)測(cè)將與感知數(shù)據(jù)進(jìn)行比對(duì),如果模型正確,則無(wú)需進(jìn)一步數(shù)據(jù)采集和模型修正;如果模型失效,說(shuō)明目標(biāo)對(duì)象出現(xiàn)新的行為或原模型粗糙,這時(shí)才需要進(jìn)一步采集數(shù)據(jù)并修正模型。這種方法被叫做“認(rèn)知感知”是因?yàn)樗鹾现悄苌锔兄澜绲姆椒?,智能生物包括人類能在有限認(rèn)知計(jì)算資源的限制下實(shí)現(xiàn)與動(dòng)態(tài)環(huán)境的均衡,其目標(biāo)可以說(shuō)是優(yōu)化自由能量(Free energy)或最小化驚奇(M inimize surprise)[8]?;谶@種認(rèn)識(shí),我們?cè)诟兄到y(tǒng)中,將認(rèn)知定義為優(yōu)化主觀認(rèn)知分布和客觀分布之間 KL 距離的建模行為,而感知行為被看做是減小此 KL 距離與實(shí)際 KL 距離的措施。為了實(shí)現(xiàn)這種感知和認(rèn)知,我們解決了兩方面的問(wèn)題:如何調(diào)整模型和模型空間來(lái)適應(yīng)感知對(duì)象的變化;如何減少感知維度。
感知之后的數(shù)據(jù)除了分析建模之外,一個(gè)重要的研究方法是數(shù)據(jù)可視化。數(shù)據(jù)可視化是研究如何將數(shù)據(jù)以形象化的方式展現(xiàn)出來(lái)的一門(mén)科學(xué)。它主要專注于分析,以連貫和簡(jiǎn)短的形式把大量的信息展現(xiàn)出來(lái),而抽取何種數(shù)據(jù)進(jìn)行形象化的抽象,本身就蘊(yùn)含了對(duì)數(shù)據(jù)如何應(yīng)用的科學(xué)思維。在大數(shù)據(jù)背景下,大規(guī)模的多維的數(shù)據(jù)正在被快速地產(chǎn)生和積累。如何更有效地探索數(shù)據(jù)、理解數(shù)據(jù)以及表達(dá)數(shù)據(jù)成為一項(xiàng)重要的研究課題。
通過(guò)圖形化地表達(dá)數(shù)據(jù),人可以利用自身復(fù)雜的視覺(jué)系統(tǒng)直接參與到數(shù)據(jù)探索和交流的過(guò)程中。這使得很多復(fù)雜的數(shù)據(jù)可以更有效地被分析和理解。數(shù)據(jù)可視化成為數(shù)據(jù)科學(xué)的重要組成部分的主要原因有兩個(gè):第一,由于人類視覺(jué)系統(tǒng)十分擅長(zhǎng)模式識(shí)別,通過(guò)圖形可視化數(shù)據(jù)以及相關(guān)的分析結(jié)果,可以更容易更準(zhǔn)確地理解數(shù)據(jù)中的有效信息。第二,數(shù)據(jù)可視化技術(shù)可以很大程度地幫助人們交流和傳播大數(shù)據(jù)所蘊(yùn)含的有效信息和重要發(fā)現(xiàn)。
由此可見(jiàn),可視化不是數(shù)據(jù)分析的結(jié)果,而是數(shù)據(jù)分析的過(guò)程。如何建立一個(gè)能支持發(fā)現(xiàn)科學(xué)直觀的可視化環(huán)境是非常重要的,在這方面我們做了大量的工作,建立了全球最大的數(shù)據(jù)可視化設(shè)施“全球數(shù)據(jù)觀察站”(圖 2),幾十個(gè)電腦屏幕組成的動(dòng)態(tài)數(shù)據(jù)圖像準(zhǔn)確銜接,其背后蘊(yùn)含的是并行運(yùn)算、多項(xiàng)目管理、編程,以及對(duì)數(shù)據(jù)的深刻理解。在數(shù)據(jù)觀察站中實(shí)現(xiàn)了各種實(shí)時(shí)交互的可視化應(yīng)用,比如全球比特幣交易的實(shí)時(shí)數(shù)據(jù)可視化,個(gè)性化醫(yī)療系統(tǒng)可視化,上海地鐵運(yùn)行分析的數(shù)據(jù)可視化等,實(shí)時(shí)處理和展示隨時(shí)間變化的各種類型的數(shù)據(jù)。
圖2 數(shù)據(jù)可視化平臺(tái)及應(yīng)用
我們所處理的數(shù)據(jù)源不再是靜態(tài)的,它會(huì)隨著數(shù)據(jù)的實(shí)時(shí)變化進(jìn)行即時(shí)接受、處理并更新可視化數(shù)據(jù)。這種方式的數(shù)據(jù)可視化可以幫助人們觀察到最新的即時(shí)數(shù)據(jù)并理解其對(duì)舊數(shù)據(jù)產(chǎn)生的影響??山换サ臄?shù)據(jù)可視化分析可以讓人利用可視化信息與系統(tǒng)進(jìn)行交互,并在此過(guò)程中進(jìn)一步得到相關(guān)信息提取和挖掘的結(jié)果。在這個(gè)交互過(guò)程中,人可以在充分理解數(shù)據(jù)可視化信息的基礎(chǔ)上,根據(jù)不同的目的主動(dòng)探索和發(fā)現(xiàn)所需要的數(shù)據(jù)結(jié)果。這可以極大地提升數(shù)據(jù)探索和挖掘的效率。
與此同時(shí),人在與數(shù)據(jù)可視化進(jìn)行交互的過(guò)程中也可以產(chǎn)生新的數(shù)據(jù)。這些數(shù)據(jù)可以被收集和分析,以學(xué)習(xí)人與系統(tǒng)交互的具體情況。例如,在數(shù)據(jù)觀察站我們可以利用眼動(dòng)追蹤設(shè)備來(lái)實(shí)時(shí)記錄人眼在屏幕上注視點(diǎn)的位置。這些位置點(diǎn)形成的熱點(diǎn)圖可以清晰地展示出人對(duì)于數(shù)據(jù)可視化最關(guān)注的部分。這些數(shù)據(jù)可以幫助我們?cè)O(shè)計(jì)和創(chuàng)造出更有效的或者更吸引人的數(shù)據(jù)可視化系統(tǒng)。同時(shí),人的眼動(dòng)情況也提供了一種新的與系統(tǒng)交互的途徑。系統(tǒng)可以通過(guò)探測(cè)人關(guān)注點(diǎn)的具體位置進(jìn)行實(shí)時(shí)更新,例如展示額外信息等。新的交互方式毫無(wú)疑問(wèn)會(huì)對(duì)人與數(shù)據(jù)可視化系統(tǒng)的交互產(chǎn)生積極的影響。
3.3 數(shù)據(jù)學(xué)習(xí)與認(rèn)知
研究所進(jìn)行數(shù)據(jù)學(xué)習(xí)與認(rèn)知研究是從實(shí)際出發(fā),為了應(yīng)用服務(wù)的機(jī)器學(xué)習(xí)。沒(méi)有應(yīng)用背景的數(shù)據(jù)科學(xué)研究會(huì)缺乏影響力,沒(méi)有對(duì)數(shù)據(jù)科學(xué)理論的扎實(shí)研究也做不出好的應(yīng)用。我們關(guān)注的實(shí)際問(wèn)題包括功能核磁共振或者腦電圖推斷有效連接(effective connectivity)腦網(wǎng)絡(luò);基于微流控技術(shù)得到的蛋白質(zhì)熒光表達(dá)推斷基因網(wǎng)絡(luò)結(jié)構(gòu); 印度西北部平原地下水水位趨勢(shì)變化預(yù)測(cè);中國(guó)省會(huì)城市交通網(wǎng)絡(luò)車輛速度和流量的預(yù)測(cè);計(jì)量經(jīng)濟(jì)學(xué)中經(jīng)濟(jì)變量的因果性推斷。這些科學(xué)問(wèn)題都是由數(shù)據(jù)驅(qū)動(dòng)的研究,而這些問(wèn)題中的數(shù)據(jù)都可以用時(shí)間序列來(lái)描述。時(shí)間序列模型的主要目的是對(duì)系統(tǒng)的物理本質(zhì)有洞察力的解釋和根據(jù)已有的歷史數(shù)據(jù)對(duì)未來(lái)進(jìn)行預(yù)測(cè)。
基于貝葉斯理論和數(shù)據(jù)同化理論,我們團(tuán)隊(duì)致力于開(kāi)發(fā)貝葉斯學(xué)習(xí)引擎(Bayesian Learning Engine)進(jìn)行時(shí)間序列數(shù)據(jù)建模 。貝葉斯學(xué)習(xí)引擎由兩部分構(gòu)成:大數(shù)據(jù)建模(Data Modelling)引擎和大數(shù)據(jù)同化(Data Assimilation)引擎。數(shù)據(jù)建模和數(shù)據(jù)同化用來(lái)做模型篩選的思想可以總結(jié)為同化學(xué)習(xí)理論(Assim ilated Learning)。
大數(shù)據(jù)建模引擎基于貝葉斯理論構(gòu)建,其實(shí)現(xiàn)分為如下步驟:(1)確定數(shù)據(jù)的似然函數(shù)。(2)選取適當(dāng)?shù)哪P徒Y(jié)構(gòu)。一方面由于所研究的科學(xué)問(wèn)題所在領(lǐng)域的特點(diǎn)不同,選取的模型結(jié)構(gòu)往往具有很大的差別,而且往往是非線性的。比如在生化網(wǎng)絡(luò)和基因網(wǎng)絡(luò)中,模型中方程必須要遵循化學(xué)反應(yīng)動(dòng)力學(xué)原理,也就是模型的形式只能用多項(xiàng)式和有理函數(shù)來(lái)描述;比如在描述天氣系統(tǒng)、生態(tài)系統(tǒng)的混沌震蕩系統(tǒng)中,模型也往往是具有多項(xiàng)式形式;而在描述電力系統(tǒng)、通訊網(wǎng)絡(luò)系統(tǒng)時(shí),模型一般具有三角函數(shù)形式;在腦網(wǎng)絡(luò)的動(dòng)力因果模型(Dynam ic Causal M odel)描述中[8],函數(shù)的形式限制于一階和二階多項(xiàng)式形式。即便是具備了一定的領(lǐng)域知識(shí),由于非線性函數(shù)形式的無(wú)窮性,模型空間維數(shù)仍然極高。另一方面,如果系統(tǒng)具有高維的狀態(tài)變量,比如基因網(wǎng)絡(luò)中的基因數(shù)目,那么情形會(huì)更加嚴(yán)重,模型選擇將面臨很大的挑戰(zhàn)。(3)根據(jù)先驗(yàn)知識(shí)和系統(tǒng)的特點(diǎn)構(gòu)造先驗(yàn)概率,用于刻畫(huà)模型中隱藏變量的不確定程度。而這個(gè)不確定程度往往由超參數(shù)刻畫(huà)。值得注意的是,超參數(shù)的個(gè)數(shù)往往小于或者等于候選模型中的隱含變量個(gè)數(shù)。
接下來(lái)我們對(duì)后驗(yàn)概率積分獲得邊緣似然函數(shù),通過(guò)對(duì)其分析,一個(gè)令人喜悅的發(fā)現(xiàn)是對(duì)于不同的先驗(yàn)概率構(gòu)造,我們只需求解一系列的平滑函數(shù)加變權(quán)重L1范數(shù)規(guī)則化優(yōu)化問(wèn)題[9]。而這類優(yōu)化問(wèn)題的集中化解法或者分布式解法已經(jīng)被廣泛地研究,基于不同的分布式計(jì)算平臺(tái)與計(jì)算架構(gòu),比如 MapReduce、Hadoop、Spark/ Shark 可以比較直觀地實(shí)現(xiàn)并行化。
除此之外,模型選擇依然面臨著其他問(wèn)題。首先,這類優(yōu)化問(wèn)題的一個(gè)問(wèn)題是對(duì)規(guī)則參數(shù)的調(diào)試,不同的規(guī)則參數(shù)下會(huì)得到不同的模型。另外,如果起始選擇了不同的候選模型,最后優(yōu)化得到的模型往往更加不唯一。而且模型選擇原則,比如赤池信息量準(zhǔn)則(AIC)和貝葉斯信息量準(zhǔn)側(cè)(BIC)往往相差不大,導(dǎo)致模型很難區(qū)分。
數(shù)據(jù)同化技術(shù)[10]可以對(duì)數(shù)據(jù)引擎得到的模型集合進(jìn)行在線篩選。它能幫助一個(gè)動(dòng)態(tài)模型不斷地將觀測(cè)數(shù)據(jù)的有用信息反饋進(jìn)入原有的模型中,一方面能改良無(wú)法觀測(cè)的物理量,從而不斷地把模型的(預(yù)測(cè))輸出逼近現(xiàn)實(shí),另一方面可以不斷地修正模型,在線做出模型選擇。
3.4 數(shù)據(jù)交換與經(jīng)濟(jì)
大數(shù)據(jù)時(shí)代的到來(lái),不僅僅意味著更多數(shù)據(jù)被收集和被處理,更為重要的是,數(shù)據(jù)實(shí)實(shí)在在成為改變個(gè)人和社會(huì)的力量。眾多案例[11-13]已向我們展示了大數(shù)據(jù)的應(yīng)用價(jià)值,然而一個(gè)技術(shù)要深刻地推進(jìn)社會(huì)發(fā)展,它需要從具有應(yīng)用價(jià)值發(fā)展為具有“應(yīng)用+經(jīng)濟(jì)”的雙重價(jià)值。
從經(jīng)濟(jì)價(jià)值的眼光來(lái)看大數(shù)據(jù),我們可以看到所謂的“數(shù)據(jù)”在整條價(jià)值鏈上處在起點(diǎn)的位置。數(shù)據(jù)從一開(kāi)始作為原材料,到最后成為產(chǎn)品提供給用戶,其中經(jīng)歷了一系列的加工和增值過(guò)程,包括清理[14]、語(yǔ)義化[15]、融合[16]、分析[17]、建模[18]、知識(shí)提取[19]、應(yīng)用[20]、分發(fā)[21]等關(guān)鍵步驟,如同一個(gè)工業(yè)產(chǎn)品,從原材料到最終產(chǎn)品形態(tài)再到市場(chǎng),是一個(gè)復(fù)雜的價(jià)值鏈,需要精巧的協(xié)同工作。而在目前大部分的大數(shù)據(jù)研究中,關(guān)注點(diǎn)還在于這些具體過(guò)程的技術(shù)基礎(chǔ),我們相信隨著整個(gè)大數(shù)據(jù)生態(tài)環(huán)境的建立,每個(gè)步驟背后的經(jīng)濟(jì)因素將成為最大的推動(dòng)力量。
要推動(dòng)從數(shù)據(jù)到數(shù)據(jù)產(chǎn)品的價(jià)值鏈,有很多關(guān)鍵的經(jīng)濟(jì)問(wèn)題需要考慮,其中一個(gè)核心的問(wèn)題是數(shù)據(jù)作為資產(chǎn)的定價(jià)問(wèn)題。數(shù)據(jù)與其他原材料在4個(gè)方面有很大不同:(1)數(shù)據(jù)的使用不會(huì)帶來(lái)數(shù)據(jù)的消耗,它的開(kāi)發(fā)不是排他的,甚至反而是利他的;(2)聚合后的數(shù)據(jù)比單獨(dú)的數(shù)據(jù)更有價(jià)值,也應(yīng)該具有更高的價(jià)格;(3)同樣種類的數(shù)據(jù),不同來(lái)源的數(shù)據(jù)具有不同的價(jià)值,這點(diǎn)在醫(yī)療數(shù)據(jù)中尤為突出;(4)同樣的數(shù)據(jù)在不同的使用者看來(lái),也是價(jià)值各異。在這些特殊的條件中,如何對(duì)數(shù)據(jù)資產(chǎn)定價(jià)是一個(gè)很難的問(wèn)題,我們認(rèn)為采用一種基于市場(chǎng)協(xié)商的價(jià)格或許更為現(xiàn)實(shí)可行。
有了定價(jià),還需要交易。目前很多概念仍需考察,例如交易是代表了數(shù)據(jù)所有權(quán)的轉(zhuǎn)移?還是僅僅出讓了使用權(quán)?數(shù)據(jù)作為一種容易復(fù)制和分發(fā)的資產(chǎn),如何控制其再交易?另外一方面,定價(jià)和交易的問(wèn)題同樣存在于整個(gè)數(shù)據(jù)價(jià)值鏈上,例如對(duì)數(shù)據(jù)產(chǎn)品如何定價(jià)?目前基于app的交易模式是否是最合理的?
解決這些核心問(wèn)題,有利于找到適合大數(shù)據(jù)產(chǎn)品和大數(shù)據(jù)經(jīng)濟(jì)的商業(yè)模式。目前很多商業(yè)模式初現(xiàn)雛形,例如基于眾包的數(shù)據(jù)收集和基于用戶數(shù)據(jù)收集的精確廣告等。然而很多商業(yè)模式其經(jīng)濟(jì)模型曖昧不明,在數(shù)據(jù)定價(jià)、用戶隱私等方面缺乏明晰思考和監(jiān)管。總體來(lái)說(shuō),整個(gè)價(jià)值鏈上的商業(yè)模式尚處起步,大有研究和發(fā)展空間。
由大數(shù)據(jù)經(jīng)濟(jì)推動(dòng)的各個(gè)參與者(數(shù)據(jù)提供者、加工者、產(chǎn)品開(kāi)發(fā)者、發(fā)布商、用戶等)最終會(huì)形成一個(gè)生態(tài)環(huán)境。一個(gè)好的生態(tài)環(huán)境會(huì)促進(jìn)各個(gè)參與者的效益和效率,并提高從技術(shù)到效能再到效益的轉(zhuǎn)化。目前此生態(tài)環(huán)境初見(jiàn)雛形,但在很多方面缺乏體系支持。以隱私為例,目前在用戶和數(shù)據(jù)收集者之間缺乏一個(gè)有效的隱私保護(hù)機(jī)制。針對(duì)這個(gè)問(wèn)題,我們提出了一種新的移動(dòng)隱私保護(hù)模型(Pay-by-Data,PbD模型[22]),用于控制以下這類常見(jiàn)問(wèn)題:在目前的機(jī)制下,手機(jī)應(yīng)用可以在用戶不知情或無(wú)力控制的情況下,獲取用戶大量移動(dòng)端數(shù)據(jù)。在 PbD 模型中,定義了一種新的應(yīng)用價(jià)格,即數(shù)據(jù);并建立了一種新的開(kāi)發(fā)者與用戶之間的關(guān)系,使得用戶可以對(duì)他們的數(shù)據(jù)有更強(qiáng)的控制。模型讓用戶知道他們哪些數(shù)據(jù)被收集,而這些用戶數(shù)據(jù)的使用也被顯式地告知用戶,并通過(guò)新的粒度更低的認(rèn)證機(jī)制來(lái)控制。此模型同時(shí)使得用戶可以從數(shù)據(jù)交易中獲得獎(jiǎng)勵(lì)。這種顯式的數(shù)據(jù)-服務(wù)交換使得我們可以建立一種以市場(chǎng)機(jī)制為調(diào)節(jié)手段的數(shù)據(jù)定價(jià)和交易方法。在過(guò)去的兩年中,我們團(tuán)隊(duì)完成了 PbD 的計(jì)算模型并完成了其原型系統(tǒng),包括 PbD 市場(chǎng)、數(shù)據(jù)交易價(jià)格、PbD 開(kāi)發(fā) SDK和一個(gè)定制的 PbD Android 操作系統(tǒng)。
其他的支持體系包括法律、知識(shí)產(chǎn)權(quán)等方面,其中一個(gè)有意思的方向是科學(xué)領(lǐng)域的數(shù)據(jù)知識(shí)產(chǎn)權(quán),或者說(shuō)數(shù)據(jù)出版。這個(gè)問(wèn)題涉及到科學(xué)數(shù)據(jù)如何被開(kāi)發(fā)利用,尤其是在學(xué)界之外的開(kāi)發(fā)利用。這其中同樣有經(jīng)濟(jì)模型的問(wèn)題,例如科研經(jīng)費(fèi)如何對(duì)數(shù)據(jù)獲取、處理和發(fā)布進(jìn)行支持,以及如何建立對(duì)數(shù)據(jù)科學(xué)家的聲譽(yù)和激勵(lì),從而在科學(xué)數(shù)據(jù)領(lǐng)域形成良好生態(tài)。我們?cè)诖祟I(lǐng)域做了一些初步工作,進(jìn)行了一個(gè)大規(guī)模的數(shù)據(jù)出版調(diào)查,并出版了第一期的數(shù)據(jù)出版調(diào)查報(bào)告,調(diào)查圍繞數(shù)據(jù)出版話題,側(cè)重從數(shù)據(jù)出版動(dòng)機(jī)、數(shù)據(jù)出版方式、數(shù)據(jù)出版運(yùn)營(yíng)模式以及數(shù)據(jù)出版質(zhì)量評(píng)價(jià) 4 大維度出發(fā),來(lái)了解世界范圍內(nèi)科學(xué)研究領(lǐng)域科學(xué)家對(duì)于科學(xué)數(shù)據(jù)出版相關(guān)內(nèi)容的看法和態(tài)度,并針對(duì)數(shù)據(jù)出版的意義價(jià)值及其操作層面的諸多問(wèn)題予以探討,以期全面了解數(shù)據(jù)出版發(fā)展現(xiàn)狀,并試圖探索推進(jìn)數(shù)據(jù)出版事業(yè)未來(lái)發(fā)展、為促進(jìn)科學(xué)數(shù)據(jù)交流共享提供積極建議。
大數(shù)據(jù)為人類社會(huì)提供了又一次新的資源機(jī)遇,其具有已有自然資源所不具備的許多特征。如它的超可再生性——數(shù)據(jù)的使用本身并不消耗數(shù)據(jù),相反,還會(huì)產(chǎn)生新的數(shù)據(jù);它的非競(jìng)爭(zhēng)性使用—— 一方對(duì)數(shù)據(jù)的占有并不限制其他人對(duì)這份數(shù)據(jù)的擁有。這些特征使得數(shù)據(jù)資源的使用不僅可以像其他的自然資源一樣產(chǎn)生能量與財(cái)富,而且可以完全改變?nèi)祟惖纳鐣?huì)組織結(jié)構(gòu)和行為方式。所以,對(duì)數(shù)據(jù)科學(xué)研究必須站在社會(huì)發(fā)展、新的經(jīng)濟(jì)模式、新的工業(yè)體系、新的創(chuàng)新產(chǎn)品、新的生活方式以及新的科學(xué)研究的方法等宏觀角度來(lái)進(jìn)行系統(tǒng)化的科學(xué)研究。
1 Hey T, Tansley S, Tolle K, et al. The fourth paradigm: dataintensive scientific discovery. General Collection, 2009, 317(8): 1. 2 Vassiliadis Panos. A survey o f Extract-transform-Load technology. International Journal of Data Warehousing and M ining, 2009, 5(3): 1-27.
3 Wang S, Pandis I, Wu C, et al. High dimensional Biological data retrieval optim ization w ith NoSQL technology. BMC Genom ics,2014, 15 (8): 1.
4 Wang S, Pandis I, Johnson D, Emam, et al. Optim ising parallel R correlation matrix calculations on gene expression data using MapReduce. BMC Bioinformatics, 2014, 15 (1): 351.
5 Zhu T, Xiao S, Zhang Q, et al. Emergent Technologies in Big Data Sensing: A Survey. International Journal of Distributed Sensor Networks 2015, 2015: 1-13.
6 Zaslavsky A, Perera C, Georgakopoulos D. Sensing as a Service and Big Data. Proc. Int. Conf. Adv. Cloud Com put.Doi: arXiv:1301.0159.
7 Aggarwal C C, Ashish N, Sheth A. The Internet of Thinys :A Surrey from the Data Centric Perspectire, Managing and Mining Sensor Data. 383-428 (2014). Doi:10.1007/978-1-4614-6309-2_12.
8 Friston K J, Harrison L W. Dynam ic causal m odelling. Neuroimage, 2010,5 (4): 1273-1302.
9 Pan W, Yuan Y, Goncalves J, et al. A sparse bayesian approach to the identification o f non linear state-space system s. IEEE Transaction on Automatic Control, 2015, 61 (1): 1.
10 Evensen G. Data assim ilation: the ensemb le Kalman filter. Springer Science & Business Media, 2009.
11 Ahnn J H. Big data com puting for the personalization of services and its applicaiton to speech recognition. International Symposium on Big Data Computing, London, 2015.
12 Manyika J, Chui M, Brown B, et al. Big data: The next frontier for innovation, com petition, and productivity. Analytics, 2011.
13 Andrew M A, Erik B., et al. Big data: the management revolution. Harvard Business Review, 2012, 90 (10): 60-67.
14 Rahm E, Hong H D. Data cleaning: Problem s and current approaches. IEEE Data Engineerhy Bulletin. 2000, 23 (23): 3-13.
15 Auer S, Bizerc, Kobilaror G, et al. Dbpedia: A nucleus for a web of open data. The Semantic web. Springer Berlin Heidelberg,2007, 4825: 722-735.
16 Hall D L, James L. An introduction to multisensor data fusion. Proceedings of the IEEE, 1997, 85 (1): 6-23.
17 Trnka A. Big data analysis.European Journal of Science and Theology, 2014, 10 (1): 143-148.
18 Wu X D, Zhu X, Wu G Q, et al. Data m ining w ith big data. IEEE Transactions on Know ledge and Data Engineering, 2014, 26 (1):97-107.
19 Chen H, Chiang R HL, Storey V C, Business Intelligence and Analytics: From Big Data to Big Impact. M IS quarterly 2012, 36(4): 1165-1188.
20 M urdoch T B, Detsky A S. The inevitable application of big data to health care. Jama the Journal of American M ediael Association. 2013, 309 (13): 1351-1352.
21 Naim i A I, Westreich D J. Big data: A revolution that w ill transform how we live, w ork, and think. In formation Commwnicotion & Society, 2013, 17 (1): 181-183..
22 Wu C, Guo Y K. Enhanced user data privacy w ith pay-by-data model. 2013 IEEE International Conference on Big Data, 2013:53-57.
郭毅可英國(guó)帝國(guó)理工學(xué)院計(jì)算系教授,帝國(guó)理工學(xué)院數(shù)據(jù)科學(xué)研究所所長(zhǎng)。1985年畢業(yè)于清華大學(xué)計(jì)算機(jī)系,獲工學(xué)學(xué)士學(xué)位。1993年在英國(guó)帝國(guó)理工學(xué)院獲得計(jì)算機(jī)博士學(xué)位,博士期間研究方向?yàn)橛?jì)算邏輯及陳述性語(yǔ)言編程,其畢業(yè)論文獲1994年英國(guó)帝國(guó)理工學(xué)院最佳博士畢業(yè)論文。2002年被聘為帝國(guó)理工學(xué)院計(jì)算機(jī)系終身正職教授,在當(dāng)時(shí)是英國(guó)最年輕的教授之一。其主要研究領(lǐng)域包括大數(shù)據(jù)管理與分析、分布式數(shù)據(jù)挖掘、網(wǎng)格計(jì)算、云計(jì)算、傳感器網(wǎng)絡(luò)及生物信息學(xué)等。1999年創(chuàng)立了帝國(guó)理工計(jì)算系的第一個(gè)派生公司InforSense,并于1999年至2008任該公司首席執(zhí)行官。InforSense有限公司于2009年6月為國(guó)際知名科學(xué)數(shù)據(jù)管理公司英國(guó)IDBS公司并購(gòu),迄今他一直擔(dān)任IDBS公司首任首席創(chuàng)新官。2012出任全球性非盈利性組織tranSMART基金會(huì)的首席技術(shù)官。2011年至2013年擔(dān)任清華大學(xué)信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室講席教授。2012年成為首批上海市千人計(jì)劃入選者、上海特聘專家,并為北京市人民政府“海外人才工作顧問(wèn)”?,F(xiàn)任上海市產(chǎn)業(yè)研究院大數(shù)據(jù)首席科學(xué)家,中科院深圳先進(jìn)技術(shù)院健康大數(shù)據(jù)中心主任,及上海大學(xué)計(jì)算機(jī)學(xué)院院長(zhǎng)。E-mail: y.guo@imperial.ac.uk
Yike GuoProfessor of Computing Science in the Department of Computing at Imperial College London. He is the founding Director of the Data Science Institute at Imperial College, as well as leading the Discovery Science Group in the department. Professor Guo also holds the position of CTO of the tranSMART Foundation, a global open source community using and developing data sharing and analytics technology for translational medicine. Professor Guo received a first-class honours degree in Computing Science from Tsinghua University, China, in 1985 and received his PhD in Com putational Logic from Im perial College in 1993 under the supervision of Professor John Darlington. He founded InforSense, a software company for life science and health care data analysis, and served as CEO for several years before the company's merger w ith IDBS, a global advanced R&D software provider, in 2009. He has been working on technology and platforms for scientific data analysis since the m id-1990s, where his research focuses on know ledge discovery, data m ining and large-scale data management. He has contributed to numerous major research projects including: the UK EPSRC platform project, Discovery Net; the Wellcome Trust-funded Biological A tlas of Insulin Resistance (BAIR); and the European Comm ission U-BIOPRED project. He is currently the Principal Investigator of the European Innovative Medicines Initiative (IM I) eTRIKS project, a €23M project that is building a cloud-based informatics platform, in which tranSMART is a core com ponent for clinico-genom ic medical research, and co-Investigator of Digital City Exchange, a £5.9M research programme exploring ways to digitally link utilities and services w ithin smart cities. Professor Guo has published over 200 articles, papers and reports. Projects he has contributed to have been internationally recognised, including w inning the “Most Innovative Data Intensive Application Award” at the Supercomputing 2002 conference for Discovery Net and the Bio-IT World “Best Practices Award for U-BIOPRED in 2014. He is a Senior Member of the IEEE and is a Fellow of the British Computer Society. E-mail: y.guo@imperial.ac.uk
Big Data for Better Science
Guo YikePan WeiYu Sim iaoWu ChaoWang Shicai
(Data Science Institute, Imperial College London, London SW7 2AZ, UK)
Data driven scientific research has now gain great prosperity. However, we believe that the principle task of data science is to understand the basic problems w ithin data research. In this paper, based on our experience in building the Data Science Institute in Imperial College London, we consider data science as the core of interdisciplinary research, and discuss the whole pipeline of data science research,including data integration and understanding, data sensing and interaction, data learning and cognition, and data exchange and economy. We discuss these basic scientific problems based on our practices in practice. We hope the work presented in this paper can bring thinking and discussion in a larger scale.
big data, data science, data-driven scientific research
10.16418/j.issn.1000-3045.2016.06.002
*修改稿收到日期:2016 年 5月19日