• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    大數(shù)據(jù)研究在意大利的遠景

    2016-03-15 06:08:32SoniBergmsiEmnueleCrliniMielngeloCeiBrrFurlettiFosGinnottiDontoMlerMrioMezznzniAnnMonreleGriellPsiDinoPeresiRelePeregoSlvtoreRuggieri
    工程 2016年2期

    Soni Bergmsi, Emnuele Crlini, Mielngelo Cei, Brr Furletti, Fos Ginnotti, Donto Mler,e,*, Mrio Mezznzni, Ann Monrele, Griell Psi*, Dino Peresi,, Rele Perego, Slvtore Ruggieri

    aDepartment of Engineering “Enzo Ferrari,” University of Modena and Reggio Emilia, Modena 41125, Italy

    bHigh Perform ance Computing Laboratory, Institute of Information Science and Technologies of the Italian National Research Council (ISTI-CNR), Pisa 56124, ItalycDepartment of Computer Science, University of Bari Aldo Moro, Bari 70125, Italy

    dKnowledge Dis covery and Data Mining Laboratory, ISTI-CNR, Pisa 56127, Italy

    eBig Data Labo ratory, National Interuniversity Consortium for Informatics, Rome 00185, Italy

    fDepartment of Statistics and Quantitative Methods, University of Milano-Bicocca, Milan 20126, Italy

    gDepartment of Computer Science, Systems and Communications, University of Milano-Bicocca, Milan 20126, Italy

    hDepartment of Computer Science, University of Pisa, Pisa 56127, Italy

    大數(shù)據(jù)研究在意大利的遠景

    Sonia Bergamaschia, Emanuele Carlinib, Michelangelo Cecic, Barbara Furlettid, Fosca Giannottid, Donato Malerbac,e,*, Mario Mezzanzanicaf, Anna Monrealed, Gabriella Pasig,*, Dino Pedreschid,h, Raffele Peregob, Salvatore Ruggierih

    aDepartment of Engineering “Enzo Ferrari,” University of Modena and Reggio Emilia, Modena 41125, Italy

    bHigh Perform ance Computing Laboratory, Institute of Information Science and Technologies of the Italian National Research Council (ISTI-CNR), Pisa 56124, ItalycDepartment of Computer Science, University of Bari Aldo Moro, Bari 70125, Italy

    dKnowledge Dis covery and Data Mining Laboratory, ISTI-CNR, Pisa 56127, Italy

    eBig Data Labo ratory, National Interuniversity Consortium for Informatics, Rome 00185, Italy

    fDepartment of Statistics and Quantitative Methods, University of Milano-Bicocca, Milan 20126, Italy

    gDepartment of Computer Science, Systems and Communications, University of Milano-Bicocca, Milan 20126, Italy

    hDepartment of Computer Science, University of Pisa, Pisa 56127, Italy

    article info

    Article history:

    Received 16 December 2015 Revised 4 June 2016

    Accepted 13 June 2016

    Available online 30 June 2016

    大數(shù)據(jù)

    智慧城市

    能源

    工作機會

    隱私

    這篇文章的目的在于綜述在大數(shù)據(jù)背景下一些意大利大學(xué)正在從事的研究項目。本文不求面面俱到,目的是提供從意大利不同領(lǐng)域收集到的有關(guān)大數(shù)據(jù)管理方面的問題的實際解決方案。

    ? 2016 THE AUTHORS.Published by Elsevier LTD on behalf of Chinese Academy of Engineering and Higher Education Press Limited Company.This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).

    1.引言

    在過去的幾年中,無論是在研究中心、學(xué)院還是行業(yè),與大數(shù)據(jù)相關(guān)的計劃、活動和項目激增。每天產(chǎn)生的與社會生活各個方面相關(guān)的數(shù)據(jù)(包括手機數(shù)據(jù)、社會數(shù)據(jù)、城市相關(guān)數(shù)據(jù)、基于網(wǎng)絡(luò)的數(shù)據(jù)和健康相關(guān)數(shù)據(jù))為觀察和了解人們的喜好和行為,以及利用這些信息以改善人們生活的某些方面,提供了前所未有的機會。

    針對這個顛覆性的變化——一個開辟了新的經(jīng)濟學(xué)領(lǐng)域的變化——歐洲委員會要求各國政府要意識到這場“大數(shù)據(jù)”革命?。與美國相比,歐洲的數(shù)字經(jīng)濟確實在接受數(shù)據(jù)革命方面進展較慢,而且也缺乏可比的工業(yè)能力。為了擺脫這種落后的局面,一筆數(shù)量可觀的基金已經(jīng)建立起來,并將由歐盟委員會以及歐洲各國提供用以支持由大數(shù)據(jù)產(chǎn)生的價值相關(guān)的研究和創(chuàng)新活動。為了妥善地達到這個目標(biāo),必須考慮各種問題,包括功能強大而技術(shù)上滿足支持密集的數(shù)據(jù)驅(qū)動計算的設(shè)施的確定(包括硬件和軟件),以及建立能從不同領(lǐng)域的數(shù)據(jù)中正確并高效地提取知識的多學(xué)科團隊。

    盡管起步較晚,歐洲的大數(shù)據(jù)市場占據(jù)了第二大市場份額,占到了全球大數(shù)據(jù)市場收入的20%[1]。德國、英國、法國和意大利是這個市場的核心國家。尤其是意大利的大數(shù)據(jù)市場在去年增長迅猛,并且預(yù)計不久會有私人和公共部門的重要投資。這篇簡短的調(diào)查報道了意大利大學(xué)在應(yīng)對大數(shù)據(jù)挑戰(zhàn)時所做的一些應(yīng)用和項目,重點報道了與提高城市居民生活相關(guān)的項目。作為與大數(shù)據(jù)管理相關(guān)的技術(shù)應(yīng)用的有趣案例,第4部分描述了以監(jiān)測能源生產(chǎn)和消耗為目的的系統(tǒng);與此同時,第5部分全面地介紹了一個以分析從5個歐盟國家搜集到的網(wǎng)絡(luò)空缺職位及從數(shù)據(jù)中提取職位所需要的技能為目的的模型。

    值得注意的是,這篇調(diào)查并沒有面面俱到,無論是與之相關(guān)的活躍的研究小組(這種小組的數(shù)量遠比文中提到的要多)還是項目,在意大利都遠遠多于調(diào)查中所報道的這些。這篇調(diào)查的主要目的在于給讀者提供一些關(guān)于目前學(xué)術(shù)界正在解決這一重大問題的思考。

    最近一項關(guān)于大數(shù)據(jù)的國家倡議是以CINI大數(shù)據(jù)實驗室為代表提出。CINI(www.consorzio-cini.it)是意大利國家校際信息聯(lián)盟,由41所意大利公立大學(xué)組成,致力于促進和協(xié)調(diào)在計算機科學(xué)和計算機工程內(nèi)多個領(lǐng)域的、涵蓋理論和應(yīng)用的科學(xué)研究活動和技術(shù)轉(zhuǎn)讓。這個聯(lián)盟是大數(shù)據(jù)價值協(xié)會(www.bdva.eu)的創(chuàng)始成員。大數(shù)據(jù)價值協(xié)會是歐盟委員會在制定和實施歐洲大數(shù)據(jù)戰(zhàn)略研究議程的行業(yè)領(lǐng)袖型的契約伙伴。此外,CINI大數(shù)據(jù)實驗室關(guān)注數(shù)據(jù)在全國領(lǐng)土內(nèi)的分布,致力于成為意大利大數(shù)據(jù)及數(shù)據(jù)科學(xué)領(lǐng)域知識和技術(shù)發(fā)展的專家中心。33所意大利大學(xué)和將近300位研究人員目前已經(jīng)加入這項倡議。

    第2部分簡要介紹了不同的意大利大學(xué)和研究機構(gòu)在解決大數(shù)據(jù)問題和致力于提高人們生活的各個方面所做的一些項目。這些項目與不同應(yīng)用領(lǐng)域息息相關(guān),包括了解城市動態(tài)、意大利醫(yī)療保健系統(tǒng)、預(yù)測光伏發(fā)電廠的能源產(chǎn)量和管理工作機會。最后兩個部分分別論述了隱私和大數(shù)據(jù)可用性這兩個重要議題。

    2.通過手機數(shù)據(jù)了解人和城市動態(tài)

    城市一直都是一個由人、物、環(huán)境和活動組成的復(fù)雜系統(tǒng),他(它)們的快速演變也不可避免地增加了復(fù)雜性。這個事實也促使科學(xué)家擯棄了傳統(tǒng)的模型驅(qū)動分析范式,而更熱衷于數(shù)據(jù)驅(qū)動的方法,開啟了大數(shù)據(jù)分析時代。人們每天通過與設(shè)備、社交媒體和其他技術(shù)系統(tǒng)交互產(chǎn)生的數(shù)字信號,為從多種角度研究和理解城市動態(tài)和社會行為提供了前所未有的機會。理解這些動態(tài)意味著可以預(yù)見現(xiàn)象所造成的影響,并幫助政策和規(guī)劃者回應(yīng)公民的需求。

    事實上,手機數(shù)據(jù)可用于研究和度量城市以及市民的位置,它讓我們在城市尺度上分辨出人們的位置[2–4],重現(xiàn)他們的流動性[5–8]和社會性[9],并研究城市中這些事件的影響[4,10]。

    2.1.手機和出發(fā)地–目的地(OD)矩陣估計

    對人們在老地方之間的位置和流動進行評估可用于重建一個出發(fā)地–目的地(OD)矩陣[5,6],這有助于推斷出交通需求以及理解人們對基礎(chǔ)設(shè)施的要求。在文獻[6]中,作者對個人通話軌跡進行了長期的分析,在兩個最重要的地點之間重建具有規(guī)律性的活動(即高頻率活動)。這樣的地點是通過分析一個人在哪些地點打了最多的電話所確定的,通常與家和工作聯(lián)系在一起。在確定了這些地點之間的規(guī)律性活動之后,OD矩陣總結(jié)了空間區(qū)域之間的預(yù)期交通流。

    2.2.手機用于新人口統(tǒng)計學(xué)和城市用戶估計

    估計和監(jiān)測社會現(xiàn)象的可能性增加了人們使用大數(shù)據(jù)支持官方統(tǒng)計的興趣[5]。由于管理類數(shù)據(jù)無法高頻次地搜集,并且往往不包含準(zhǔn)確的移動信息,因此,通話數(shù)據(jù)正在被越來越多地用于整合傳統(tǒng)數(shù)據(jù)源,如用于建設(shè)城市的長期觀測數(shù)據(jù)庫[3]和確定城市用戶的實際類型。在文獻[2]和[4]中提出了社會性測量量表——一個旨在將手機用戶分為不同行為類別的分析框架。分析過程從構(gòu)建時空分布開始,整合了人在所有興趣地的定位。然后通過運用一種數(shù)據(jù)挖掘的方法,了解不同人的類別,這樣屬于居民、動態(tài)居民、通勤者和游客的注釋簡介就產(chǎn)生了。在文獻[5]中,從社會性測量量表的結(jié)果出發(fā),創(chuàng)建了一個在直轄市尺度下的OD矩陣,目的是用于觀測城市內(nèi)部的人的流動。這種統(tǒng)計數(shù)據(jù)可以與國家統(tǒng)計局(意大利)的統(tǒng)計數(shù)據(jù)相媲美,它為整合現(xiàn)有人口和由手機數(shù)據(jù)實時估算出的流動統(tǒng)計數(shù)據(jù)提供了一種安全途徑。

    2.3.手機、流動多樣性和經(jīng)濟發(fā)展

    當(dāng)需要通過調(diào)查社會現(xiàn)狀以改善生活條件時,研究就會變得越來越具有挑戰(zhàn)性。在文獻[8]中,作者從全國手機數(shù)據(jù)中提取了一種分析每個人的流動多樣性和流動數(shù)量的方法,并研究了外部社會經(jīng)濟指標(biāo)之間的相關(guān)性。多樣性被定義為一個用戶軌跡的熵,流動的量是通過測量一個人移動的特征距離所得到的。實驗表明,流動性是和幸福指標(biāo)(如教育水平、失業(yè)率、收入和免職)相關(guān)的,證明了流動行為可以很好地預(yù)測城市的社會經(jīng)濟發(fā)展。在另外一項社會層面的探索中,文獻[9]通過比較流動性和從電話中提取的社會網(wǎng)絡(luò)得到了一個很有趣的結(jié)論。運動中的相似性和社會網(wǎng)絡(luò)中的臨近性呈現(xiàn)出很強的關(guān)聯(lián),從中可以得出那些在網(wǎng)絡(luò)中不連接的人但在拓撲上緊密并有相似移動模式的人,很有可能在未來建立起社會聯(lián)系。

    2.4.手機和大事件預(yù)測

    監(jiān)測并記錄人們對于大事件的反應(yīng)的可能性引起了公共管理學(xué)的極大興趣[10]。類似的研究可以應(yīng)用在對城市事件的影響的分析上[4],以設(shè)計出針對安全和流動性的充足預(yù)案。文獻[10]提出了相關(guān)性模式分析——一個提取了由城市中各種事件引起的不同區(qū)域之間的內(nèi)在關(guān)系的過程。通過在同一尺度上分析通話的密度,人的數(shù)量就可以被估計,并且利用時間和空間約束的序列模式就可以分析出人的數(shù)量的顯著協(xié)變量。文獻[4]提出了一種在城市尺度通過由社會性測量量表得出的人口分析結(jié)果衡量事件(如節(jié)日、音樂和藝術(shù)表演以及季節(jié)性活動)影響力的方法。通過統(tǒng)計學(xué)方法和多分類分析,對一個興趣區(qū)域內(nèi)和在一個特定時間范圍內(nèi)城市用戶構(gòu)成的變化進行了分析。多分類分析使我們發(fā)現(xiàn)當(dāng)將分析從一個小區(qū)域(如城市歷史中心)移動到大區(qū)域(如城市郊區(qū))時人口的構(gòu)成是如何變化的。實驗證明,社會性測量量表可以在城市尺度確定人的構(gòu)成,并且整套方法對于測量大型活動在中小城市中的影響力是有效的。

    2.5.人口流動性的手機模型

    由于這些數(shù)據(jù)具有無處不在的特性并不斷擴散,人口動力學(xué)出現(xiàn)了新的特征。在將近10年被視為隨機游走或者Lévy flight(列維飛行)的人口流動,如今已經(jīng)顯現(xiàn)出了一種不排除模式上異質(zhì)性的高度的時空規(guī)律。通過研究手機軌跡的回旋半徑,發(fā)現(xiàn)人們只在少數(shù)地點度過大量的時間。這個結(jié)果允許科學(xué)家更深入地研究流動性,并發(fā)現(xiàn)個人的移動距離特征的多變性也意味著其未來位置的可預(yù)測程度高。這個明顯的矛盾可以通過進一步分析系統(tǒng)性的運動來解釋,研究發(fā)現(xiàn)兩種新的旅行者類型:回歸者和探索者。回歸者的系統(tǒng)性流動是通過他們的回旋半徑估計的,特征是反復(fù)在幾個首選地點之間移動。而探索者則傾向于在更多的不同地點間移動,并且他們的系統(tǒng)性流動對于整體流動的貢獻很小[7]。

    3.意大利醫(yī)療保健大數(shù)據(jù)案例

    基于由大量醫(yī)療數(shù)據(jù)提取出的醫(yī)學(xué)知識證據(jù),標(biāo)準(zhǔn)的醫(yī)療保健體系正在逐步地建立。在所有發(fā)達國家,醫(yī)療保健供應(yīng)商收集并管理了大量復(fù)雜、種類不同的數(shù)據(jù)。大量的可用數(shù)據(jù)實際上保證了醫(yī)療保健體系不斷完善的可能,涵蓋了個性化醫(yī)療、疾病預(yù)防和有效的醫(yī)療保健組織[11]。然而,由于大量患者從不同供應(yīng)商獲得醫(yī)療保健,造成了電子健康數(shù)據(jù)在眾多組織中碎片化地傳播。因此,整合和協(xié)調(diào)這些數(shù)據(jù),變得越來越重要。

    在此背景下,由于其普遍的覆蓋范圍和區(qū)域管理,意大利以稅收為基礎(chǔ)的公共醫(yī)療保健系統(tǒng)面臨著獨特的挑戰(zhàn)。意大利是世界上人口老齡化最嚴重的國家之一,為了防止并發(fā)癥和殘疾(以確保國家經(jīng)濟的可持續(xù)性),對于患者而言,有效地管理慢性疾病[12]是最重要的。

    意大利的醫(yī)療保健系統(tǒng)的組織是分層并分散的。國家層面負責(zé)確定醫(yī)療保健系統(tǒng)的總目標(biāo)和基本原則。在另一方面,區(qū)域政府(共21個)負責(zé)通過基層醫(yī)療衛(wèi)生單位(LHU,平均每個區(qū)域10所)提供醫(yī)療保健服務(wù)。由于這些醫(yī)療衛(wèi)生單位分散獨立,因此醫(yī)療保健數(shù)據(jù)管理系統(tǒng)不可互操作。在這種背景下,國家區(qū)域醫(yī)療服務(wù)機構(gòu)(AGENAS——協(xié)調(diào)區(qū)域醫(yī)療保健系統(tǒng)的國家機構(gòu)),與托斯卡納的區(qū)域健康機構(gòu)(ARS)和意大利國家研究委員會合作,共同開發(fā)大數(shù)據(jù)分析平臺,致力于提供對區(qū)域單位管理的電子健康記錄做統(tǒng)一分析的工具。

    THEMATRIX

    THEMATRIX平臺支持全生命周期的所有大數(shù)據(jù)分析,包括從分布式數(shù)據(jù)采集、存儲到設(shè)計和分析的并行部署及結(jié)果的展示。平臺允許通過支持公共數(shù)據(jù)的提取和重新映射,實現(xiàn)區(qū)域信息系統(tǒng)極端多樣化的隱藏。這一過程通過記錄每位市民和公共醫(yī)療保障系統(tǒng)的所有交互來實現(xiàn)。

    數(shù)據(jù)模型和數(shù)據(jù)存儲技術(shù)所在區(qū)域?qū)用娴亩鄻有院彤愘|(zhì)性集中構(gòu)成了數(shù)據(jù)收集工作面臨的挑戰(zhàn)。盡管數(shù)據(jù)模型在國家層面已經(jīng)很普遍,但很少或者根本沒有應(yīng)用于地區(qū)層面。此外,LHU在選擇數(shù)據(jù)管理技術(shù)方面有絕對的自由度,導(dǎo)致了數(shù)據(jù)存儲服務(wù)和訪問接口(包括開源安裝到全面企業(yè)數(shù)據(jù)庫)方案的不斷繁殖。正在開發(fā)的THEMATRIX平臺,從LHU收集到了長期的數(shù)據(jù),并將這些數(shù)據(jù)以共同的格式管理以供綜合研究。數(shù)據(jù)收集的一個重要方面就是數(shù)據(jù)的匿名性。事實上,當(dāng)電子健康數(shù)據(jù)被管理時,隱私就是最引人關(guān)注的問題之一[11]。我們的數(shù)據(jù)收集機制根據(jù)由國家隱私局(National Authority of Privacy)設(shè)立的指導(dǎo)方針將病患記錄做了匿名處理。在隱藏患者身份的同時,數(shù)據(jù)的模糊性允許執(zhí)行非常有用的跨區(qū)域分析。這個過程在地區(qū)層面實施并在國家層面推行,個人身份信息的隱藏并沒有削弱國家層面進行分析獲取的價值。

    數(shù)據(jù)分析界面讓流行病學(xué)家能靈活地訪問數(shù)據(jù),還為他們提供了可以用來定義提取(基于一定規(guī)則的算法)到的信息的圖形界面。數(shù)據(jù)轉(zhuǎn)換和分析開發(fā)了一種靈活的特定領(lǐng)域語言,為研究區(qū)域內(nèi)部和全國范圍關(guān)于人口健康和疾病狀態(tài)的模式、原因和影響提供了可能??删幊逃嬎阋鎸⑦\算工作組織為一個有向非循環(huán)圖(DAG),其中每一個節(jié)點代表一個要應(yīng)用在患者記錄流(stream of patient records)上的任務(wù)。

    先前對選定飛行員進行的研究都集中在識別和預(yù)測少數(shù)幾種慢性病,如糖尿病或心血管疾病。由于大量數(shù)據(jù)可用,用來計算這些情況的效率和有效性的關(guān)鍵績效指標(biāo)允許區(qū)域公共醫(yī)療保健系統(tǒng)可以在比較客觀的基礎(chǔ)上進行比較,預(yù)測算法的質(zhì)量也得以加強。到目前為止,該平臺已經(jīng)在意大利全國試點LHU內(nèi)和兩個區(qū)域機構(gòu)內(nèi)部署并測試??捎玫臄?shù)據(jù)包括4年內(nèi)700萬居民的行政記錄。為了完善基于醫(yī)療保健數(shù)據(jù)的預(yù)測模型,60萬患者已經(jīng)與特定患者的健康狀況做了匿名匹配,并由在意大利負責(zé)調(diào)解患者和公共醫(yī)療保健系統(tǒng)關(guān)系的主要保健醫(yī)生進行評估。明年,計劃在至少10個區(qū)域(覆蓋一半以上意大利人口)部署THEMATRIX分析解決方案的項目。為了支持這個國家級的大型數(shù)據(jù)分析挑戰(zhàn),DAG計算的并行化將會增強。其要求是提供一套針對LHU硬件異質(zhì)性特點的靈活而有效的開發(fā),硬件類型涵蓋了從低規(guī)格商品機器到大企業(yè)集群支持的Apache Spark和Hadoop。

    4.能源大數(shù)據(jù)

    減少污染排放這一迫切需求使得可再生能源成為一個戰(zhàn)略領(lǐng)域[13],尤其是對歐盟而言。這導(dǎo)致了可再生能源的涌現(xiàn)以及具有重要意義的分布式發(fā)電的產(chǎn)生。這個新能源市場面臨的主要挑戰(zhàn)有網(wǎng)格集成、負載均衡和能源交易。首先,將這樣的分布式可再生能源整合到電網(wǎng)中,同時要避免依賴降低和配電損失,是一項艱巨的任務(wù)。事實上,可再生能源,如光伏數(shù)組,在它們的能源輸出中是可變的和間斷的,因為產(chǎn)生的能量也可能取決于一些不可控因素,如天氣情況[14]。其次,能源市場上的主角——在供應(yīng)鏈中扮演供求雙方的分銷商和一些小公司,在為他們的顧客計劃能源供給時,也不得不面對需求和供給的不確定性。再次,由單一來源(尤其是從可再生能源)生產(chǎn)的能源有助于確定每天或者每小時市場的最終結(jié)算價格[15],這使得能源市場非常有競爭性,對于局外人而言猶如迷宮。

    為了應(yīng)對這樣的挑戰(zhàn),在地區(qū)以及全球?qū)用姹O(jiān)測能源的生產(chǎn)和消費,儲存歷史數(shù)據(jù),并設(shè)計新的可靠的預(yù)測工具具有極其重要的地位。虛擬電源運行中心(Vi-POC)項目致力于原型的設(shè)計和實施,以便達成該目標(biāo)[16,17]。由于數(shù)據(jù)量龐大且具有異質(zhì)性,為了能高效地訪問這些不能通過傳統(tǒng)數(shù)據(jù)管理手段獲得的數(shù)據(jù),利用合適的大數(shù)據(jù)分析技術(shù)是非常有必要的。然后,由于新的(低成本)技術(shù)的可用性,小的供應(yīng)商也能夠收集到關(guān)于他們自己業(yè)務(wù)的數(shù)據(jù)。事實上,從小的發(fā)電廠獲得的數(shù)據(jù)是相當(dāng)異質(zhì)的,這些源源不斷的數(shù)據(jù)持續(xù)快速地增長。這些數(shù)據(jù)按照持續(xù)的(快速的)頻率到達并且數(shù)量不斷增長。此外,為了考慮不可控制的因素,如天氣條件,有必要儲存來自于氣象服務(wù)組織的天氣觀測信息和預(yù)測信息(如溫度、濕度、風(fēng)速等)。

    從這個角度看,開發(fā)Vi-POC項目為(可再生)能源供應(yīng)商提供了一個數(shù)據(jù)收集、儲存、分析、查詢和檢索框架,而這些數(shù)據(jù)來自于廣泛分布的多樣化的發(fā)電廠(如光伏、風(fēng)、地?zé)?、斯特林發(fā)動機和自來水)。此外,Vi-POC項目的一大特點便是整合發(fā)電廠數(shù)據(jù)和天氣服務(wù)數(shù)據(jù)的產(chǎn)能實時預(yù)測系統(tǒng)。

    Vi-POC項目設(shè)計了一個用于存儲天氣信息數(shù)據(jù)和工廠傳感器數(shù)據(jù)的HBase存儲系統(tǒng)。通過客戶端運行數(shù)據(jù)挖掘算法,這些數(shù)據(jù)可以用來預(yù)測工廠未來24/48小時內(nèi)的產(chǎn)能。每個發(fā)電廠都會定時發(fā)送傳感器搜集的數(shù)據(jù)。時間的間隔是基于發(fā)電廠的類型和容積所設(shè)定的。由于是在給定的時間內(nèi)通過多個傳感器搜集,從發(fā)電廠搜集到的數(shù)據(jù)往往包含了不同的測量方式。事實上,發(fā)電廠之間傳感器的數(shù)量和型號可能存在差異。另外,預(yù)測的數(shù)據(jù)包含基于給定時間和地點的多種天氣預(yù)測參數(shù)。

    對于(可再生)能源的預(yù)測,在文獻中,已經(jīng)提出了幾種數(shù)據(jù)挖掘的方法。研究人員通常在兩類方法之間進行區(qū)分:物理的和統(tǒng)計的。前者依靠基于物理考量(障礙物和山志學(xué))[18]和測量數(shù)據(jù)(模型輸出統(tǒng)計方法或者MOS)[19]的天氣預(yù)測數(shù)值的優(yōu)化;而后者則基于模型建立歷史數(shù)值和預(yù)測變量之間的關(guān)系。

    盡管已經(jīng)存在應(yīng)用于可再生能源預(yù)測中學(xué)習(xí)自適應(yīng)模型的數(shù)據(jù)挖掘算法[15,20],但是在時空信息、學(xué)習(xí)環(huán)境和使用算法的考量上,仍未達成一致。Vi-POC框架中應(yīng)用的預(yù)測模型包括以下分析。

    (1) 時空自相關(guān)性[21]:地球物理現(xiàn)象具有這樣的特性能獲得更準(zhǔn)確的預(yù)測。空間自相關(guān)性是通過對兩個空間統(tǒng)計數(shù)據(jù)進行分析,即空間聯(lián)系的局部指標(biāo)(LISA)和主軸鄰距法(PCNM),而時間自相關(guān)性是通過分析不同形式的空間統(tǒng)計。

    (2) 學(xué)習(xí)環(huán)境:這個可通過每小時使用一個簡單的輸出預(yù)測或者使用一個結(jié)構(gòu)化的輸出預(yù)測模型(即一個24個元素的向量對應(yīng)第二天的24個小時)。

    (3) 學(xué)習(xí)算法:在學(xué)習(xí)自適應(yīng)模型方面,我們將常被用作預(yù)測光伏發(fā)電的人工神經(jīng)網(wǎng)絡(luò),與回歸樹和k近鄰算法(或應(yīng)用于Apache Spark框架中的最短k-NN[22])相比。兩組數(shù)據(jù)得出的結(jié)果顯示考慮時空自相關(guān)性是有益的。

    然而,最重要的方面是學(xué)習(xí)環(huán)境:結(jié)構(gòu)性的輸出預(yù)測設(shè)置在很大幅度上優(yōu)于非結(jié)構(gòu)性的輸出預(yù)測設(shè)置。最終,結(jié)果顯示回歸樹能提供比人工神經(jīng)網(wǎng)絡(luò)和k-NN預(yù)測模型更好的模型。

    5.工作供給和大數(shù)據(jù)

    通過專門的網(wǎng)絡(luò)勞動力市場端口和服務(wù)招聘的空缺職位在過去幾年內(nèi)急速增長,使得招聘(也被稱為“e招聘”)和勞動力市場分析(也被稱為勞動力市場智能)有了新方法。通俗地說,一個網(wǎng)絡(luò)空缺職位可以被看作一段在不同網(wǎng)站資源上刊登多次的原始文本,內(nèi)容詳述了職務(wù)名稱和一段長度不限的介紹,往往包含了一個應(yīng)聘者需要的技能。正如人們所想的,大量數(shù)據(jù)的收集、凈化、歸類和推理,對于公共和私營的勞動力市場運營者而言都是非常值得關(guān)注的,應(yīng)該考慮從不同觀點(如領(lǐng)土面積、新興職業(yè)和技能)來描述勞動力市場的趨勢和動態(tài)。在這樣的背景下,歐盟一直在努力定義一個國際技能/職業(yè)分類系統(tǒng)(如ESCO①ESCO is the multilingual classification of European Skills, Competences, Qualifications, and Occupations built on top of the International Standard Classifi cation System (ISCO).ESCO is part of the Europe 2020 strategy.),這將為跨國和跨語言研究勞動力市場動態(tài)的勞動力市場分析師和政策制定者提供一種通用語。

    在2015年,CRISP-UNIMIB②The Interuniversity Research Centre on Public Services-University of Milan-Bicocca.與米蘭比可卡大學(xué)(UNIMIB)計算機科學(xué)系統(tǒng)和通信學(xué)院中的信息檢索實驗室(IR-Lab)協(xié)作,開始研究由Cedefop③The European Center for the Development of Vocational Training.贊助的歐洲項目,該項目的目的是構(gòu)建一個(系統(tǒng))原型,用以分析在5個歐盟國家網(wǎng)絡(luò)上發(fā)布的空缺職位以及必要的技能。項目背后的原理就是提取網(wǎng)絡(luò)上發(fā)布的空缺職位數(shù)據(jù),將其轉(zhuǎn)化為支持勞動力市場智慧的知識(從而價值)。為此,著名的數(shù)據(jù)庫知識挖掘過程(KDD)[23]已經(jīng)被用作一種方法論框架。事實上,除了這個項目與全歐洲勞動力市場監(jiān)測系統(tǒng)之間的關(guān)系,它還體現(xiàn)了在大數(shù)據(jù)全景下的一些有趣的方面,因為它需要處理大數(shù)據(jù)背景下的4個“V”:數(shù)據(jù)的“量”(例如,隨著時間的推移所搜集到的空缺職位的數(shù)量不斷增加),通過哪家招聘平臺發(fā)布最新的和之前的空缺職位的“速度”,每個網(wǎng)絡(luò)資源(如半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))的不同數(shù)據(jù)特性的“多樣性”,以及“準(zhǔn)確性”,由于在多個資源中存在重復(fù)的職位空缺,或者需要被識別和處理的缺失信息。在下面的討論中,提供了一個過程的概述,突出了每一步中所針對的“V”以及所用的技術(shù)。

    在數(shù)據(jù)來源選擇這個步驟(準(zhǔn)確性),根據(jù)領(lǐng)域內(nèi)的專家們提供的質(zhì)量標(biāo)準(zhǔn)(如更新后的職位和領(lǐng)土的粒度)對70個網(wǎng)絡(luò)數(shù)據(jù)來源進行排名。在數(shù)據(jù)收集步驟(數(shù)量、速度、多樣性和準(zhǔn)確性)建立了由3個不同組件組成的一個抓取模塊,這3個組件分別是:①一個檢索網(wǎng)頁的下載器;②一個識別空缺職位主要(招聘)要求的提取器,并將這些要素儲存在一個數(shù)據(jù)庫中;③一個周期性地計劃和執(zhí)行所有抓取過程的監(jiān)視器。這個模塊已在內(nèi)部建成,通過使用Spring框架和Talend任務(wù)流程來處理網(wǎng)絡(luò)資源的高異質(zhì)性。在3個月中,已經(jīng)搜集到了歐洲5個國家的400萬個空缺職位。數(shù)據(jù)的清洗和歸類任務(wù)(數(shù)量、多樣性、準(zhǔn)確性)負責(zé)識別重復(fù)的空缺職位信息,并根據(jù)ESCO職業(yè)分類(大約436種職業(yè)項目)對其進行分類。注意到信息清洗是個曲折的過程,因為它可能會影響到隨后步驟的可信度(見文獻[24-26])。為此,使用了機器學(xué)習(xí)算法,因為它優(yōu)于在一個領(lǐng)域相關(guān)基準(zhǔn)[27]中的其他方法,并能在項目設(shè)置中達到高級別的分類精度(如從德國的79%最高可達捷克的98%)。

    分類模塊是使用SCiPy框架的自定義代碼構(gòu)建的。技能提取任務(wù)(數(shù)量、多樣性和準(zhǔn)確性)負責(zé)使用語言模型從空缺職位的描述中提取技能。根據(jù)ESCO職業(yè)分類標(biāo)準(zhǔn)中的數(shù)據(jù)分類就會被雇主所要求的技能信息所豐富,這樣就能詳細地描述一個通過網(wǎng)絡(luò)發(fā)布工作機會。

    最后,使用著名的D3.js可視化庫對幾個可視化模型進行了識別。這個過程中的一個終端產(chǎn)品(只關(guān)注意大利勞動力市場數(shù)據(jù))的例子就是WollyBI①http://www.wollybi.com/en/。

    總而言之,這個項目揭示了應(yīng)用智能化技術(shù)和數(shù)據(jù)工程來應(yīng)對在一個真實和特定領(lǐng)域背景下的大數(shù)據(jù)問題。研究結(jié)果為今后的工作鋪設(shè)了這幾條道路:首先,根據(jù)雇主的技能要求自動對相似的職業(yè)進行歸類;其次,基于圖模型展示所搜集到的知識,這對于一個包含了所有空缺職位(數(shù)以百萬計的節(jié)點)的一個大型而且高度動態(tài)的知識庫而言是一個自然且便捷的選擇。在項目部署之后,一個關(guān)于歐洲一些主要國家的網(wǎng)絡(luò)勞動力市場數(shù)據(jù)就會被搜集。這個具有高價值的知識庫將有利于勞動力市場智能領(lǐng)域的研究活動。

    6.大數(shù)據(jù)分析中的隱私和道德

    源于人類活動細枝末節(jié)的大數(shù)據(jù),作為我們每天使用的通信技術(shù)(ICT)系統(tǒng)的副產(chǎn)品,記錄著社會生活的多重維度:自動付款系統(tǒng)記錄了我們的消費軌跡;搜索引擎記錄了我們在網(wǎng)絡(luò)上的查詢?nèi)罩?;無線網(wǎng)絡(luò)和手機設(shè)備則記錄了我們的移動軌跡。這些描述人類活動的大數(shù)據(jù)就在一個虛擬化的“知識社會”的中心,其中對社會現(xiàn)象的認識就是通過社會挖掘技術(shù)不斷地從多社會維度的大數(shù)據(jù)中提取知識。因此,人類的數(shù)字軌跡的分析為理解復(fù)雜面創(chuàng)造了新的機會,例如,流動行為、經(jīng)濟和金融危機、流行病的蔓延和意見的擴散。然而,在數(shù)據(jù)處理和分析中的倫理問題的高風(fēng)險,以及建議和預(yù)測所帶來的倫理后果,要遠遠高于從這些數(shù)據(jù)中發(fā)現(xiàn)有趣模式的機會。幾個重要的倫理風(fēng)險包括:①隱私侵犯,發(fā)生在無約束地侵入研究對象的個人資料時;②歧視,當(dāng)被發(fā)現(xiàn)的信息不公平地用于制定針對某一類人(可能這些人不知道)的歧視性的決定時。

    然而,大數(shù)據(jù)和道德并非天敵。在文獻中,一些研究已經(jīng)表明許多基于大數(shù)據(jù)分析的實踐和應(yīng)用,可以被設(shè)計成一種與道德要求共存的高品質(zhì)結(jié)果的形式。其秘訣是設(shè)計開發(fā)執(zhí)行倫理價值要求的大數(shù)據(jù)分析技術(shù),為公平提供保障。

    在大數(shù)據(jù)分析隱私權(quán)保護的背景下,Monreale等[28]推薦最早由Ann Cavoukian在20世紀90年代提出的隱私設(shè)計范式的實例化——一種大數(shù)據(jù)分析服務(wù)設(shè)計。這個方法論在以下領(lǐng)域被應(yīng)用以保障隱私。

    6.1.數(shù)據(jù)發(fā)布中的隱私

    Monreale等[29]設(shè)計了一個移動數(shù)據(jù)發(fā)布的隱私保護方法,它使聚類分析用于理解人們在明確的城市區(qū)域內(nèi)的流動性行為。發(fā)布的軌跡是通過一個適當(dāng)?shù)倪^程實現(xiàn)匿名,實現(xiàn)了原始軌跡的一個廣義版本。通過應(yīng)用這個框架所獲得的結(jié)果顯示軌跡是如何通過匿名化,達到高級別的保護防止再度被識別,同時保存了挖掘軌跡集群的可能性。這個方法使得更新、更強大的信息流動分析服務(wù)或定位服務(wù)成為可能。

    6.2.數(shù)據(jù)挖掘外包中的隱私

    Giannotti等[30]設(shè)計一個在模式挖掘任務(wù)外包中的隱私保護方法。尤其是,結(jié)果顯示了一個公司是如何將交易數(shù)據(jù)外包給一個第三方,并以保護隱私的方式獲得數(shù)據(jù)挖掘的服務(wù)。在此設(shè)置中,不僅僅是基礎(chǔ)數(shù)據(jù),挖掘結(jié)果(戰(zhàn)略信息)也不會共享,并且必須保留隱私。在參考文獻[27]中所提出的隱私解決方案包括了應(yīng)用一種加密體系通過以下步驟改造原來的數(shù)據(jù)庫:①通過一個1-1替代功能取代原有數(shù)據(jù)庫中的每一條目;②通過對數(shù)據(jù)庫進行假的轉(zhuǎn)換的方法,即每個條目變得至少和其他所有條目(k–1)是沒有區(qū)別的?;谶@個簡單的思想,這個框架保證了不僅僅是個體條目,而且任何一組條目,都能在最壞的情況下與至少其他k組不被區(qū)分,而且事實上平均來看不止k組。這種保護意味著攻擊者有更小的概率在交易數(shù)據(jù)或者挖掘結(jié)果中猜到包含在其中的真實內(nèi)容。與之相反,數(shù)據(jù)所有者能夠利用有限的計算資源有效地解密由第三方機構(gòu)返還的正確的挖掘結(jié)果。

    6.3.分布式分析系統(tǒng)中的隱私

    Monreale等[31]提出了一種分布式移動數(shù)據(jù)分析中的隱私保護方法,主要針對當(dāng)一個不被信任的中央站收集了一些基于每個節(jié)點觀察到的移動數(shù)據(jù)流所計算得出的匯總統(tǒng)計的情況。這個中央站儲存收集到的統(tǒng)計信息,并基于從數(shù)據(jù)采集器中收集到的信息計算所有領(lǐng)土內(nèi)的交通概況。提出的框架通過應(yīng)用一個知名的隱私模型——“差異隱私”,從而保證能在個人層面保護隱私。尤其是,隱私技術(shù)能在節(jié)點的移動數(shù)據(jù)發(fā)送到不被信任的中央站前就對其進行擾亂。

    6.4.從數(shù)據(jù)中發(fā)現(xiàn)的歧視及其預(yù)防

    在分析歧視數(shù)據(jù)的背景下,主要分為兩個研究方向(見參考文獻[32]中的一項調(diào)查)。從數(shù)據(jù)中發(fā)現(xiàn)的歧視存在于真實發(fā)現(xiàn)的歧視現(xiàn)象以及隱藏在大量歷史決策記錄中的做法。最初被提出的是一個關(guān)于社會組織使用分類規(guī)則進行挖掘和過濾的直接或間接歧視的過程。這個過程是由以法律為基礎(chǔ)的歧視評估作為指導(dǎo),可能包括置信度的統(tǒng)計檢驗[32]。個體歧視被一個k-NN方法模型所取代,并應(yīng)用于一個研究項目資金的真實案例研究中[33]。

    歧視預(yù)防包括了從可能導(dǎo)致預(yù)測模型作出(可能是自發(fā)的)歧視決定的訓(xùn)練數(shù)據(jù)和學(xué)習(xí)算法中消除偏見。參考文獻[34]研究了防止歧視的數(shù)據(jù)凈化,首先將隱私的t-closeness模型變?nèi)醯揭粋€非歧視模型,然后通過使用最先進的數(shù)據(jù)凈化方法處理t-closeness。一個能同時處理隱私和歧視凈化的方法見參考文獻[35]。關(guān)于學(xué)習(xí)算法,有人提出了一種改良的基于規(guī)則分類器的投票機制以減少可能的歧視性規(guī)則的權(quán)重[32]。

    7.強化大數(shù)據(jù)的可用性

    7.1.大數(shù)據(jù)的實體解析

    網(wǎng)絡(luò)已經(jīng)成為結(jié)構(gòu)化和半機構(gòu)化數(shù)據(jù)的寶貴來源。大量的高質(zhì)量關(guān)系數(shù)據(jù)可以從HTML表格中提取[36],并且隨著網(wǎng)絡(luò)數(shù)據(jù)的出現(xiàn),大量作為鏈接數(shù)據(jù)的公開半結(jié)構(gòu)化數(shù)據(jù)呈指數(shù)性增長[37]。這些數(shù)據(jù)以數(shù)量大、品種多、變化快為特點,但與此同時,它們的準(zhǔn)確性和質(zhì)量也常常是個問題[38,39]?;谝陨线@些原因,這樣的數(shù)據(jù)常常被認為是“大數(shù)據(jù)”。數(shù)據(jù)真正的潛能往往體現(xiàn)在整合不同來源數(shù)據(jù)的時候,最近在網(wǎng)絡(luò)挖掘中提取實體、關(guān)系和本體以建立大型通用知識庫就可以作為論證,如Freebase和Yago[40]。對于企業(yè)、政府機構(gòu)和在大型科研項目的研究人員,如果能與他們已經(jīng)擁有的受限于傳統(tǒng)數(shù)據(jù)集成過程的數(shù)據(jù)相結(jié)合,這些數(shù)據(jù)甚至可以更有價值。

    能夠識別指向同一實體的記錄是使這些數(shù)據(jù)有意義的基礎(chǔ)步驟。一般來說,為了能夠?qū)崿F(xiàn)實體解析(ER),傳統(tǒng)的技術(shù)要求在數(shù)據(jù)源之間有一個模式對齊。不幸的是,大數(shù)據(jù)典型的特點就是高異質(zhì)性、高噪聲和非常大的數(shù)據(jù)量,造成傳統(tǒng)的模式對齊技術(shù)不再適用。例如,谷歌基地包含超過1萬個用10萬個獨特的圖形描述的實體類型;在這樣的情況下,執(zhí)行和維護一個模式對齊是行不通的[41]。

    最近,已經(jīng)提出了兩種技術(shù)以解決這些問題:①放棄挖掘模式信息并完全依賴于冗余來限制錯誤匹配機會的技術(shù)[42-44];②從數(shù)據(jù)中直接提取模糊模式信息,不執(zhí)行傳統(tǒng)的模式對齊的技術(shù),這對于ER是有用的[45]。后者的結(jié)果是最有保障的,但被研究得最少。事實上,遵循他們建議的方向,是有可能讓基于模式的ER技術(shù)支持大數(shù)據(jù)的,既保證了高查全率和精度,又不需要執(zhí)行不堪忍受的傳統(tǒng)的模式對齊步驟。

    7.2.大數(shù)據(jù)的探索

    在大數(shù)據(jù)時代,新的用戶界面需要與我們收集到的大量數(shù)據(jù)進行交互;否則,用戶將被數(shù)據(jù)淹沒。在參考文獻[46]中,提出了一種解決方案,可以幫助用戶將他們的注意力集中在一個小組相關(guān)的數(shù)據(jù),使用貝葉斯方法推斷用戶的選擇。在我們的試驗中,我們研究了一種利用在大數(shù)據(jù)背景中的用戶輸入推斷相關(guān)信息的方法。

    貝葉斯網(wǎng)絡(luò)增強的面瀏覽[47],通過分析用戶的選擇作為概率模型,為用戶推斷有價值的信息。面瀏覽是一種通過多個步驟應(yīng)用動態(tài)過濾器對數(shù)據(jù)進行探索的技術(shù):每次使用一個過濾器,結(jié)果就會顯示給用戶,用戶還可以應(yīng)用額外的過濾器或者調(diào)整現(xiàn)有的。在每一步驟中,顯示的過濾器和過濾器中的數(shù)值可能是不同的。

    所提出的方法對于在大數(shù)據(jù)環(huán)境中探索數(shù)據(jù)是有效的,即屬性的個數(shù)和值都很巨大。換而言之,面瀏覽所提供的優(yōu)勢就是過濾器的動態(tài)性。此外,對于用戶為了能動態(tài)地獲得最有用的過濾器,有必要利用用戶目前的選擇進行推斷。因此,通過利用圖形貝葉斯網(wǎng)絡(luò)概率模型對用戶的選擇進行分析,有可能推斷出對于他們最有價值的過濾器。圖模型是首選,主要因為它們易于理解、驗證和解釋結(jié)果。在這樣的背景下,貝葉斯網(wǎng)絡(luò)中的變量就是數(shù)據(jù)集的屬性。貝葉斯網(wǎng)絡(luò)被用于推測這些屬性之間的關(guān)系,用于計算一個用戶的選擇和其他網(wǎng)絡(luò)中屬性之間相關(guān)性的概率,然后將最相關(guān)的屬性展現(xiàn)為過濾器。此外,為了避免顯示太多的值,可以在過濾器中推斷出相似和不相似的值。為了總結(jié)過程,只有5個最相似和最不相似的值會展示給用戶。

    8.結(jié)論

    本文展示了一些在意大利進行的有關(guān)大數(shù)據(jù)的學(xué)術(shù)研究活動,內(nèi)容涵蓋了旨在提高人們生活的多個方面的應(yīng)用,以及兩個普遍性的重要問題——隱私和大數(shù)據(jù)的可用性。文中展現(xiàn)了一個多產(chǎn)的學(xué)術(shù)研究界,已經(jīng)能夠面對大數(shù)據(jù)目前在數(shù)量、速率、多樣性和準(zhǔn)確性上所帶來的挑戰(zhàn)。下一階段是與行業(yè)更緊密地合作,共同面對最實質(zhì)性的挑戰(zhàn):從大數(shù)據(jù)中創(chuàng)造價值。從這個意義上講,參與實施由大數(shù)據(jù)價值協(xié)會制定的歐洲戰(zhàn)略研究議程,以及從CINI“大數(shù)據(jù)”實驗室獲得支持,將會是至關(guān)重要的。

    Compliance with ethics guidelines

    Sonia Bergamaschi, Emanuele Carlini, Michelangelo Ceci, Barbara Furletti, Fosca Giannotti, Donato Malerba, Mario Mezzanzanica, Anna Monreale, Gabriella Pasi, Dino Pedreschi, Raffele Perego, and Salvatore Ruggieri declare that they have no confl ict of interest or fi nancial confl icts to disclose.

    [1] Europe Big Data market 2015-2020 [Internet].New York: PR Newswire Association LLC.; c2016 [updated 2016 May 3 0, cited 2016 Jun 12].Available from: http://www.prnewswire.com/news-releases/europe-big-data-market-2015---2020-300276656.html.

    [2] Furletti B, Gabrielli L, Renso C, Rinzivillo S.Anal ysis of GSM calls data for understanding user mobility behavior.In: Hu X, Lin TY, Raghavan V, Wah B, Baeza-Yates R, Fox G, et al., editors Proceedings of the 2013 IEEE International Conference on Big Data; 2013 Oct 6-9; Santa Clara, CA, USA; 2013.p.550-5.

    [3] Furletti B, Gabrielli L, Renso C, Rinzivillo S.Pisa t ourism fluxes observatory: deriving mobility indicators from GSM call habits.In: Proceedings of the 3rd International Conference on the Analysis of Mobile Phone Datasets; 2013 May 1-3; Cambridge, MA, USA; 2013.

    [4] Gabrielli L, Furletti B, Trasarti R, Giannotti F, Pedreschi D.City u sers’ classification with mobile phone data.In: Ho H, Ooi BC, Zaki MJ, Hu X, Haas L, Kumar V, et al., editors Proceedings of the 2015 IEEE International Conference on Big Data; 2015 Oct 29-Nov 1; Santa Clara, CA, USA; 2015.p.1007-12.

    [5] Furletti B, Gabrielli L, Giannotti F, Milli L, Nanni M, Pedreschi D.Use of mobile phone data to estimate mobility flows.Measuring urban population and inter-city mobility using big data in an integrated approach.In: Proceedings of the 47th SIS Scientific Meeting of the Italian Statistical Society; 2014 Jun 11-13; Cagliari, Italy; 2014.

    [6] Nanni M, Trasarti R, Furletti B, Gabrielli L,Van Der Mede P, De Bruijn J, et al.Transpor tation planning based on GSM traces: a case study on ivory coast.In: Nin J, Villatoro D, editors Citizen in sensor networks.Cham: Springer International Publishing; 2014.p.15-25.

    [7] Pappalardo L, Simini F, Rinzivillo S, Pedreschi D, Giannotti F, Barabási AL.Returners and explorers dichotomy in human mobility.Nat Commun 2015;6:8166.

    [8] Pappalardo L, Pedreschi D, Smoreda Z, Giannotti F.Using big data to study the link between human mobility and socio-economic development.In: Ho H, Ooi BC, Zaki MJ, Hu X, Haas L, Kumar V, et al., editors Proceedings of the 2015 IEEE International Conference on Big Data; 2015 Oct 29-Nov 1; Santa Clara, CA, USA; 2015.p.871-8.

    [9] Wang D, Pedreschi D, Song C, Giannotti F, Barabási AL.Human mobilit y, social ties, and link prediction.In: Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining; 2011 Aug 21-24; San Diego, CA, USA; 2011.p.1100-8.

    [10] Trasarti R, Olteanu-Raimond AM., Nanni M, Couronné T, Furletti B, Giannotti F, et al.Discovering urba n and country dynamics from mobile phone data with spatial correlation patterns.Telecommu Policy 2015;39(3-4):347-62.

    [11] Liu W, Park EK.Big data as an e-h ealth service.In: Proceedings of the 2014 IEEE International Conference on Computing, Networking and Communications; 2014 Feb 3-6; Honolulu, HI, USA; 2014.p.982-8.

    [12] Gini R, Francesconi P, Mazzaglia G, Cricelli I, Pasqua A, Gallina P, et al.Chronic disease prevalence from Italian administrative databases in the VALORE project: a validation through comparison of population estimates with general practice databases and national survey.BMC Public Health 2013;13(1):15.

    [13] Directive 2009/28/ EC of the European Parliament and of the Council on the promotion of the use of energy from renewable sources and amending and subsequently repealing Directives 2001/77/EC and 2003/30/EC.Official Journal of the European Union L 140; 2009 Jun 5.p.16-47.

    [14] Ioakimidis CS, Oliveira LJ, Genikomsakis KN.Wind power forecas ting in a residential location as part of the energy box management decision tool.IEEE Trans Ind Inform 2014;10(4):2103-11.

    [15] Bessa RJ, Miranda V, Gama J.Entropy and corren tropy against minimum square error in offline and online three-day ahead wind power forecasting.IEEE Trans Power Syst 2009;24(4):1657-66.

    [16] Ceci M, Cassavia N, Corizzo R, Dicosta P, Malerba D, Maria G, et al.Innovative power o perating center management exploiting big data techniques.In: Proceedings of the 18th International Database Engineering & Applications Symposium; 2014 Jul 7-9; Porto, Portugal.New York: ACM; 2014.p.326-9.

    [17] Ceci M, Corizzo R, Fumarola F, Ianni M, Malerba D, Maria G, et al.Big data techniques for supporting accurate predictions of energy production from renewable sources.In: Proceedings of the 19th International Database Engineering and Applications Symposium; 2015 Jul 13-15; Yokohama, Japan New York: ACM; 2015.p.62-71.

    [18] Bofinger S, Heilscher G.Solar electricity fore cast-approaches and first results.In: Proceedings of the 21st European Photov oltaic Solar Energy Conference; 2006 Sep 4-8; Dresden, Germany; 2006.p.4-8.

    [19] Pelland S, Galanis G, Kallos G.Solar and photovoltaic fo recasting through post-processing of the Global Environmental Multiscale numerical weather prediction model.Prog Photovoltaics 2013;21(3):284-96.

    [20] Sharma N, Sharma P, Irwin DE, Shenoy PJ.Predicting solar generati on from weather forecasts using machine learning.In: Proceedings of the 2011 IEEE International Conference on Smart Grid Communications; 2011 Oct 17-20; Brussels, Belgium; 2011.p.528-33.

    [21] Stojanova D, Ceci M, Appice A, D?eroski S.Network regression with predictive clustering trees.Data Min Knowl Disc 2012;25(2):378-413.

    [22] Zaharia M, Chowdhury M, Franklin MJ, Shenker S, Stoica I.Spark: cluster computing wi th working sets.In: Proceedings of the 2nd USEN IX Conference on Ho t Topics in Cloud Computing; 2010 Jun 22-25; Boston, MA, USA.Berkeley: USENIX Association; 2010.p.1765-73.

    [23] Fayyad U, Piatetsky-Shapiro G, Smyth P.The KDD process for extracting useful knowledge from volumes of data.Commun ACM 1996;39(11):27-34.

    [24] Boselli R, Cesarini M, Mercorio F, Mezzanzanica M.Planning meets data cleansing.In: Proceedings of the 24th International Conference on Automated Planning and Scheduling; 2014 Jun 21-26; Portsmouth, NH, USA; 2014.p.439-43.

    [2 5] Mezzanzanica M, Boselli R, Cesarini M, Mercorio F.Data quality sensitivity analy sis on aggregate indicators.In: Helfert M, Francalanci C, Felipe J, editors Proceedings of the International Conference on Data Technologies and Applications; 2012 Jul 25-27; Rome, Italy; 2012.p.97-108.

    [26] Mezzanzanica M, Boselli R, Cesarini M, Mercorio F.A model-based evaluation of data quality activities in KDD.Inform Process Manag 2015;51(2):144-66.

    [27] Amato F, Boselli R, Cesarini M, Mercorio F, Mezzanzanica M, Moscato V, et al.Challenge: processing web texts f or classifying job offers.In: Kankanhalli MS, Li T, Wang W, editors Proceedings of the 2015 IEEE International Conference on Semantic Computing; 2015 Feb 7-9; Anaheim, CA, USA; 2015.p.460-3.

    [28] Monreale A, Rinzivillo S, Pratesi F, Giannotti F, Pedreschi D.Privacy-by-design in big data analytics and social mining.EPJ Data Sci 2014;3(1):10.

    [29] Monreale A, Andrienko G, Andrienko NV, Giannotti F, Pedreschi D, Rinzivillo S, et al.Movement data anonymity through generalization.Trans Data Privacy 2010;3(2):91-121.

    [30] Giannotti F, Lakshmanan LVS, Monreale A, Pedreschi D, Wang H.Privacy-preserving mining of associat ion rules from outsourced transaction databases.IEEE Syst J 2013;7(3):385-95.

    [31] Monreale A, Wang WH, Pratesi F, Rinzivillo S, Pedreschi D, Andrienko G, et al.Privacy-preserving distributed move ment data aggregation.In: Vandenbroucke D, Bucher B, Crompvoets J, editors Geographic information science at the heart of Europe.Cham: Springer International Publishing; 2013.p.225-45.

    [32] Romei A, Ruggieri S.A multidisciplinary survey on discrimination analysis.Knowl Eng Rev 2014;29(5):582-638.

    [33] Romei A, Ruggieri S, Turini F.Discrimination discovery in scientific project evaluation: a case study.Expert Syst Appl 2013;40(15):6064-79.

    [34] Ruggieri S.Using t-closeness anonymity to contro l for non-discrimination.Trans Data Privacy 2014;7(2):99-129.

    [35] Hajian S, Domingo-Ferrer J, Monreale A, Pedreschi D, Giannotti F.Discrimination- and privacy-aware patterns.Data Min Knowl Disc 2015;29(6):1733-82.

    [36] Cafarella MJ, Halevy A, Wang ZD, Wu E, Zhang Y.WebTables: exploring the power of tables on the web.In: Proceedings of the Very Large Database Endowment; 2008 Aug 23-28; Auckland, New Zealand; 2008.p.538-49.

    [37] Bizer C, Heath T, Berners-Lee T.Linked data: the story so far.In: Sheth A, editor Semantic services, interoperability an d web applications: emerging concepts.Hershey: IGI Global; 2011.p.205-27.

    [38] Batini C, Rula A, Scannapieco M, Viscusi G.From data quality to big data quality.J Database Manage 2015;26(1):60-82.

    [39] Firmani D, Mecella M, Scannapieco M, Batini C.On the meaningfulness of “Big Data Quality”.Data Sci Eng 2016;1(1):6-20.

    [40] Dong XL, Srivastava D.Big data integration.In: Proceedings of the Very Large Databases Endowment; 2013 Aug 26-30; Trento, Italy; 2013.p.1188-9.

    [41] Madhavan J, Jeffery SR, Cohen S, Dong XL, Ko D, Yu C, et al.Web-scale data integration: you can affor d to Pay As You Go.In: Proceedings of the 3rd Biennial Conference on Innovative Data Systems Research; 2007 Jan 7-10; Asilomar, CA, USA; 2007.p.342-50.

    [42] Papadakis G, Ioannou E, Palpanas T, Niederée C, Nejdl W.A blocking framework for entity resolution in highly heterogeneous information spaces.IEEE Trans Knowl Data En 2013;25(12):2665-82.

    [43] Papadakis G, Koutrika G, Palpan as T, Nejdl W.Meta-blocking: taking entity resolution to the next level.IEEE Trans Knowl Data En 2014;26(8):1946-60.

    [44] Papadakis G, Papastefanatos G, Koutrika G.Supervised meta-blocking.In: Proceedings of the Very Large Databases Endowment; 2014 Sep1-5; Hangzhou, China.; 2014.p.1929-40.

    [45] Bergamaschi S, Ferrari D, Guerra F, Simonini G.Discovering the topics of a data source: a statistical approach.In: Proceedings of the Workshop on Surfacing the Deep and the Social Web Co-located with the 13th International Semantic Web Conference ; 2014 Oct 19; Trentino, Italy; 2014.

    [46] Bergamaschi S, Simonini G, Zhu S.Enhancing big data exploration with facete d browsing.In: Proceedings of the 10th Scientific Meeting of Classification and Data Analysis Group; 2015 Oct 8-10; Cagliari, Italy; 2015.

    [47] Fagan JC.Usability studies of faceted browsing: a l iterature review.Inform Technol Libr 2010;29(2):58-66.

    * Corresponding author.

    E-mail address: donato.malerb@uniba.it; pasi@disco.unimib.it

    ?“Towards a thriving data-driven economy,” communication from the Commission to the European Parliament, the Council, the European Economic and Social Committee, and the Committee of the Regions, Brussels, 2014 Jul 2.

    2095-8099/? 2016 THE AUTHORS.Published by Elsevier LTD on behalf of Chinese Academy of Engineering and Higher Education Press Limited Company.This is an open access article under the CC BY-NC-ND license (http://creativecommons.org/licenses/by-nc-nd/4.0/).

    英文原文: Engineering 2016, 2(2): 163-170

    Sonia Bergamaschi, Emanuele Carlini, Michelangelo Ceci, Barbara Furletti, Fosca Giannotti, Donato Malerba, Mario Mezzanzanica, Anna

    Monreale, Gabriella Pasi,Dino Pedreschi, Raff ele Perego, Salvatore Ruggieri.Big data research in Italy: A perspective.Engineering, http://dx.doi.org/10.1016/ J.ENG.2016.02.011

    连城县| 齐河县| 兰坪| 镇雄县| 丹棱县| 五指山市| 凤凰县| 兴宁市| 海盐县| 香港| 射洪县| 武冈市| 修水县| 堆龙德庆县| 萨嘎县| 开平市| 广灵县| 石河子市| 福州市| 高尔夫| 元氏县| 扶风县| 福建省| 呈贡县| 黑龙江省| 河东区| 体育| 保德县| 黔江区| 南宁市| 横峰县| 和政县| 花莲市| 重庆市| 金昌市| 泽库县| 沂南县| 子长县| 大方县| 宁陕县| 吉木乃县|