• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      開發(fā)商業(yè)智能應(yīng)用小心大數(shù)據(jù)“陷阱”

      2017-04-21 08:06:34黃錦輝
      大數(shù)據(jù) 2017年2期
      關(guān)鍵詞:謠言陷阱社交

      黃錦輝

      香港中文大學(xué)工程學(xué)院,香港 999077

      開發(fā)商業(yè)智能應(yīng)用小心大數(shù)據(jù)“陷阱”

      黃錦輝

      香港中文大學(xué)工程學(xué)院,香港 999077

      大數(shù)據(jù)的應(yīng)用和研究是信息爆炸時代的熱點話題。就如何更智能地發(fā)現(xiàn)大數(shù)據(jù)中的有用信息展開討論,探討了大數(shù)據(jù)中的“陷阱”和其引發(fā)的社會危害,提出一種面向社交文本的智能應(yīng)用系統(tǒng),以有效規(guī)避大數(shù)據(jù)中的“陷阱”并自動提取有用信息;基于提到的框架,展示了筆者研究組近些年在社交媒體上的事件檢測、自動摘要和謠言檢測方面的研究成果。

      大數(shù)據(jù);自然語言處理;社交媒體;數(shù)據(jù)處理

      1 大數(shù)據(jù)中的“陷阱”

      自從前美國總統(tǒng)奧巴馬2012年3月推出2億美元的“大數(shù)據(jù)研究和發(fā)展計劃”后,世界各大小經(jīng)濟(jì)體陸續(xù)效仿,大力投資相關(guān)領(lǐng)域。全球信息科技企業(yè)亦不敢怠慢,積極推出適合的大數(shù)據(jù)信息科技方案及產(chǎn)品,更大灑金錢地推廣大數(shù)據(jù)分析的優(yōu)點及其所能帶來的商機(jī)。據(jù)觀察,近期不少從事金融、醫(yī)療、社會工作、工商業(yè)、政務(wù)等范疇的主管都已被潛移默化,鼓吹大數(shù)據(jù)的功能及效益。然而,大數(shù)據(jù)真的是萬能的嗎?目前為止,大數(shù)據(jù)的處理和應(yīng)用仍存在如下問題。

      (1)采集數(shù)據(jù)時“南轅北轍”

      采集的數(shù)據(jù)應(yīng)與目標(biāo)相符,并不是越多越好,如果南轅北轍將得出錯誤的結(jié)果。題為“谷歌流感的寓言:大數(shù)據(jù)分析的陷阱”的報告描述了谷歌公司曾利用大數(shù)據(jù)分析推算2011—2012年度美國流感的趨勢[1],但結(jié)果卻不如人意,估計的流感個案數(shù)目遠(yuǎn)超過實際數(shù)目。而谷歌公司利用的數(shù)據(jù)來自用戶使用的關(guān)鍵詞(如“禽流感”)次數(shù)及分布,進(jìn)而進(jìn)行推算分析。專家認(rèn)為構(gòu)成嚴(yán)重誤差的主要原因是谷歌公司盲目地廣泛收集關(guān)鍵詞,以為越多越好,卻沒有了解用戶查詢時的出發(fā)點,結(jié)果收集的數(shù)據(jù)大部分來自非流感病患者,因此在數(shù)據(jù)采集階段已嚴(yán)重犯錯,自然推算失準(zhǔn)。若數(shù)據(jù)分析全力集中在流感病患者,結(jié)果便會截然不同。

      (2)計算模型選擇錯誤

      數(shù)據(jù)量過大時質(zhì)量也有一定程度的下降,面對海量規(guī)模的數(shù)據(jù),人工去噪已經(jīng)很難實現(xiàn),這時候如果不能選擇正確的計算模型,將在分析結(jié)果中引入噪聲。美國加州大學(xué)伯克利分校的國際知名學(xué)者米高·佐敦(Michael Jordon)教授,最近接受美國IEEE學(xué)會雜志訪問時指出,“大數(shù)據(jù)”在現(xiàn)今商業(yè)市場被過分炒作,它最后可能只是一場空歡喜,米高·佐敦教授更預(yù)測“大數(shù)據(jù)”的“冬天”即將來臨[2]。他認(rèn)為“大數(shù)據(jù)”用戶進(jìn)行假設(shè)的速度將會超越“大數(shù)據(jù)”的統(tǒng)計范疇,在這種情況下數(shù)據(jù)分析結(jié)果難免會出現(xiàn)錯誤,造成大量噪音,影響推算的可靠性。

      (3)數(shù)據(jù)處理不能“與時俱進(jìn)”

      大數(shù)據(jù)用戶往往忽略數(shù)據(jù)的“動力(dynamics)”。在大數(shù)據(jù)時代,數(shù)據(jù)和信息的更新?lián)Q代十分迅猛,隨著時間的推移,需求也在變化,過時的數(shù)據(jù)對當(dāng)下的需求來說可能沒有任何作用。例如在變幻無常的商務(wù)環(huán)境中,用戶的需求不停在變,那么昨天的大數(shù)據(jù)分析結(jié)果能有效地應(yīng)用于今天的商務(wù)環(huán)境嗎?能夠滿足用戶今天的需求嗎?若不能,則需要重新進(jìn)行分析,但昨天采集商務(wù)數(shù)據(jù)的方法能滿足用戶今天的新需求嗎?歸根究底,什么時候開始和停止分析既是統(tǒng)計學(xué)應(yīng)用的老問題,亦是大數(shù)據(jù)分析必須嚴(yán)肅面對的問題,但在千變?nèi)f化的應(yīng)用及數(shù)據(jù)環(huán)境下,要應(yīng)對這個問題更是難上加難。因此米高·佐敦教授進(jìn)一步指出,大數(shù)據(jù)分析服務(wù)提供商有責(zé)任清楚說明分析推算法的質(zhì)量標(biāo)準(zhǔn)及其誤差度,做好用戶的“期望管理(expectation management)”。

      (4)大數(shù)據(jù)環(huán)境下的人才荒

      今天的信息科技業(yè)界急切需要解決“人才荒”問題。缺乏專業(yè)的數(shù)據(jù)科學(xué)家(data scientist),大數(shù)據(jù)行業(yè)將難以起飛。以“瞎子摸象”比喻,多個瞎子(非專家)觸摸大象(大數(shù)據(jù)),然后判斷象的形狀,結(jié)果以誤判收場。在商業(yè)應(yīng)用中,錯誤的大數(shù)據(jù)分析推斷的商務(wù)智能(business intelligence,BI),可能會弄巧成拙,嚴(yán)重影響生意。筆者認(rèn)為大學(xué)應(yīng)考慮開設(shè)更多的相關(guān)課程,校方在課程設(shè)計上必須加入更多的體驗學(xué)習(xí)(experience-based learning)活動,避免就讀“數(shù)據(jù)科學(xué)”的學(xué)生過于紙上談兵。

      綜上,大數(shù)據(jù)雖然是塊誘人的蛋糕,卻也充滿“陷阱”,一步踏錯,滿盤皆輸。下文將探討如何規(guī)避陷阱,從大數(shù)據(jù)中提取有用信息。

      2 基于社交媒體的大數(shù)據(jù)智能處理系統(tǒng)

      大數(shù)據(jù)處理的研究不應(yīng)是空中樓閣,一個好的大數(shù)據(jù)處理系統(tǒng)應(yīng)有效地幫助用戶過濾無用或是錯誤信息,從而最大化地獲得有用信息。筆者研究組致力于開發(fā)規(guī)避“陷阱”的大數(shù)據(jù)智能處理系統(tǒng),該系統(tǒng)主要分為事件檢測(event detection)、自動摘要(summarization)和謠言檢測(rumor detection)3個模塊,如圖1所示。

      社交媒體上,數(shù)據(jù)的更新?lián)Q代迅猛,信息極易過時,而過時的信息并非用戶所需要的,例如,關(guān)于“德國歐洲杯”的討論已非當(dāng)今大眾所關(guān)心,人們更加在意“法國歐洲杯”上的比武論劍誰將笑到最后。自動事件檢測模塊將從海量原始數(shù)據(jù)中抽取大眾最為關(guān)心的時下熱點,淘汰過時信息。然而,諸如“法國歐洲杯”之類的熱點事件通常能吸引成千上萬條的討論,其中充滿了重復(fù)和無用的信息,此時,自動摘要信息模塊將取其精華,去其糟粕,自動生成關(guān)于事件的簡練描述,讓用戶能夠在有限的時間之內(nèi)快速了解事件的來龍去脈。有了熱門事件和有關(guān)它們的描述,還需要判斷眼前的事件是否真實,避免被虛假信息所擾。這時候,謠言檢測模塊能智能地給予事件真實與否的判斷,過濾掉其中的不實信息,從而推送用戶所需的信息,智能地避開大數(shù)據(jù)中的“陷阱”。

      圖1 基于社交媒體的大數(shù)據(jù)智能處理系統(tǒng)框架

      3 自然語言處理與社交媒體中的大數(shù)據(jù)研究

      以微博為代表的社交網(wǎng)絡(luò)的迅速崛起和流行引發(fā)了信息的爆炸,利用自然語言處理技術(shù)自動提取最有用、最可信的內(nèi)容,讓用戶能夠在有限的時間內(nèi)獲得最需要的信息是大數(shù)據(jù)時代火熱的研究課題之一?;诘?節(jié)中提出的框架,本節(jié)將詳細(xì)介紹筆者研究組在事件檢測、自動摘要、謠言檢測方面的研究工作。

      (1)事件檢測

      微博已經(jīng)超越報紙等傳統(tǒng)媒體,成為熱門事件播報的最快、最重要的傳媒,如何從微博中自動地發(fā)現(xiàn)用戶需要和感興趣的事件成為如今數(shù)據(jù)挖掘領(lǐng)域的一個重要研究方向。利用自然語言處理技術(shù)對語言和語義的分析,對熱門事件的自動發(fā)現(xiàn)有著重要的作用,Ou等人[3]和Peng等人[4]對微博中的情感進(jìn)行建模,通過檢測情感的爆發(fā)來發(fā)現(xiàn)熱門的事件。

      (2)自動摘要

      自動摘要技術(shù)能夠自動地從海量文本中挖掘重要信息,這對用戶快速了解社交媒體事件有著十分重要的作用。面向傳統(tǒng)文本的自動摘要方面的研究已經(jīng)進(jìn)行多年,并且在方方面面都相當(dāng)成熟,然而在面對微博文本時卻面臨了嚴(yán)峻的挑戰(zhàn),主要原因是詞語的共現(xiàn)模式在短小而不規(guī)范的微博文本中表現(xiàn)并不明顯,這又恰恰是自動摘要技術(shù)的技術(shù)基礎(chǔ)。筆者研究組致力于從微博的轉(zhuǎn)發(fā)和評論內(nèi)容尋找上下文信息(context information)的補(bǔ)充,并挖掘其中的語義信息,從而發(fā)現(xiàn)更多更有用的詞語共現(xiàn)特征,以提高自然語言處理模型的性能。在Li等人[5,6]的研究中,以回復(fù)和轉(zhuǎn)發(fā)關(guān)系為基礎(chǔ)構(gòu)建微博對話樹(microblog conversation tree),借助樹的結(jié)構(gòu)信息將其中的微博分為領(lǐng)導(dǎo)者(leader)和追隨者(follower),并對兩類微博文本之間的關(guān)系進(jìn)行建模,為微博自動摘要的研究提供了新的思路。

      (3)謠言檢測

      雖然熱門事件在大多數(shù)情況下為用戶所需,然而,在許多情況下并非如此。謠言是熱門事件中特殊的一類,作為虛假信息,謠言傳播迅速,易于引起大眾恐慌,給社會帶來了嚴(yán)重的危害。如果謠言能在傳播初期就被系統(tǒng)檢測到,就能夠有效縮小其惡劣的社會影響范圍。Ma等人[7,8]發(fā)現(xiàn)謠言和真實事件在許多方面時序特征都呈現(xiàn)出不同,并首次采用深度學(xué)習(xí)(deep learning)的方法建模謠言和真實事件的時序變化,從而從熱門事件中自動發(fā)現(xiàn)謠言,避免對社會造成危害。

      4 結(jié)束語

      本文詳細(xì)介紹了大數(shù)據(jù)的處理和應(yīng)用中存在的問題,并提出了基于社交媒體的大數(shù)據(jù)智能處理系統(tǒng)。隨著大數(shù)據(jù)行業(yè)的不斷發(fā)展,筆者在自然語言處理和社交媒體中的大數(shù)據(jù)研究方面還會進(jìn)行更深一步的探索。

      [1]LAZER D, KENNEDY R, KING G, et al. The parable of Google flu: traps in big data analysis[J]. Science, 2014, 343(6176):1203-1205.

      [2]LEE G. Machine-learning maestro Michael Jordan on the delusions of big data and other huge engineering efforts[J]. Communications of the ACM, 2011.

      [3]OU G, CHEN W, WANG T, et al. Exploiting community emotion for microblog event detection[C]//EMNLP, October 25-29, 2014, Doha, Qatar. [S.l.:s.n.], 2014: 1159-1168.

      [4]PENG B, LI J, CHEN J, et al. Trending sentiment-topic detection on twitter[M]. [S.l.]: Spring International Publishing, 2015: 66-77.

      [5]LI J, GAO W, WEI Z, et al. Using content-level structures for summarizing microblog repost trees[C]//EMNLP, September 17-21, 2015, Lisbon, Portugal. [S.l.:s.n.], 2015: 2168-2178.

      [6]LI J, LIAO M, GAO W, et al. Topic extraction from microblog posts using conversation structures[C]//The Meeting of the Association for ComputationalLinguistics, August 7-12, 2016, Berlin, Germany. [S.l.:s.n.], 2016: 2114-2123.

      [7]MA J, GAO W, WEI Z, et al. Detect rumors using time series of social context information on microblogging websites[C]//CIKM,October 19-23, 2015, Melbourne, Australia. New York:ACM Press, 2015: 1751-1754.

      [8]MA J, GAO W, MITRA P, et al. Detecting rumors from microblogs with recurrent neural networks[C]//IJCAI, July 9-15, 2016, New York, USA. [S.l.:s.n.], 2016.

      Beware of traps of big data analytics in business

      WONG Kam Fai
      Faculty of Engineering, The Chinese University of Hong Kong, Hong Kong 999077, China

      In the era of data explosion, research and application of big data has become a hot topic. How to automatically discover useful information from big data was focused. The organization is as following: examples of big data “traps” and their influences were discussed. The framework of an intelligent system to process social media texts that avoids traps and extracts useful information from big data was described. The research works proposed by our team and based on the framework about event detection, summarization and rumor detection were covered.

      big data, natural language processing, social media, data processing

      TP391

      A

      10.11959/j.issn.2096-0271.2017016

      2016-08-22

      黃錦輝(1960-),男,博士,香港中文大學(xué)工程學(xué)院副院長(外務(wù))、系統(tǒng)工程與工程管理學(xué)系教授及創(chuàng)新科技中心主任,并擔(dān)任哈爾濱工業(yè)大學(xué)深圳研究院特聘教授、北京大學(xué)信息科學(xué)技術(shù)學(xué)院客座教授以及東北大學(xué)兼職教授。香港信息科技聯(lián)會、香港工程師學(xué)會、英國工程技術(shù)學(xué)會及英國計算機(jī)學(xué)會會員。主要研究方向為數(shù)據(jù)庫及中文信息處理,并在多份國際刊物、會議及書籍中發(fā)表過超過250份技術(shù)研究報告。是《ACM Transactions on Asian Language Information Processing》的創(chuàng)辦人及總編輯,也是《Computer Processing of Oriental Languages》及《Computational Linguistics and Chinese Computer Processing》等國際學(xué)術(shù)刊物的編輯小組成員。是亞洲自然語言處理協(xié)會(AFNLP)創(chuàng)會成員及現(xiàn)屆會長(2015—2016年)。同時也是亞洲信息檢索會議(AIRS)系列的創(chuàng)辦人。

      猜你喜歡
      謠言陷阱社交
      社交之城
      英語世界(2023年6期)2023-06-30 06:28:28
      社交牛人癥該怎么治
      意林彩版(2022年2期)2022-05-03 10:25:08
      中國使館駁斥荒謬謠言
      社交距離
      當(dāng)謠言不攻自破之時
      你回避社交,真不是因為內(nèi)向
      文苑(2018年17期)2018-11-09 01:29:28
      謠言
      陷阱
      謠言大揭秘
      陷阱2
      荔浦县| 彰化市| 色达县| 雷波县| 靖江市| 防城港市| 同仁县| 静海县| 兴仁县| 久治县| 宁夏| 顺昌县| 长阳| 朔州市| 方城县| 犍为县| 梁山县| 营口市| 安陆市| 吉水县| 滁州市| 伊春市| 普洱| 绥化市| 德昌县| 泰州市| 英德市| 闸北区| 财经| 道孚县| 晋江市| 宁国市| 富裕县| 德化县| 翁牛特旗| 长顺县| 云龙县| 天镇县| 兴国县| 乃东县| 海盐县|