• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    AI被數(shù)據(jù)扯了后腿

    2020-08-09 08:40:31
    第一財(cái)經(jīng) 2020年8期
    關(guān)鍵詞:亞馬遜機(jī)器系統(tǒng)

    亞馬遜的“Go”商店令人眼前一亮。這些不設(shè)收銀員的店鋪2018年首次在西雅圖開(kāi)業(yè),顧客只要亮出手機(jī)應(yīng)用,就可以拿了商品直接走人。該系統(tǒng)使用了大量傳感器,但其魔法主要是由連接到AI系統(tǒng)的攝像頭完成的。AI系統(tǒng)會(huì)追蹤商品從架子上被取走的過(guò)程。一旦顧客拿著商品離店,賬單就結(jié)算完畢,會(huì)自動(dòng)向顧客收費(fèi)。

    在一個(gè)擁擠的商店里做到這一點(diǎn)并不容易。系統(tǒng)要能夠應(yīng)付人員密集的環(huán)境:攝像頭可能被其他顧客阻擋而看不到某些人的動(dòng)作。它必須能識(shí)別單個(gè)顧客,還有同行的朋友或是全家出動(dòng)。如果一個(gè)孩子把一件商品放進(jìn)自家購(gòu)物籃,系統(tǒng)必須意識(shí)到應(yīng)該向Ta的父母收費(fèi)。而且它必須實(shí)時(shí)又高度準(zhǔn)確地完成這一切。

    為指導(dǎo)機(jī)器做這些,需要向它們展示大量“訓(xùn)練數(shù)據(jù)”:顧客瀏覽貨架上的商品、拿取商品、把商品放回貨架等各種行為的視頻。對(duì)于像圖像識(shí)別這樣的標(biāo)準(zhǔn)化任務(wù),AI開(kāi)發(fā)人員可以使用公用訓(xùn)練數(shù)據(jù)集,每個(gè)都包含成千上萬(wàn)張圖片。但記錄人們逛商店的公用訓(xùn)練集尚不存在。

    有些數(shù)據(jù)可由亞馬遜自己的員工生成,公司此前讓他們進(jìn)入測(cè)試版店鋪中。但這么做有其局限。人們會(huì)用各種各樣的方式從架子上取走一件商品并決定買(mǎi)下它、立即把它放回架子,或稍后再放回去。要在現(xiàn)實(shí)世界中真正奏效,系統(tǒng)必須涵蓋盡可能多的可能性。

    從理論上講,世界充斥著數(shù)據(jù),這是現(xiàn)代AI的命脈。市場(chǎng)研究公司國(guó)際數(shù)據(jù)公司(IDC)估計(jì),2018年全球生成了33ZB的數(shù)據(jù),足以填滿7萬(wàn)億張DVD。但是,專注于AI領(lǐng)域的咨詢公司Cognilytica的凱瑟琳·沃爾克(Kathleen Walch)表示,盡管如此,數(shù)據(jù)問(wèn)題仍是所有AI項(xiàng)目中最常見(jiàn)的癥結(jié)之一。和亞馬遜Go商店的例子一樣,某個(gè)項(xiàng)目需要的數(shù)據(jù)可能根本就不存在,或者數(shù)據(jù)可能被鎖在競(jìng)爭(zhēng)對(duì)手的保險(xiǎn)庫(kù)中。即便相關(guān)數(shù)據(jù)可以被挖出,可能也不適合輸送給計(jì)算機(jī)。

    Cognilytica表示,一個(gè)典型AI項(xiàng)目約80%的時(shí)間都花在了各種數(shù)據(jù)整理上。訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)需要大量仔細(xì)標(biāo)注的樣本,而這些標(biāo)注通常需由人類添加。大型技術(shù)公司通常在內(nèi)部開(kāi)展這項(xiàng)工作。那些缺少相關(guān)資源或技術(shù)知識(shí)的公司可以借力一個(gè)不斷發(fā)展的外包產(chǎn)業(yè)來(lái)完成這個(gè)部分。例如,中國(guó)公司莫比嗨客雇用了30多萬(wàn)人來(lái)標(biāo)注源源不斷的人臉照片、街道場(chǎng)景或醫(yī)療掃描影像以便后續(xù)的機(jī)器處理。亞馬遜的另一個(gè)部門(mén)土耳其機(jī)器人(Mechanical Turk)為企業(yè)與一個(gè)臨時(shí)工大軍牽線搭橋,向這些工人支付計(jì)件工資來(lái)執(zhí)行重復(fù)性任務(wù)。

    Cognilytica估計(jì),第三方“數(shù)據(jù)準(zhǔn)備”市場(chǎng)在2019年價(jià)值超過(guò)15億美元,到2024年可能增至35億美元。數(shù)據(jù)標(biāo)注業(yè)務(wù)也差不多:2019年企業(yè)在這方面至少支出了17億美元,到2024年可能達(dá)到41億美元。Cognilytica的羅恩·施梅爾策(RonSchmelzer)說(shuō),掌握某個(gè)專業(yè)課題并非必要,例如在醫(yī)學(xué)診斷中,業(yè)余數(shù)據(jù)標(biāo)注員經(jīng)訓(xùn)練后在識(shí)別骨折和腫瘤等方面幾乎可以和醫(yī)生媲美。但掌握一定的AI研究人員口中的“領(lǐng)域知識(shí)”至關(guān)重要。

    數(shù)據(jù)本身可能包含陷阱。機(jī)器學(xué)習(xí)系統(tǒng)將輸入與輸出相關(guān)聯(lián),但它們只是盲目地執(zhí)行,并不理解更廣泛的語(yǔ)境。1968年,編程大師高德納(Donald Knuth)警告說(shuō),計(jì)算機(jī)會(huì)“完全按你告訴它們的去做,不多也不少”。機(jī)器學(xué)習(xí)中充滿了這句話的例證——機(jī)器精確遵循規(guī)則的字眼,對(duì)其精神卻一無(wú)所知。

    人工智能部分事件

    數(shù)據(jù)來(lái)源:《經(jīng)濟(jì)學(xué)人》

    2018年,紐約西奈山醫(yī)療系統(tǒng)(Mount Sinai)的研究人員發(fā)現(xiàn),一個(gè)經(jīng)訓(xùn)練通過(guò)X光胸片識(shí)別肺炎的AI系統(tǒng),在它受訓(xùn)的醫(yī)院以外的其他醫(yī)院使用時(shí)能力明顯降低。研究人員發(fā)現(xiàn),機(jī)器能夠識(shí)別出胸片來(lái)自哪家醫(yī)院,方法之一是分析片子角上的小塊金屬標(biāo)記—各家醫(yī)院的標(biāo)記各不相同。

    由于訓(xùn)練集里的一家醫(yī)院的肺炎基準(zhǔn)發(fā)生率遠(yuǎn)高于其他醫(yī)院,胸片來(lái)自哪家醫(yī)院這個(gè)信息本身就足以大幅提高系統(tǒng)的準(zhǔn)確性。研究人員把這種巧妙的伎倆稱為“作弊”,因?yàn)樵谙蛳到y(tǒng)出示陌生醫(yī)院的數(shù)據(jù)時(shí),它就失靈了。

    偏見(jiàn)導(dǎo)致了另一種問(wèn)題。去年,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究院(National Institute of Standards andTechnology)測(cè)試了近200種人臉識(shí)別算法,發(fā)現(xiàn)許多算法在識(shí)別黑人面部時(shí)準(zhǔn)確性明顯低于識(shí)別白人面部。這個(gè)問(wèn)題可能反映出白人面部在機(jī)器的訓(xùn)練數(shù)據(jù)中占了多數(shù)。IBM去年發(fā)表的一項(xiàng)研究發(fā)現(xiàn),3種被廣泛使用的訓(xùn)練集中,超過(guò)80%的人臉都是較淺的膚色。

    至少?gòu)睦碚撋现v,這類缺陷很容易糾正(IBM提供了一個(gè)更具代表性的數(shù)據(jù)集供所有人使用)。其他的偏見(jiàn)來(lái)源可能更難消除。2017年,亞馬遜叫停了一個(gè)通過(guò)簡(jiǎn)歷尋找合適人選的招聘項(xiàng)目,因?yàn)樗麄儼l(fā)現(xiàn)該系統(tǒng)對(duì)男性申請(qǐng)人有利。事后經(jīng)檢驗(yàn)他們發(fā)現(xiàn)了一個(gè)循環(huán)的、自我增強(qiáng)的問(wèn)題:公司用以前成功被錄取的申請(qǐng)人的簡(jiǎn)歷訓(xùn)練該系統(tǒng),但技術(shù)人員的隊(duì)伍里大部分是男性,因此根據(jù)歷史數(shù)據(jù)來(lái)訓(xùn)練的系統(tǒng)會(huì)把男性這個(gè)特征作為適合度的強(qiáng)預(yù)測(cè)指標(biāo)。

    普華永道機(jī)器學(xué)習(xí)英國(guó)團(tuán)隊(duì)的負(fù)責(zé)人法布里斯·西亞斯(Fabrice Ciais)說(shuō),人類可以嘗試禁止機(jī)器做這類推導(dǎo)(亞馬遜正是這么做的)。在許多情況下他們必須這么做:在大多數(shù)富裕國(guó)家,雇主不能基于性別、年齡或種族等因素雇用人員。但算法可以比它的人類主人更聰明,西亞斯說(shuō),它們能用替代變量重構(gòu)出被禁用的信息。從業(yè)余愛(ài)好到工作經(jīng)歷,再到電話號(hào)碼中的區(qū)號(hào),各種信息都可能暗示申請(qǐng)者很可能是女性、年輕人或少數(shù)族裔。

    在機(jī)器學(xué)習(xí)項(xiàng)目的各項(xiàng)任務(wù)上的平均耗時(shí)

    數(shù)據(jù)來(lái)源:《經(jīng)濟(jì)學(xué)人》

    如果現(xiàn)實(shí)世界中的數(shù)據(jù)難題太過(guò)艱巨,那么一種選擇是自己創(chuàng)造一些數(shù)據(jù)。這正是亞馬遜改進(jìn)Go商店時(shí)所用的方法。該公司使用圖形軟件來(lái)生成虛擬購(gòu)物者。這些“人造人”被拿來(lái)訓(xùn)練機(jī)器處理許多困難或異常的情景,它們?cè)谡鎸?shí)訓(xùn)練數(shù)據(jù)中未曾出現(xiàn),在實(shí)際環(huán)境中部署系統(tǒng)時(shí)卻可能發(fā)生。

    此舉并非亞馬遜獨(dú)樹(shù)一幟。無(wú)人車公司用高保真模擬現(xiàn)實(shí)來(lái)做大量訓(xùn)練,在這種模擬中如果出錯(cuò)不會(huì)造成真正的破壞。芯片制造商英偉達(dá)2018年發(fā)表的一篇論文描述了一種為無(wú)人車快速創(chuàng)建綜合訓(xùn)練數(shù)據(jù)的方法,并得出結(jié)論稱由此生成的算法效果比僅用真實(shí)數(shù)據(jù)訓(xùn)練的算法更好。

    隱私關(guān)切是“合成數(shù)據(jù)”的另一個(gè)吸引力所在。希望在醫(yī)學(xué)或金融中使用AI的公司必須遵守美國(guó)的《健康保險(xiǎn)可攜性和責(zé)任法案》(HIPAA)或歐盟的《通用數(shù)據(jù)保護(hù)條例》(GDPR)等法律。要對(duì)真實(shí)數(shù)據(jù)做恰當(dāng)?shù)哪涿幚砜赡軙?huì)很難,而用虛擬人訓(xùn)練的系統(tǒng)根本不用擔(dān)心這個(gè)。

    西亞斯的同事尤安·卡梅倫(Euan Cameron)說(shuō),訣竅在于確保模擬足夠接近現(xiàn)實(shí),使經(jīng)驗(yàn)得以推廣。對(duì)于像欺詐識(shí)別或信用評(píng)分這樣能清晰界定的問(wèn)題,這很簡(jiǎn)單。還可以將統(tǒng)計(jì)噪聲添加到真實(shí)數(shù)據(jù)中來(lái)創(chuàng)建合成數(shù)據(jù)。這樣,盡管單個(gè)交易是虛擬的,但可以保證它們整體上具有與源數(shù)據(jù)相同的統(tǒng)計(jì)特征。但一個(gè)問(wèn)題越復(fù)雜,就越難確保從虛擬數(shù)據(jù)中汲取的經(jīng)驗(yàn)?zāi)鼙豁槙车赜糜诂F(xiàn)實(shí)世界。

    希望在于所有這些與數(shù)據(jù)相關(guān)的折騰都是一次性的,一旦訓(xùn)練好,機(jī)器學(xué)習(xí)模型將用數(shù)百萬(wàn)次自動(dòng)決策來(lái)回報(bào)這番努力。亞馬遜已經(jīng)開(kāi)設(shè)了26家Go商店,并提出將相關(guān)技術(shù)授權(quán)給其他零售商。但即使到了這一步也仍需要謹(jǐn)慎。研究公司高德納(Gartner)的斯韋特蘭娜·希克爾勒(Svetlana Sicular)說(shuō),許多AI模型都受到“漂移”(drift)的影響,即隨著時(shí)間流逝,世界運(yùn)轉(zhuǎn)方式的變化意味著它們的決策變得不那么準(zhǔn)確。顧客的行為在變化,語(yǔ)言在演變,監(jiān)管機(jī)構(gòu)也會(huì)改變公司能做什么的規(guī)定。

    有時(shí)漂移會(huì)在一夜之間發(fā)生。“購(gòu)買(mǎi)單程機(jī)票在自動(dòng)檢測(cè)模型中曾是一個(gè)很好的預(yù)測(cè)欺詐的指標(biāo)?!毕?藸柪照f(shuō),“但新冠肺炎導(dǎo)致封城后,突然有很多人都在買(mǎi)單程票,他們都是清白的。”如今戴口罩已成為常態(tài),一些習(xí)慣了識(shí)別裸露面部的人臉識(shí)別系統(tǒng)碰到了麻煩。自動(dòng)化物流系統(tǒng)現(xiàn)在需要人員的幫助才能應(yīng)對(duì)卷筒紙、面粉及其他生活必需品的需求激增。世界的可變性意味著機(jī)器需要更多訓(xùn)練,也就是要為它們提供更多數(shù)據(jù)—這是一個(gè)無(wú)休止的再培訓(xùn)循環(huán)??穫惥嬲f(shuō):“人工智能不是個(gè)一勞永逸的系統(tǒng)?!?/p>

    猜你喜歡
    亞馬遜機(jī)器系統(tǒng)
    Smartflower POP 一體式光伏系統(tǒng)
    機(jī)器狗
    機(jī)器狗
    WJ-700無(wú)人機(jī)系統(tǒng)
    ZC系列無(wú)人機(jī)遙感系統(tǒng)
    亞馬遜雨林在燃燒
    亞馬遜賣的最好的100款玩具
    玩具世界(2019年5期)2019-11-25 07:40:12
    未來(lái)機(jī)器城
    電影(2018年8期)2018-09-21 08:00:06
    節(jié)儉又“浪費(fèi)”的亞馬遜
    連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
    哈尔滨市| 博客| 平泉县| 双牌县| 鄢陵县| 吴江市| 三门峡市| 康定县| 周口市| 炎陵县| 钟祥市| 禄丰县| 皋兰县| 岳普湖县| 大厂| 类乌齐县| 久治县| 微博| 西青区| 泾源县| 乐都县| 江孜县| 龙山县| 临泉县| 松阳县| 读书| 九江市| 商都县| 碌曲县| 荥阳市| 延庆县| 南岸区| 长宁区| 商城县| 连山| 汝阳县| 红桥区| 扶余县| 比如县| 满洲里市| 文昌市|