• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多模態(tài)技術賦能智能化內(nèi)容創(chuàng)作

      2023-01-16 14:12:00吳曉英
      中國傳媒科技 2022年12期
      關鍵詞:機器神經(jīng)元模態(tài)

      吳曉英

      (新華通訊社,北京 100083)

      星空、大漠、草地,身著不同款式宇航服的宇航員騎在一匹或是前蹄高揚,或是碎步小跑,或是悠閑踱步的白馬上,黝黑、湛藍、暗紅,不同色調(diào)天空的映襯下,一幅幅充滿著超現(xiàn)實主義虛無感和永恒感的畫作浮現(xiàn)在人們眼前。讓人意想不到的是,這一切竟出自機器人之手。

      2022年4月6日,位于美國舊金山的人工智能非營利組織OpenAI,發(fā)布了一款人工智能算法模型“DALL-E 2”。只需輸入“一個騎著馬的宇航員,超現(xiàn)實主義風格”這樣的簡單文字描述,“DALL-E 2”就會將圖1展現(xiàn)在人們眼前。并且,鑒于超高的分辨率,“DALL-E 2”創(chuàng)作的圖片看起來就像真實的照片一樣。[1]

      圖1 “DALL-E2”生成圖

      多模態(tài)技術已成為2022年最值得期待的人工智能應用之一。

      1.令人驚嘆的跨模態(tài)生成

      在現(xiàn)實世界中,人類同時通過看、聽、說、觸等感官探索和理解世界,因此現(xiàn)實世界中的信息,天然以語音、文字、圖像、手勢及表情等多模態(tài)形式存在。在傳統(tǒng)的人工智能應用中,語音、文字、圖像、手勢及表情等都是各自獨立的技術體系,彼此之間沒有關聯(lián),因而是以一種單模態(tài)形式演進的。人工智能要想更接近人類智力,多模態(tài)是其發(fā)展的必由之路。

      OpenAI此次發(fā)布的“DALL-E2”算法模型,正是對多模態(tài)技術的有益探索。通過將文字與圖像兩種模態(tài)的信息深度融合,實現(xiàn)文字感應、圖文映射、邏輯推理、辯證思考等高階人類思維活動,從而,模擬人腦完成從文字內(nèi)容到圖像內(nèi)容的跨模態(tài)創(chuàng)作。

      除了“看話做圖”,“DALL-E 2”還能實現(xiàn)“看圖做圖”,即在不改變原圖主題內(nèi)容的前提下,以不同配色,多種流派,生成風格迥異的嶄新圖片。例如,將《蒙娜麗薩的微笑》生成印象派畫作或是漫畫風格。雖然畫風詭異,但生成的圖片著實讓人驚艷。此外,通過文本指令,“DALL-E 2”亦能夠毫無違和地實現(xiàn)圖片的編輯和修改。例如,在碧藍的天空中加一行大雁,刪除圖片中的小狗,將圓形型的餐桌改成方形等,按指令修改后的圖片都能不露一絲痕跡,做到天衣無縫。[2]

      《MIT技術評論》對“DALL-E 2”算法模型給出的評價是:“雖然它創(chuàng)作出的圖片既中規(guī)中矩又天馬行空,但它證明了,人工智能已學會將大千世界中的各個物體組合在一起的基本邏輯。這太令人震驚了?!盵3]

      近日,麻省理工的科學家們也研制出了一個有趣的AI應用“Speech2Face”。它的主要作用是通過聲音推測說話人的長相。世界上沒有兩張完全一樣的臉,同樣,世界上也沒有兩個完全一樣的聲音。不同聲音的產(chǎn)生,主要由說話人的聲帶、顴骨、下巴、鼻子、嘴唇等的長短、厚度、結構決定。因此,機器通過捕捉聲音間的細微不同,描繪出不同的顴骨、下巴、鼻子、嘴唇等臉部特征,進而推測出說話人的長相。

      圖2 “Speech2Face”畫出的人臉

      科學家們使用Youtub上數(shù)百萬視頻中,十幾萬人的聲音對“Speech2Face”進行訓練。經(jīng)過大量訓練的“Speech2Face”,只需要收聽3 ~ 6秒的聲音,就能畫出人臉。當然,聽得時間越長,“Speech2Face”畫出的人臉越準確?!癝peech2Face”完美實現(xiàn)了從音頻到圖像的跨模態(tài)生成。

      2.深度學習——跨模態(tài)生成本后的利器

      “DALL-E 2”是如何實現(xiàn)創(chuàng)造性地跨模態(tài)生成呢?還是以“一個騎著白馬的宇航員”為例,看一看它背后的邏輯。

      首先,要讓機器掌握文字與圖像間的映射關系,比如,當機器看到“馬”這個字時,能立刻檢索出所有“馬”的圖像。那么,機器是如何認識“馬”的呢?這就要靠深度學習了。

      深度學習最拿手的事就是給圖像分類。人們先將大量包含圖像“馬”的圖片按照一定規(guī)則轉換成機器認識的數(shù)字串,輸入到機器中,深度學習對這些數(shù)字串進行特定的數(shù)學運算,將關于圖像“馬”的特征數(shù)字提取出來,形成一個基于圖像“馬”的特征分類。當再有新的圖像“馬”輸入時,機器通過上述步驟將提取出的特征與已有的圖像“馬”特征分類進行比對,相似度達到一定比值時,機器就認為新輸入的圖像是“馬”。這樣機器就完成了對圖像“馬”的認知過程。

      那么,如果再深入思考一下,深度學習又是如何進行特征提取的呢?那就是深度學習中的深度神經(jīng)網(wǎng)絡。

      深度神經(jīng)網(wǎng)絡好像人類大腦,也是由一個個獨立的“神經(jīng)元”組成。但和生物學上的“神經(jīng)元”不同,這里的“神經(jīng)元”是一組組執(zhí)行乘法和加法的數(shù)學運算。單個“神經(jīng)元”沒有什么意義,但當成千上萬的“神經(jīng)元”連接在一起時,神奇的事情就發(fā)生了。

      還是以“馬”為例,由于“神經(jīng)元”在深度神經(jīng)網(wǎng)絡中是以列(或層)的形式連接在一起的,將圖像“馬”轉化的原始數(shù)字串輸入第一列(或層)后,數(shù)字被送到不同的“神經(jīng)元”中,其中一個“神經(jīng)元”通過數(shù)學計算,負責判斷這組數(shù)字是直線還是弧線;如果是弧線,這個結果就被輸入給第二列(或層)中的某個“神經(jīng)元”,這個“神經(jīng)元”再負責判斷這個弧線是圓形還是橢圓形;判斷后的結果再被送到第三列(或層)中的某個“神經(jīng)元”,再判斷它是眼睛還是頭;然后再進入下一層,判斷它是馬的頭還是牛的頭。很多個這樣的“神經(jīng)元”同時工作,相互疊加,最終產(chǎn)生了圖像“馬”這一終極結果。以此類推,深度學習幫助機器認識了“宇航員”的圖像、“星空”的圖像、“草地”的圖像等。

      圖3 “DALL-E 2”跨模態(tài)生成呈現(xiàn)的映射關系

      至此,機器學會了圖像與文字間的映射關系。然后,通過反向轉換,將“一個騎著白馬的宇航員,超現(xiàn)實主義風格”這句文字同樣以數(shù)字串形式輸入機器,機器將包含“白馬”“騎著馬的宇航員”“超現(xiàn)實主義風格”等圖像檢索出來,再進行隨機組合,一幅幅“光怪陸離”的畫作就此誕生了。

      現(xiàn)在,再來看看“聽聲音識人臉”這個有趣應用背后的邏輯。首先,在用于訓練的視頻中挑選一個人物,然后將視頻中的人物通過編解碼技術,轉換為一個臉部特寫圖像。接著,就像上述認識“馬”的過程一樣,通過一個又一個“神經(jīng)元”的復雜連接,先識別線條和輪廓,再識別圓、扁、長、方,最終確定鼻子、嘴唇、下巴等面部器官的形狀,提取出面部特征信息。然后再將這個人在視頻中的說話聲音轉換成聲譜圖,同樣通過高低、強弱等維度的識別,提取出聲音特征信息。兩個特征信息相互匹配,聲音背后的人物就被描繪了出來。

      深度學習目前已成為人工智能界最熱門的研究領域。它最吸引人的地方是其對特征信息的自動提取和計算。但事物總是有兩面性的,正是這種自動性,使得深度學習的算法模型就像一個黑匣子,很多時候,人們只能看到結果,而無法解釋過程。

      曾經(jīng)有科學家做過這樣一個實驗,運用深度學習模型訓練機器認識“哈士奇”和“狼”??茖W家將一些家養(yǎng)的哈士奇圖片和在冰天雪地里拍的“狼”的圖片拿來訓練模型,令人驚訝的是,模型學習得很好,當看到新的圖片時,它能很準確地辨認出是“狼”,還是“哈士奇”??茖W家們歡欣鼓舞,并且開始研究它的運算機制,想看看深度神經(jīng)網(wǎng)絡是如何進行學習的。結果讓人大跌眼鏡,深度神經(jīng)網(wǎng)絡居然是依據(jù)圖片中的白色雪地進行判斷,當圖片中有白色雪地時,模型就認為它是“狼”,即使把一只“哈士奇”放在雪地里,模型也認為它是“狼”。

      鑒于,深度神經(jīng)網(wǎng)絡的智能和強大,深度學習在解決問題的同時也會帶來一些不確定性,在使用時,需要謹慎操作。也許機器已經(jīng)學會了一些人們意想不到的東西。[4]

      3.基于跨模態(tài)生成的多模態(tài)搜索

      信息大爆炸的今天,網(wǎng)絡已成為人們獲取信息的主要途徑之一。除了在日益龐雜的“大數(shù)據(jù)”中尋找信息,內(nèi)容創(chuàng)作者們還要挖掘“信息背后的信息”,明確信息內(nèi)的脈絡,梳理信息間的關系,這些都需要耗費大量的精力和時間。加入多模態(tài)技術的搜索引擎,能夠實現(xiàn)一次輸入,多種生成,多元推薦的搜索體驗,極大提升了信息搜索的智能化。

      2022年4月20日,擁有大量文字、圖片和短視頻信息的內(nèi)容生產(chǎn)平臺——小紅書,發(fā)起了一場線上直播。直播中,小紅書技術團隊就多模態(tài)搜索的研究及應用進行分享。當在最新一版小紅書App搜索欄中輸入關鍵詞“冰墩墩”后,除傳統(tǒng)的文字內(nèi)容推薦外,與冰墩墩相關的各類圖片、音樂、短視頻等內(nèi)容也同時展示。據(jù)小紅書多模態(tài)算法組負責人湯神透露,僅僅添加一個多模態(tài)搜索功能后,小紅書的獨立訪客點擊率和頁面瀏覽量點擊率就整體提升了2~3倍。

      事實上,在2020年萬象·百度移動生態(tài)大會上,百度的多模態(tài)搜索應用就已讓人嘆為觀止。從文字、聲音,到圖片、視頻;從聽清、看清,到聽懂、看懂;從海量搜索,到最佳推薦,多模態(tài)搜索為機器像人腦一樣學習和認識世界提供了有力支撐。

      在語音搜索上,通過集成語音識別、語音合成等技術,百度搜索引擎能夠剔除環(huán)境噪聲,分辨方言俚語,調(diào)整語音語調(diào),實現(xiàn)對語音的清晰辨認;憑借深度語義理解,挖掘口語化、縮略表達等背后的真實語義,實現(xiàn)語音到文字的準確轉換;利用最優(yōu)化匹配模型,實現(xiàn)搜索結果的精準反饋。

      在視覺搜索上,綜合圖像識別、人臉識別、OCR、物體檢測、實體匹配等技術,搜索引擎通過優(yōu)化操作路徑,能夠將人機交互時長控制在100毫秒左右;通過感知維度缺失、遮擋、不規(guī)則等物體存在現(xiàn)象,能夠準確理解每個像素的物理意義;通過抽象出整個像素集合體背后的物體信息,能夠實現(xiàn)視覺搜索的所見即所得,即“以圖搜圖”“以圖搜文字”“以圖搜視頻”等。

      除文字、語音、圖像、視頻等模態(tài)外,多模態(tài)搜索領域還包括身體手勢、面部表情等信息表現(xiàn)形式,隨著三維數(shù)字化技術的融入,多模態(tài)搜索的未來將會是以虛擬人形態(tài)呈現(xiàn)的交互式智能化搜索場景,人類通過與機器的自然交談,實現(xiàn)各類復雜信息的搜索與最佳推薦。搭載了虛擬人技術的多模態(tài)搜索將是智能化內(nèi)容創(chuàng)作的下一個藍海。[5]

      4.蓬勃發(fā)展的智能化內(nèi)容創(chuàng)作

      在純文本內(nèi)容創(chuàng)作上,智能化應用已有了較大發(fā)展。在國外,OpenAI在2020年推出了人工智能算法模型“GPT-3”,通過近2000億個單詞的訓練后,聰明的“GPT-3”不僅能夠依據(jù)一些簡單的文本提示(如標題、大綱等),寫出語言順暢、文字優(yōu)美的故事、新聞稿、訪談、甚至論文,還能寫詩、翻譯、編代碼和回答問題。

      當年曾轟動一時的假新聞案,就為“GPT-3”的創(chuàng)造力提供了最好佐證。加州大學伯克利分校的一名學生利用“GPT-3”生成了一篇“心靈雞湯”類文章,并發(fā)表在自己的博客上。隨后,這篇文章迅速被幾大新聞網(wǎng)站轉載并置頂。很少有人意識到,這居然出自機器之手。[6]

      2020年11月,F(xiàn)acebook也推出過一個名為“M2M-100”的人工智能算法模型。該模型可以實現(xiàn)100種語言間的實時互譯。這一智能模型,打破了數(shù)十億人之間的語言壁壘,人們可以更加便利地交流、溝通,了解彼此。

      2021年11月,OpenAI又為“GPT-3”增添了一個新功能,自動分析社交新聞網(wǎng)站上的跟帖內(nèi)容,形成分析報告。通過對比,“GPT-3”生成的分析報告,無論在詞語描述、數(shù)據(jù)統(tǒng)計,還是內(nèi)容結構上,相較之人工編寫的分析報告都更受歡迎。

      據(jù)OpenAI透露,2022年的7、8月份,它們將推出“GPT-3”的升級版“GPT-4”。雖然還沒有來自官方的任何消息,但業(yè)界預判,新生代“GPT-4”最震撼的可能是基于人類反饋的強化學習能力?!独顺敝畮p》的作者吳軍曾說過:“與機器相比,不靠譜,會犯錯,能想象,恰恰是人類創(chuàng)造力的源泉。而機器因為暫時還不會犯錯,所以沒有根本上的創(chuàng)造性?!币苍S“GPT-4”就是一個“學會犯錯的機器人”,它將會開啟機器的“創(chuàng)造之門”。[7]

      在國內(nèi),浪潮人工智能研究院于2021年9月發(fā)布了人工智能算法模型“源1.0”,通過高達5TB高質量中文數(shù)據(jù)集的訓練(相當于近5年內(nèi)整個中文互聯(lián)網(wǎng)的全部內(nèi)容),“源1.0”在新聞分類、文獻摘要識別、成語閱讀理解、原生中文推理等方面均獲得了出色表現(xiàn)。

      在創(chuàng)建“源1.0”的同時,浪潮人工智能研究院同步構建了全球最完整的中文語料庫(一個結構化的機器可讀的文本庫)。這一舉措有效解決了模型訓練中缺少大規(guī)模的標準中文語料庫的難題,對基于中文的智能化內(nèi)容生成將產(chǎn)生重要意義。

      與GPT-3相比,“源1.0”使用了 2457 億個參數(shù),這意味著“源1.0”在處理更復雜的語法結構和語句理解任務上將更加得心應手。此外,與GPT-3相比,“源1.0”在硬件資源的投入上也進行了優(yōu)化。GPT-3 的訓練需要超過 10,000 塊GPU的大型集群,而“源1.0”通過優(yōu)化訓練代碼瓶頸,僅需要 2,128 塊GPU就能在合理時間內(nèi)完成訓練。隨著開發(fā)人員對代碼的不斷優(yōu)化,“源1.0”的性能將進一步得到提升。

      在融媒體產(chǎn)品內(nèi)容創(chuàng)作上,正如前文所述,依托多模態(tài)技術的不斷演進,文字與圖片,圖片與圖片,文字與音頻,文字與視頻、人類與虛擬人間的相互創(chuàng)作正在蓬勃興起。

      最近,一家名為“北極鵝”的科技公司打造了一款虛擬劇本創(chuàng)作者“蔡曉”,作為實驗,該款虛擬人目前已參與到“劇本殺”類推理游戲的內(nèi)容創(chuàng)作中。人類玩家和虛擬人玩家通過“交互式敘事”的創(chuàng)作模式共同演繹游戲故事的脈絡和情節(jié)發(fā)展。每輪交互后,人類對機器的表現(xiàn)進行研判,對恰當?shù)谋憩F(xiàn)實施正反饋,對不恰當?shù)谋硎具M行負反饋。通過人類反饋的強化學習,虛擬人的“思考力”和“創(chuàng)作力”在一輪輪的人機交互中得到不斷提升。[8]

      結語

      自2016年,《華盛頓郵報》首次推出機器人寫稿以來,人工智能對新聞內(nèi)容創(chuàng)作的影響與挑戰(zhàn)一直是新聞從業(yè)者關注的焦點。隨著技術的不斷演進與整合,在新聞內(nèi)容創(chuàng)作方面,人工智能已經(jīng)具備了人類大腦的某些特征。

      在基于“規(guī)則”的新聞內(nèi)容創(chuàng)作上,如財經(jīng)、體育、突發(fā)事件等資訊類新聞,人工智能擁有了人類一樣的思維、表達、搜索和創(chuàng)作能力,機器無論在效率還是質量上都已完勝人類。

      在基于“思想”的新聞內(nèi)容創(chuàng)作上,如深度報道,專題評論等思考類新聞,人工智能也有了驚人的成長。目前,制約人工智能更像人類一樣“思考”的主要因素有兩個,一是用來訓練模型的巨大數(shù)據(jù)樣本;二是超高的計算能力、超長的計算時間和超大的存儲空間。為此,科學家們也在做著不懈的努力。近日,Meta AI(前身為Facebook AI)開放了一個“GPT-3”的復刻版算法模型,在保持功能不變的情況下,其運行能耗是“GPT-3”的1/7。

      可以預見,不遠的未來,人工智能將替代人類進行海量內(nèi)容搜索、篩選、整合及各類融媒體新聞內(nèi)容的創(chuàng)作工作。但是挑戰(zhàn)也是機會,人類可以從大量的重復性勞動中解脫出來,依托機器深度挖掘線索、彌補技能短板、充分激發(fā)靈感,進而指導機器做出超乎想象的內(nèi)容創(chuàng)作,讓更多的天才創(chuàng)意得到實現(xiàn)。相信在人機協(xié)作的模式下,人工智能必將為新聞內(nèi)容創(chuàng)作帶來無限可能。

      猜你喜歡
      機器神經(jīng)元模態(tài)
      機器狗
      機器狗
      《從光子到神經(jīng)元》書評
      自然雜志(2021年6期)2021-12-23 08:24:46
      未來機器城
      電影(2018年8期)2018-09-21 08:00:06
      躍動的神經(jīng)元——波蘭Brain Embassy聯(lián)合辦公
      國內(nèi)多模態(tài)教學研究回顧與展望
      基于二次型單神經(jīng)元PID的MPPT控制
      電源技術(2015年5期)2015-08-22 11:18:38
      無敵機器蛛
      毫米波導引頭預定回路改進單神經(jīng)元控制
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
      龙岩市| 贵港市| 汝南县| 西青区| 蕲春县| 扎赉特旗| 兴国县| 南郑县| 石棉县| 麻江县| 岫岩| 增城市| 新营市| 香港 | 蚌埠市| 五原县| 太仆寺旗| 新龙县| 正阳县| 甘孜| 鹤庆县| 澄迈县| 普兰县| 祁东县| 沙坪坝区| 临邑县| 济宁市| 天峨县| 廉江市| 会同县| 钟祥市| 周宁县| 伊宁县| 特克斯县| 江油市| 延吉市| 鄂尔多斯市| 泸西县| 徐水县| 衢州市| 海口市|