孟開元
(太原工業(yè)學院 山西 太原 030008)
隨著信息化技術和智能化技術的持續(xù)發(fā)展,人們的生活變得越來越便利,目前,相關人員正在研究和開發(fā)更便利的技術,以滿足人們的發(fā)展需求,因此人工智能就應運而生[1]。人工智能給人類的生活帶來了全新的面貌,一股新的“人工智能”浪潮橫掃各個技術領域。數(shù)字媒體技術可以將抽象的信息轉化為形象、生動的信息,在人工智能技術的融合下,原先的內(nèi)容將以更加生動、具體的形式呈現(xiàn)出來。
數(shù)字媒體技術就是數(shù)字化的傳媒。在計算機領域,通過使用二進制的數(shù)字,來實現(xiàn)對信息的存儲,二進制的數(shù)字可以被用來進行多種含義的表示,如視頻、音頻、圖像、文字、命令等。以往,媒體傳播主要是采用模擬信號,以及使用模擬的存儲介質,導致在傳輸信息的過程中,經(jīng)常會出現(xiàn)大量的數(shù)據(jù)丟失;還存在許多的干擾因素,使得在儲存信息的過程中,數(shù)據(jù)信息很容易遭到損壞;而且儲存空間也是有限的。
而利用數(shù)字媒體技術,可以實現(xiàn)信息的快速準確傳輸,從而有效地增加信息內(nèi)容的保真性,增大信息的存儲容量,促進信息的空間占用量越來越小。近年來,得益于國家科學技術發(fā)展與互聯(lián)網(wǎng)技術水平的持續(xù)改進,數(shù)字媒體技術的發(fā)展日趨成熟,應用范圍也越來越廣。不管是在網(wǎng)上,還是在現(xiàn)實生活中,人們都會接觸數(shù)字媒體。比如從網(wǎng)上下載文件、獲取信息、觀看視頻等,都會使用到數(shù)字媒體技術。
數(shù)字媒體與人工智能相結合是一種典型的信息技術融合,具有深刻的現(xiàn)實意義。首先提高數(shù)字媒體的用戶體驗。通過應用人工智能技術,例如計算機視覺、自然語言處理等,可以對數(shù)字媒體中的內(nèi)容進行更加精準、智能化的分類、搜索和推薦,為用戶提供更加便捷、快速、滿足需求的服務。其次推動數(shù)字媒體產(chǎn)業(yè)的發(fā)展。數(shù)字媒體產(chǎn)業(yè)包括數(shù)字音頻、視頻、游戲、社交網(wǎng)絡等領域,而人工智能技術可以廣泛應用于這些領域。數(shù)字媒體與人工智能相結合,不僅可以提升數(shù)字媒體產(chǎn)品的質量和創(chuàng)新性,也可以拉動數(shù)字媒體產(chǎn)業(yè)的整體發(fā)展。再次增強數(shù)字媒體的智能化和自動化程度,數(shù)字媒體的內(nèi)容越來越龐大和復雜,而人工智能技術可以通過自動化分析、處理和生成數(shù)字媒體內(nèi)容,提高數(shù)字媒體的智能化和自動化程度,為數(shù)字媒體的創(chuàng)建、編排和傳播提供更多的可能性。最后促進數(shù)字媒體的應用拓展。數(shù)字媒體與人工智能的融合掀起了一場數(shù)字化轉型浪潮,使得數(shù)字媒體的應用和服務不斷拓展到更多的領域,例如醫(yī)療、教育、旅游等。數(shù)字媒體與人工智能相結合將為這些領域帶來更多創(chuàng)新和變革。綜上所述,數(shù)字媒體與人工智能相結合有著廣泛的意義和背景。隨著人工智能技術的不斷發(fā)展和數(shù)字媒體產(chǎn)業(yè)的不斷壯大,數(shù)字媒體與人工智能相結合將成為未來信息技術發(fā)展的一個重要方向。
數(shù)字媒體與人工智能是兩個相互關聯(lián)的領域,它們之間存在著多種交叉點和應用場景,比如圖像識別和圖像處理、自然語言處理、智能推薦系統(tǒng)、藝術創(chuàng)作和設計、增強現(xiàn)實和虛擬現(xiàn)實等。數(shù)字媒體與人工智能的互動使得數(shù)字媒體應用更加智能化、便捷化和個性化,而數(shù)字媒體也為人工智能技術提供了更加廣泛和多樣化的應用場景[2]。
2.1.1 人工智能技術在圖像識別方面的應用
圖像識別技術是指計算機通過對圖像進行處理、分析和理解,以識別各種不同模式的目標和對象的技術[3]。圖像識別是特殊的圖像處理步驟,發(fā)揮著重要的作用,只有經(jīng)過圖像識別后,才能進入圖像的分析與理解階段。其中統(tǒng)計模式識別和句法模式識別是最常用的識別方法,圖像識別系統(tǒng)通常由以下幾部分組成,其算法的結構框圖如圖1所示。
圖1 圖像識別流程圖
(2)圖像預處理。在進行圖像理解和識別之前,預處理圖像是圖像處理過程中必不可少的一個環(huán)節(jié)。這一環(huán)節(jié)是為了提高特征提取、圖像分割、識別的可靠性,為后續(xù)的處理提供便利。預處理過程一般包括圖像數(shù)字化、灰度化、二值化、去除噪聲和字符分割等。
(3)圖像特征抽取。若將所有能夠描述目標的要素都加入到計算中,必然會給計算機帶來存儲空間、機時等方面的壓力,因此本項目擬采用特征抽取算法,實現(xiàn)以少量的特征替代全部的影像信息,達到分類識別的準確率。
(4)圖像識別和歸類。這個步驟就是把人對事物的認識提高到一個更加合理的水平,并總結出經(jīng)驗,將所述特征矢量與所述類型空間進行映射,把相應原圖歸屬于已知的一類模式[4]。
人工智能技術在自然語言處理領域有很多應用實例,例如機器翻譯:利用神經(jīng)網(wǎng)絡等技術進行文本翻譯,如Google Translate和百度翻譯。文本分類:通過訓練模型將文本分為不同的類別,如新聞分類、情感分類等。命名實體識別:識別文本中的人名、地名、組織機構名等實體,如命名實體識別算法(named entity recognition, NER)。問答系統(tǒng):利用自然語言理解和生成技術將用戶提出的問題轉化為查詢語句,并根據(jù)語境給出回答,如小度和科大訊飛。情感分析:分析文本的情感極性,如正面、負面或中性,如對商品評論的評價等。文本生成:利用生成式模型生成結構完整的文本,如對話生成、文章摘要生成等。
以智能音樂推薦為例,分析數(shù)字媒體與人工智能相結合的智慧設計應用情況。
隨著數(shù)字音樂市場的不斷擴大,音樂推薦系統(tǒng)已經(jīng)成為用戶獲取優(yōu)質音樂的主要渠道之一。然而,傳統(tǒng)的音樂推薦系統(tǒng)仍然存在推薦不準確、個性化程度低等問題。因此,數(shù)字媒體與人工智能相結合的智慧設計在音樂推薦方面具有廣闊的應用前景。
智能音樂推薦系統(tǒng)是數(shù)字媒體和人工智能相結合的一種典型應用。它利用機器學習和深度學習技術,根據(jù)用戶的歷史聽歌記錄、口味偏好、心情狀態(tài)、時間地點等多維度數(shù)據(jù)進行分析,預測用戶可能喜歡的音樂,并向其推薦相應的歌曲、專輯或播放列表。在數(shù)字媒體和人工智能方面的具體應用,如圖2所示。
圖2 智能音樂推薦系統(tǒng)技術應用
(1)協(xié)同過濾推薦。通過對用戶歷史聽歌記錄進行分析,建立起用戶與音樂之間的相關關系模型,從而推薦用戶喜歡的音樂。
(2)內(nèi)容分析推薦。通過對音樂元數(shù)據(jù)進行分析,例如歌曲風格、歌手流派、發(fā)行年份等,建立起歌曲之間的相關關系模型,從而推薦符合用戶口味的歌曲。
(3)情感分析推薦。通過對用戶當前狀態(tài)和心情進行分析,例如基于音頻的情感識別技術,為用戶推薦適合其當前情緒和狀態(tài)的歌曲。
智能音樂推薦系統(tǒng)可以大大提高用戶的聽歌體驗和滿意度,使用戶更容易發(fā)現(xiàn)自己喜愛的音樂,同時也提高了音樂服務平臺的用戶留存率和盈利能力。在實際應用中,智能音樂推薦系統(tǒng)已經(jīng)被廣泛采用,例如國內(nèi)的網(wǎng)易云音樂和QQ音樂等平臺,以及國外的Spotify和Pandora等平臺。
隨著人工智能技術的不斷發(fā)展,智能音樂推薦系統(tǒng)將變得越來越準確、個性化和智能化。例如可以加入用戶實時位置、周圍環(huán)境等信息,為用戶提供更加精準的音樂推薦服務。同時,智能音樂推薦系統(tǒng)也將面臨著隱私保護、數(shù)據(jù)安全等挑戰(zhàn),需要不斷完善和優(yōu)化。
人工智能技術在藝術創(chuàng)作、圖像生成、音樂生成等方面的應用有很多,列舉部分如下:
藝術創(chuàng)作:通過機器學習模型生成藝術作品,如GAN、Midjourney和Stable Diffusion算法生成的畫作、文本生成的詩歌等。此外,也可以利用機器視覺和深度學習技術對已有的藝術作品進行分析和分類。
圖像生成:利用生成對抗網(wǎng)絡(generative adversarial network,GAN)、變分自編碼器(variational autoencoder,VAE)等模型生成逼真的圖片,如Style GAN、Deep Dream、Midjourney和Stable Diffusion等項目就是將這種技術運用到生成藝術圖片上的代表性應用之一。
音樂生成:通過生成式模型和深度學習技術,可以讓計算機自動生成音樂[5]。例如,Magenta項目是谷歌開發(fā)的一個AI音樂平臺,可以讓用戶使用神經(jīng)網(wǎng)絡模型進行音樂生成。
電影制作:通過人工智能技術進行電影特效處理,如人物替換、背景虛化、場景還原等。同樣,AI也可應用于剪輯和后期制作,例如Adobe公司開發(fā)的Sensei技術。
視頻生成:利用GAN等深度學習模型合成視頻,如Deep Fake技術可以將一個人的面部表情和語言轉移到另一個人身上,同時還有視頻分割和視頻生成等應用。
這些應用實例都是基于人工智能技術的深度學習模型開發(fā)而成的,它們將傳統(tǒng)的藝術創(chuàng)作、圖像生成、音樂生成等領域與計算機科學結合起來,開創(chuàng)了一種全新的創(chuàng)作方式。
人工智能技術在增強現(xiàn)實、虛擬現(xiàn)實、機器視覺、語音識別等領域的應用有很多,以下是其中一些重要的應用:
增強現(xiàn)實(augmented reality,AR):利用計算機圖形處理和機器視覺技術,將虛擬物體疊加到現(xiàn)實世界中,例如Pokemon Go游戲和Facebook的Spark AR平臺。
虛擬現(xiàn)實(virtual reality,VR):通過計算機生成的視覺和聲音創(chuàng)造出虛擬的環(huán)境,如Oculus VR頭戴式顯示器和HTCVive VR系統(tǒng)。
機器視覺:利用深度學習模型進行圖像分類、目標檢測、場景理解等任務,如自動駕駛汽車、人臉識別系統(tǒng)和智能安防監(jiān)控系統(tǒng)等。
語音識別:通過自然語言處理技術將人類語音轉換為文本或命令進行分析和處理,如Chat GPT、Apple的Siri、Amazon的Alexa和Google Assistant等智能助手。
姿態(tài)估計:通過計算機視覺技術對人體的姿態(tài)和運動進行識別,如Microsoft Kinect和Apple iPhone X的面部識別系統(tǒng)等。
人工智能技術應用使得人們的日常生活變得更加智能化和便捷,同時也促進了人與計算機技術之間的交互和融合。
人工智能利用自己強大的計算能力,持續(xù)地促進社會的發(fā)展和進步。而在下一階段,人工智能與數(shù)字媒體技術的深度融合和創(chuàng)新,將展現(xiàn)出更大的創(chuàng)造性和價值。
數(shù)字媒體技術具有開放性、適應性、集成性以及互動性等特點,它隨著時代的變化而發(fā)生變化,形成了當下多元化的數(shù)字媒體。近年來,計算機技術和智能技術發(fā)展得很快,并促使藝術和人工智能技術的融合。唯有科學、理性地運用這種融合,才能使藝術以更加完美的形式呈現(xiàn),增強藝術作品的魅力和感染力。在各類技術手段的支持下,數(shù)字媒體的藝術和科技將會創(chuàng)造更多的藝術奇跡。
數(shù)字媒體技術呈現(xiàn)多樣化的發(fā)展趨勢,但在人工智能技術方面,數(shù)字媒體技術的發(fā)展卻顯得十分脆弱。只有賦予數(shù)字媒體技術更加豐富的表現(xiàn)形式,促進數(shù)字媒體的多樣化發(fā)展,才能為觀眾提供良好的體驗,讓觀眾在視覺感受上得到全新的體驗和藝術感知性。
數(shù)字媒體技術和人工智能技術的結合,必將給數(shù)字媒體帶來更大的發(fā)展空間。從過去數(shù)字媒體技術的發(fā)展情況來看,我國的數(shù)字媒體技術和人工智能技術的融合,需要不斷地加強自己的傳統(tǒng)文化底蘊和現(xiàn)代文明,只有這樣,才能更好地將科技和藝術用數(shù)字的方式展現(xiàn)出來。大部分人片面地認為,數(shù)字技術與計算機技術是數(shù)字媒體技術發(fā)展的催化劑,但從另外一個角度來看,正是在人工智能時代的基礎上,社會才進入了藝術與技術的發(fā)展新階段。
目前,我國的數(shù)字媒體技術還處在起步階段,將面對許多困難與問題。在人工智能時代,也會有大量的藝術設計人才在不斷的研究和探索,必將促使數(shù)字媒體技術與人工智能技術進一步發(fā)展。在此過程中,應當特別注重從傳統(tǒng)文化中發(fā)掘出更多有用的數(shù)字媒體技術元素,賦予數(shù)字媒體文化價值。
隨著人工智能技術的快速發(fā)展,傳統(tǒng)的設計行業(yè)如果不能審時度勢,將會被人工智能取代。但是,人工智能并不能取代一切的工作,特別是某些創(chuàng)造性的設計思想與內(nèi)容,是高科技與機械不能完成的。數(shù)字媒體行業(yè)的從業(yè)人員要對藝術的無形價值進行思考,激發(fā)創(chuàng)新潛能,成長為一個優(yōu)秀的設計人才。
人工智能具有強大的計算能力,基于大數(shù)據(jù)技術,人工智能可以對人們的需求進行全面的探索,通過設計來幫助人們解決現(xiàn)實的問題,并從數(shù)據(jù)中獲得設計的思考。隨著信息的多樣化,設計者要根據(jù)自己所理解的角度對數(shù)字媒體技術中蘊含的審美和智慧進行深入的探索,不斷推動新產(chǎn)品、新技術以及新的數(shù)字化生活的發(fā)展。