• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      生成式AI模型人智共創(chuàng)中的對(duì)齊問(wèn)題研究

      2024-04-23 03:57:52譚征宇王舟洋杜芃
      包裝工程 2024年8期
      關(guān)鍵詞:共創(chuàng)語(yǔ)義模態(tài)

      譚征宇,王舟洋,杜芃

      生成式AI模型人智共創(chuàng)中的對(duì)齊問(wèn)題研究

      譚征宇1,2*,王舟洋1,杜芃1

      (1.湖南大學(xué),長(zhǎng)沙 410082;2.麓山實(shí)驗(yàn)室,長(zhǎng)沙 410082)

      以人工智能對(duì)齊的視角,探討在人智共創(chuàng)中生成式AI模型如何對(duì)齊設(shè)計(jì)師的意圖。通過(guò)要素分析,以人工智能對(duì)齊問(wèn)題中的可解釋性與可控性為研究視角,探討生成式AI技術(shù)作為輔助設(shè)計(jì)工具如何對(duì)齊設(shè)計(jì)求解過(guò)程中“探索-創(chuàng)新-評(píng)估”三個(gè)設(shè)計(jì)階段的具體意圖與需求,并分析對(duì)齊階段中需要解決的對(duì)齊問(wèn)題。根據(jù)對(duì)齊階段的任務(wù)構(gòu)建基于人智設(shè)計(jì)概念表征交互式對(duì)齊方法、表征拓展方法與表征評(píng)估方法。在三個(gè)對(duì)齊階段中分別構(gòu)建意圖對(duì)齊、設(shè)計(jì)空間拓展和設(shè)計(jì)規(guī)則匹配這三種方法,幫助設(shè)計(jì)師構(gòu)建可控、可解釋的人智共創(chuàng)方法,從而構(gòu)建可控、可信的人智共創(chuàng)。

      人智共創(chuàng);人工智能對(duì)齊;設(shè)計(jì)求解;設(shè)計(jì)表征對(duì)齊

      從ChatGPT[1]、Stable Diffusion[2],到中國(guó)自主研發(fā)的文心一言[3]、星火大模型[4]等基于生成式AI的模型及相關(guān)工具,為設(shè)計(jì)內(nèi)容生成提供了豐富可能。AIGC技術(shù)對(duì)設(shè)計(jì)行業(yè)帶來(lái)了深遠(yuǎn)的影響,文生文、文生圖和文生視頻等模型在圖形設(shè)計(jì)、造型設(shè)計(jì)等領(lǐng)域有著較廣泛的應(yīng)用[5]。隨著AI智能化程度的提高,基于人工智能理念的設(shè)計(jì)工具能夠融合人類(lèi)智慧和AI智能,幫助設(shè)計(jì)師提高生產(chǎn)力和效率,從而實(shí)現(xiàn)增強(qiáng)智能的理念。融合了AIGC的設(shè)計(jì)流程,使設(shè)計(jì)師具有更強(qiáng)的創(chuàng)造力與想象力[6]。在構(gòu)建人類(lèi)智能與人工智能融合的設(shè)計(jì)趨勢(shì)下,需用人類(lèi)的審美意識(shí)來(lái)進(jìn)行創(chuàng)新設(shè)計(jì)的指導(dǎo),最終使得人工智能的產(chǎn)出結(jié)果更加符合人類(lèi)審美意識(shí)的價(jià)值判斷[7]。鑒于此,人智融合致力于將人類(lèi)智能與具備更高智能的AI結(jié)合,創(chuàng)造出更具創(chuàng)意的產(chǎn)出物,形成人智共創(chuàng)(Human-AI Co-Creation)。Wu等[8]認(rèn)為人智共創(chuàng)研究AI模型能更好地服務(wù)于人類(lèi)設(shè)計(jì)師,對(duì)設(shè)計(jì)師的設(shè)計(jì)能力,特別是創(chuàng)意發(fā)散方面進(jìn)行增益。Yang等[9]發(fā)現(xiàn)在設(shè)計(jì)人智共創(chuàng)中缺乏能保證AI輸出結(jié)果可控并符合用戶意圖的方法。如何讓AI對(duì)齊人類(lèi)的價(jià)值與期望,這在科研與社會(huì)各界都引發(fā)了議論,面向安全可控的人智融合,人工智能對(duì)齊是重要的研究問(wèn)題[10]。

      1 生成式AI模型人智共創(chuàng)的對(duì)齊問(wèn)題要素分析

      基于海量數(shù)據(jù)訓(xùn)練的生成式AI大模型具備很強(qiáng)的泛化能力,能夠輸入和輸出多模態(tài)數(shù)據(jù),且輸出可根據(jù)人的偏好進(jìn)行[11]。但是,因?yàn)锳I模型是基于優(yōu)化系統(tǒng)的數(shù)學(xué)計(jì)算模型[12],Christian等[13]發(fā)現(xiàn)AI產(chǎn)出的內(nèi)容常常呈現(xiàn)出不符合用戶意圖與價(jià)值觀的負(fù)面效應(yīng)。盡管有根據(jù)人類(lèi)偏好數(shù)據(jù)來(lái)調(diào)整模型輸出的方法(如RLHF)[14],但是AI模型在各項(xiàng)人智交互的具體任務(wù)中仍然會(huì)產(chǎn)生錯(cuò)誤。因此,Pandey等提出了保證AI模型能夠輸出符合人類(lèi)意圖的內(nèi)容的人工智能對(duì)齊問(wèn)題,且在具體人智協(xié)作任務(wù)中的人工智能對(duì)齊問(wèn)題成為了當(dāng)下的科研聚焦點(diǎn)[15–17]。朱松純等[18]提出人工智能對(duì)齊模型,以構(gòu)建人智共創(chuàng)框架,其中的四大要素(RICE)分別為魯棒性(Robustness)、可解釋性(Interpretability)、可控性(Controllability)和道德性(Ethicality),分別對(duì)應(yīng)AI的環(huán)境適應(yīng)能力、推理過(guò)程的透明度、執(zhí)行人類(lèi)意圖的準(zhǔn)確性,以及遵循社會(huì)道德規(guī)范的能力。在基于AIGC的人機(jī)對(duì)齊與人機(jī)合作過(guò)程中,可控性與可解釋性能夠保證高效的人智共創(chuàng)。可控性意味著對(duì)機(jī)器的輸出可以通過(guò)參數(shù)進(jìn)行控制。劉學(xué)博等[19]提出基于多個(gè)人類(lèi)評(píng)價(jià)維度對(duì)模型進(jìn)行可控微調(diào)的方法??山忉屝砸馕吨四軌蚶斫獠⒄瓶谹I的推理邏輯。周慎等[20]提出了可控、可解釋的生成式人智共創(chuàng)文本方法。喻國(guó)明等[21]提出AIGC的可解釋性是實(shí)現(xiàn)人機(jī)意向及意圖對(duì)齊,從而達(dá)成人機(jī)信任的路徑。

      生成式AI模型在現(xiàn)有訓(xùn)練數(shù)據(jù)中學(xué)習(xí)創(chuàng)意特征,并能將創(chuàng)意特征進(jìn)行組合以產(chǎn)生創(chuàng)新的設(shè)計(jì),在設(shè)計(jì)領(lǐng)域作為輔助工具產(chǎn)生了許多研究成果[22-23]。在設(shè)計(jì)的前期,生成式AI模型基于其海量數(shù)據(jù)可以作為創(chuàng)意靈感的啟發(fā)工具[24]。在工業(yè)設(shè)計(jì)任務(wù)中,能夠?qū)崿F(xiàn)基于幾何特征驅(qū)動(dòng)進(jìn)行設(shè)計(jì)、分析和優(yōu)化的一體化軟件[25]。盡管AI在數(shù)據(jù)分析和模式識(shí)別方面表現(xiàn)卓越,但相較于人類(lèi)設(shè)計(jì)師在設(shè)計(jì)意圖和價(jià)值判斷上存在差距。人類(lèi)設(shè)計(jì)師的核心能力在于融入創(chuàng)新思維,將復(fù)雜模糊的設(shè)計(jì)問(wèn)題轉(zhuǎn)錄成設(shè)計(jì)表達(dá),并打破常規(guī)設(shè)計(jì)模式,引入獨(dú)特的創(chuàng)新要素。這種創(chuàng)新能力源于對(duì)信息的深入理解和價(jià)值觀的深刻把握,通過(guò)高維度的設(shè)計(jì)認(rèn)知行為將思想轉(zhuǎn)化為設(shè)計(jì)表征[26]。Gero[27]認(rèn)為在未來(lái)人智共創(chuàng)的背景下,生成式AI將作為人的協(xié)作者角色與人類(lèi)設(shè)計(jì)師共同參與設(shè)計(jì)活動(dòng),因此AI必須具備對(duì)設(shè)計(jì)師意圖的理解能力,才能有效履行協(xié)作者的職責(zé)并進(jìn)行共創(chuàng)。

      本論文主要聚焦于設(shè)計(jì)師與生成式AI模型在人智共創(chuàng)過(guò)程中的對(duì)齊問(wèn)題。在人工智能對(duì)齊的研究框架下,探討設(shè)計(jì)師在設(shè)計(jì)求解的各個(gè)階段中以生成式AI模型作為設(shè)計(jì)輔助工具的具體對(duì)齊問(wèn)題,基于人工智能對(duì)齊RICE框架中的可解釋性與可控性?xún)蓚€(gè)維度,探討和總結(jié)在各個(gè)設(shè)計(jì)階段,實(shí)現(xiàn)可控、可解釋的人機(jī)意圖對(duì)齊方法,為人智共創(chuàng)提供研究基礎(chǔ)。對(duì)齊問(wèn)題要素關(guān)系如圖1所示。

      圖1 對(duì)齊問(wèn)題要素關(guān)系

      2 生成式AI模型人智共創(chuàng)的對(duì)齊階段

      生成式AI模型在人智共創(chuàng)中的對(duì)齊問(wèn)題,具體體現(xiàn)在設(shè)計(jì)探索、設(shè)計(jì)創(chuàng)新和設(shè)計(jì)評(píng)估三個(gè)對(duì)齊階段中。本論文梳理設(shè)計(jì)師在各個(gè)階段的具體設(shè)計(jì)意圖和需求,同時(shí)整理生成式AI在生成設(shè)計(jì)輔助任務(wù)中的工作流與關(guān)鍵技術(shù),梳理生成式AI及其關(guān)鍵技術(shù)與設(shè)計(jì)師在設(shè)計(jì)求解過(guò)程中對(duì)應(yīng)的對(duì)齊階段,分析和定義各個(gè)對(duì)齊階段的具體問(wèn)題。

      2.1 設(shè)計(jì)問(wèn)題求解過(guò)程

      趙江洪[28]認(rèn)為,設(shè)計(jì)者的設(shè)計(jì)思維活動(dòng)包括探索、創(chuàng)新和評(píng)估這三個(gè)主要的認(rèn)知活動(dòng),如圖2所示。設(shè)計(jì)師在進(jìn)行設(shè)計(jì)問(wèn)題求解的活動(dòng)中綜合個(gè)人經(jīng)驗(yàn),通過(guò)工程思維拆解設(shè)計(jì)問(wèn)題或通過(guò)藝術(shù)思維逐步優(yōu)化設(shè)計(jì),在形象思維和抽象思維的綜合過(guò)程中,涉及聯(lián)想、直覺(jué)等思維方式。

      圖2 設(shè)計(jì)師的設(shè)計(jì)問(wèn)題求解過(guò)程

      2.1.1 探索

      在設(shè)計(jì)思維的探索過(guò)程中,Brown等[29]將其歸為設(shè)計(jì)思維的靈感階段,即收集相關(guān)人的意見(jiàn)并拓展方案的設(shè)計(jì)空間。斯坦福大學(xué)的D.School團(tuán)隊(duì)認(rèn)為設(shè)計(jì)過(guò)程從設(shè)計(jì)師的“同理心”開(kāi)始[30]。Ratcliffe等[31]在此基礎(chǔ)上將“同理心”階段細(xì)分成“觀察”和“理解”兩個(gè)子階段。設(shè)計(jì)師在這一過(guò)程中利用解釋性和視角性思維將對(duì)設(shè)計(jì)目標(biāo)的觀察和抽象的理解轉(zhuǎn)化成可以懂得的、具體的設(shè)計(jì)目標(biāo)[32]。解釋性思維是將觀察到的現(xiàn)象進(jìn)行猜測(cè)和推導(dǎo),獲得最簡(jiǎn)單和最恰當(dāng)?shù)慕忉專(zhuān)治龀橄蟮母拍畈⑦M(jìn)行具象化的描述,從而幫助設(shè)計(jì)師進(jìn)行理解。視角化思維即將問(wèn)題、思考過(guò)程、方案可視化。設(shè)計(jì)師使用模型,采取以圖形為主的編碼方式,輔助對(duì)抽象概念的探索和轉(zhuǎn)化。

      2.1.2 創(chuàng)新

      在設(shè)計(jì)創(chuàng)新活動(dòng)中,設(shè)計(jì)師可以通過(guò)探索并借鑒他人設(shè)計(jì)的方式來(lái)對(duì)產(chǎn)品的設(shè)計(jì)空間進(jìn)行更深入的理解,從而在設(shè)計(jì)過(guò)程中做出正確的決定并激發(fā)設(shè)計(jì)創(chuàng)新的空間[33]。將他人的想法進(jìn)行解構(gòu)重組并優(yōu)化迭代是設(shè)計(jì)創(chuàng)新的有效方法。對(duì)他人想法進(jìn)行解析重組的創(chuàng)新活動(dòng)和設(shè)計(jì)探索活動(dòng)一樣依賴(lài)于設(shè)計(jì)師在設(shè)計(jì)領(lǐng)域的經(jīng)驗(yàn)。以產(chǎn)品造型設(shè)計(jì)為例,產(chǎn)品造型設(shè)計(jì)是一個(gè)模糊結(jié)構(gòu)域的問(wèn)題求解過(guò)程。隨著問(wèn)題情景的變化,解也相應(yīng)地進(jìn)行調(diào)整和改變,一般通過(guò)設(shè)計(jì)者的專(zhuān)家知識(shí)和經(jīng)驗(yàn)來(lái)完成造型設(shè)計(jì)問(wèn)題[34]。設(shè)計(jì)師可以通過(guò)類(lèi)比的方式擴(kuò)展抽象概念空間?;谶h(yuǎn)領(lǐng)域類(lèi)比的設(shè)計(jì)過(guò)程能夠得到更具創(chuàng)新性的概念設(shè)計(jì)結(jié)果。通過(guò)遠(yuǎn)領(lǐng)域類(lèi)比,設(shè)計(jì)師可以從一個(gè)創(chuàng)意空間連接到另一個(gè)創(chuàng)意空間,將其他領(lǐng)域的內(nèi)容應(yīng)用于當(dāng)前的設(shè)計(jì)問(wèn)題,探索已有事物的另一種表現(xiàn)形式,由此實(shí)現(xiàn)對(duì)抽象概念空間的拓展。

      2.1.3 評(píng)估

      Rosenman等[35]認(rèn)為,產(chǎn)品設(shè)計(jì)評(píng)價(jià)是將新產(chǎn)品屬性與期待的結(jié)果進(jìn)行對(duì)比后所獲得的對(duì)新產(chǎn)品的認(rèn)知。以產(chǎn)品造型設(shè)計(jì)的評(píng)估活動(dòng)為例,將設(shè)計(jì)物進(jìn)行比較而抽象出的可區(qū)分特征可以歸類(lèi)出風(fēng)格[36]。風(fēng)格可以通過(guò)語(yǔ)義表達(dá)反映人們對(duì)產(chǎn)品造型的主觀評(píng)價(jià)。設(shè)計(jì)領(lǐng)域中有許多基于語(yǔ)義的造型風(fēng)格評(píng)價(jià)方法,如語(yǔ)義差異法、層次分析法等。感性工學(xué)即是構(gòu)建感性意象語(yǔ)義與形態(tài)要素之間關(guān)系的系統(tǒng),通過(guò)實(shí)現(xiàn)感性意象與設(shè)計(jì)要素之間的轉(zhuǎn)換,進(jìn)而將設(shè)計(jì)方案轉(zhuǎn)化成感性評(píng)估,以確定設(shè)計(jì)方案是否達(dá)成目標(biāo)的感性意象[37]。通過(guò)語(yǔ)義,設(shè)計(jì)師和其他設(shè)計(jì)相關(guān)人員可以將抽象的設(shè)計(jì)評(píng)估規(guī)則轉(zhuǎn)化為對(duì)設(shè)計(jì)物一致的設(shè)計(jì)評(píng)估標(biāo)準(zhǔn),以進(jìn)行直觀的設(shè)計(jì)評(píng)估。

      2.2 圖像生成式AI模型設(shè)計(jì)工作流

      為了讓生成式AI模型更好地融入到設(shè)計(jì)工作流中,本研究分析了圖像生成式AI技術(shù)自身及其與設(shè)計(jì)過(guò)程關(guān)聯(lián)的特性,詳細(xì)描述了基于Diffusion模型的生成式AI的圖像生成工作流,以及基于設(shè)計(jì)表征的提取、融合與匹配的關(guān)鍵技術(shù)特性。

      2.2.1 多模態(tài)語(yǔ)義生成圖像

      得益于基于對(duì)比學(xué)習(xí)的Clip多模態(tài)語(yǔ)義理解模型[38],可以將抽象圖片和文字轉(zhuǎn)譯成計(jì)算機(jī)能理解的、統(tǒng)一的表征作為特征嵌入,從而使文生圖(T2I)、圖生圖(I2I)、圖文生圖等多模態(tài)圖像生成AI模型,實(shí)現(xiàn)高質(zhì)量的、基于表征的條件引導(dǎo)圖像生成工作流。目前主流的生成式圖像AI模型基于Clip模型、文本編碼器(Text Encoder)和圖像編碼器(Image Encoder)組成,可以將文字與圖像等多模態(tài)輸入轉(zhuǎn)化成潛變量空間的表征[39],然后通過(guò)表征作為生成條件,通過(guò)交叉注意力機(jī)制(Cross-attention)[40]引導(dǎo)U-NET圖像生成模型進(jìn)行圖像的生成,輸出給定條件下的生成圖片。目前主流的生成式AI模型工作流包括文生圖、圖生圖和圖像變異。生成式AI模型的工作流,如圖3所示。

      2.2.1.1 “語(yǔ)義理解-Prompt”轉(zhuǎn)譯成潛變量空間向量

      在生成式AI模型中,語(yǔ)義理解是通過(guò)將提示詞(Prompt)和參考圖片轉(zhuǎn)換為潛變量空間的統(tǒng)一表征來(lái)實(shí)現(xiàn)的。這種表征通常是高維向量,也被稱(chēng)為嵌入(Embedding)[41]。通過(guò)這種方式,不論是文本還是圖像,都可以被轉(zhuǎn)化成計(jì)算機(jī)能夠理解和處理的統(tǒng)一格式。在潛變量空間[42]中,不同的表征具有特定的分布,通過(guò)這些分布,模型能夠理解和確定表征之間的對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)復(fù)雜的語(yǔ)義理解。

      在實(shí)際的圖像生成任務(wù)中,設(shè)計(jì)師可以通過(guò)調(diào)整提示詞來(lái)微調(diào)或?qū)ふ依硐胫械膱D像造型、風(fēng)格等特征,以滿足特定的設(shè)計(jì)需求。例如,通過(guò)改變或細(xì)化提示詞,設(shè)計(jì)師能夠引導(dǎo)AI模型生成與原始想法更加吻合的圖像。此外,利用如Clip score等技術(shù),也可以從參考圖片出發(fā),反向推導(dǎo)出與之對(duì)應(yīng)的提示詞。這種雙向的、基于表征的方法,為設(shè)計(jì)師提供了一個(gè)靈活且強(qiáng)大的工具,以實(shí)現(xiàn)更準(zhǔn)確和個(gè)性化的圖像生成。

      圖3 圖像生成式AI的工作流

      2.2.1.2 Prompt或圖片作為條件引導(dǎo)生成圖片

      文生圖(Text-to-Image)和圖生圖(Image-to- Image)是生成式AI模型中最主流的工作方式。在如Stable Diffusion等模型的工作流中,文生圖的過(guò)程是根據(jù)輸入的Prompt在潛變量空間中得到文字的嵌入,接著系統(tǒng)生成一張純?cè)肼晥D片。U-NET[43]模型接收這張?jiān)肼晥D片,并利用交叉注意力機(jī)制將文字嵌入及轉(zhuǎn)化為對(duì)應(yīng)噪聲圖片中的去噪圖像,幫助噪聲圖像去噪。這一過(guò)程通常需要多步迭代來(lái)完成。

      而圖生圖則在文生圖的基礎(chǔ)上進(jìn)行改進(jìn),只是將純?cè)肼晥D片替換為一個(gè)具有初步內(nèi)容的初始圖像,并在此基礎(chǔ)上增加一定比例的噪聲。接著,系統(tǒng)根據(jù)文字嵌入作為條件以引導(dǎo)圖片的生成。由于圖生圖的初始圖片可以包含一定的原始圖像信息,這使得生成的圖像在內(nèi)容上與原始圖像更為接近。同時(shí),也可以通過(guò)類(lèi)似Inpaint的技術(shù)手段增加圖像遮罩,實(shí)現(xiàn)如換臉、給人物換裝等更復(fù)雜的操作。這種方法允許在保持原圖像某些特征的同時(shí),根據(jù)用戶的需求對(duì)圖像進(jìn)行修改或增強(qiáng),從而提供更加豐富和靈活的圖像生成體驗(yàn)。

      2.2.1.3 圖像變異(Image Variation)

      圖像變異是生成式AI模型中的一個(gè)高級(jí)功能。在這一過(guò)程中,模型通過(guò)Clip圖像編碼器接收輸入圖像,并計(jì)算出該圖像在潛變量空間中的對(duì)應(yīng)表征,即圖形嵌入(Image Embedding)[42]。然后,利用這些圖形嵌入作為條件,引導(dǎo)圖片的生成。圖像變異與圖生圖的不同之處在于,圖像變異利用Clip[38]的多模態(tài)語(yǔ)義理解能力來(lái)明確輸入圖像的高維語(yǔ)義。這種理解能力使得模型能夠?qū)崿F(xiàn)語(yǔ)義的融合和特征的組合生成,從而實(shí)現(xiàn)多模態(tài)特征融合。

      在設(shè)計(jì)工作中,設(shè)計(jì)師可以利用圖像變異方法生成與輸入圖像相似,但在某些方面經(jīng)過(guò)變異的圖像。這一過(guò)程不僅使設(shè)計(jì)師能夠產(chǎn)生新的創(chuàng)意靈感,還能觀察到模型對(duì)輸入圖像關(guān)鍵特征(如風(fēng)格、造型等)的理解能力。通過(guò)圖像變異,模型能夠展示其在保持輸入圖像關(guān)鍵特征的同時(shí),如何有效地融合和變換這些特征,以生成具有新穎性和創(chuàng)意性的圖像。這一功能為設(shè)計(jì)師在探索新的視覺(jué)表達(dá)和創(chuàng)意時(shí)提供了強(qiáng)大的助力。

      2.2.2 生成式AI技術(shù)的關(guān)鍵特性

      生成式AI模型在圖像生成任務(wù)中可以總結(jié)出3種關(guān)鍵技術(shù)特性,包括:多模態(tài)表征提取(如圖4a所示)、多模態(tài)特征融合(如圖4b所示)與多模態(tài)特征匹配(如圖4c所示)。

      根據(jù)圖像生成式AI的3個(gè)關(guān)鍵技術(shù)特性,作者對(duì)前沿科研領(lǐng)域的相關(guān)實(shí)現(xiàn)方法與技術(shù)應(yīng)用進(jìn)行了文獻(xiàn)整理,梳理出了基于多模態(tài)表征理解的生成式AI模型的圖像生成關(guān)鍵技術(shù)(如表1所示),包括多模態(tài)語(yǔ)義理解、融合,以及結(jié)合生成式AI進(jìn)行可控圖像生成的具體實(shí)現(xiàn)方法。

      2.2.2.1 多模態(tài)特征提取

      在生成式AI模型中,語(yǔ)義理解是通過(guò)將提示詞(Prompt)和參考圖片轉(zhuǎn)換為潛變量空間的統(tǒng)一表征來(lái)實(shí)現(xiàn)的。這種表征通常是高維向量,也被稱(chēng)為嵌入(Embedding)[41]。通過(guò)這種方式,不論是文本還是圖像,都可以被轉(zhuǎn)化成計(jì)算機(jī)能夠理解和處理的統(tǒng)一格式。在潛變量空間中,不同的表征具有特定的分布,通過(guò)這些分布,模型能夠理解和確定表征之間的對(duì)應(yīng)關(guān)系,從而實(shí)現(xiàn)復(fù)雜的語(yǔ)義理解。

      在實(shí)際的圖像生成任務(wù)中,設(shè)計(jì)師可以通過(guò)調(diào)整提示詞來(lái)微調(diào)或?qū)ふ依硐胫械膱D像造型、風(fēng)格等特征,以滿足特定的設(shè)計(jì)需求。例如,通過(guò)改變或細(xì)化提示詞,設(shè)計(jì)師能夠引導(dǎo)AI模型生成與原始想法更加吻合的圖像。

      圖4 圖像生成式AI的關(guān)鍵技術(shù)特性

      表1 基于多模態(tài)表征理解的生成式AI模型圖像生成關(guān)鍵技術(shù)

      Tab.1 Key technologies in image generation for generative AI models based on multimodal representation understanding

      2.2.2.2 多模態(tài)特征融合

      在生成式AI模型的應(yīng)用中,多模態(tài)特征融合是一個(gè)重要的方向,涉及風(fēng)格遷移和將多張圖像與提示詞中的設(shè)計(jì)概念或圖像特征結(jié)合起來(lái),形成新的圖像。多模態(tài)特征融合的研究主要關(guān)注以下兩個(gè)方面。

      1)如何在不改變主體目標(biāo)物的前提下,生成該主體在不同場(chǎng)景和環(huán)境下的圖像。如DreamBooth[46]、Textual Inversion[48]、PromptStyler[49]等技術(shù)方法,致力于學(xué)習(xí)并保持主體對(duì)應(yīng)的表征不變。具體的實(shí)施方式包括提供一組主題圖片(例如一只柯基狗),通過(guò)訓(xùn)練獲得該圖片對(duì)應(yīng)的特定提示詞(例如“”)。然后,使用這個(gè)提示詞結(jié)合其他場(chǎng)景描述(如“在游泳池里面游泳”)來(lái)生成主體在其他場(chǎng)景中的圖像。

      2)實(shí)現(xiàn)更多特征的融合。例如,Unclip[45]通過(guò)prior模型訓(xùn)練出更統(tǒng)一的圖文潛變量空間,從而實(shí)現(xiàn)文字與圖像的融合。這樣的多模態(tài)特征融合可以創(chuàng)造出既包含文本信息又融入圖像特征的新圖像。而Prompt-to-prompt[40]方法則通過(guò)控制交叉注意力機(jī)制的接入方式,有效地實(shí)現(xiàn)了特征融合。這種方法不僅增加了生成圖像的多樣性和創(chuàng)新性,還提高了模型對(duì)復(fù)雜概念的理解和表達(dá)能力,為設(shè)計(jì)師提供了更廣泛的創(chuàng)意空間。

      2.2.2.3 多模態(tài)表征對(duì)齊與匹配

      在利用生成式AI模型進(jìn)行圖像設(shè)計(jì)時(shí),多模態(tài)表征的對(duì)齊與匹配是至關(guān)重要的環(huán)節(jié)?;贑lip模型的強(qiáng)大語(yǔ)義理解能力,作者能夠提取圖像的多維度特征,這對(duì)評(píng)估圖像是否達(dá)到設(shè)計(jì)要求非常有用。例如,在評(píng)估一個(gè)圖片時(shí),可以考慮其美感、藝術(shù)風(fēng)格類(lèi)型。此外,還可將設(shè)計(jì)拆解為布局、色彩、尺寸、功能等多個(gè)維度進(jìn)行評(píng)估。

      1)美學(xué)評(píng)估:Aesthetic Predictor[50-51]等模型能夠計(jì)算圖像的美學(xué)評(píng)分,并據(jù)此對(duì)圖像進(jìn)行排序和篩選。這種方法不僅是基于技術(shù)層面的圖像分析,還融入了美學(xué)理論,使得評(píng)估結(jié)果更加全面和準(zhǔn)確。

      2)圖像語(yǔ)義理解與語(yǔ)義規(guī)則匹配:從語(yǔ)義層面上,將圖片拆解成不同維度的表征,并將各個(gè)維度的評(píng)估規(guī)則也理解為相應(yīng)的語(yǔ)義表征。通過(guò)Clip score[52]、歐氏距離、旋轉(zhuǎn)角度等技術(shù)手段,可以對(duì)生成的圖像設(shè)計(jì)進(jìn)行細(xì)致的評(píng)估和篩選。這一過(guò)程不僅依賴(lài)于模型對(duì)圖像內(nèi)容的理解,還包括對(duì)設(shè)計(jì)原則和美學(xué)標(biāo)準(zhǔn)的應(yīng)用,從而確保生成的圖像在技術(shù)和藝術(shù)層面都能滿足設(shè)計(jì)要求。這種多維度、多模態(tài)的評(píng)估方式為設(shè)計(jì)師提供了強(qiáng)大的工具,以確保最終的圖像設(shè)計(jì)符合既定的目標(biāo)和標(biāo)準(zhǔn)。

      2.3 人智共創(chuàng)中的對(duì)齊問(wèn)題

      根據(jù)前兩個(gè)小節(jié)的梳理可知,生成式AI具有強(qiáng)大的功能,可以提供設(shè)計(jì)增益使人類(lèi)設(shè)計(jì)師更好地完成設(shè)計(jì)求解中“探索-創(chuàng)新-評(píng)估”的任務(wù)流程。但是,為了達(dá)到高效人智共創(chuàng),需要將AI的各種功能與設(shè)計(jì)師在設(shè)計(jì)求解的各個(gè)流程中的意圖相結(jié)合,從而保證高效的人智共創(chuàng)過(guò)程。人機(jī)對(duì)齊就是為了保證AI的輸出可以符合人的意圖和偏好的研究領(lǐng)域[53]。在本研究中,筆者主要關(guān)注設(shè)計(jì)師的設(shè)計(jì)意圖與生成式AI模型輔助設(shè)計(jì)功能的對(duì)齊問(wèn)題,在“探索-創(chuàng)新-評(píng)估”設(shè)計(jì)框架對(duì)應(yīng)的各個(gè)設(shè)計(jì)流程中的人工智能對(duì)齊階段,梳理各個(gè)階段的對(duì)齊問(wèn)題和目標(biāo),為后面的方法提供指導(dǎo),如圖5所示。

      2.3.1 設(shè)計(jì)探索對(duì)齊階段

      在設(shè)計(jì)探索的過(guò)程中,設(shè)計(jì)師會(huì)廣泛地嘗試各種設(shè)計(jì)概念,結(jié)合生成式AI模型的文生圖與圖像變異功能,設(shè)計(jì)師可以方便地將抽象概念以文字(提示詞)或者參考圖片的形式輸入給AI模型,并由AI模型將抽象的設(shè)計(jì)概念轉(zhuǎn)譯成設(shè)計(jì)表達(dá)(圖片)。因此,AI模型對(duì)設(shè)計(jì)意圖的準(zhǔn)確理解能力至關(guān)重要,現(xiàn)有的研究發(fā)現(xiàn)用戶不能有效地使用文字生成符合意圖的圖片[54–57]。因此需要對(duì)齊設(shè)計(jì)師的抽象概念與生成式AI的語(yǔ)義表征,如何生成符合設(shè)計(jì)師意圖的設(shè)計(jì)表達(dá)是在本對(duì)齊階段要解決的問(wèn)題。

      圖5 圖像生成式AI模型關(guān)鍵技術(shù)與設(shè)計(jì)工作流的對(duì)齊階段

      2.3.2 設(shè)計(jì)創(chuàng)新對(duì)齊階段

      在設(shè)計(jì)創(chuàng)新階段,設(shè)計(jì)師會(huì)探索設(shè)計(jì)概念的組合延伸以實(shí)現(xiàn)設(shè)計(jì)創(chuàng)新,但是因?yàn)樵O(shè)計(jì)固化等問(wèn)題,設(shè)計(jì)師的思維會(huì)受到一定的局限[58–60]。如何讓生成式AI 能夠?qū)崿F(xiàn)概念的融合,幫助設(shè)計(jì)師更好地把概念轉(zhuǎn)譯成設(shè)計(jì)解,增加在設(shè)計(jì)空間中的探索范圍,是該對(duì)齊階段要解決的問(wèn)題。

      2.3.3 設(shè)計(jì)評(píng)估對(duì)齊階段

      在設(shè)計(jì)評(píng)估階段,AI 模型需要能夠根據(jù)抽象模糊的設(shè)計(jì)規(guī)則,將設(shè)計(jì)空間中的大量設(shè)計(jì)方案進(jìn)行多維度篩選和比較,輸出評(píng)估結(jié)果以幫助設(shè)計(jì)師進(jìn)行篩選。在面對(duì)生成式AI模型產(chǎn)生的海量設(shè)計(jì)解時(shí),進(jìn)行對(duì)比和篩選是非常耗費(fèi)設(shè)計(jì)師認(rèn)知資源的行為。因此需要新的機(jī)制來(lái)幫助設(shè)計(jì)師將心目中篩選規(guī)則的意圖對(duì)應(yīng)到AI模型可以理解的表征空間中,更好、更快地完成篩選任務(wù)。

      3 生成式AI模型人智共創(chuàng)的對(duì)齊階段對(duì)應(yīng)方法

      為了構(gòu)建適配“探索-創(chuàng)新-評(píng)估”3階段設(shè)計(jì)工作流與圖像生成式AI模型技術(shù)特性的全新人智共創(chuàng)方法,在設(shè)計(jì)探索、設(shè)計(jì)創(chuàng)新和設(shè)計(jì)評(píng)估的3個(gè)對(duì)齊階段,分別定義各階段的人智對(duì)齊任務(wù)和目標(biāo),輸出各階段人智共創(chuàng)中的對(duì)齊流程與方法。

      3.1 設(shè)計(jì)探索對(duì)齊階段——設(shè)計(jì)抽象概念與模型表征對(duì)齊

      在設(shè)計(jì)探索對(duì)齊階段,需要將設(shè)計(jì)師構(gòu)想的設(shè)計(jì)概念與生成式AI模型理解的設(shè)計(jì)概念之間進(jìn)行對(duì)齊,從而保證AI模型能夠?qū)R設(shè)計(jì)師的意圖,準(zhǔn)確地理解設(shè)計(jì)師及輸入的抽象設(shè)計(jì)概念并轉(zhuǎn)換成設(shè)計(jì)解?;贏I生成模型的設(shè)計(jì)方法,其問(wèn)題在于,雖然AI可以生產(chǎn)大量的設(shè)計(jì)方案,但是缺少能理解設(shè)計(jì)師且其推理過(guò)程可解釋的控制方法[13]。在現(xiàn)有對(duì)齊生成式AI模型與設(shè)計(jì)師意圖的人機(jī)對(duì)齊方法中,Terry等提出了基于“交互式”的人智意圖對(duì)齊方法,通過(guò)人智交互式對(duì)話的方式[61],設(shè)計(jì)師對(duì)輸入的意圖信息(提示詞、參考圖片)進(jìn)行修改,最終幫助AI提取到符合設(shè)計(jì)師意圖的圖像表征[62]。

      基于“交互式”設(shè)計(jì)師與AI的對(duì)齊方法,結(jié)合基于最前沿的AI模型工作流,筆者提出了創(chuàng)新方法,幫助設(shè)計(jì)師與AI模型交互式地進(jìn)行設(shè)計(jì)概念的意圖對(duì)齊,如圖6所示。設(shè)計(jì)師在探索設(shè)計(jì)概念的同時(shí),可以通過(guò)文字、參考圖片的方式將信息輸入給生成式AI模型。AI模型通過(guò)理解設(shè)計(jì)師輸入的信息以形成潛變量空間中的設(shè)計(jì)表征,并通過(guò)將設(shè)計(jì)表征作為條件以引導(dǎo)圖片的生成,由此形成抽象概念的設(shè)計(jì)表達(dá)。設(shè)計(jì)師可以通過(guò)AI模型的設(shè)計(jì)表達(dá)評(píng)估設(shè)計(jì)概念對(duì)應(yīng)的表征是否符合自己的設(shè)計(jì)意圖,如果不符合,可以對(duì)提示詞與參考圖片等概念信息進(jìn)行調(diào)整。通過(guò)交互式的調(diào)整最終找到符合意圖的表征組合。

      圖6 設(shè)計(jì)概念迭代對(duì)齊

      3.2 設(shè)計(jì)創(chuàng)新對(duì)齊階段——設(shè)計(jì)空間拓展

      “設(shè)計(jì)空間”可以理解為外觀設(shè)計(jì)中的設(shè)計(jì)自由度,一般是指設(shè)計(jì)者對(duì)產(chǎn)品外觀設(shè)計(jì)的創(chuàng)作自由度。相比于傳統(tǒng)設(shè)計(jì)流程的設(shè)計(jì)空間,基于文生圖的生成設(shè)計(jì),創(chuàng)造力并不在于最終的產(chǎn)品,而更多地在于與人工智能的交互過(guò)程[63]。Kohk等[64]認(rèn)為,AI可以在用戶輸入文本的語(yǔ)義組合的基礎(chǔ)上生成意想不到的結(jié)果,生成式AI可以幫助設(shè)計(jì)師有效地提供大量參考圖像并進(jìn)行應(yīng)用。設(shè)計(jì)師對(duì)概念的抽象和比喻描述可以通過(guò)生成式AI的輸出進(jìn)行具象化表現(xiàn)以帶來(lái)創(chuàng)意的發(fā)散。

      在設(shè)計(jì)創(chuàng)新對(duì)齊階段,設(shè)計(jì)師需要將前期設(shè)計(jì)探索中找到的設(shè)計(jì)概念進(jìn)行融合,形成創(chuàng)新的概念方案。生成式AI模型的特征融合功能可幫助設(shè)計(jì)師探索概念融合以形成創(chuàng)新設(shè)計(jì),在AI模型的表征概念空間完成概念的拓展,并形成設(shè)計(jì)表達(dá),最終實(shí)現(xiàn)設(shè)計(jì)空間的拓展。因此,作者定義了概念拓展的對(duì)齊流程,如圖7所示。在此對(duì)齊階段,AI模型在表征空間對(duì)探索階段形成的概念表征進(jìn)行插值融合,插值融合可以將2個(gè)或多個(gè)概念在表征空間中進(jìn)行融合,形成新的設(shè)計(jì)概念表征,這些新形成的概念表征可以通過(guò)條件引導(dǎo)生成設(shè)計(jì)表達(dá)圖片。

      3.3 設(shè)計(jì)評(píng)估對(duì)齊階段——設(shè)計(jì)規(guī)則匹配

      覃京燕[7]認(rèn)為,人智協(xié)同創(chuàng)作活動(dòng)既需要人類(lèi)智能在信息維度上做自由跨維度的籌謀抉擇與審美三觀的閾值判定,也需要人工智能做維度閾值以?xún)?nèi)的性質(zhì)特征識(shí)別、行為模式計(jì)算和網(wǎng)絡(luò)關(guān)系結(jié)構(gòu)優(yōu)化。在設(shè)計(jì)評(píng)估對(duì)齊階段,設(shè)計(jì)師需要對(duì)創(chuàng)新階段構(gòu)想的方案進(jìn)行評(píng)估和篩選,雖然在生成式AI模型基于特征融合的技術(shù)能力加持下,產(chǎn)生了海量的設(shè)計(jì)方案,但是人們也可以通過(guò)AI的表征空間來(lái)進(jìn)行設(shè)計(jì)方案的篩選,如圖8所示。制定AI模型對(duì)設(shè)計(jì)規(guī)則與創(chuàng)新設(shè)計(jì)概念在表征空間的坐標(biāo),可以通過(guò)計(jì)算歐式距離、歐式旋轉(zhuǎn)角度等方式實(shí)現(xiàn)設(shè)計(jì)方案的篩選。首先把設(shè)計(jì)規(guī)則通過(guò)對(duì)齊階段一的方式轉(zhuǎn)譯成規(guī)則表征,再計(jì)算概念表征與規(guī)則表征的距離。距離越近,則表明該概念表征越符合該設(shè)計(jì)規(guī)則。人們可以進(jìn)行單一設(shè)計(jì)概念與所有設(shè)計(jì)規(guī)則的橫向比較,對(duì)設(shè)計(jì)概念進(jìn)行綜合排序,再輸出排名靠前的最優(yōu)解,產(chǎn)出設(shè)計(jì)表達(dá),供設(shè)計(jì)師來(lái)做最后的評(píng)估。

      圖7 概念拓展的對(duì)齊流程

      圖8 設(shè)計(jì)方案的匹配和篩選

      4 結(jié)語(yǔ)

      在本研究中,作者根據(jù)在生成式AI模型與設(shè)計(jì)師人智共創(chuàng)過(guò)程中的人工智能對(duì)齊問(wèn)題,探索和梳理融合生成式AI模型特性的人機(jī)共創(chuàng)工作流程,以及各個(gè)流程中人智共創(chuàng)的對(duì)齊問(wèn)題,總結(jié)了在“探索-創(chuàng)新-評(píng)估”設(shè)計(jì)工作流中生成式AI模型的共創(chuàng)耦合機(jī)制,以及相應(yīng)的對(duì)齊方法,為面向可控、可信的人智共創(chuàng)提供了可實(shí)現(xiàn)路徑,具體如下。

      1)在設(shè)計(jì)探索階段,通過(guò)設(shè)計(jì)概念對(duì)齊實(shí)現(xiàn)從抽象概念(文字、參考圖片)到設(shè)計(jì)表達(dá)(圖像)的多模態(tài)語(yǔ)義生成圖像轉(zhuǎn)譯,確保人機(jī)對(duì)設(shè)計(jì)概念的理解一致與對(duì)齊。

      2)通過(guò)在設(shè)計(jì)創(chuàng)新階段使用多模態(tài)圖像、特征融合,將多個(gè)抽象概念形成的設(shè)計(jì)空間拓展并轉(zhuǎn)錄到設(shè)計(jì)表達(dá)空間中,幫助設(shè)計(jì)師拓展設(shè)計(jì)空間的搜索能力,從而增強(qiáng)設(shè)計(jì)創(chuàng)新。

      3)在設(shè)計(jì)評(píng)估階段,設(shè)計(jì)師可以根據(jù)設(shè)計(jì)要求定義設(shè)計(jì)規(guī)則,通過(guò)AI模型將規(guī)則與設(shè)計(jì)方案一起轉(zhuǎn)譯成設(shè)計(jì)特征空間中的表征,再根據(jù)設(shè)計(jì)規(guī)則匹配對(duì)齊,以進(jìn)行多維度的方案比較和篩選,從而建立起對(duì)海量AI生成設(shè)計(jì)方案的篩選機(jī)制。

      綜上所述,AI的數(shù)據(jù)處理能力結(jié)合設(shè)計(jì)師的創(chuàng)新導(dǎo)向,有望構(gòu)建一個(gè)協(xié)同共生的設(shè)計(jì)生態(tài)系統(tǒng)。在這一系統(tǒng)中,AI負(fù)責(zé)提供精確的數(shù)據(jù)支持和優(yōu)化方案,人類(lèi)設(shè)計(jì)師則負(fù)責(zé)確保設(shè)計(jì)方向的創(chuàng)新性和實(shí)用性。這種人智共創(chuàng)的對(duì)齊策略將推動(dòng)設(shè)計(jì)智能化、可持續(xù)發(fā)展且符合人類(lèi)價(jià)值觀的創(chuàng)新,朝著人智共融、互補(bǔ)共進(jìn)的設(shè)計(jì)未來(lái)邁進(jìn)。

      [1] GALLIFANT J, FISKE A, LEVITES S Y A, et al. Peer Review of GPT-4 Technical Report and Systems Card[J]. PLOS Digital Health, 2024, 3(1): e0000417.

      [2] SAHARIA C, CHAN W, SAXENA S, et al. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding[J]. Advances in Neural Information Pro-c-e-ssing Systems, 2022, 35: 36479-36494.

      [3] 袁傳璽. 百度第三季度實(shí)現(xiàn)營(yíng)收344.47億元 文心大模型4.0重構(gòu)業(yè)務(wù)生態(tài)[N]. 證券日?qǐng)?bào), 2023-11-22(02). YUAN C X. Baidu Achieved Revenue of 34.447 Billion Yuan in the Third Quarter of Wenxin Grand Model 4.0 Reconstruction Business Ecology[N]. Securities Daily, 2023-11-22(02).

      [4] 陳佳嵐. 訊飛星火大模型加大投入明年上半年對(duì)標(biāo)GPT4[N]. 中國(guó)經(jīng)營(yíng)報(bào), 2023-10-30(03). CHEN J L. Iflystar Fire Model to Increase Investment in the First Half of Next Year Against GPT 4[N]. China Business Report, 2023-10-30(03).

      [5] 何文英. 文生視頻軟件Pika火出圈或推動(dòng)AIGC加速融入多種業(yè)態(tài)[N]. 證券日?qǐng)?bào), 2023-12-04(03). HE W Y. Vincennes Video Software Pika Fire out of the Circle or Promote AIGC to Accelerate the Integration into a Variety of Formats [N]. Securities Daily, 2023-12-04(03).

      [6] 曾真, 孫效華. 基于增強(qiáng)智能理念的人機(jī)協(xié)同設(shè)計(jì)探索[J]. 包裝工程, 2022, 43(20): 154-161. ZENG Z, SUN X H. Human-Machine Collaborative Design Exploration Based on the Concept of Augmented Intelligence[J]. Packaging Engineering: 2022, 43(20): 154-161.

      [7] 覃京燕. 審美意識(shí)對(duì)人工智能與創(chuàng)新設(shè)計(jì)的影響研究[J] 包裝工程, 2019 40(4): 59-71. QIN J Y. Impact of Aesthetic Consciousness on Artificial Intelligence and Innovation Design [J]. Packaging Engineering, 2019, 40(4): 59-71.

      [8] WU Z, JI D, YU K, et al. AI Creativity and the Human-AI Co-Creation Model[C]// Human-Computer Interaction. Theory, Methods and Tools: Thematic Area. Berlin: HCI, 2021.

      [9] YANG Q, STEINFELD A, ROSé C, et al. Re-Examining Whether, Why, and How Human-AI Interaction is Uniquely Difficult to Design[C]// Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. Sydney: CHI, 2020.

      [10] 蔡淑敏, 馬云飛, 秦銘蔚. OpenAI動(dòng)蕩背后的理想與現(xiàn)實(shí)[N]. 國(guó)際金融報(bào), 2023-11-27(12). CAI S M, MA Y F, QIN M W. The Ideal and Reality Behind OpenAI Turmoil[N]. International Finance News, 2023-11-27(12).

      [11] 趙朝陽(yáng), 朱貴波, 王金橋. ChatGPT給語(yǔ)言大模型帶來(lái)的啟示和多模態(tài)大模型新的發(fā)展思路[J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2023, 7(3): 26-35. ZHAO Z Y, ZHU G B, WANG J Q. ChatGPT Brings Inspiration to Language Large Model and New Development Ideas of Multimodal Large Model[J]. Data Analysis and Knowledge Discovery, 2023, 7(3): 26-35.

      [12] VENTER G. Review of Optimization Techniques[J]. London: John Wiley & Sons, 2010.

      [13] CHRISTIAN B. The Alignment Problem: Machine Learning and Human Values[M]. 1st ed. New York: Norton & Company, 2020.

      [14] HARLAND H, DAZELEY R, NAKISA B, et al. AI Apology: Interactive Multi-Objective Reinforcement Learning for Human-Aligned AI[J]. Neural Computing and Applications, 2023, 35(23): 16917-16930.

      [15] PANDEY R, PUROHIT H, CASTILLO C, et al. Modeling and Mitigating Human Annotation Errors to Design Efficient Stream Processing Systems with Human-in- the-Loop Machine Learning[J]. International Journal of Human-Computer Studies, 2022, 160: 102772.

      [16] BUTLIN P. AI Alignment and Human Reward[C]// Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society. Munich: AAAI, 2021.

      [17] GABRIEL I. Artificial Intelligence, Values, and Alignment[J]. Minds and Machines, 2020, 30(3): 411-437.

      [18] JI J, QIU T, CHEN B, et al. AI Alignment: A Comprehensive Survey[J/OL]. arXiv, 2023 [2023-11-12]. https:// arxiv.org/abs/2310.19852.

      [19] 劉學(xué)博, 戶保田, 陳科海, 等. 大模型關(guān)鍵技術(shù)與未來(lái)發(fā)展方向——從ChatGPT談起[J]. 中國(guó)科學(xué)基金期刊, 2023, 37(5): 758-766. LIU X B, HU B T, CHEN K H, et al. Key Technologies and Future Development Directions of Large Models: From ChatGPT[J]. Science Foundation of China, 2023, 37(5): 758-766.

      [20] 周慎. 新文本間性: 生成式人工智能的文本內(nèi)涵、結(jié)構(gòu)與表征[J]. 新聞?dòng)浾? 2023 (6): 39-45. ZHOU S. New Intertextuality: Text Connotation, Structure, and Representation of Generative Artificial Intelligence[J]. The Journalist, 2023(6): 39-45.

      [21] 喻國(guó)明, 滕文強(qiáng), 武迪. 價(jià)值對(duì)齊:AIGC時(shí)代人機(jī)信任傳播模式的構(gòu)建路徑[J]. 教育傳媒研究, 2023(6): 66-71. Yu G M, TENG W Q, WU D. Value Alignment: The Construction Path of Human-Machine Trust Communication Model in AIGC Era[J]. Educational Media Research, 2023(6): 66-71.

      [22] LIAO W, LU X, FEI Y, et al. Generative AI Design for Building Structures[J]. Automation in Construction, 2024, 157: 105187.

      [23] OH S, JUNG Y, KIM S, et al. Deep Generative Design: Integration of Topology Optimization and Generative Models[J]. Journal of Mechanical Design, 2019, 141(11): 111405.

      [24] SBAI O, ELHOSEINY M, BORDES A, et al. Design: Design Inspiration from Generative Networks[C]// Proceedings of the European Conference on Computer Vision. Berlin: European Conference, 2018.

      [25] 高亮, 李培根, 黃培, 等. 數(shù)字化設(shè)計(jì)類(lèi)工業(yè)軟件發(fā)展策略研究[J]. 中國(guó)工程科學(xué), 2023, 25(2): 254-262. GAO L, LI P G, HUANG P, et al. Research on Development Strategy of Industrial Software for Digital Design[J]. Engineering Science, 2023, 25(2): 254-262.

      [26] 陳超萃. 設(shè)計(jì)表征對(duì)設(shè)計(jì)思考的影響[J]. 新建筑, 2009(3): 88-90. CHEN C C. The Influence of Design Representation on Design Thinking [J]. New Architecture, 2009(3): 88-90.

      [27] GERO J S. Nascent Directions for Design Creativity Research[J]. International Journal of Design Creativity and Innovation, 2020, 8(3): 144-146.

      [28] 趙江洪. 設(shè)計(jì)和設(shè)計(jì)方法研究四十年[J]. 裝飾. 2008(9): 44-47. ZHAO J H. Forty Years of Research on Design and Design Methods[J]. Decoration, 2008(9): 44-47.

      [29] BROWN T, KATZ B. Change by Design: How Design Thinking Transforms Organizations and Inspires Innovation[M]. 1st ed. New York: Harper Business, 2009.

      [30] BANERJEE B, GIBBS T. Teaching the Innovation Methodology at the Stanford D. School[M]. 1st ed. Springer International Publishing, 2016.

      [31] RATCLIFFE L, MCNEILL M. Agile Experience Design: A Digital Designer's Guide to Agile, Lean, and Continuous[M]. California: New Riders, 2012.

      [32] 李彥, 劉紅圍, 李夢(mèng)蝶, 等. 設(shè)計(jì)思維研究綜述[J]. 機(jī)械工程學(xué)報(bào), 2017, 53(15): 1-20. LI Y, LIU H W, LI M D, et al. Review of Design Thinking Research[J]. Journal of Mechanical Engineering, 2017, 53(15): 1-20.

      [33] GAVER B, MARTIN H. Alternatives: Exploring Information Appliances through Conceptual Design Proposals[C]// Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. Hague: SIGCHI, 2000.

      [34] 譚浩, 趙江洪, 王巍, 等. 產(chǎn)品造型設(shè)計(jì)思維模型與應(yīng)用[J]. 機(jī)械工程學(xué)報(bào), 2006(增刊1): 98-102. TAN H, ZHAO J H, WANG W, et al. Thinking Model and Application of Product Modeling Design [J]. Journal of Mechanical Engineering, 2006(Sup.1): 98-102.

      [35] ROSENMAN M A. Application of Expert Systems to Building Design Analysis and Evaluation[J]. Building and Environment, 1990, 25(3): 221-233.

      [36] 段正潔, 譚浩, 趙丹華, 等. 基于風(fēng)格語(yǔ)義的產(chǎn)品造型設(shè)計(jì)評(píng)價(jià)策略[J]. 包裝工程, 2018, 39(12): 107-112.DUAN Z J, TAN H, ZHAO D H, et al. Evaluation Strategy of Product Modeling Design Based on Style Semantics[J]. Packaging Engineering, 2018, 39(12): 107-112.

      [37] 羅仕鑒, 潘云鶴. 產(chǎn)品設(shè)計(jì)中的感性意象理論、技術(shù)與應(yīng)用研究進(jìn)展[J]. 機(jī)械工程學(xué)報(bào), 2007(3): 8-13. LUO S J, PAN Y H. Research Progress of Perceptual Image Theory, Technology and Application in Product Design[J]. Chinese Journal of Mechanical Engineering, 2007(3): 8-13.

      [38] ALEC R, KIM J W, HALLACY C, et al. Learning Transferable Visual Models from Natural Language Supervision[C]// International Conference on Machine Learning. Berlin: IEEE, 2021.

      [39] ABDAL R, QIN Y, WONKA P. Image2stylegan: How to Embed Images into the Stylegan Latent Space?[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Prague: IEEE, 2019.

      [40] BROOKS T, HOLYNSKI A, EFROS A A. Instructpix2pix: Learning to Follow Image Editing Instructions[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Paris: IEEE, 2023.

      [41] JATNIKA D, BIJAKSANA M A, SURYANI A A. Word2vec Model Analysis for Semantic Similarities in English Words[J]. Procedia Computer Science, 2019, 157: 160-167.

      [42] TEWARI A, ELGHARIB M, BERNARD F, et al. Pie: Portrait Image Embedding for Semantic Control[J]. ACM Transactions on Graphics (TOG), 2020, 39(6): 1-14.

      [43] RONNEBERGER O, FISCHER P, BROXT. U-NET: Convolutional Networks for Biomedical Image Seg-mentation[C]// Proceedings of the International Con-ference on Medical Image Computing and Computer- Assisted Intervention, 2015.

      [44] ROMBACH R, BLATTMANN A, LORENZ D, et al. High-Resolution Image Synthesis with Latent Diffusion Models[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Paris: IEEE, 2022.

      [45] ZHU Y, LI Z, WANG T, et al. Conditional Text Image Generation with Diffusion Models[C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Berlin: IEEE, 2023

      [46] RUIZ N, LI Y, JAMPANI V, et al. Dreambooth: Fine Tuning Text-to-Image Diffusion Models for Subject-driven Generation[C]// Proceedings of the IEEE/CVF Confer-ence on Computer Vision and Pattern Recognition. Paris: IEEE, 2023.

      [47] ZHANG L, RAO A, AHRAWALA M. Adding Condi--tional Control to Text-to-image Diffusion Models[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Berlin: IEEE, 2023.

      [48] BALDRAT A, AGNOLUCCI L, BERTINI M, et al. Zero-Shot Composed Image Retrieval with Textual Inversion[C]// Proceedings of the IEEE/CVF Inter--national Conference on Computer Vision. Paris: IEEE, 2023.

      [49] CHO J, NAM G, KIM S, et al. Promptstyler: Prompt- driven Style Generation for Source-Free Domain Gen---eralization[C]// Proceedings of the IEEE/CVF Interna--tional Conference on Computer Vision. Parsi: IEEE, 2023.

      [50] DHAR S, ORDONEZ V, BERG T L. High Level De---scribable Attributes for Predicting Aesthetics and Inter---estingness [C]// Proceedings of CVPR 2011. Colorado Springs: IEEE, 2011.

      [51] IBARRA F F, KARDAN O, HUNTER M R, et al. Image Feature Types and Their Predictions of Aesthetic Pref---erence and Naturalness[J]. Frontiers in Psychology, 2017, 8: 632.

      [52] CHEN P, LI Q, BIAZ S, et al. gScoreCAM: What Objects is Clip Looking at[C]// Asian Conference on Computer Vision. London: ACCV, 2022.

      [53] European Commission Joint Research Centre. Robust-ness and Explainability of Artificial Intelligence: from Technical to Policy Solutions[M]. Ispra: Publications Office, 2020.

      [54] CAHNG M, DRUGA S, FIANNAC A J, et al. The Prompt Artists[C]// Proceedings of the 15th Conference on Creativity and Cognition. New York: CCC, 2023.

      [55] JIANG E, TOH E, MOLINA A, et al. Discovering the Syntax and Strategies of Natural Language Program-ming with Generative Language Models[C]// CHI Con-ference on Human Factors in Computing Systems. New Orleans: CHI, 2022.

      [56] ZAMFIRESCU-PEREIRA J D, WEI H, XIAO A, et al. Herding AI Cats: Lessons from Designing a Chatbot by Prompting GPT-3[C]// Proceedings of the 2023 ACM Designing Interactive Systems Conference. Munich: ACM, 2023.

      [57] ZAMFIRESCU-PEREIRA J D, WONG R Y, HARTM--ANN B, et al. Why Johnny Can't Prompt: How Non-AI Experts Try (and Fail) to Design LLM Prompts[C]// Proceedings of the 2023 CHI Conference on Human Factors in Computing Systems. Las Vegas: CHI, 2023.

      [58] JANSSON D G, SMITH S M. Design Fixation[J]. De-sign Studies, 1991, 12(1): 3-11.

      [59] YOUMANS R J, ARCISZEWSKI T. Design Fixation: Classifications and Modern Methods of Prevention[J]. Artificial Intelligence for Engineering Design, Analysis and Manufacturing, 2014, 28(2): 129-137.

      [60] LINSEY J S, TSENG I, FU K, et al. A Study of Design Fixation, Its Mitigation and Perception in Engineering Design Faculty[J]. Journal of Mechanical Design, 2010, 132(4): 041003.

      [61] BARRACHINA S, BENDER O, CASACUBERTA F, et al. Statistical Approaches to Computer-Assisted Translation[J]. Computational Linguistics, 2009, 35(1): 3-28.

      [62] XU W, DAINOFF M J, GE L, et al. Transitioning to Human Interaction with AI Systems: New Challenges and Opportunities for HCI Professionals to Enable Human- -centered AI[J]. International Journal of Human–Computer Interaction, 2023, 39(3): 494-518.

      [63] LYUY, WANG X, LIN R, et al. Communication in Human–AI Co-Creation: Perceptual Analysis of Paintings Generated by Text-to-image System[J]. Applied Sciences, 2022, 12(22): 11312.

      [64] KOHK, PARK G, JEON H, et al. Large-Scale Text- to-Image Generation Models for Visual Artists’ Creative Works[C]// Proceedings of the 28th International Con-ference on Intelligent User Interfaces. Berlin: ICIUI, 2023.

      Alignment Issues in Human-AI Co-creation Using Generative AI Models

      TAN Zhengyu1,2*, WANG Zhouyang1, DU Peng1

      (1. Hunan University, Changsha 410082, China; 2. Lushan Lab, Changsha 410082, China)

      The work aims to explore how generative AI models align with designers' intentions in human-AI co-creation from the perspective of artificial intelligence alignment. Methodologically, the interpretability and controllability issues in AI alignment were explored through a feature analysis approach. The research examined how generative AI technologies, as auxiliary design tools, align with the specific intents and needs of the three stages of the design process: "exploration, innovation, and evaluation". The alignment challenges that needed to be addressed in each stage were analyzed. Technologically, the study proposed an interactive alignment method, representation expansion method and representation evaluation method based on human intelligence design concept representation. In conclusion, the study constructs three alignment methods: intent alignment, design space expansion, and design rule matching, in the three stages. These methods aim to assist designers in building controllable and interpretable human-AI co-creation methods to contribute to controllable and trustworthy human-AI co-creation.

      human-AI co-creation; artificial intelligence alignment; design problem-solving; design representation alignment

      TB482

      A

      1001-3563(2024)08-0029-11

      10.19554/j.cnki.1001-3563.2024.08.004

      2023-11-26

      教育部人文社科規(guī)劃一般資助項(xiàng)目(21YJA760059);麓山實(shí)驗(yàn)室研究計(jì)劃

      通信作者

      猜你喜歡
      共創(chuàng)語(yǔ)義模態(tài)
      共享豐收喜悅 共創(chuàng)美好生活
      共創(chuàng)美好生活
      心聲歌刊(2020年6期)2021-01-14 00:23:36
      語(yǔ)言與語(yǔ)義
      創(chuàng)新與堅(jiān)持 共創(chuàng)黔茶輝煌明天
      貴茶(2018年6期)2018-05-30 09:53:54
      “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
      國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
      認(rèn)知范疇模糊與語(yǔ)義模糊
      由單個(gè)模態(tài)構(gòu)造對(duì)稱(chēng)簡(jiǎn)支梁的抗彎剛度
      與時(shí)俱進(jìn) 開(kāi)闊視野 共創(chuàng)未來(lái)
      武邑县| 克东县| 盘锦市| 板桥市| 和硕县| 桦川县| 溆浦县| 孟津县| 龙山县| 灌阳县| 连平县| 临湘市| 鹤峰县| 阳信县| 南丰县| 宜都市| 樟树市| 拜泉县| 金塔县| 通海县| 大方县| 通城县| 龙江县| 彭山县| 资阳市| 邹城市| 莆田市| 漳州市| 河曲县| 江达县| 安仁县| 北辰区| 龙门县| 顺平县| 博白县| 红原县| 鄯善县| 永嘉县| 屏山县| 桃园市| 喀什市|