亞馬遜早已經(jīng)利用AI來推動Alexa的Style,這是亞馬遜購物應用程序的一項功能,該功能使用算法和人工策劃來建議、比較和評估服裝?,F(xiàn)在,這個技術又進步了。
亞馬遜硬件實驗室Lab126的研究人員創(chuàng)造了Fire TV、Kindle Fire和Echo等產(chǎn)品,他們開發(fā)了名為Outfit-VITON的基于圖像的虛擬系統(tǒng),旨在幫助可視化參考照片中的衣物適配圖像上的人。亞馬遜表示,可以使用生成對抗網(wǎng)絡(GAN)在一張圖片上對其進行訓練,這是一種模型,其中包含一個稱為鑒別器的組件,該組件可以學習區(qū)分生成的物品與真實圖像。
“在線服裝購物可讓您在家中舒適自在地購物,提供多種選擇的商品,并獲得最新的產(chǎn)品。但是,在線購物無法進行物理試穿,從而限制了客戶對服裝實際外觀的理解?!毖芯咳藛T寫道。“這一關鍵局限性鼓勵了虛擬試衣間的發(fā)展,在虛擬試衣間中,將綜合生成穿著所選服裝的顧客的圖像,以幫助比較和選擇最想要的外觀?!?/p>
Outfit-VITON包含幾個部分:一個形狀生成模型,其輸入是查詢圖像,然后參考圖像會描繪從查詢圖像轉(zhuǎn)移到模特兒的衣服,用作最終圖像的模板。
在預處理中,已建立的技術會分割輸入圖像,并計算代表其姿勢和形狀的查詢?nèi)藛T的身體模型。選擇要包含在最終圖像中的片段傳遞到形狀生成模型,該模型將它們與主體模型結合起來并更新查詢圖像的形狀表示。
研究人員解釋:“我們的方法生成了幾何上正確的分割圖,該圖改變了所選參考服裝的形狀以符合目標人群。該算法使用在線優(yōu)化方案準確地合成精細的服裝特征,例如紋理、徽標和刺繡,該方案可以對合成圖像進行微調(diào)?!?h3>視覺語言產(chǎn)品
該系統(tǒng)由經(jīng)過三重輸入訓練的模型組成:源圖像、文本修訂版和與修訂版匹配的目標圖像。通過三個不同的子模型,將源圖像的表示與目標圖像的表示相關聯(lián),再將源圖像的表示與文本的表示融合在一起。
語言和視覺表示的每種融合都是由單獨的兩部分模型完成的。一種使用聯(lián)合注意機制來識別在源圖像和目標圖像中應該相同的視覺特征,而另一種則用于識別應該改變的特征。
圖像搜索是計算機視覺中的一項基本任務
“圖像搜索是計算機視覺中的一項基本任務。在這項工作中,我們調(diào)查了具有文本反饋的圖像搜索任務,該任務使用戶能夠通過選擇參考圖像,并提供其他文本來完善或修改檢索結果,并與系統(tǒng)進行交互。與先前的工作主要集中于一種類型的文本反饋不同,我們考慮使用更通用的文本形式,可以是類似于屬性的描述,也可以是自然語言表達?!毖芯咳藛T說。