爆火DragGAN正式開源,GitHub近18k星!清華校友帶GAN逆襲,大象一秒P轉身|聚焦
上個月,一項名為「Drag Your GAN」的核彈級研究,在AI繪圖圈炸響。
(相關資料圖)
論文由MPII、MIT、賓大、谷歌等機構的學者聯合發布,并且已被SIGGRAPH 2023錄用。
從此,我們只需一拖一拽,就能實現完美P圖了,哪里不準修哪里!
圖片
拍的照片表情不好?修!臉型不夠瘦?修!臉沖鏡頭的角度不對?修!
而就在剛剛,團隊正式放出了官方代碼!
圖片
項目地址:https://github.com/XingangPan/DragGAN
首先,需要下載預訓練StyleGAN2的權重:
sh scripts/download_model.sh
如果想嘗試StyleGAN-Human和Landscapes HQ(LHQ)數據集,則需要將下載的權重放到./checkpoints目錄下。
接著,啟動DragGAN GUI來編輯GAN生成的圖像:
sh scripts/gui.sh
如果要編輯真實圖像,則需要使用像PTI這樣的工具執行GAN反演。然后將新的潛在代碼和模型權重加載到GUI中。
有網友在上手試用后表示,只會占用大約6G顯存,但是使用效果不是很理想,坐等后續改進。
圖片
GAN逆襲歸來,一秒把大象P轉身顧名思義,通過DragGAN,我們可以任意拖動圖像進行編輯,無論是對象的形狀、布局、姿態、表情、位置、大小,都可以做到精準控制。
圖片
項目地址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/
在確定關鍵點的起始和終止位置之后,再根據對象的物理結構,用GAN生成符合邏輯的圖像,一張挑不出破綻的圖就做好了。
圖片
比如,輕輕一拖動,就能想把耷拉著的狗耳朵提起來,讓狗狗從站著變成趴下,以及讓狗狗瞬間張嘴微笑。
圖片
模特的姿勢可以隨意改變,短褲可以變成九分褲,短袖可以變長袖。
圖片
湖邊的樹可以瞬間長高,湖里的倒影也跟著一起改變。
圖片
原圖中的太陽沒露臉?無所謂,DragGAN會給你造個日出。
圖片
對此網友調侃稱,現在甲方提出「讓大象轉個身」的要求,終于可以實現了。
DragGAN:圖像處理新時代在這項工作中,團隊研究了一種強大但還未被充分探索的控制GAN的方法——以交互的方式將圖像中任意一點精確「拖動」至目標點。
圖片
DragGAN主要包括以下兩個主要組成部分:
1.基于特征的運動監控,驅動操作點向目標位置移動
2.一個新的點跟蹤方法,利用區分性的GAN特征持續定位操作點的位置
通過DragGAN,任何人都可以對像素進行精確的控制,進而編輯如動物、汽車、人類、風景等多種類別的姿態、形狀、表情和布局。
由于這些操作在GAN的學習生成圖像流形上進行,因此它們傾向于生成逼真的輸出,即使在富有挑戰性的場景下也是如此,例如被遮擋的內容和變形的圖像。
定性和定量的對比表明,DragGAN在圖像操作和點跟蹤任務中,都明顯優于先前的方法。
拖拽編輯
在DragGAN的加持下,用戶只需要設置幾個操作點(紅點),目標點(藍點),以及可選的表示可移動區域的mask(亮區)。然后,模型就會自動完成后續的圖像生成,
其中,動態監控步驟會讓操作點(紅點)向目標點(藍點)移動,點追蹤步驟則通過更新操作點來追蹤圖像中的對象。此過程會一直持續,直到操作點達到其相應的目標點。
圖片
流程
具體來說,團隊通過在生成器的特征圖上的位移修補損失來實現動態監控,并在相同的特征空間中通過最近鄰搜索進行點追蹤。
圖片
方法值得注意的是,用戶可以通過添加mask的方式,來控制需要編輯的區域。
可以看到,當狗的頭部被mask時,在編輯后的圖像中,只有頭部發生了移動,而其他區域則并未發生變化。但如果沒有mask的話,整個狗的身體也會跟著移動。
這也顯示出,基于點的操作通常有多種可能的解決方案,而GAN會傾向于在其從訓練數據中學習的圖像流形中找到最近的解決方案。
圖片
mask的效果
在真實圖像的編輯中,團隊應用GAN反轉將其映射到StyleGAN的潛空間,然后分別編輯姿勢、頭發、形狀和表情。
圖片
圖片
真實圖像的處理
不僅如此,DragGAN還具有強大的泛化能力,可以創建出超出訓練圖像分布的圖像。比如,一個張得巨大的嘴,以及一個被極限放大的車輪。
圖片
泛化能力
作者介紹XingangPan
論文一作Xingang Pan,目前已經正式成為了南洋理工大學計算機科學與工程學院的助理教授。
研究方向主要集中在生成式AI模型、AI與人類協同內容生成、3D/視頻編輯和生成、神經場景表示和渲染,以及物理感知內容生成。
在此之前,他于2016年在清華大學獲得學士學位,2021年在香港中文大學多媒體實驗室獲得博士學位,導師是湯曉鷗教授。隨后在馬克斯·普朗克計算機科學研究所從事了博士后研究,由Christian Theobalt教授指導。
LingjieLiu
Lingjie Liu是賓夕法尼亞大學計算機和信息科學系的Aravind K. Joshi助理教授,負責賓大計算機圖形實驗室,同時也是通用機器人、自動化、傳感和感知(GRASP)實驗室的成員。
在此之前,她是馬克斯·普朗克計算機科學研究所的Lise Meitner博士后研究人員。并于2019年在香港大學獲得博士學位。
標簽:
- 01 我國已形成世界上規模最大、體系最全、效果最好的人工影響天氣作業力量
- 02 網游之超級戒指蔣飛_網游之超級戒指
- 03 寶沃注銷生產資質引熱議 小米汽車面臨雙重考驗?
- 04 全球速看:6月27日獨山子石化二甘醇價格快訊
- 05 環球快消息!榜單里的佛山|龍舟賽熱度指數與東莞并列全國第一,佛山賽出“龍舟經濟”
- 06 華泰證券:當前保險估值對利率下行風險反映較為充分
- 07 雙眼皮變成三眼皮怎么變回去_三眼皮怎么變回去
- 08 每日快訊!偏遠案發地豎起“公益保護公告牌”
- 09 解碼中國基因研究從跟跑到領跑 基因科技越來越多地應用在百姓身邊
- 010 “孩子感冒被開800元藥”暴露藥店監督短板_世界今頭條