生成對抗網絡(GAN)可以用來變化字體風格嗎?

Arphetian

左圖:已有的一張電影海報;右圖:使用*MC-GAN*生成的新電影標題


文本是二維設計中的一個顯著視覺元素。藝術家們投入了大把的時間來設計在視覺上與其他元素的形狀和紋理相兼容的字形。這個過程是勞動密集型的,藝術家們通常只設計標題或註釋所必需的字形子集,這使得在創造了設計之後很難改變文本,或者很難把看到的字體轉移到您自己的項目中。


早期關於字形合成的研究集中在輪廓建模上,這被限制在了具體的字形拓撲上(例如,不能應用到裝飾字體或者手寫體),並且不能與圖像輸入一起使用。隨著深度神經網絡的興起,研究者們研究了從圖像進行字形建模的問題。另一方面,合成與局部觀察相一致的數據在計算機視覺和圖形學中是一個有趣的問題,例如,多視角圖像生成、補全圖像中的缺失區域,以及三位形狀的生成。字體數據是一個人典型的例子,它提供了字體和內容的清晰分解。


條件生成對抗網絡(cGANS)[1] 的最新進展在許多生成應用中取得了成功。然而,它們只有在相當特定的領域中才能發揮最佳效果,而且無法在普通領域或者多領域轉移中發揮最佳作用。類似地,當被直接用來生成字體時,cGAN 模型會生成嚴重的偽影。例如,給定下面五個字母:


條件生活曾對抗網絡模型無法以同一種風格生成這 26 個字母:



用於少鏡頭字體風格轉換的多內容生成對抗網絡


我們設計了多內容 GAN 架構 [ 2 ] 來為每個觀察到的字符集重新訓練定製的魔法網絡,而不是為所有可能的字體裝飾訓練單個網絡。該模型考慮沿著信道的內容 (即,A - Z 字母字形) 和沿著網絡層的樣式 (即,字形裝飾),以將給定字形的樣式轉換為模型沒見過的字形的內容。


多內容 GAN 模型包括用於預測粗略字形形狀的堆疊 cGAN 架構和用於預測最終字形的顏色和紋理的裝飾網絡。第一個網絡稱為 GlyphNet,它預測字形掩碼,而第二個網絡稱為 OrnaNet,它微調從第一個網絡生成的字形的顏色和裝飾。每個子網絡遵循條件生成對抗網絡 ( cGAN ) 的體系結構,這種結構被修改以用於使字形或裝飾預測風格化的特定目的。


網絡結構


下面是從一組訓練字體中學習字體流形的一般形狀的 GlyphNet 示意圖。字形的輸入和輸出是字形的堆棧,其中為每個字母分配通道。在每個訓練迭代中,x1 包含一個由 y1 字形組成的隨機子集,剩餘輸入通道被清零。


通過這種新穎的字形堆棧設計,跨網絡信道學習不同字形之間的相關性,以便自動變換它們的風格。下圖通過結構類似性(SSIM)指標在包含 1500 個字體樣例的隨機集合上展示了這種相關性。計算每個生成的字形與其真實字形之間的結構相似性,當一次觀察到一個字母時,共發現了 25 種分佈。這些曲線圖顯示了當觀察到字母β(藍色) 時生成字母α的分佈α|β與當給出除β以外的任何其它字母 (紅色) 時生成字母α的分佈α|β。在生成 26 個字母中的每一個字母時,兩個信息量最大的給定字母和兩個信息量最少的給定字母的分佈如圖所示。例如,從圖的第五行來看,與其他字母相比,字母 F 和 B 在生成字母 E 方面是最有信息貢獻的,而 I 和 W 是信息最少的。而其他例子,O 和 C 是構造 G 的最具指導性的字母,R 和 B 是生成 P 的最具指導性的字母


因此,對於僅有幾個觀察字母的任何期望字體,預訓練的 GlyphNet 要生成全部的 26 個 A--Z 字形。但是我們應該如何轉換紋飾呢?第二網絡 OrnaNet 採用這些生成的字形,並且在簡單的整形變換和灰度信道重複之後 (在下圖中用 T 表示),使用條件 GAN 架構生成具有期望顏色和紋飾的豐富輸出。OrnaNet 的輸入和輸出是批量的 RGB 圖像,而不是堆棧(其中每個字母的 RGB 圖像通道是其對應的灰度字形的重複)。OrnaNet 中的多個正則化器會懲罰風格化字母掩膜與其對應字形形狀的偏差。



結果


下面,我們將使用單個單詞中給出的字體樣式演示例句。



此外,以下是 OrnaNet 預測的逐步改進:



機器之心

生成對抗網絡可以用來變化字體風格的,你可以到站長那下載字體,要啥樣有啥樣還免費!然後。。。算了我都不知道啥玩意編不下去了哈哈哈


分享到:


相關文章: