企业概况

您所在位置:首页 > 企业概况 > 正文

数据驱动方法利用深度学习AI进行照片到漫画的翻译

文章作者:www.cs-vaccine.com发布时间:2020-01-20浏览次数:629

漫画肖像是一种独特的艺术形式。艺术家以夸张的方式概述了一个人的脸,大部分时间都是为了引发幽默。自动化这项技术带来了挑战,因为涉及的复杂细节和形状的数量以及将艺术家从现实生活中的自我转变为创造性夸大的人的专业水平。

来自香港城市大学和微软的计算机科学家团队开发了一种创新的基于深度学习的方法,可以自动为给定的肖像生成漫画,并使用户能够高效,逼真地完成这项工作。

“与定义手工制作规则的传统图形方法相比,我们的新方法使用大数据和机器学习来综合成千上万的专业艺术家绘制的漫画实例,”研究生的第一作者Kaidi Cao说。斯坦福大学主修计算机科学,但在微软实习期间。 “虽然现有的风格转移方式主要集中在外观风格上,但我们的技术实现了漫画中涉及的几何夸张和外观风格。”这种方法使用户能够自动化肖像漫画,并可应用于社交互动,如媒体创建漫画的化身和设计卡通人物的任务。该技术在营销方面也有潜在的应用,

Cao与香港城市大学的Jing Liao和微软的Lu Yuan合作。这三名男子计划于12月4日至12月7日在东京的SIGGRAPH Asia 2018展示他们的作品。年度会议展示了最受尊敬的计算机图形和交互技术的技术和创意成员,并展示了科学,艺术,游戏和动画领域的前沿研究。

在这项工作中,研究人员转向了一种众所周知的机器学习技术 - 为不成对的照片生成一个对抗网络(GAN),以及漫画翻译,以生成保留肖像身份的漫画。被称为“CariGANs”的计算框架通过研究人员CariGeoGAN和CariStyGAN标记的两种算法精确地模拟照片中的几何夸张(面部形状,特定角度)和外观样式(外观,感觉,铅笔笔划,阴影)。

CariGeoGAN仅模拟从面部照片到漫画的几何到几何映射,CariStyGAN将样式外观从漫画传递到面部照片,而不会使原始图像的几何形状失真。研究人员指出,这两个网络是针对每项任务分别培训的,因此学习过程更加强大。 CariGANs框架允许用户通过拖动幻灯片或提供示例漫画来控制几何和样式的夸大。

曹和合作者进行了感性研究,以评估他们的框架,以制作易于识别的肖像漫画,并且在形状和外观上不会过度扭曲。例如,一项研究评估了与现有漫画艺术翻译方法相比,使用CariGAN方法保存的图像的身份。他们通过几个例子证明现有方法导致无法识别的漫画翻译。研究参与者发现很难将最终的漫画与原始主题相匹配,因为最终结果过于夸张或不清楚。研究人员的方法成功地创造了更清晰,更准确的肖像照片漫画描绘,好像它们是由专业艺术家手绘的。

目前,这部作品的重点是角色的漫画,主要是头像或肖像。在未来的工作中,研究人员计划探索除了面部漫画之外产生的整个身体或更复杂的场景。他们还对设计改进的人机交互(HCI)系统感兴趣,该系统为用户提供更多自由和用户控制的机器学习生成结果。