AI靠什么超越人类修图师？万字长文看懂“美图云修”AI修图解决方案-邢台金老歪-赢咖4注册

ramy 2020-12-31 16:52:19 图像处理 | 查看评论

G 网络有两个分支，训练时，将图和图输入 G 网络的第一个分支，再从数据集中随机挑选一张参考图（网络输入图）输入 G 网络的第二个分支，得到网络输出的结果图，根据结果图和目标图计算 Perceptual loss、Gan loss、 L1 loss 以及 L2 loss，上述几个 loss 控制整个网络的学习和优化；

实际使用时，将裁剪好的嘴巴区域的图进行步骤 3 中的预处理，并输入训练好的 G 网络，就可以得到网络输出的结果图，结合图像融合算法将原图和结果图进行融合，确保结果更加真实自然，并逆回到原始尺寸的原图中，即完成全部算法过程。

GAN 网络的构建：

对于方案中的整个网络结构，以及 perceptual loss、L1 loss、L2 loss 和 Gan loss，方案参考了论文 EdgeConnect[16]中的网络结构并结合自有方案进行了调整。仅用网络输入图和网络输入图训练网络模型，会造成生成的牙齿并不美观甚至不符合常规，为了使网络模型可以生成既美观又符合常规逻辑的牙齿，本方案构建了一个双分支输入的全卷积网络，第二个分支输入的是一张牙齿的「参考图」，训练时，该参考图是从训练数据集中随机选择的，参考图可以对网络生成符合标准的牙齿起到正向引导的作用：

第一个分支为 6 通道输入，输入为图和图的 concat，并归一化到（-1，1）区间；

第二个分支为 3 通道输入，输入图像是在构建的训练数据集中随机挑选的“参考图”，同样归一化到（-1，1）区间；

G 网络是本质上是一个 AutoEncoder 的结构，解码部分的上采样采用的是双线性上采样 + 卷积层的结合，与论文中 [16] 有所不同，为了减轻生成图像的 artifacts 和稳定训练过程，本方案中的归一化层统一都采用 GroupNorm，而网络最后一层的输出层激活函数为 Tanh。

判别网络部分：判别网络采用的是 multi_scale 的 Discriminator，分别判别不同分辨率下的真假图像。本方案采用 3 个尺度的判别器，判别的是 256x256，128x128，64x64 三个尺度下的图像。获得不同分辨率的图像，直接通过 Pooling 下采样即可。

Loss 函数的设计包括 L1 loss, L2 loss, Perceptual loss 和 GAN loss。其中 L1 loss 和 L2 loss 可以保证图像色彩的一致性；GAN loss 使得生成图像的细节更加真实，也使得生成的牙齿更加清晰、自然、更加具有立体度和光影信息；Perceptual loss 限制图像感知的相似性，以往的 VGG loss 往往会造成颜色失真与假性噪声的问题，本方案采用的是更加符合人类视觉感知系统的 lpips(Learned Perceptual Image Patch Similarity) loss[17]，很大程度上缓解了上述问题，使生成图像具有更加自然的视觉效果；上述这几个 loss 相加就构成了 MTAITeeth 方案的损失函数。

结语

影楼修图涉及众多技术，除了上述提到的特色修图功能外，还包括人脸检测、年龄检测、性别识别、五官分割、皮肤分割、人像分割、实例分割等相对成熟的技术，可见成熟的 AI 技术能够替代影楼修图费时费力且重复度高的流程，大幅节省人工修图时间，节省修图成本。在智能调色、智能中性灰、智能祛除、智能修复等 AI 技术的加持下，提高修图质量，解决手工修图存在的问题。AI 自动定位脸部瑕疵、暗沉、黑头等，在不磨皮的情况下予以祛除，实现肤色均匀，增强细节清晰度；识别皱纹、黑眼圈、泪沟等皮肤固有的缺陷，在保持纹理细节和过渡自然的前提下予以祛除；针对用户的牙齿、双下巴等影响美观的缺陷，采用 AI 技术进行自然修复，达到美观和谐的效果。

凭借在计算机视觉、深度学习、增强现实、云计算等领域的算法研究、工程开发和产品化落地的多年技术积累，MTlab 推出的的美图云修赢咖4修图解决方案能为影像行业注入更多的活力，为商业摄影提供低成本、高品质、高效率的的后期修图服务。

参考文献：

[1] CBAM: Convolutional block attention module, Woo, S., Park, J., Lee, J.Y., So Kweon, ECCV (2018).

[2] Learning Enriched Features for Real Image Restoration and Enhancement, Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, and Ling Shao, ECCV (2020).

[3] Huang, Jie , et al. "Range Scaling Global U-Net for Perceptual Image Enhancement on Mobile Devices." European Conference on Computer Vision Springer, Cham, 2018.

[4] Jiang Y , Gong X , Liu D , et al. EnlightenGAN: Deep Light Enhancement without Paired Supervision[J]. 2019.

[5] Ng, Choon-Ching, et al. "Automatic wrinkle detection using hybrid hessian filter." Asian Conference on Computer Vision. Springer, Cham, 2014.

[6] Ng, Choon-Ching, et al. "Wrinkle detection using hessian line tracking." Ieee Access 3 (2015): 1079-1088.

[7] Batool, Nazre, and Rama Chellappa. "Fast detection of facial wrinkles based on Gabor features using image morphology and geometric constraints." Pattern Recognition 48.3 (2015): 642-658.

[8] Decencière, Etienne, et al. "A 2.5 d approach to skin wrinkles segmentation." Image Analysis & Stereology 38.1 (2019): 75-81.

[9] Criminisi A , P P , Toyama K . Region filling and object removal by exemplar-based image inpainting[J]. IEEE Transactions on Image Processing, 2004, 13.

[10] Telea A. An image inpainting technique based on the fast marching method[J]. Journal of graphics tools, 2004, 9(1): 23-34.

[11] Pérez P, Gangnet M, Blake A. Poisson image editing[M]//ACM SIGGRAPH 2003 Papers. 2003: 313-318.

[12] Pathak D, Krahenbuhl P, Donahue J, et al. Context encoders: Feature learning by inpainting[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2536-2544.

[13] Yeh R A, Chen C, Yian Lim T, et al. Semantic image inpainting with deep generative models[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 5485-5493.

[14] Liu G, Reda F A, Shih K J, et al. Image inpainting for irregular holes using partial convolutions[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 85-100.

[15] Hong X, Xiong P, Ji R, et al. Deep fusion network for image completion[C]//Proceedings of the 27th ACM International Conference on Multimedia. 2019: 2033-2042.

[16 EdgeConnect: Structure Guided Image Inpainting using Edge Prediction, Nazeri, Kamyar and Ng, Eric and Joseph, Tony and Qureshi, Faisal and Ebrahimi, Mehran, The IEEE International Conference on Computer Vision (ICCV) Workshops}, Oct, 2019.

[17] The Unreasonable Effectiveness of Deep Features as a Perceptual Metric, Richard Zhang, Phillip Isola, Alexei A. Efros, Eli Shechtman, Oliver Wang. In CVPR, 2018.

3/3 首页上一页 1 2 3

关于本站

加入我们

网站合作

标签（推荐）