Text2Image 综述总结

2021年4月5日17:38:45 发表评论

这几天刚把Text2Image综述读完,综述名为《Adversarial Text-to-Image Synthesis: A Review》,发表于2021年,算是最新的综述了,下面就Text2Image任务总结了它的方法分类、挑战、常用数据集、评估指标、作者的建议来总结一下该综述。

Text2Image起源:Generative adversarial text to image synthesis, in: International Conference on Machine Learning

1.目前存在的挑战:

  • 文本合成多目标高分辨率任务
  • 没有好的度量标准

2.目前的度量标准:

  • 关于质量的度量有:IS、FID、SceneFID
  • 关于语义的度量有:R-precision、VS、SOA、Captioning
  • 用户学习

3.Text2Image分类

3.1按照架构分

  • 基于普通cGAN:GAN-INT-CLS 、TAC-GAN
  • 栈GAN:StackGAN、StackGAN++、Fused GAN、HDGAN、PPAN、HfGAN、Photo-realistic single image super-resolution using a generative adversarial network
  • 注意力机制GAN:AttnGAN、SEGAN、ControlGAN
  • 连体GAN:SDGAN、SEGAN、Text-SeGAN
  • 循环一致:PPGN、MirrorGAN
  • 记忆网络:DM-GAN
  • 适应无条件模型:textStyleGAN、Bridge-GAN、Effiffifficient neural architecture for text-to-image synthesis、TVBi-GAN、Semantics disentangling for text-to-image generation、Network-to-network translation with conditional invertible neural networks

3.2额外的条件

  • 多标签:C4Synth、RiFeGAN
  • 对话:ChatPainter、VQA-GAN
  • 布局:GAWWN、OP-GAN、OCGAN
  • 语义掩码:Inferring semantic layout for hierarchical text-to-image synthesis、Obj-GAN、LeicaGAN、AGAN-CL、End-to-end text-to-image synthesis with spatial constrains、Controlling style and semantics in weakly-supervised image generation
  • 场景图:Image generation from scene graphs、Specifying object attributes and relations in interactive scene generation、Visual-relation conscious image generation from structured-text、PasteGAN、Interactive image generation using scene graphs
  • 鼠标轨迹:TRECS

4.通用的数据集

COCO:包含123k张图片,每张图片5条描述

CUB-200 Birds:包含10K张图片,每张10条描述

5.建议

  • 使用FID作为图像质量评估指标
  • 如果被裁剪的图片提供坐标使用SceneFID
  • 使用SOA作为语义对齐评估指标
flyingsheep

发表评论