如何把文字放到图片上面 怎么把文字变成图片

自动文本到图像的合成是一项具有挑战性的任务,其中模型被训练成仅从文本描述生成图像 。它的研究为机器学习(ML)模型如何捕捉视觉属性并将它们与文本相关联提供了丰富的见解 。相比其他类型的输入来引导图像创作,如草图、物体遮罩或鼠标轨迹、描述性句子等 。,是一种更直观、更灵活的表达视觉概念的方式 。因此,强大的自动文本到图像生成系统也可以是快速内容创建的有用工具,并且可以应用于许多其他创造性应用 。
最先进的图像合成结果通常是使用生成对抗网络(GAN)来实现的,该网络训练两个模型——一个生成器,试图创建逼真的图像,一个鉴别器,试图确定图像是真实的还是真实的还是捏造的 。许多文本到图像生成模型是GAN , 它使用文本输入进行调整以生成语义相关的图像 。这是非常具有挑战性的 , 尤其是在提供一个冗长而模糊的描述时 。此外 , GAN训练容易出现模式崩溃,这是训练过程中常见的失败情况,其中生成器学习仅产生有限的一组输出 , 因此鉴别器无法学习到用于识别伪造图像的鲁棒策略 。为了减少模式崩溃,一些方法使用迭代细化图像的多阶段细化网络 。但是 , 这样的系统需要多阶段训练 , 比简单的单阶段端到端模型效率低 。其他努力依赖于分层方法,在最终合成真实图像之前,首先对对象布局进行建模 。这需要使用可能难以获得的标记的分段数据 。
在“文本到图像生成的跨模态对比学习”中,Google提出了跨模态对比生成对抗网络(XMC-GAN),通过学习使用模态间(图像到文本)和模态内(图像到文本)最大化图像和文本之间的互信息,解决了文本到图像的生成问题 。这种方法有助于区分更鲁棒和更有鉴别力的特征 , 因此XMC-GAN即使在单级训练后也不容易出现模式崩溃 。重要的是,与以前的多级或分层方法相比,XMC-GAN通过简单的单级发电实现了最先进的性能 。它是端到端可训练的 , 并且只需要图像文本对(与标记分割或边界框数据相反) 。
文本到图像合成对比度损失文本到图像合成系统的目标是生成清晰逼真的场景,其条件文本描述具有较高的语义保真度 。为了实现这一点,Google建议最大化对应对之间的信息:
(1)带有描述场景的句子的图像(真实的或生成的);
(2)生成的图像与真实图像具有相同的描述;
(3)图像的区域(真实的或生成的)以及与之相关联的单词或短语 。
【如何把文字放到图片上面 怎么把文字变成图片】在XMC-甘,这是加强使用对比损失 。与其他GAN类似 , XMC-GAN包含一个用于合成图像的生成器 , 以及一个被训练为真实图像和生成图像之间的评论员的鉴别器 。三组数据导致该系统中的对比度损失——真实图像、描述这些图像的文本以及根据文本描述生成的图像 。生成器和鉴别器的单个损失函数是从整个图像和全文描述计算的损失的组合,结合从具有相关单词或短语的细分图像计算的损失 。然后,对于每一批训练数据,Google计算每个文本描述与真实图像之间的余弦相似度得分 。同样,每个文本描述和生成的图像批次之间的分数 。目标是否是匹配对(文本到图像,真实图像到生成图像)?具有高相似性得分,而不匹配对具有低得分 。强制这样的对比度损失允许鉴别器学习更健壮和更有鉴别能力的特征 。
Google提出的-GAN文本到图像合成模型中的模态间和模态内比较学习 。
Google XMC-GAN应用于三个具有挑战性的数据集——第一个是一组MS-COCO图像的MS-COCO描述,另外两个是带本地化叙述注释的数据集,其中一个覆盖MS-COCO图像(Google称为LN-COCO) , 另一个描述开放图像数据(LN-OpenImages) 。研究发现,Google XMC-GAN在各个方面都达到了最先进的水平 。XMC-GAN生成的图像比其他技术生成的图像描绘的场景质量更高 。在MS-COCO上,XMC-甘将最高级弗雷歇初始距离(FID)分数从24.7增加到9.3,并且在人类评估者中非常受欢迎 。
MS-COCO上生成的图像的选定定性结果
同样,与其他三种最先进的方法(CP-GAN、SD-GAN和OP-GAN)的比较如下 。
MS-COCO对图像质量和文本对齐进行手动评估,注释者对生成的图像从最好到最差进行排序(匿名和顺序随机化)
XMC-甘还可以扩展到挑战本地化叙事数据集 。谷歌之前的系统TReCS使用鼠标轨迹输入来处理本地化叙事的文本到图像的生成 , 以提高图像生成的质量 。虽然没有收到鼠标轨迹的评论,但XMC-甘在LN-COCO上的图像生成方面明显优于TReCS,将最先进的FID从48.7增加到14.1 。将鼠标轨迹和其他额外输入结合到端到端模型(如XMC-甘)将在未来的工作中进行研究 。

推荐阅读