光明中的温柔杀手究竟怎么回事?-苏州地铁网

　　Generation Model 模块会利用这个表征向量生成一个图像表征向量，可以把它看作是图像的压缩版本

　　·同时，它还使用了预训练的通用VAE，将输入的图片压缩到潜空间（latent space），然后再进行扩散过程。

　　是由OpenAI发布的一种Diffusion Model，它的架构如上图所示。它利用CLIP方法得到文本和图像的表征向量。CLIP objective是一种对比学习方法，通过训练模型使其同时理解文本和图像，以便将文本描述和对应的图像紧密联系起来。在训练过程中，模型会从数据集中随机选择一个文本描述和对应的图片作为正样本，随机选择另一个文本描述和不属于该文本描述的图片作为负样本。模型的目标是使正样本的相似度高于负样本的相似度。

　　DALL-E利用CLIP objective实现了文本和图像之间的交互，即给定一个文本描述，DALL-E可以生成与该描述相符合的图像。具体而言，DALL-E的生成过程如下：

　　·第一种是利用Autoregressive模型（例如GPT），输入文本表征，生成图像表征向量降维（如PCA）后的表征

光明中的温柔杀手究竟怎么回事?

最火资讯

热门频道推荐

相关功能