图像生成的相关内容 - 漫话开发者

2023-11-09 talkingdev

基于Transformer扩散模型的训练成本比基于UNet的模型便宜90%

PixArt是一种新的文本到图像模型，它使用T5文本编码、交叉注意力和扩散变压器，以比可比模型低得多的计算成本取得了出色的结果。这种新模型使用Transformer扩散模型，可以比使用UNet模型训练快90%。PixArt模型的训练...

2023-11-08 talkingdev

OpenAI最近发布了用于稳定扩散的一致性解码器，这将极大地改善潜在扩散模型生成图像的性能。这是一个开源项目，可在GitHub上获得。随着这种技术的进步，我们可以期待AI在图像生成方面的更多突破。

2023-10-23 talkingdev

DALLE-3图像生成模型的质量提升的主要驱动力之一是改进后的数据质量。通过使用内部模型进行标题上采样来实现。这里提供了一个使用强大的开源模型进行实现的GitHub开源库。

2023-10-19 talkingdev

ChatGPT的Browse With Bing现已退出Beta测试，DALL-E 3正在进行Beta测试。这是OpenAI最近的两个重要更新，Browse With Bing是一款由OpenAI推出的基于自然语言的浏览器，用户可以通过聊天的方式寻找信息，而DALL-E 3...

2023-10-16 talkingdev

研究人员正在改进我们与文本到图像模型的交互方式，例如Midjourney和Stable Diffusion，这些模型目前需要复杂的提示才能生成图像。他们引入了“交互式文本到图像”，使人们可以自然地与大型语言模型进行交互，以获得更...

2023-10-16 talkingdev

研究人员使用预训练的扩散模型在较小的图像上进行训练，以生产大尺寸的高质量图像。他们发现在更大的图像中存在重复模式的问题，并将问题指向了模型结构的有限感知能力。

2023-10-05 talkingdev

微软已将OpenAI的DALL-E 3集成到Bing Chat中，为用户提供了更强大的图像生成功能。DALL-E 3承诺提高了对提示的理解，能生成更有创意和逼真的图像。此外，微软计划将DALL-E技术应用于其他产品中，例如Windows的Paint...

2023-10-05 talkingdev

SDXL是一种最先进的图像生成模型，虽然强大，但运行速度较慢。然而，Google与HuggingFace最近在Google的研究语言Jax中展示了它在新型TPU芯片上的运行速度。通过这种新的硬件加速，SDXL的性能得到了极大的提升，可以...