漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-04-21 talkingdev

Bark推出基于文本提示的生成音频模型

新闻内容: Bark公司推出了一种基于文本提示的生成音频模型,可以将简短的文字描述转换成高质量的语音音频。该模型的核心特点如下: - 基于深度学习技术,可以自动将文本转换成声音。 - 可以根据用户的需求,自由...

Read More
2023-04-20 talkingdev

新技术来袭:文本转换为视频合成进入新时代

以下是本篇新闻的三个核心要点: - 最近在图像合成方面取得的进展是通过使用“潜在扩散”来实现的,这样合成就可以在较小的空间内完成,既节省成本又保持高质量的生成。 - 现在这种技术也可以应用于视频生成领域。通...

Read More
2023-04-18 talkingdev

Soundini:自然视频编辑的声音引导扩散技术

## 新闻内容: - 提出一种新方法,使用零样本声音引导视觉效果进行视频编辑,利用时间声音特征创建动态样式,同时保持时间一致性。 - 通过使用光流引导,引导去噪扩散概率模型与音频潜在表示相结合,该方法优于现有...

Read More
2023-04-18 talkingdev

新技术发布:多语言文本转图像模型

以下是该模型的三个核心要点: - 该模型能够处理多种语言的文本转图像,输出的质量非常高。 - 该模型基于LAION HighRes和内部专有图像数据集进行训练,尽管无法处理漫反射,但作者提供了在线演示。 - 该模型的参数...

Read More
2023-04-17 talkingdev

VidStyleODE:神经-常微分方程技术实现视频编辑

新闻摘要: - VidStyleODE结合了StyleGAN和神经-常微分方程技术,实现了视频的分离表征,可以用于外观操作、运动操作、图像动画以及视频插值/外推等应用。 - VidStyleODE使得视频编辑变得更加容易和高效。 - VidSty...

Read More
2023-04-17 talkingdev

【技术新闻】C-LoRA方法在图像生成中取得重大突破

以下是本文的主要内容: - 文本到图像扩散模型在定制连续性概念时面临灾难性遗忘问题,导致过去概念的图像生成质量低下。 - 我们提出的C-LoRA方法通过持续自我正则化的低秩适应性克服了这个问题,在连续扩散方面优...

Read More
2023-04-14 talkingdev

开源聊天机器人 Vicuna 击败 GPT-4 与 ChatGPT 相当

这篇论文介绍了 Vicuna-13B,一个利用 LLaMA 对用户分享的对话进行微调训练的开源聊天机器人。在超过 90% 的情况下,Vicuna-13B 的表现优于其他模型,如 LLaMA 和 Stanford Alpaca,并且在与 OpenAI ChatGPT 和 Goog...

Read More
2023-04-14 talkingdev

C-LoRA:解决文本到图像扩散模型中的“灾难性遗忘”问题

以下是新闻内容的核心要点: - 文本到图像扩散模型在定制化时面临“灾难性遗忘”的问题,导致过去概念的图像生成质量较差。 - 研究人员提出了 C-LoRA 方法,通过持续自我正则化低秩适应来克服这个问题,在持续扩散方...

Read More
  1. Prev Page
  2. 48
  3. 49
  4. 50
  5. Next Page