漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-21 talkingdev

VideoPoet:谷歌语言模型在视频创作中大放异彩

Google的VideoPoet是一种开创性的语言模型,它在处理文本到视频,视频风格化甚至视频到音频转换等多种任务方面具有独特的能力。这种方法通过将多种视频生成技术融合到一个模型中而脱颖而出。VideoPoet的革命性技术为...

Read More
2023-12-13 talkingdev

UniDep推出,为Conda和Pip依赖关系提供统一的管理工具

最近,UniDep项目发布了一个开源的命令行工具,提供统一的Conda和Pip的依赖关系管理。它允许项目使用一个单独的requirements.yaml文件管理Conda和Pip依赖关系。UniDep可以通过一个命令安装Conda Pip和本地依赖项。与...

Read More
2023-11-29 talkingdev

Stable Video Diffusion发布,AI模型全面升级

Stability AI宣布其开源模型组合中将新增稳定视频传输技术Stable Video Diffusion。其AI模型组合已经涵盖了图像、语言、音频、3D和代码等多种模态。

Read More
2023-11-28 talkingdev

KskyVideo-文本到视频生成技术开源

Kandinsky Video采用双阶段文本到视频生成技术。首先,它通过关键帧来勾勒视频的故事情节,然后平滑过渡和移动,大大提高了视频质量并降低了计算要求。

Read More
2023-11-23 talkingdev

Stability AI推出Stable Video,未来内容创作新方向

Stability AI推出的Stable Video可以生成14帧视频,展示了内容创作的未来方向。该技术可以通过对少量关键帧的学习,生成完整的视频帧。通过这种方式,Stable Video为内容创作者提供了更高效的内容创作方式,并且大大...

Read More
2023-11-20 talkingdev

论文:改进视频问答的新方法

研究人员发现,大型语言模型在视频问答(VideoQA)中有时会出现错误,这是因为它们过于依赖语言而忽略了实际的视频内容。为了解决这个问题,研究人员引入了一种名为Flipped-VQA的新方法,这种方法使得这些模型更好地...

Read More
2023-11-14 talkingdev

新注意力机制DG-SCT提升多模态任务音视频模型

近日,研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal(DG-SCT)的新型注意力机制,可用于增强预先训练的音频-视频模型,以用于多模态任务。该机制具有两个分支,一个是空间通道分支,另一个是时间分...

Read More
2023-11-08 talkingdev

生成式AI技术是否会改变商业?

生成式AI技术的不断发展已经导致了商业应用的增长,Insider Intelligence预测到2023年,美国25%的互联网用户将每月使用该技术。生成式AI技术能够以自然语言进行交流,提高了其可用性,使其不仅限于技术人员的使用。...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page