近日,Facebook发布了一款最先进的开源音频模型MaGNET,该模型速度是其他替代品的7倍,而且不会影响音频质量。MaGNET模型可以生成音乐和音效。MaGNET模型的论文已经发布,更多详情请访问GitHub仓库。
Read More近期,一种新型的视频语言模型已经问世,可以回答长达数百万词的视频问题。该模型采用环形关注机制和精细调整的7B参数模型,能够在检索基准测试中表现极其准确,胜过商业化视频语言模型。
Read MoreGoogle最近推出了一种新的文本到视频模型Lumiere,该模型可以将图像和风格作为输入,并使用一种新颖的“空时UNet”同时扩散所有内容。该模型采用了深度学习技术,可以将文本内容转换为相对应的视频,并且不需要任何人...
Read MoreSEINE是一种创新的视频传播模型,其通过文本描述来引导短的AI生成视频剪辑,将其扩展为无缝且具有想象力的场景过渡,形成更长的、故事级别的视频序列。
Read MoreOpenAI的创始成员和前特斯拉Autopilot团队的领导人Andrej Karpathy宣布离开OpenAI,将专注于个人项目。他的离职不是由于任何特定的事件、问题或戏剧性事件。
Read MoreNVIDIA推出了Chat with RTX的演示版本,这是一款本地运行的PC聊天机器人,可以分析和汇总各种文件格式的个人数据,甚至整合来自YouTube视频的知识,旨在创建更个性化的数字助手体验。这种创新不需要云处理或互联网连...
Read More