发展的相关内容 - 漫话开发者

2024-05-16 talkingdev

改进扰动注意力模型PAG：提升扩散模型的图像质量

扰动注意力指引（PAG）是一种提升扩散模型生成图像质量的新方法，无需额外的训练或外部模块。通过创新地操作模型内部的自我关注机制，PAG显著提高了无条件样本和条件样本的结构和保真度。扩散模型一直以来都是生成对...

2024-05-16 talkingdev

最新研发的混元-DiT在文本到图像扩散变换器方面设立了新的标杆，特别是对于英文和汉文。这一技术特征包括先进的变换器结构和精炼的数据管道，为持续的模型改进提供了可能性。而这一突破性的发展，不仅提升了英汉文本...

2024-05-15 talkingdev

谷歌Deepmind最近发布了一款名为Veo的新型视频生成人工智能模型。这款AI模型拥有强大的视频生成能力，能够生成具有1080p分辨率的视频，且长度可以超越一分钟。在现有的视频生成技术中，这种能力是相当显著的。Veo利...

2024-05-15 talkingdev

近日，Google发布了新的轻量级模型Gemini Flash。此模型具有多模态推理和高达一百万个符号的长上下文窗口。Google利用其先进的技术，使Gemini Flash在处理大量数据时保持了高效与精确。这种新型的轻量级模型将有助于...

2024-05-15 talkingdev

OpenAI的最新研究成果GPT-4o的多模态能力，整合了视觉和语音技术，预示着人工智能与世界互动方式的重大进步。这为人工智能在日常生活中的普遍存在铺平了道路。GPT-4o的多模态能力，不仅能够理解文本信息，还能够理解...

2024-05-14 talkingdev

IBM近日宣布，将其Granite代码模型开源，以便更好地服务于开源社区，推动各平台的编程工作更为轻松和高效。这些模型的参数量在3亿到340亿之间，并覆盖了多种编程任务。这一举动，对于开发者们来说无疑是一大福音，他...

2024-05-13 talkingdev

在科技日新月异的今天，ElevenLabs的一位研究科学家发布了一个名为音频扩散PyTorch的GitHub仓库，该仓库可能成为复制令人惊叹的结果的起点。这个仓库是基于PyTorch的音频扩散实验，旨在通过开源的方式，让更多的音频...

2024-05-13 talkingdev

Lumina是一个新一代的项目，其目标是成为统一的文本到X生成模型。这个项目的训练涉及到图像、视频、音频和文本的交替，这种方法提高了下游性能。Lumina项目带来的这种全新技术，将对未来的人工智能、机器学习和深度...