漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-16 talkingdev

改进扰动注意力模型PAG:提升扩散模型的图像质量

扰动注意力指引(PAG)是一种提升扩散模型生成图像质量的新方法,无需额外的训练或外部模块。通过创新地操作模型内部的自我关注机制,PAG显著提高了无条件样本和条件样本的结构和保真度。扩散模型一直以来都是生成对...

Read More
2024-05-16 talkingdev

论文:英汉文本到图像生成新标杆,混元-DiT的突破性发展

最新研发的混元-DiT在文本到图像扩散变换器方面设立了新的标杆,特别是对于英文和汉文。这一技术特征包括先进的变换器结构和精炼的数据管道,为持续的模型改进提供了可能性。而这一突破性的发展,不仅提升了英汉文本...

Read More
2024-05-16 talkingdev

Instagram联合创始人担任Anthropic的首席产品官

Instagram联合创始人Mike Krieger成为Anthropic的新任首席产品官。Krieger在过去几年中致力于开发一款AI新闻阅读应用,该应用最近被雅虎收购。他在开发直观产品和用户体验方面的背景将为Anthropic创造新的人与其AI聊...

Read More
2024-05-15 talkingdev

谷歌Veo:超一分钟的1080p分辨率视频生成新模型

谷歌Deepmind最近发布了一款名为Veo的新型视频生成人工智能模型。这款AI模型拥有强大的视频生成能力,能够生成具有1080p分辨率的视频,且长度可以超越一分钟。在现有的视频生成技术中,这种能力是相当显著的。Veo利...

Read More
2024-05-15 talkingdev

Google推出全新轻量级模型Gemini Flash,拥有多模态推理和高达百万Token上下文窗口

近日,Google发布了新的轻量级模型Gemini Flash。此模型具有多模态推理和高达一百万个符号的长上下文窗口。Google利用其先进的技术,使Gemini Flash在处理大量数据时保持了高效与精确。这种新型的轻量级模型将有助于...

Read More
2024-05-15 talkingdev

OpenAI的重大突破:GPT-4o的多模态能力

OpenAI的最新研究成果GPT-4o的多模态能力,整合了视觉和语音技术,预示着人工智能与世界互动方式的重大进步。这为人工智能在日常生活中的普遍存在铺平了道路。GPT-4o的多模态能力,不仅能够理解文本信息,还能够理解...

Read More
2024-05-15 talkingdev

OpenAI联合创始人兼首席科学家伊利亚·苏茨克弗正式离职

OpenAI联合创始人兼首席科学家伊利亚·苏茨克弗正式离职。苏茨克弗曾带领员工推翻了公司前首席执行官山姆·奥尔特曼,但后来改变了自己的想法。自那时以来,他的雇佣状态一直不明确。公司研究主任雅各布·帕霍茨基将成...

Read More
2024-05-14 talkingdev

OpenAI声称其最新工具可有效识别DALL-E 3生成的图片

OpenAI最近推出了一款新的检测工具,该工具主要用于识别由其DALL-E 3模型生成的图片。这项技术的推出是为了解决人工智能生成假内容的问题,同时也是OpenAI为增强数字内容真实性而做出的努力。OpenAI在开发此工具时,...

Read More
  1. Prev Page
  2. 27
  3. 28
  4. 29
  5. Next Page