漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-10-04 talkingdev

LLMs与心智理论:探讨Cheryl的生日启示

在人工智能领域,LLMs(大规模语言模型)正逐渐成为研究的热点,尤其在心智理论(Theory of Mind)方面的应用。心智理论是指个体理解他人心理状态的能力,这一概念在社会交往中至关重要。最近,研究者们通过模拟Cher...

Read More
2024-10-01 talkingdev

实时AI视频Agent:延迟不足1秒的创新技术

随着人工智能技术的快速发展,实时AI视频代理的出现标志着视频通信的新时代。这种新型代理系统能够在极低的延迟下进行视频处理,实现快速响应,延迟时间不足1秒。该技术的应用场景广泛,从在线会议、远程医疗到实时...

Read More
2024-09-18 talkingdev

Moshi:开源实时对话的语音文本基础模型

Moshi 是一款专注于实时对话的语音文本基础模型,旨在提升人机交互的流畅性和自然性。该模型结合了先进的 LLM 技术和高效的文本处理能力,能够在多种应用场景中实现即时的语音转文本功能。Moshi 的独特之处在于其低...

Read More
2024-09-06 talkingdev

Infinity:真实的AI角色实现对话功能

Infinity是一款新推出的技术,旨在创造出能够进行自然对话的真实AI角色。这些AI角色不仅外观逼真,而且具备高度的交互性,能够与用户进行流畅的交流。Infinity利用先进的LLM和embedding技术,使得AI角色能够理解并回...

Read More
2024-05-30 talkingdev

Cartezia推出超低延迟语音模型,开启逼真语音助手新纪元

Cartezia公司,由SSMs、Mamba和子二次方变换变体的创造者们成立,最近开发了一款名为Sonic的全新语音模型。这款模型以其超低延迟和逼真的语音效果而备受瞩目,预示着虚拟助手领域的技术革新。Sonic模型以其快速响应...

Read More
2024-04-08 talkingdev

DALL-E与ChatGPT实现整合,图像编辑功能登陆三大平台

OpenAI宣布其创新性AI图像生成模型DALL-E现已成功与聊天机器人ChatGPT整合。这一新功能的推出使得用户能够在网页版、iOS以及Android平台上直接编辑DALL-E生成的图像。DALL-E此前已因其惊人的图像创造能力而名声大噪...

Read More
2024-04-08 talkingdev

Rabbit携手ElevenLabs在设备上实现语音命令功能

Rabbit与ElevenLabs达成合作,将其语音命令技术整合到即将推出的r1设备中,通过低延迟模型提升人机交互的自然体验。首批r1设备将具备聊天机器人互动和双向翻译等功能,并计划于3月31日前发货。尽管ElevenLabs面临其...

Read More
2024-04-03 talkingdev

多模态大型语言模型SPHINX-V:提升人机交互新体验

近日,Draw-and-Understand项目推出了一款名为SPHINX-V的多模态大型语言模型。该模型通过视觉提示,旨在增强人与AI之间的互动交流。SPHINX-V结合了文本、图像与声音等多种信息输入,通过深度学习技术,实现了更加自...

Read More
2024-04-03 talkingdev

论文:视频理解技术突破,R2-Tuning技术通过语音提示识别特定瞬间

研究人员最近开发了一种名为R2-Tuning的技术,这项技术能够通过识别口语提示来理解视频中的特定时刻。R2-Tuning技术的核心在于其能够对视频内容进行高效的分析和处理,使得机器能够像人类一样理解视频内容中的关键时...

Read More
2024-04-02 talkingdev

情感机器人Emo:实时模仿人类面部表情

Emo是一款能够实时预测并模仿人类面部表情的机器人,这一突破性的技术极大地增强了人机交互体验。Emo通过高精度的传感器和先进的算法,能够捕捉到人类的微妙表情变化,并迅速做出相应的反应。这不仅使得机器人更加自...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page