漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-09-06 talkingdev

Infinity:真实的AI角色实现对话功能

Infinity是一款新推出的技术,旨在创造出能够进行自然对话的真实AI角色。这些AI角色不仅外观逼真,而且具备高度的交互性,能够与用户进行流畅的交流。Infinity利用先进的LLM和embedding技术,使得AI角色能够理解并回...

Read More
2024-05-30 talkingdev

Cartezia推出超低延迟语音模型,开启逼真语音助手新纪元

Cartezia公司,由SSMs、Mamba和子二次方变换变体的创造者们成立,最近开发了一款名为Sonic的全新语音模型。这款模型以其超低延迟和逼真的语音效果而备受瞩目,预示着虚拟助手领域的技术革新。Sonic模型以其快速响应...

Read More
2024-04-08 talkingdev

DALL-E与ChatGPT实现整合,图像编辑功能登陆三大平台

OpenAI宣布其创新性AI图像生成模型DALL-E现已成功与聊天机器人ChatGPT整合。这一新功能的推出使得用户能够在网页版、iOS以及Android平台上直接编辑DALL-E生成的图像。DALL-E此前已因其惊人的图像创造能力而名声大噪...

Read More
2024-04-08 talkingdev

Rabbit携手ElevenLabs在设备上实现语音命令功能

Rabbit与ElevenLabs达成合作,将其语音命令技术整合到即将推出的r1设备中,通过低延迟模型提升人机交互的自然体验。首批r1设备将具备聊天机器人互动和双向翻译等功能,并计划于3月31日前发货。尽管ElevenLabs面临其...

Read More
2024-04-03 talkingdev

多模态大型语言模型SPHINX-V:提升人机交互新体验

近日,Draw-and-Understand项目推出了一款名为SPHINX-V的多模态大型语言模型。该模型通过视觉提示,旨在增强人与AI之间的互动交流。SPHINX-V结合了文本、图像与声音等多种信息输入,通过深度学习技术,实现了更加自...

Read More
2024-04-03 talkingdev

论文:视频理解技术突破,R2-Tuning技术通过语音提示识别特定瞬间

研究人员最近开发了一种名为R2-Tuning的技术,这项技术能够通过识别口语提示来理解视频中的特定时刻。R2-Tuning技术的核心在于其能够对视频内容进行高效的分析和处理,使得机器能够像人类一样理解视频内容中的关键时...

Read More
2024-04-02 talkingdev

情感机器人Emo:实时模仿人类面部表情

Emo是一款能够实时预测并模仿人类面部表情的机器人,这一突破性的技术极大地增强了人机交互体验。Emo通过高精度的传感器和先进的算法,能够捕捉到人类的微妙表情变化,并迅速做出相应的反应。这不仅使得机器人更加自...

Read More
2024-03-26 talkingdev

Character Voice:让每个角色都有声音

Character Voice是一套功能,使用户能够在一对一聊天中听到角色对他们说话,将Character.AI体验提升到一个新的层次。这是公司构建多模态界面计划的第一步,该界面将促进更无缝、直观和引人入胜的互动体验。多模态界...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page