人机交互的相关内容 - 漫话开发者

2024-10-04 talkingdev

LLMs与心智理论：探讨Cheryl的生日启示

在人工智能领域，LLMs（大规模语言模型）正逐渐成为研究的热点，尤其在心智理论（Theory of Mind）方面的应用。心智理论是指个体理解他人心理状态的能力，这一概念在社会交往中至关重要。最近，研究者们通过模拟Cher...

2024-10-01 talkingdev

随着人工智能技术的快速发展，实时AI视频代理的出现标志着视频通信的新时代。这种新型代理系统能够在极低的延迟下进行视频处理，实现快速响应，延迟时间不足1秒。该技术的应用场景广泛，从在线会议、远程医疗到实时...

2024-09-18 talkingdev

Moshi 是一款专注于实时对话的语音文本基础模型，旨在提升人机交互的流畅性和自然性。该模型结合了先进的 LLM 技术和高效的文本处理能力，能够在多种应用场景中实现即时的语音转文本功能。Moshi 的独特之处在于其低...

2024-09-06 talkingdev

Infinity是一款新推出的技术，旨在创造出能够进行自然对话的真实AI角色。这些AI角色不仅外观逼真，而且具备高度的交互性，能够与用户进行流畅的交流。Infinity利用先进的LLM和embedding技术，使得AI角色能够理解并回...

2024-05-30 talkingdev

Cartezia公司，由SSMs、Mamba和子二次方变换变体的创造者们成立，最近开发了一款名为Sonic的全新语音模型。这款模型以其超低延迟和逼真的语音效果而备受瞩目，预示着虚拟助手领域的技术革新。Sonic模型以其快速响应...

2024-04-08 talkingdev

OpenAI宣布其创新性AI图像生成模型DALL-E现已成功与聊天机器人ChatGPT整合。这一新功能的推出使得用户能够在网页版、iOS以及Android平台上直接编辑DALL-E生成的图像。DALL-E此前已因其惊人的图像创造能力而名声大噪...

2024-04-08 talkingdev

Rabbit与ElevenLabs达成合作，将其语音命令技术整合到即将推出的r1设备中，通过低延迟模型提升人机交互的自然体验。首批r1设备将具备聊天机器人互动和双向翻译等功能，并计划于3月31日前发货。尽管ElevenLabs面临其...

2024-04-03 talkingdev

近日，Draw-and-Understand项目推出了一款名为SPHINX-V的多模态大型语言模型。该模型通过视觉提示，旨在增强人与AI之间的互动交流。SPHINX-V结合了文本、图像与声音等多种信息输入，通过深度学习技术，实现了更加自...

2024-04-03 talkingdev

研究人员最近开发了一种名为R2-Tuning的技术，这项技术能够通过识别口语提示来理解视频中的特定时刻。R2-Tuning技术的核心在于其能够对视频内容进行高效的分析和处理，使得机器能够像人类一样理解视频内容中的关键时...

2024-04-02 talkingdev

Emo是一款能够实时预测并模仿人类面部表情的机器人，这一突破性的技术极大地增强了人机交互体验。Emo通过高精度的传感器和先进的算法，能够捕捉到人类的微妙表情变化，并迅速做出相应的反应。这不仅使得机器人更加自...