未来的相关内容 - 漫话开发者

2024-05-23 talkingdev

Tarsier：提升LLMs与网页交互的开源工具

Reworkd公司近日发布了一款名为Tarsier的新工具，旨在通过使用括号和ID对网页元素进行视觉标记，增强大语言模型（LLMs）的网页交互任务处理能力。Tarsier利用OCR生成的文本表示，使得没有视觉功能的LLM也能理解网页...

2024-05-23 talkingdev

研究人员开发了一种名为Wav-KAN的神经网络框架，该框架采用小波函数来提升模型的可解释性和性能。与传统模型不同，Wav-KAN能够同时捕捉高频和低频数据成分，从而实现更快的训练速度和更高的稳健性。这一创新方法不仅...

2024-05-23 talkingdev

微软近日宣布，他们已成功训练出一款名为Aurora的大气预测基础模型。该模型在全球天气预测测试中，分别在5天和10天的预测准确性上，创下了新的记录。Aurora模型通过先进的机器学习算法和大量的气象数据进行训练，能...

2024-05-22 talkingdev

Braindump是一款革命性的AI工具，它允许开发者通过简单的文本提示来构建俯视视角/2.5D游戏或交互式虚拟世界。这项技术可以自动生成3D模型、游戏数据和脚本，从而将用户的创意构想转化为生动的游戏内容。本文总结了Br...

2024-05-22 talkingdev

Elon Musk的人工智能公司xAI正在提升其Grok聊天机器人的能力，使其能够支持多模态输入。此举将允许用户上传照片，并获得基于文本的回答。这一功能的加入不仅会拓宽Grok的应用场景，还将提高其在用户交互中的智能化水...

2024-05-21 talkingdev

LeMeViT是一种新的方法，通过使用可学习元令牌来降低视觉Transformer的计算成本。这些元令牌能够高效地捕捉关键信息，从而显著提高推理速度。与传统的视觉Transformer相比，LeMeViT在保持高精度的同时，大幅减少了计...

2024-05-21 talkingdev

OpenAI近日宣布暂停ChatGPT-4o的“Sky”语音模式，此举是因为该模式被指涉嫌模仿2013年电影《Her》中斯嘉丽·约翰逊的声音。斯嘉丽·约翰逊本人也正在对这家人工智能公司采取法律行动。这一事件引发了广泛关注，许多人质...

2024-05-21 talkingdev

理解3D场景中物体的位置是一个具有挑战性的问题。然而，通过使用语言引导的3D理解，我们可以精确地为3D空间中的物体标记语义标签。语言引导的3D理解是一种新的技术，它允许我们通过使用特定的语言描述，更准确地确定...