漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-23 talkingdev

Tarsier:提升LLMs与网页交互的开源工具

Reworkd公司近日发布了一款名为Tarsier的新工具,旨在通过使用括号和ID对网页元素进行视觉标记,增强大语言模型(LLMs)的网页交互任务处理能力。Tarsier利用OCR生成的文本表示,使得没有视觉功能的LLM也能理解网页...

Read More
2024-05-23 talkingdev

论文:新神经网络架构Wav-KAN显著提升训练速度与稳健性

研究人员开发了一种名为Wav-KAN的神经网络框架,该框架采用小波函数来提升模型的可解释性和性能。与传统模型不同,Wav-KAN能够同时捕捉高频和低频数据成分,从而实现更快的训练速度和更高的稳健性。这一创新方法不仅...

Read More
2024-05-23 talkingdev

微软推出Aurora大气预测模型,刷新全球天气预测测试记录

微软近日宣布,他们已成功训练出一款名为Aurora的大气预测基础模型。该模型在全球天气预测测试中,分别在5天和10天的预测准确性上,创下了新的记录。Aurora模型通过先进的机器学习算法和大量的气象数据进行训练,能...

Read More
2024-05-22 talkingdev

Braindump-构建AI游戏工具的初步探索与实践

Braindump是一款革命性的AI工具,它允许开发者通过简单的文本提示来构建俯视视角/2.5D游戏或交互式虚拟世界。这项技术可以自动生成3D模型、游戏数据和脚本,从而将用户的创意构想转化为生动的游戏内容。本文总结了Br...

Read More
2024-05-22 talkingdev

xAI致力于实现Grok多模态功能

Elon Musk的人工智能公司xAI正在提升其Grok聊天机器人的能力,使其能够支持多模态输入。此举将允许用户上传照片,并获得基于文本的回答。这一功能的加入不仅会拓宽Grok的应用场景,还将提高其在用户交互中的智能化水...

Read More
2024-05-21 talkingdev

LeMeViT:通过可学习元令牌加速视觉Transformer

LeMeViT是一种新的方法,通过使用可学习元令牌来降低视觉Transformer的计算成本。这些元令牌能够高效地捕捉关键信息,从而显著提高推理速度。与传统的视觉Transformer相比,LeMeViT在保持高精度的同时,大幅减少了计...

Read More
2024-05-21 talkingdev

OpenAI暂停ChatGPT-4o“Sky”语音模式

OpenAI近日宣布暂停ChatGPT-4o的“Sky”语音模式,此举是因为该模式被指涉嫌模仿2013年电影《Her》中斯嘉丽·约翰逊的声音。斯嘉丽·约翰逊本人也正在对这家人工智能公司采取法律行动。这一事件引发了广泛关注,许多人质...

Read More
2024-05-21 talkingdev

3D情景理解:挑战与解决方案

理解3D场景中物体的位置是一个具有挑战性的问题。然而,通过使用语言引导的3D理解,我们可以精确地为3D空间中的物体标记语义标签。语言引导的3D理解是一种新的技术,它允许我们通过使用特定的语言描述,更准确地确定...

Read More
  1. Prev Page
  2. 29
  3. 30
  4. 31
  5. Next Page