漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-14 talkingdev

Tarsier开源,基于视觉交互的Web Agent

随着强大的新视觉模型的出现,许多团队正在尝试构建使用视觉与Web元素交互的代理程序。Tarsier工具包介绍了一套标准工具(例如元素标记),您可以使用任何视觉系统来理解网页并执行操作。它还包括用于非视觉语言模型...

Read More
2023-11-14 talkingdev

开源的音频超分辨率技术

音频超分辨率是提高任何音频的质量和保真度的过程,无论是真实的还是合成的。大多数超分辨率系统都是针对特定任务而设计的,单个模型仅针对单个音频数据类型进行训练(如语音与音乐)。这项新工作是一个惊人的进步,...

Read More
2023-11-14 talkingdev

新注意力机制DG-SCT提升多模态任务音视频模型

近日,研究人员开源了一个名为Dual-Guided Spatial-Channel-Temporal(DG-SCT)的新型注意力机制,可用于增强预先训练的音频-视频模型,以用于多模态任务。该机制具有两个分支,一个是空间通道分支,另一个是时间分...

Read More
2023-11-14 talkingdev

开源GPTs:GitHub仓库OpenGPTs发布

OpenGPTs是一项旨在创建类似于OpenAI's GPTs的技术的仓库。它允许开发人员配置超过60个LLMs,提示,超过100个工具,向量数据库,检索算法和聊天历史数据库。该项目使用LangChain,LangServe和LangSmith。OpenGPTs的...

Read More
2023-11-13 talkingdev

VimGPT:使用 GPT-4V 和 Vimium 浏览互联网

由于互联网上的信息量越来越多,很多人都会疲于应对。现在,一种叫做 VimGPT 的新工具正在 GitHub 上流行。这个工具使用了 GPT-4V 和 Vimium,可以让用户更加快速、高效地浏览互联网。GPT-4V 是最新的 GPT 系列模型...

Read More
2023-11-13 talkingdev

LM4Visual-基于AI文本模型来进行视觉任务

研究人员发现,尽管大型语言模型是为文本设计的,但它们可以成为处理视觉任务的强大工具。使用文本训练的模型的部分来直接处理图像和视频,研究人员在各种视觉任务中取得了改进的结果。该研究结果表明,基于文本的AI...

Read More
2023-11-13 talkingdev

LongQLoRA:提升LLMs上下文理解能力

GitHub上有一个新的工具——LongQLoRA,它可以让LLMs(语言模型)理解更长的序列。LLMs已经在自然语言处理方面取得了很大的成功,但它们的上下文理解能力有限。长序列的理解也是LLMs的一个挑战。LongQLoRA通过对序列切...

Read More
2023-11-10 talkingdev

Github Copilot用户数破百万

微软旗下的Github Copilot软件在第三季度的付费用户增长了40%,印证了CEO Satya Nadella对于在各种产品中整合AI的专注。Github的AI产品正在快速获得认可,超过37000家组织中已有超过1百万的付费Copilot用户。这些AI...

Read More
  1. Prev Page
  2. 54
  3. 55
  4. 56
  5. Next Page