漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-23 talkingdev

Tarsier:提升LLMs与网页交互的开源工具

Reworkd公司近日发布了一款名为Tarsier的新工具,旨在通过使用括号和ID对网页元素进行视觉标记,增强大语言模型(LLMs)的网页交互任务处理能力。Tarsier利用OCR生成的文本表示,使得没有视觉功能的LLM也能理解网页...

Read More
2024-05-23 talkingdev

MedLFQA:提升医疗AI准确性的全新数据集

MedLFQA是一个全新的基准数据集,旨在提升大规模语言模型在医疗领域中长篇回答的事实准确性。该数据集通过提供高质量的训练数据,帮助改进语言模型的回答精度。与此同时,OLAPH框架通过自动评估和偏好优化,训练大规...

Read More
2024-05-23 talkingdev

MathBench:LLM的数学能力评估新基准

MathBench是一项旨在全面评估大语言模型数学能力的新基准。这一基准的设计初衷是为了填补当前评估工具在数学领域的空白,提供一个更加系统化和科学化的评估方法。MathBench不仅涵盖了基础数学运算,还包括高级数学理...

Read More
2024-05-23 talkingdev

微软发布Phi-Silica,推进PC端AI技术革新

微软正式发布了其Phi-3模型,并推出了Phi-3-Silica,这是一款专为Copilot+ PC中的神经处理单元优化的小型语言模型。Phi-3-Silica拥有33亿参数,能够在低功耗的情况下提供快速的本地推理。这标志着在Windows设备中直...

Read More
2024-05-22 talkingdev

Braindump-构建AI游戏工具的初步探索与实践

Braindump是一款革命性的AI工具,它允许开发者通过简单的文本提示来构建俯视视角/2.5D游戏或交互式虚拟世界。这项技术可以自动生成3D模型、游戏数据和脚本,从而将用户的创意构想转化为生动的游戏内容。本文总结了Br...

Read More
2024-05-22 talkingdev

DeepSeek-VL:面向现实世界的开源视觉语言模型

DeepSeek-VL 是一个专注于现实世界应用的全新开源视觉语言模型。该模型特别针对多样化的数据进行了优化,包括来自网页截图、图表以及 OCR(光学字符识别)数据的处理。DeepSeek-VL 的设计目标是提高在复杂和多样化数...

Read More
2024-05-22 talkingdev

论文:基于LLMs的文本分类智能专家系统

智能专家系统是一种利用大型语言模型(LLMs)进行文本分类的新方法。该系统通过减少对广泛的预处理和领域专业知识的需求,大大简化了文本分类过程。LLMs具备强大的自然语言处理能力,能够更高效地理解和分类复杂的文...

Read More
2024-05-22 talkingdev

llava-align:校正视觉语言模型中的关键偏差技术突破

在大型视觉语言模型(LVLMs)中,输出结果往往更倾向于语言模型的先验知识,而非实际的视觉输入。这一项目通过引入“校准”和“去偏采样”技术,有效减少了这种偏差。这些技术使得模型在处理各种任务时,能够生成更加准...

Read More
  1. Prev Page
  2. 11
  3. 12
  4. 13
  5. Next Page