多模态模型的相关内容 - 漫话开发者

2024-03-06 talkingdev

Anthropic发布Claude 3家族的三个新模型，最强模型匹敌GPT4

Anthropic最近发布了Claude 3家族的三个新模型，其中最强的模型匹敌了GPT4的报告基准结果。此外，这是一个多模态模型，对视觉任务表现良好。值得注意的是，Claude的编码能力在此版本中得到了显著提高。

2024-02-14 talkingdev

AI初创公司Reka宣布推出了一个新的模型，该模型具备210亿个参数，完全从头开始训练。它是本地多模态的，胜过了Llama 70B和Mixtral在多项关键基准测试中。重要的是，考虑到该公司的创始人曾经工作的公司，它也匹配了G...

2024-01-30 talkingdev

最近，一款基于Phi-2和SigLIP训练的多模态模型Imp v1 3B发布了。该模型在性能上表现极为出色，并且体积小，足以在设备上运行。Imp v1 3B的发布，对于未来的多模态研究和应用具有重要意义。目前，该模型的开源代码已...

2024-01-23 talkingdev

机器学习工程开源书籍发布，该项目是一个开放的方法论集合，旨在帮助成功训练大型语言模型和多模态模型。该材料适用于LLM/VLM培训工程师和运营人员。书籍包含大量脚本和复制粘贴命令，以使读者能够快速解决问题。该...

2023-12-18 talkingdev

Nous Research （Hugging Face Hub）发布了一种名为Capybara的新的语言基础模型和Obsidian的多模态扩展模型，该模型拥有30亿参数，可以在手机等边缘设备上运行。

2023-12-08 talkingdev

这个项目介绍了BenchLMM，一个专门设计用于测试GPT-4V和LLaVA等大型多模态模型对各种图像样式的鲁棒性的基准。

2023-12-08 talkingdev

Google的旗舰机型Gemini是一款原生多模态模型，其文本能力达到了GPT4的水平，同时还能够处理许多其他数据序列。此外，它还训练了Alpha Code 2，这是一个在代码力量比赛中排名前15%的编码器。Alpha Code 2将在12月13...

2023-11-30 talkingdev

标记提示集是一种聪明的方法，可以显着提高视觉+语言模型的性能。Roboflow的这个库为您提供类似的控制，并使使用这些模型构建强大的视觉管道变得更加容易。它甚至支持像LLaVa这样的开放模型。