AR的相关内容 - 漫话开发者

2024-02-02 talkingdev

FireLlava-商业许可的视觉模型开源

FireLlava是一个新的开源视觉模型，经过数据训练，可以用于商业任务。它与原始Llava的性能相当，但还没有达到Llava 1.5的水平。

2024-02-02 talkingdev

最新研究表明，长视频理解领域存在多粒度噪声对应问题，影响了视频语言研究的准确性。为了解决这一问题，研究人员开发了一种名为Norton的新方法，应用了最优传输算法来提高长期视频理解。该方法通过处理多粒度噪声对...

2024-02-02 talkingdev

MF-MOS是一种新模型，可以更好地使用LiDAR技术检测自动驾驶中的运动目标。该模型独特地分离运动和语义信息，使用残差图进行运动捕捉，使用距离图像进行语义引导。该模型的发布将进一步推动自动驾驶技术的发展。

2024-02-02 talkingdev

Monte Carlo Tree Search (MCTS)是一种先进的搜索算法。它被用于AlphaGo中，研究人员现在正在努力将其与语言模型集成。MCTS的实现一直以来都非常棘手，但是Jax的出现使得它变得更为容易。现在，开发者们可以在GitHub...

2024-02-02 talkingdev

本文介绍了一个基于场景和手写文本的基准测试和两个数据集。利用原始、损坏和辅助图像，全局结构引导扩散模型（GSDM）利用文本结构有效恢复清晰文本。该技术在识别准确度和图像质量方面显示出显著的改进。

2024-02-02 talkingdev

Weaver是一系列专门用于讲述故事的模型。最大的模型（34B参数）在故事讲述基准测试中表现优于GPT-4。

2024-02-02 talkingdev

Llava是一种视觉语言模型，最新版本为1.6，经过改进后，其OCR、推理和世界知识等方面有了很大提升，甚至在某些任务上可以与Gemini相媲美。Llava团队计划发布数据、代码和模型，以便更多人能够使用。

2024-02-02 talkingdev

1月份微软研究论坛上，Dipendra Misra提出了一种名为“Layer-Selective Rank Reduction（LASER）”的技术，通过用一个较小的近似矩阵替换权重矩阵，提高了大型语言模型（LLM）的准确性。