计算机视觉的相关内容 - 漫话开发者

2024-02-20 talkingdev

Sora相关参考论文合集整理

HuggingFace Hub最近发布了全新的视频模型Sora，现在提供了30篇相关的论文。这些论文包括了从模型架构到训练技巧等方面的研究，为研究人员和开发者提供了很好的参考。此外，这些论文还包括了Sora model在计算机视觉...

2024-02-09 talkingdev

MobileVLM V2是一系列为移动设备量身打造的先进视觉语言模型，通过创新的架构展示了显著的性能提升。新的MobileVLM V2拥有更快的推理速度，更高的准确性和更广泛的应用场景。MobileVLM V2不仅支持图像和文本之间的交...

2024-02-07 talkingdev

麻省理工学院和IBM的研究人员发表了一篇名为《超越AI接触：哪些任务具有计算机视觉自动化的成本效益？》的工作论文，探讨了自动化基于视觉的任务的经济可行性。该论文发现，仅有23％的任务适合自动化。与更具破坏性...

2024-02-07 talkingdev

Kahneman-Tversky Optimization（KTO）是一种新的方法，用于训练AI模型以更好地与人类思维对齐。通过利用Kahneman＆Tversky的前景理论概念，KTO侧重于最大化效用而不仅仅是偏好可能性。这种新的方法可以帮助AI模型更...

2024-01-31 talkingdev

TaskingAI是一款开源的AI应用程序开发平台，旨在帮助开发者更快地创建AI原生应用程序。它提供了一系列的API和工具，使开发者可以快速构建基于AI的应用程序，例如自然语言处理、计算机视觉和语音识别。TaskingAI还支...

2024-01-24 talkingdev

Depth Anything是一种新的单目深度估计方法，它依赖于约6200万张图像的大规模数据集来提高其精度。通过使用数据增强和预训练编码器的辅助监督，该模型实现了令人印象深刻的泛化能力，并在深度估计方面树立了新的标准...

2024-01-20 talkingdev

苹果公司发布了一篇关于用自回归损失预训练图像模型的论文。它测量了扩展行为，并发现像语言一样，这些大规模无监督的图像模型具有非常可预测的行为。这项技术为图像识别和计算机视觉领域的研究提供了新的思路和方法...

2024-01-16 talkingdev

维杰·潘德（Vijay Pande）是斯坦福大学化学工程和生物物理学教授，也是一位知名的数据科学家。在这次40分钟的播客中，他分享了他对人工智能（AI）过去、现在和未来的看法。他谈到了一些关于AI的历史，以及AI在自然语...