漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-31 talkingdev

Apple Vision Pro评测:神奇,直到失灵

Apple Vision Pro在市场营销中展示了人们随时使用该设备的场景:工作时、洗衣服时甚至和孩子玩耍时都能使用。该设备旨在将应用程序和信息叠加在现实世界中,增强现实。虽然该设备有时令人惊叹,但它也存在一系列不可...

Read More
2024-01-30 talkingdev

多模态路径:将其他模态数据与Transformer相结合

该项目提出了一种新颖的增强Transformer的方法,使用来自不同模态的无关数据,例如使用音频数据来改善图像模型。多模式路径独特地连接了两种不同模态的Transformer,使目标模态能够从另一种模态的优势中受益。

Read More
2024-01-29 talkingdev

改进语义分割:SFC让模型更准确

研究人员开发出一种名为共享特征校准(SFC)的方法,以增强语义分割。这个方法通过在特征图上进行跨层归一化,来缩小不同层次特征图之间的差异,从而提高了模型的性能。通过在多个数据集上的测试,研究人员发现,使...

Read More
2024-01-26 talkingdev

论文:HEDNet提升自动驾驶的3D物体检测能力

HEDNet是一种新的编码器-解码器网络,旨在增强自动驾驶中的3D物体检测能力,特别是针对3D场景中稀疏点分布的挑战。该网络采用多分支设计,结合了高效的感受野对齐和多尺度信息融合技术,能够快速而准确地检测出道路...

Read More
2024-01-26 talkingdev

ViroReact:构建增强现实和虚拟现实体验的库

ViroReact是一款用于构建增强现实和虚拟现实体验的库。它可以原生地在所有移动VR和AR平台上运行React Native代码。该库提供了一个展示示例项目的页面,让开发者可以快速上手。此外,ViroReact还提供了丰富的开发文档...

Read More
2024-01-25 talkingdev

Google Chrome增加AI功能

谷歌正在增强Chrome的功能,包括在线文本编辑助手、多标签页自动整理和基于文本到图像扩散模型的自定义主题创建器等AI功能。

Read More
2024-01-24 talkingdev

DepthAnything:通过大规模数据集提高单目深度估计精度

Depth Anything是一种新的单目深度估计方法,它依赖于约6200万张图像的大规模数据集来提高其精度。通过使用数据增强和预训练编码器的辅助监督,该模型实现了令人印象深刻的泛化能力,并在深度估计方面树立了新的标准...

Read More
2024-01-23 talkingdev

提升视觉基础模型性能:ViSFT开源

针对图像-文本训练中使用的视觉基础模型,研究人员提出了一种名为ViSFT的新方法,以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先,该模型使用大规模的无监督预训练来学习图像...

Read More
  1. Prev Page
  2. 24
  3. 25
  4. 26
  5. Next Page