AR的相关内容 - 漫话开发者

2024-02-07 talkingdev

开源版本的Rabbit硬件替代版

一些人正在努力构建一个开源版本的Rabbit硬件，包括语言建模部分。

2024-02-07 talkingdev

CapHuman是一个框架，可以通过仅一张参考照片生成人物的多种表情和头部姿态。它巧妙地保持了人物的身份特征，让照片生成的多种人像看起来像是来自同一人。CapHuman使用的是神经网络技术，可以从单张照片中提取出关键...

2024-02-07 talkingdev

Kahneman-Tversky Optimization（KTO）是一种新的方法，用于训练AI模型以更好地与人类思维对齐。通过利用Kahneman＆Tversky的前景理论概念，KTO侧重于最大化效用而不仅仅是偏好可能性。这种新的方法可以帮助AI模型更...

2024-02-07 talkingdev

本篇论文揭示了大型视觉语言模型（LVLMs）为什么有时会错误地描述图像的原因，这种现象被称为多模态幻觉。语义转移偏差，特别是在段落中断处，是一个关键因素。研究人员发现，模型可能会出现误导性的预测，这些预测...

2024-02-07 talkingdev

视频合成一直以来都很难被控制。但是，这项研究提出了使用方框和箭头来引导生成过程，从而改善人类的偏好判断。虽然这种方法仍无法给用户提供完美的指导，但是它是一种新的尝试和探索。Boximator技术的优点在于，它...

2024-02-07 talkingdev

Qwen 1.5模型发布，参数从0.5B到72B，是一套令人印象深刻的多语言模型。有趣的是，最小的模型是第一个严肃的小于10亿参数的语言模型。

2024-02-07 talkingdev

苹果推出的Vision Pro存在多个UI缺陷，例如在屏幕上管理多个窗口很困难，其眼球追踪精度不够，无法为生产力窗口管理提供有效帮助。此外，Vision Pro的视野非常狭窄，很难同时打开两个以上的应用程序，否则会出现z轴...

2024-02-07 talkingdev

GitHub的创新图表项目每季度发布开发者贡献数据。最近一批数据于1月18日发布，显示来自孟加拉国、尼日利亚和巴基斯坦的开发者数量激增。该数据仅测量注册帐户而非代码提交，因此对较少活跃的贡献者的影响较大。