CapHuman是一个框架,可以通过仅一张参考照片生成人物的多种表情和头部姿态。它巧妙地保持了人物的身份特征,让照片生成的多种人像看起来像是来自同一人。CapHuman使用的是神经网络技术,可以从单张照片中提取出关键...
Read MoreKahneman-Tversky Optimization(KTO)是一种新的方法,用于训练AI模型以更好地与人类思维对齐。通过利用Kahneman&Tversky的前景理论概念,KTO侧重于最大化效用而不仅仅是偏好可能性。这种新的方法可以帮助AI模型更...
Read More本篇论文揭示了大型视觉语言模型(LVLMs)为什么有时会错误地描述图像的原因,这种现象被称为多模态幻觉。语义转移偏差,特别是在段落中断处,是一个关键因素。研究人员发现,模型可能会出现误导性的预测,这些预测...
Read More视频合成一直以来都很难被控制。但是,这项研究提出了使用方框和箭头来引导生成过程,从而改善人类的偏好判断。虽然这种方法仍无法给用户提供完美的指导,但是它是一种新的尝试和探索。Boximator技术的优点在于,它...
Read More苹果推出的Vision Pro存在多个UI缺陷,例如在屏幕上管理多个窗口很困难,其眼球追踪精度不够,无法为生产力窗口管理提供有效帮助。此外,Vision Pro的视野非常狭窄,很难同时打开两个以上的应用程序,否则会出现z轴...
Read MoreGitHub的创新图表项目每季度发布开发者贡献数据。最近一批数据于1月18日发布,显示来自孟加拉国、尼日利亚和巴基斯坦的开发者数量激增。该数据仅测量注册帐户而非代码提交,因此对较少活跃的贡献者的影响较大。
Read More