漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-07 talkingdev

开源版本的Rabbit硬件替代版

一些人正在努力构建一个开源版本的Rabbit硬件,包括语言建模部分。

Read More
2024-02-07 talkingdev

CapH-单张照片3分钟生成多样化人像

CapHuman是一个框架,可以通过仅一张参考照片生成人物的多种表情和头部姿态。它巧妙地保持了人物的身份特征,让照片生成的多种人像看起来像是来自同一人。CapHuman使用的是神经网络技术,可以从单张照片中提取出关键...

Read More
2024-02-07 talkingdev

论文:KTO一种新的AI对齐优化方法

Kahneman-Tversky Optimization(KTO)是一种新的方法,用于训练AI模型以更好地与人类思维对齐。通过利用Kahneman&Tversky的前景理论概念,KTO侧重于最大化效用而不仅仅是偏好可能性。这种新的方法可以帮助AI模型更...

Read More
2024-02-07 talkingdev

论文:多模态AI幻觉,解读视觉语言模型的错误描述现象

本篇论文揭示了大型视觉语言模型(LVLMs)为什么有时会错误地描述图像的原因,这种现象被称为多模态幻觉。语义转移偏差,特别是在段落中断处,是一个关键因素。研究人员发现,模型可能会出现误导性的预测,这些预测...

Read More
2024-02-07 talkingdev

论文:Boximator,可控的视频合成技术

视频合成一直以来都很难被控制。但是,这项研究提出了使用方框和箭头来引导生成过程,从而改善人类的偏好判断。虽然这种方法仍无法给用户提供完美的指导,但是它是一种新的尝试和探索。Boximator技术的优点在于,它...

Read More
2024-02-07 talkingdev

阿里Qwen 1.5多语言模型发布

Qwen 1.5模型发布,参数从0.5B到72B,是一套令人印象深刻的多语言模型。有趣的是,最小的模型是第一个严肃的小于10亿参数的语言模型。

Read More
2024-02-07 talkingdev

苹果Vision Pro存在多个UI缺陷,未成为生产力工具

苹果推出的Vision Pro存在多个UI缺陷,例如在屏幕上管理多个窗口很困难,其眼球追踪精度不够,无法为生产力窗口管理提供有效帮助。此外,Vision Pro的视野非常狭窄,很难同时打开两个以上的应用程序,否则会出现z轴...

Read More
2024-02-07 talkingdev

GitHub发布最新数据:孟加拉国、尼日利亚、巴基斯坦是软件开发增长最快的国家

GitHub的创新图表项目每季度发布开发者贡献数据。最近一批数据于1月18日发布,显示来自孟加拉国、尼日利亚和巴基斯坦的开发者数量激增。该数据仅测量注册帐户而非代码提交,因此对较少活跃的贡献者的影响较大。

Read More
  1. Prev Page
  2. 293
  3. 294
  4. 295
  5. Next Page