漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-22 talkingdev

多模态模型训练方法LLaVa,可用于视频生成

LLaVa是一种从文本模型训练多模型的方法。现在它可以用于视频。基于Vicuna的结果模型非常强大,可以轻松实现视频摘要和字幕的最新表现。

Read More
2023-09-25 talkingdev

论文:在线视频实例分割技术TCOVIS

研究人员已经介绍了一种名为TCOVIS的在线视频实例分割技术,这种技术优先考虑时间一致性。在线视频实例分割是计算机视觉领域的热门课题,它的目的是将视频帧中的每个实例独立地识别和分割出来。然而,现有的方法通常...

Read More
2023-09-05 talkingdev

从浏览器小子到后端老大:WASM会赢得网络战争吗?

WebAssembly是一种二进制格式,允许Web开发者以接近本地速度运行代码,这可能确实会成为后端软件开发的未来。WebAssembly(WASM)是一个开放标准,可以将几乎任何语言编写的代码编译成一种可在Web上运行的格式,使得...

Read More
2023-07-20 talkingdev

视频对象追踪:基于点的分割方法引领新潮流

最新研究引入了一种名为SAM-PT的新系统,该系统利用Segment Anything Model (SAM)来提高视频中对象的追踪和分割效果。在多个视频分割基准测试中,SAM-PT表现出卓越的性能。SAM-PT的优势在于其对对象的分割和追踪能力...

Read More
2023-04-14 talkingdev

AdaM:自适应人像抠图技术,让视频处理更自然

以下是本文报道的主要内容: - AdaM是一种自适应人像抠图框架,适用于动态视频。 - AdaM通过编码器-解码器网络和转换器网络同时区分前景和背景,并捕捉多样化、非结构化视频中的阿尔法抠图细节,解决了无Trimap方法...

Read More
  1. Prev Page