漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-01 talkingdev

Nvidia推出CUDA-checkpoint工具包:助力分布式训练大型AI模型

Nvidia最近发布了一个新的工具包,可以对CUDA状态进行检查点设置,以便于传输和重启。这一工具包在GitHub上公开,对于大型AI模型的分布式训练非常有用。CUDA状态的检查点设置可以在训练过程中保存模型的状态,以便在...

Read More
2024-05-01 talkingdev

语言模型中的Meta-Prompting技术

Meta-Prompting是一种能够将单个语言模型转化为多技能团队的技术。这种方法将复杂的任务分解为更简单的部分,由同一模型的专门实例处理,从而在各种任务中显著提高性能。在这种情况下,一个语言模型可以被看作是一个...

Read More
2024-05-01 talkingdev

论文:适应变化结构,图神经网络的新方法

最近,一种名为集群信息传输(CIT)的新方法被设计出来,以增强图神经网络(GNNs)对不同和变化的图结构的适应性。图神经网络(GNNs)已被广泛应用于各种复杂系统的分析和预测,包括社交网络、物联网和生物信息学等...

Read More
2024-05-01 talkingdev

论文:Seismic使用更快的嵌入搜索进行文本检索

Seismic是一种创新的组织倒排索引的方法,它通过学习稀疏嵌入大大提高了文本检索的速度和准确性。倒排索引是一种常用的信息检索技术,其基本原理是通过构建单词到文档的映射,从而快速找到包含特定单词的文档。而Sei...

Read More
2024-05-01 talkingdev

论文:探索Mamba,先进计算机视觉的视觉基础模型

Mamba模型是一种先进的方法,擅长处理长序列,而不会带来传统Transformers的计算缺点。在计算机视觉领域,Mamba模型已经取得了显著的成果,并在多个应用中展现出其优越性。相比于传统的Transformers模型,Mamba模型...

Read More
2024-05-01 talkingdev

苹果从谷歌挖来AI专家,秘密在欧洲设立AI实验室

苹果公司近期积极扩大其人工智能能力,从谷歌公司挖来了众多AI专家,并在瑞士苏黎世秘密设立了一个AI研究实验室。这个被称为“视觉实验室”的研究机构,专注于开发能集成文本和视觉输入的先进AI模型。这一系列举措标志...

Read More
2024-05-01 talkingdev

Meta发布ExecuTorch框架,为边缘设备上的LLM提供支持

Meta发布了一款名为ExecuTorch的框架,这是一个后训练量化工具包,能够支持在各种iPhone和Galaxy设备上运行Llama模型。该框架能够在运行7B大小语言模型的手机上,每秒获取多达11个令牌。ExecuTorch框架的发布,进一...

Read More
2024-05-01 talkingdev

空的AWS S3桶是如何导致您的AWS账单猛增

AWS S3对未经授权的入站请求进行收费,这意味着任何知道任何S3桶名称的人都可以随意增加桶主的AWS账单。这可能会对AWS用户造成巨大的经济压力,特别是对于那些使用大量S3存储服务的用户。因此,为了避免不必要的费用...

Read More
  1. Prev Page
  2. 153
  3. 154
  4. 155
  5. Next Page