漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-09-20 talkingdev

CuPy:为GPU量身定制的NumPy和SciPy替代品

CuPy是一个基于GPU的数组库,旨在为高性能计算提供与NumPy和SciPy兼容的API。它的设计使得用户能够在GPU上高效地执行数值计算,从而显著提升计算速度。CuPy采用了CUDA编程模型,支持多种GPU加速功能,包括矩阵运算、...

Read More
2024-06-14 talkingdev

Nvidia Warp:高性能GPU模拟和图形的Python框架

Nvidia Warp是一款用于高性能GPU模拟和图形的Python框架。它提供了一个简单易用的接口,可以快速地实现GPU加速的模拟和图形计算。Nvidia Warp内置了一系列高效的数学库和图形库,可以大大提高计算效率和图像渲染质量...

Read More
2024-05-24 talkingdev

构建交互式嵌入可视化的经验分享

一位热衷于交互式嵌入可视化的人士分享了他们在创建这种可视化过程中的精炼工作流程。这种可视化能够传达高维空间中实体之间的复杂关系。整个过程包括数据收集、构建共现矩阵、稀疏化矩阵、使用PyMDE进行嵌入,以及...

Read More
2024-04-28 talkingdev

微软开源BitBLAS:优化1.58位网络内核

微软近日发布了一组用于训练BitNet风格模型的GPU加速内核。这些模型在准确度上没有明显下降的情况下,大大降低了内存消耗。BitNet风格模型是一种新型的深度学习模型,它的特点是使用1.58位的数据表示方法,比传统的3...

Read More
2024-02-27 talkingdev

微软打造AI服务器硬件,削减对英伟达的依赖

据报道,微软正在打造自己的人工智能服务器硬件,以减少对英伟达的依赖。目前,微软在其云计算平台Azure上使用英伟达的GPU加速器来提高人工智能处理速度。不过,为了降低成本和提高灵活性,微软现在正在开发自己的AI...

Read More
2024-01-25 talkingdev

优化矩阵乘法,以加速AI运行

本文简要介绍了硬件特定的矩阵乘法优化和一般流程,以加速AI代码。现代深度学习算法中,矩阵乘法是常见的操作。优化矩阵乘法的实现可以显著提高模型的训练和推理速度,进而提高模型的准确性和效率。矩阵乘法优化的主...

Read More
2023-10-16 talkingdev

Anyscale-将Llama 2的冷启动时间缩短至30秒

将模型从云存储加载到节点GPU通常需要大部分推理时间。通过一些巧妙的技巧,例如内存流,Anyscale将其缩短了20倍,仅需30秒即可到达Llama 2 70B。

Read More
2023-05-01 talkingdev

Wonnx推出全新GPU加速ONNX推理运行时,100%采用Rust编写,支持Web应用

以下是该新闻的核心内容: - Wonnx是一个全新的GPU加速ONNX推理运行时,它完全采用Rust编写,可用于Web应用程序。 - 比起其他推理运行时,Wonnx具有更高的性能和更低的延迟。 - Wonnx是一个开源项目,现在可以在Git...

Read More