GE的相关内容 - 漫话开发者

2024-07-17 talkingdev

Bert发生了什么？——Yi Tay的精彩分享

近日，Reka和Google的Yi Tay发表了一篇精彩的文章，详细讲述了编码器、prefixlm、降噪目标等现代语言建模技巧。在这篇文章中，Yi Tay详细分析了一些对于语言建模领域的最新的研究成果和思考。他深入剖析了编码器的工...

2024-07-17 talkingdev

Hugging Face近日推出了一套名为SmolLLM的小型语言模型套件，其性能超越许多大型模型。这主要得益于数据集的精心策划和管理。SmolLLM以其精细的设计和优化，展示出了小型语言模型的巨大潜力和价值。这种模型不仅在处...

2024-07-17 talkingdev

近日，一种名为解耦拒绝训练（DeRTa）的新方法被提出，这种新方法通过解决拒绝位置偏差问题，进一步提高了大型语言模型（LLMs）的安全性调优效果。LLMs在各类应用场景中起着重要作用，安全性问题也因此变得尤为重要...

2024-07-17 talkingdev

Exo（GitHub Repo）是一款允许您在家中日常设备上运行自己的人工智能（AI）集群的开源软件。这款软件以其简洁易用、部署方便的特点吸引了大量的用户。用户可以在家中的各种设备上部署和运行AI任务，从而提高设备的使...

2024-07-17 talkingdev

研究人员已经开发了一种物理信息扩散（PID）模型，通过将物理定律纳入过程，以改进从RGB图像到红外图像的转换。这种模型结合了物理学和计算机科学的知识，使得图像转换更加精确、真实。这种新技术的应用领域非常广泛...

2024-07-17 talkingdev

Mistral最近成功训练出了一个名为Mamba 2的代码模型，该模型在长文本环境下具有极高的性能，而且在HumanEval上的表现也达到了75%。Mamba 2的出现，标志着Mistral在人工智能和机器学习领域取得了重大突破，这也为未来...

2024-07-17 talkingdev

Andrej Karpathy的新公司Eureka Labs，是一家专注于教育的人工智能公司，旨在改变我们学习新事物的方式。他们的目标是通过人工智能的应用，突破传统教育模式的局限，开启一种全新的学习方式。相信在未来，Eureka Lab...

2024-07-16 talkingdev

NVIDIA的CUDA是一种广泛使用的GPU编程框架，但是它只能在NVIDIA GPU上运行。然而，一家名为Nek5000的研究团队近日发现了一种方法，在AMD GPU上运行未经修改的CUDA代码。他们使用了名为“ROCm”，即Radeon开放计算平台...