ML的相关内容 - 漫话开发者

2024-07-19 talkingdev

OpenAI推出新款小型模型GPT-4o Mini，颠覆GPT-3.5

OpenAI近日推出了一款新型小型模型——GPT-4o Mini，目标是替代现有的GPT-3.5模型。GPT-4o Mini在MMLU（Mixed Multi-Level Understanding）上的得分为82，这对于低成本模型来说是相当合理的表现。OpenAI一直致力于开发...

2024-07-18 talkingdev

近日，一位7岁女孩用HTML制作了自己的网站，让人惊叹不已。她的父亲在社交媒体上分享了这个故事，引起了广泛的关注。据悉，这位女孩名叫艾米丽，她对计算机编程非常感兴趣。在得知父亲是一名程序员后，她开始学习HT...

2024-07-14 talkingdev

近日，一位开发者在社交媒体上分享了他制作的Jeopardy游戏制作器。该制作器支持蜂鸣器，让用户能够在游戏中模拟电视上的答题环节。据悉，这个制作器使用了最新的Web技术，包括HTML、CSS和JavaScript。它还具有简单易...

2024-07-10 talkingdev

代码编辑器Zed宣布正式在Linux平台上发布。Zed是一款用JavaScript、HTML和CSS构建的现代代码编辑器，旨在提高开发人员的生产力。Zed的发布是为了进一步支持Linux生态系统，它可以在Linux上运行，提供流畅的开发体验...

2024-07-10 talkingdev

最近，一种新型的循环神经网络（RNN）变体在多项任务中的表现超过了Mamba。这种新型的RNN变体的重要特点是其更新函数本身就是一个机器学习（ML）模型。这使得它可以处理长上下文和在上下文中进行学习。在现今的机器...

2024-06-25 talkingdev

在MLX中实施批量并行KV缓存，导致合成数据生成和模型完成的推理时间显著提速。这种新的技术实现方式大大加快了处理速度，从而在Mac上每秒可以处理1300个Token。这一突破性的技术进步，不仅可以提高处理效率，同时也...

2024-06-20 talkingdev

Logit Lens方法已经得到了增强，该方法通过分解logit输出，帮助我们理解Transformer模型的决策过程。这种方法使用“prisms”来处理残差流，注意力层和MLP层，揭示了这些部分如何影响预测，并为gemma-2b模型执行的诸如...

2024-06-19 talkingdev

在MLPerf的两项新测试中，由Nvidia的Hopper架构驱动的系统表现突出，这两项测试分别比较了大型语言模型的微调和图神经网络的训练。MLPerf是一个AI基准测试套件，用于比较不同系统在AI任务上的性能。Nvidia的Hopper架...