DeepEval是一款全能的LLM应用评估框架,可让用户轻松识别和迭代不令人满意的LLM输出。它目前提供了14+种评估指标,如幻觉、摘要、G-Eval、RAGAS等,供用户以Pytest样式或组件化方式评估整个数据集。
Read More上周推出的 Coffee 可以通过插入现有的代码库来帮助前端开发中的 AI 流程。该项目专注于基于 Coframe 团队从利用 AI 生成 80% 以上前端的经验中获得的一流 DX。Coffee 将使用人工智能来改进前端开发工作流程,从而使...
Read More对于使用Pytorch的从业者来说,最大的挑战之一就是弄清楚为什么会出现内存不足的情况。在Pytorch 2.1中提供了一些令人惊叹的新工具,可以了解内存使用情况。甚至可以将使用情况分类为熟悉的桶(例如,激活,梯度)。
Read More本项目介绍了一种新的技术,用于估计图像中的光照,克服了当前依赖HDR全景数据集的现有方法的局限性。通过使用扩散模型将铬球渲染到标准图像中,该技术揭示了铬球与扩散噪声之间的独特关系。这种技术有助于提高图像...
Read MoreDriveMLM是一种新的框架,它使用大型语言模型来提高自动驾驶的能力。这个系统将语言决策与车辆控制相结合,不仅与现有的自动驾驶系统集成,而且在模拟中表现更好。
Read MoreTransformer模型虽然强大,但是由于其不稳定性,训练起来常常会很困难。其中一个主要的问题是注意力矩阵的熵崩溃。本文介绍了一种通过简单的重新参数化来防止熵崩溃的方法。
Read MoreSnapchat为Snapchat+订阅者推出了新的AI功能,包括一个AI图片生成器,可以从文本提示中创建图片,以及一个梦幻自拍功能,可以与朋友一起创建奇幻的图片。新的AI扩展工具可以让用户自动扩展和填充照片的背景。这些功...
Read More