基准测试的相关内容 - 漫话开发者

2024-03-08 talkingdev

Inflection新模型，个人助手Pi性能大幅提升

Inflection近日推出了一款新模型，为其个人助手Pi提供支持。该模型表现与GPT-4相当，在基准测试中具备出色的推理能力，达到了94%的成绩。Inflection声称，相对于GPT-4，该模型训练所需的计算资源仅占40%。有意思的是...

2024-03-07 talkingdev

Anthropic发布的Claude 3是一个大型语言模型，可与GPT-4相媲美，它不仅在基准测试中表现出色，而且在交互质量上独具人类特色，具有创造性和自然性，使其成为AI与作家创意合作能力的重大进展。

2024-03-05 talkingdev

Emissary发布了一个基准测试平台，可以使开发人员在他们自己的条件下快速可靠地评估提示并管理模型迁移和回归。通过自动LLM辅助评估或将评级外包给Emissary，生成和扩展测试集，定义自定义指标，并协作地手动团队评...

2024-03-05 talkingdev

Anthropic的Claude 3似乎在一系列认知任务上树立了新的行业标准。该公司声称，在某些情况下，它接近于“人类水平”的能力。Claude 3有三个模型：Claude 3 Haiku，Claude 3 Sonnet（为Claude.ai聊天机器人提供动力）和C...

2024-02-27 talkingdev

OpenCodeInterpreter模型基于CodeLlama和DeepSeek Coder，通过训练合成多轮数据集和使用人类反馈，能够在编程HumanEval基准测试中获得85%以上的准确率。

2024-02-23 talkingdev

Google已经发布了其Gemma 2B和7B参数模型的权重，可通过HuggingFace获得。这些模型是仅解码器的Transformer，训练了2T和6T个令牌。它们在各种基准测试中都比Llama 2表现出色，并提供基础和指令调整版本。

2024-02-23 talkingdev

斯坦福大学语言建模团队发布了一项广泛使用的基准测试，名为Holistic Evaluation of Language Models (HELM)。他们还发布了一份面向指令跟随的版本，名为HELM-Instruct。该测试是多维的、开放式的和绝对的。

2024-02-22 talkingdev

谷歌推出了一系列新的AI语言模型Gemma，这些模型是基于类似Gemini的技术构建的免费开源模型。Gemma模型可在桌面或笔记本电脑上本地运行，有两个模型，一个有20亿个参数，另一个有70亿个参数。每个模型都有经过预训练...