漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-10-14 talkingdev

论文:DeepSeek通过大规模合成数据推动LLM中的定理证明进展

DeepSeek项目致力于通过大规模合成数据提升LLM在定理证明领域的能力。传统的定理证明通常依赖于有限的标注数据,这限制了模型的学习和推理能力。DeepSeek通过生成多样化的合成数据集,训练模型识别和解决复杂的数学...

Read More
2024-05-22 talkingdev

DeepSeek-VL:面向现实世界的开源视觉语言模型

DeepSeek-VL 是一个专注于现实世界应用的全新开源视觉语言模型。该模型特别针对多样化的数据进行了优化,包括来自网页截图、图表以及 OCR(光学字符识别)数据的处理。DeepSeek-VL 的设计目标是提高在复杂和多样化数...

Read More
2024-05-07 talkingdev

DeepSeek发布200B+参数模型——DeepSeek-V2

DeepSeek近期推出了一个具有超过2000亿参数的模型DeepSeek-V2,其中激活参数达到210亿。无论是在编码还是推理方面,该模型的表现都极为出色。虽然目前尚不清楚其性能是否超过了拥有700亿参数的Llama 3模型,但无疑,...

Read More
2024-03-01 talkingdev

StarCoderV2发布,具备16k上下文窗口和4T训练令其性能强劲

Big Code项目发布了旗舰编码模型的另一个版本StarCoder v2。该模型具有16k上下文窗口,经过4T令牌的训练,性能强劲,但仍然低于DeepSeek编码器。StarCoder v2将在程序员社区和人工智能研究领域引起轰动,标志着Big C...

Read More
2024-02-27 talkingdev

OpenCodeInterpreter模型接近GPT-4的代码性能

OpenCodeInterpreter模型基于CodeLlama和DeepSeek Coder,通过训练合成多轮数据集和使用人类反馈,能够在编程HumanEval基准测试中获得85%以上的准确率。

Read More
2024-02-08 talkingdev

开源数学推理AI模型DeepSeekMath

GitHub仓库发布了一个名为DeepSeekMath 7B的语言模型,专门设计用于解决复杂的数学问题。该模型训练了大量以数学为重点的内容,它可以理解数学问题的语法和语义,并根据其推理出答案。DeepSeekMath 7B是一个重要的AI...

Read More
2024-01-10 talkingdev

DeepSeek LLM技术报告发布:接近GPT-3.5水平

去年最好的编码模型之一是DeepSeek LLM。它在许多基准测试中接近GPT-3.5(即使它可能是3倍大小)。有关模型训练,令牌计数,模型架构等的信息已在技术报告中发布。DeepSeek LLM是一种基于语言模型的编码器,它使用自...

Read More