强化学习赋能递归语言模型：小模型也能媲美Claude Sonnet，成本大幅降低

大型语言模型的部署成本一直是其广泛应用的主要障碍之一。一篇来自AlphaXiv的最新研究提出了一种创新解决方案：通过强化学习微调递归语言模型（RLMs）。该方法的核心在于训练一个共享的策略，同时驱动父模型和子模型（递归的层级），使得一个仅40亿参数（4B）的小模型，在特定任务上能够达到与Claude Sonnet 4.6等高性能大模型相匹配的表现，而计算资源占用和运行成本却显著降低。这种递归机制允许模型在推理时进行多步自我修正和细化，从而在保持高效的同时，获得了远超其参数规模的推理能力。该技术路径为在预算有限的环境中部署高性能AI应用提供了切实可行的方案，尤其适用于需要高度专业化且成本敏感的领域，预示着未来AI模型将从“更大”转向“更智能、更高效”。