登陆

斯坦福大学低成本AI模型S1的成功:阿里通义千问Qwen模型的底层力量

author 2025-02-11 43人围观 ,发现0个评论

近日,斯坦福大学和华盛顿大学的研究人员仅花费不到50美元的云计算费用,训练出一个名为s1的AI推理模型,其性能与OpenAI的o1和DeepSeek的R1等尖端模型相当,引发业界广泛关注。然而,这一成果并非完全“从零开始”。阿里云官方确认,s1模型基于阿里通义千问Qwen2.5-32B-Instruct开源模型进行微调训练,这再次凸显了Qwen模型在开源社区的巨大影响力。

此次事件也揭示了Qwen模型的强大性能和资源优势。研究人员仅用16块H100 GPU进行26分钟的监督微调,便获得了与顶级闭源模型相媲美的结果,甚至在竞赛数学问题上超越了o1-preview模型27%。这不仅证明了Qwen模型作为基座模型的优越性,也降低了AI模型训练的门槛,为更多研究者提供了便捷高效的工具。

事实上,Qwen模型早已在开源社区崭露头角。DeepSeek官方此前也曾透露,其R1模型的推理能力部分来自于基于Qwen-32B蒸馏的模型。自2023年8月起,阿里云陆续开源了Qwen、Qwen1.5、Qwen2、Qwen2.5等多个版本,涵盖大语言模型、多模态模型、数学模型和代码模型等,并在HuggingFace、Chatbot Arena、司南OpenCompass等多个权威榜单上取得领先成绩,屡获“全球开源冠军”。

目前,Qwen的衍生模型数量已突破9万,超过Llama系列,成为全球最大的生成式语言模型族群。其开源、多尺寸、高性能等特点,吸引了全球众多AI开发者,进一步推动了其在开源社区中的主导地位。

Qwen模型的成功,不仅在于其强大的技术实力,还在于其开源策略。开放共享的理念,促进了AI技术的快速发展和普及,也为AI领域的研究者和开发者带来了更多机会。未来,随着Qwen模型的不断迭代和完善,以及开源社区的持续贡献,我们有理由期待它在AI领域发挥更大的作用,推动AI技术走向更广泛的应用场景。 这波基于Qwen的模型热潮,也预示着未来AI模型发展将更加注重开源、协作和共享,这将会极大地推动AI技术的进步和创新。

Powered By hgmind.com