Ads

通义千问 Qwen3

通义千问 Qwen3

通义千问 Qwen3 最新消息

通义千问团队在2025年7月发布了一系列重要更新,进一步巩固了Qwen3系列在大型语言模型领域的领先地位。

  • 2025年7月25日,发布Qwen3专注于推理能力的Qwen3-235B-A22B-Thinking-2507版本;
  • 2025年7月24日,发布Qwen3-Coder:4800亿参数,实现开源代码模型新SOTA;
  • 2025年7月21日,推出了Qwen3-235B-A22B-Instruct-2507版本更新,显著提升了模型的通用能力,并支持256K长上下文理解。

通义千问 Qwen3 简介

Qwen3是阿里巴巴通义千问团队开发的最新大型语言模型系列。该系列在预训练规模、模型架构、多语言支持等方面有显著提升。Qwen3提供多种参数规模的模型,包括MoE和稠密模型,均在Apache 2.0协议下开源。作为阿里巴巴在人工智能领域的重要布局,Qwen3 系列模型旨在推动大模型技术的普及和应用,并为全球开发者提供强大的开源基础模型。

通义千问 Qwen3 历史与版本

Qwen系列模型自首次发布以来,经历了多个重要的迭代版本:

  • 2023年4月: 阿里巴巴首次发布Qwen的测试版,最初命名为通义千问。
  • 2023年9月: Qwen 模型获得中国政府批准后正式发布。
  • 2024年6月: 阿里巴巴发布Qwen 2系列模型。
  • 2024年9月: 阿里巴巴发布了100个新的开源Qwen2.5模型,参数规模从0.5亿到720亿不等,支持超过29种语言。
  • 2024年11月: 阿里巴巴发布了QwQ(Qwen with Questions),这是一个专注于推理的开源实验研究模型。
  • 2025年1月: 阿里巴巴发布了最新的视觉语言开放模型Qwen2.5-VL。
  • 2025年4月28日: Qwen3模型家族发布,包括六个密集模型和两个MoE模型。
  • 2025年7月24日: 阿里巴巴发布了Qwen3-MT,这是一个支持92种语言的强大新翻译模型,通过强化学习提高了准确性。 同日,也发布了Qwen 3 Coder,一个拥有4800亿参数的开源大语言模型,专门为软件开发而设计。
  • 2025年7月25日: 阿里巴巴Qwen团队发布了Qwen3-235B-A22B-Thinking-2507,这是一个专注推理的特殊版本。

通义千问 Qwen3 关键特性

Qwen3 模型系列引入了多项创新和增强功能:

  1. 混合推理能力: Qwen3 模型首次引入了混合推理能力,能够在“思考模式”和“非思考模式”之间无缝切换。 “思考模式”适用于复杂的、多步骤的任务,如数学、编码和逻辑推理,而“非思考模式”则提供快速、通用性的响应。 开发者通过API访问Qwen3时,可以对思考模式的持续时间进行精细控制,以平衡智能性能和计算效率。
  2. 多语言能力: Qwen3 在其前身Qwen2.5的基础上进行了训练,使用了36万亿个标记的数据集,其规模是Qwen2.5的两倍,涵盖了119种语言和方言,使其在翻译和多语言指令遵循方面表现出色。
  3. 高级代理集成: Qwen3 原生支持模型上下文协议(Model Context Protocol, MCP)和强大的函数调用功能,在复杂的基于代理的任务中处于领先地位。
  4. 长上下文理解: Qwen3 模型支持高达256K个标记的上下文窗口,使其能够有效地处理和推理极长的文档、整个代码库或冗长的对话历史,而不会丢失输入开始处的关键信息。
  5. MoE 模型架构: Qwen3 模型系列包括 MoE 模型,如Qwen3-235B-A22B,它拥有2350亿个总参数,但在每个生成步骤中只激活220亿个参数。 这种架构相比于密集模型更加快速和经济高效,因为它在每个步骤中只激活一小部分参数。
    • MoE模型:如Qwen3-235B-A22B,通过仅激活部分参数(220亿)来降低推理计算。
    • 稠密模型:如Qwen3-32B,适用于企业级应用。
  6. Agent与工具调用:Qwen3增强了作为智能体(Agent)执行复杂任务的能力。Qwen3-Coder系列尤其擅长自主执行编程任务和与外部工具交互。
  7. 开放生态系统:Qwen3系列模型及其工具链在Hugging FaceGitHub魔搭社区等平台开放,遵循Apache 2.0协议,支持免费商用。

通义千问 Qwen3 性能基准

Qwen3 模型在推理、编码和通用知识等多个基准测试中表现出强大的竞争力。 值得注意的是,Qwen3-235B-A22B 在大多数任务中表现突出,而较小的Qwen3-30B-A3B和Qwen3-4B模型也取得了不错的性能。 例如,Qwen3-235B-A22B 在 CodeForces ELO Rating、BFCL 和 LiveCodeBench v5 基准测试中表现优异。

通义千问 Qwen3 应用与部署

Qwen3的开放性和灵活性使其在广泛的应用场景中具有潜力:

  • 边缘设备: Qwen3的轻量级版本支持在移动设备和智能眼镜等边缘设备上部署。 领先的芯片制造商,包括NVIDIA、AMD、Arm和联发科,已将Qwen3集成到他们的生态系统中,并在边缘AI推理效率和响应能力方面取得了显著提升。
  • 企业应用: Qwen3 在企业AI系统中具有重要价值,尤其是在需要推理、规划和决策支持的场景中。 Qwen模型系列已通过模型工作室(Model Studio)被超过9万家企业用户采用,DingTalk(阿里巴巴的智能协作平台)的220多万企业用户也使用了Qwen驱动的AI服务。
  • 开发生态系统: Qwen3 模型权重可在Hugging Face、ModelScope等平台下载,并支持各种部署框架。 阿里巴巴还提供了Qwen Code命令行工具,以简化工作流程,提高可用性,并与其他工具无缝集成。
  • 未来展望: 阿里巴巴暗示Qwen团队正在规划更多社区驱动的模型变体,例如用于医学研究的“Qwen3-Med”,以及增强多模态能力(语音、视频和文本在一个模型中)和与云服务更紧密集成以实现无缝扩展的计划。

Qwen3 官网

Qwen3 体验地址

© 版权声明
THE END
喜欢就支持一下吧
分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容