LiveBench放榜:Qwen3斩获全球开源冠军

简介: 最新一期LiveBench榜单显示,阿里云旗舰模型Qwen3-235B-A22B荣登全球开源模型冠军,小尺寸Qwen3-32B位列Top3。千问3在指令遵循能力上超越多个顶级闭源模型,位居全球第一。该评测由图灵奖得主Yann LeCun发起,采用动态防污染机制,确保公平性。千问3支持119种语言,具备混合推理架构与强大Agent能力,现已上线阿里云百炼平台,提供免费体验与API调用。

最新一期 LiveBench 放榜,我们的旗舰模型Qwen3-235B-A22B登顶「全球开源模型冠军」,小尺寸的Qwen3-32B则位列全球开源模型Top3。同时,千问3在指令遵循(Instruction Following)这一关键能力上超越o3 High、o4-Mini High、Gemini 2.5 pro等顶级闭源模型,斩获全球第一,这也表明千问3具备全球🔝的语言理解和生成能力。


LiveBench是由图灵奖得主Yann LeCun联合Abacus.AI、纽约大学发起,聚焦AIGC领域模型能力测评,其核心亮点在于动态防污染机制——每月基于最新数据集、arXiv论文、新闻热点和IMDb电影梗概生成新问题,覆盖6大类18项任务,形成持续更新的评估体系。该榜单被誉为「全球首个无法被操纵的LLM基准测试」。LiveBench 的目标是提供一个公平、全面且不断发展的评估工具,帮助研究人员和开发者更好地理解和改进语言模型

千问3独特的混合推理架构,支持即时响应与深度推理双模式切换,还可通过"思考预算"机制满足性能与成本的各种需求;千问3提供119种语言和方言支持,为全球化应用提供坚实支撑;千问3还拥有强大的Agent智能体能力,通过优化编码效率与MCP支持,可实现手机、电脑高效操作及复杂任务处理。

image.png

image.png


目前阿里云百炼平台已全线上架Qwen3 模型,可直接在阿里云百炼控制台直接体验!!!也可以参考api文档直接通过api进行调用。

目前上阿里云百炼体验Qwen3,每个模型免费获得各100万 Token,有效期为百炼开通后180天内,qwen-plus-2025-04-28、qwen-turbo-2025-04-28已升级Qwen3,赶快来体验一下Qwen3的能力吧~~

👉Qwen3模型直接体验入口🔗https://bailian.console.aliyun.com/?tab=model#/model-market?name=qwen3

🔗https://bailian.console.aliyun.com/?tab=model#/model-market

🔗https://bailian.console.aliyun.com/?tab=model#/model-market?name=qwen3

🔗Qwen3api调用方式

🏀如果想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~~


相关文章
|
7天前
|
数据可视化 API Swift
全模态图像模型Nexus-Gen对齐GPT-4o!同时搞定,数据、训练框架、模型全面开源
OpenAI GPT-4o发布强大图片生成能力后,业界对大模型生图能力的探索向全模态方向倾斜,训练全模态模型成研发重点。
96 17
|
5天前
|
人工智能 监控 API
狂揽22.6k星!这个开源工具让你一键调用100+大模型,开发效率直接起飞!
LiteLLM是由BerriAI团队开发的开源项目,通过标准化OpenAI格式API接口,支持调用100+主流大语言模型(如OpenAI、Azure、Anthropic等)。其核心功能包括统一调用方式、企业级智能路由、异步流式响应及环境变量管理。项目适用于企业AI中台搭建、多模型对比测试、教育科研实验等场景。技术架构涵盖接口层、路由层、管理层与监控层,提供高效稳定的服务。相比LangChain、LlamaIndex等项目,LiteLLM在多平台混合开发方面优势显著。项目地址:https://github.com/BerriAI/litellm。
|
6天前
|
人工智能 负载均衡 数据可视化
10分钟上手全球开源模型冠军 Qwen3
阿里通义千问Qwen3在最新全球AI基准测试中智能水平位列全球前五,开源第一,且成本优势显著,推理成本仅为DeepSeek-R1的1/3、Claude 3.7的1/20。Qwen3支持119种语言,具备强大的代码和数学能力,同时提供思考与非思考两种模式无缝切换,适合复杂与简单任务。通过阿里云百炼平台,用户可在10分钟内快速搭建Qwen3模型服务,结合Cherry Studio客户端实现便捷交互。本文详细介绍了Qwen3的部署、体验及工具调用能力,帮助用户轻松上手。
|
14天前
|
测试技术 UED
全新开源通义千问Qwen3,它来了!
Qwen3是通义千问系列的最新模型,融合推理与非推理模式,兼具QwQ和Instruct模型能力。提供多种尺寸,包括235B-A22B、30B-A3B及六个Dense模型,大幅提升数学、代码、逻辑推理和对话能力,达到业界领先水平。旗舰模型Qwen3-235B-A22B在多场景测试中表现优异,小型模型如Qwen3-4B性能媲美大模型。用户可在阿里云百炼平台免费体验各100万Token。
全新开源通义千问Qwen3,它来了!
|
6天前
|
编解码 人工智能
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
通义万相Wan2.1-VACE开源!业内首个视频编辑统一模型!附推理教程
174 7
|
5天前
|
数据采集 人工智能 自然语言处理
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
阶跃星辰联合光影焕像开源 3D 大模型 Step1X-3D,高保真+可控!
55 4
|
6天前
|
编解码 人工智能 自然语言处理
通义万相VACE开源!一款模型搞定多种视频编辑任务
VACE是一款多功能视频生成与编辑模型,支持文生视频、图像参考生成、局部编辑及视频扩展等任务。其核心亮点包括:多模态信息输入实现可控重绘,统一单一模型满足多任务需求,以及灵活组合单任务能力释放创意边界。技术设计上,VACE采用VCU(视频条件单元)统一输入范式,并通过多模态Token序列化和上下文适配器微调提升训练效率。开源版本提供不同分辨率选择,用户可通过GitHub、HuggingFace等平台获取资源,适用于高效灵活的视频创作场景。
|
12天前
|
人工智能 自然语言处理 搜索推荐
阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
阶跃多模态再添一员:阶跃与 ACE Studio 联合开源音乐大模型 ACE-Step!
135 10
|
21天前
|
弹性计算 机器人 应用服务中间件
一键部署开源Qwen3并集成到钉钉、企业微信
Qwen3系列模型现已正式发布并开源,包含8款“混合推理模型”,其中涵盖两款MoE模型(Qwen3-235B-A22B与Qwen3-30B-A3B)及六个Dense模型。阿里云计算巢已支持Qwen3-235B-A22B和Qwen3-32B的私有化部署,用户可通过计算巢轻松完成部署,并借助AppFlow集成至钉钉机器人或企业微信。文档详细介绍了从模型部署、创建应用到配置机器人的全流程,帮助用户快速实现智能助手的接入与使用。
一键部署开源Qwen3并集成到钉钉、企业微信
|
26天前
|
机器学习/深度学习 人工智能 算法
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
Skywork-R1V 2.0是昆仑万维最新开源的多模态推理模型,通过混合强化学习和多模态奖励模型实现复杂推理任务,在理科题目解答和科研分析中展现出色性能。
157 11
高考理科题AI秒解!昆仑万维开源多模态推理模型 Skywork-R1V 2.0
OSZAR »