Doubao-1.5-pro：字节跳动最新豆包大模型，性能超越GPT-4o和Claude 3.5 Sonnet

2025-01-23 1151

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

图像搜索，任选一个服务类型 1个月

简介： 豆包大模型1.5是字节跳动推出的最新大模型，采用大规模稀疏MoE架构，支持多模态输入输出，具备低时延语音对话能力，综合性能优于GPT-4o和Claude 3.5 Sonnet。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日分享大模型与 AI 领域的最新开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

性能优势：豆包大模型1.5在知识、代码、推理、中文等多个测评基准上表现优于GPT-4o和Claude 3.5 Sonnet。
多模态能力：支持文本、图像、语音等多种模态的输入输出，视觉推理和文档识别能力显著增强。
低成本高效：采用大规模稀疏MoE架构，硬件成本大幅降低，推理效率显著提升。

正文（附运行示例）

豆包大模型1.5 是什么

Doubao-1.5-pro

Doubao-1.5-pro 是一款基于 MoE 架构的先进预训练模型，专注于在模型性能和推理性能之间取得极致平衡。通过较少的激活参数，它能够超过一流超大稠密预训练模型的性能，并在多个公开评测基准上取得优异成绩。模型在视觉、语音等多模态能力方面也有显著提升，提供更自然、更丰富的交互体验。

模型从预训练阶段就坚持训练-推理一体化设计，以在最强的模型性能和最优的推理成本之间取得平衡。Doubao-1.5-pro 使用高效的 MoE 模型结构，在预训练阶段仅用较小参数激活的 MoE 模型，性能即可超过 Llama3.1-405B 等超大稠密预训练模型。团队通过对稀疏度 Scaling Law 的研究，确定了性能和效率比较平衡的稀疏比例，并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能。

Doubao-1.5-pro 是一个高度稀疏的 MoE 模型，在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中表现出显著不同的计算与访存特征。针对四个不同象限，采用异构硬件结合不同的低精度优化策略，在确保低延迟的同时大幅提升吞吐量，在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。

此外，Doubao-1.5-pro 在同一模型中融合并提升了视觉、语音等多模态能力，可为用户带来更自然、更丰富的交互体验。视觉多模态方面，模型在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升，进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循等方面的能力。语音多模态上，模型提出了新的 Speech2Speech 的端到端框架，通过原生方法将语音和文本模态进行深度融合，实现了语音对话中真正意义上的语音理解生成端到端，相比传统的 ASR+LLM+TTS 的级联方式，在对话效果上有质的飞跃。

Doubao-1.5-pro 的技术原理

稀疏 MoE 架构

从训练和推理效率的角度出发，Doubao-1.5-pro 使用稀疏 MoE 架构。在预训练阶段，仅用较小参数激活的 MoE 模型，性能即可超过 Llama3.1-405B 等超大稠密预训练模型。团队通过对稀疏度 Scaling Law 的研究，确定了性能和效率比较平衡的稀疏比例，并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能。此前，业界在这一性能杠杆上的普遍水平为不到 3 倍。团队通过模型结构和训练算法优化，在完全相同的数据（9T tokens）对比验证下，用激活参数仅为稠密模型参数量 1/7 的 MoE 模型，超过了稠密模型的性能，将性能杠杆提升至 7 倍。

高性能推理系统

Doubao-1.5-pro 在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中表现出显著不同的计算与访存特征。针对四个不同象限，采用异构硬件结合不同的低精度优化策略，在确保低延迟的同时大幅提升吞吐量，在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。

Prefill 阶段：通信和访存瓶颈不明显，但容易达到计算瓶颈。通过多种计算访存比高的设备上做 Chunk-PP Prefill Serving，使线上系统 Tensor Core 的利用率接近 60%。
Prefill Attention：使用 MMA/WGMMA 等指令扩展开源的 FlashAttention 8-bit 实现，结合 Per N tokens Per Sequence 的量化策略，确保该阶段可以在不同架构的 GPU 上无损运行。
Prefill FFN：采用 W4A8 量化，有效降低了稀疏 MoE 专家的访存开销，并通过跨 Query Batching 的策略，使 MFU 提升至 0.8。
Decode 阶段：计算瓶颈不明显，但对通信和访存能力要求比较高。采用计算访存比较低的设备 Serving 来换取更高的 ROI，同时，采用极低成本的 Sampling 采样以及 Speculative Decoding 策略，降低 TPOT 指标。
Decode Attention：采用 TP 方式部署，并通过启发式搜索以及激进的长句拆分策略，优化单 batch 内不同 Query KV 长度差异大的常见场景；精度上，依然采用 Per N tokens Per Sequence 量化方式。
Decode FFN：保持 W4A8 量化，采用 EP 方式部署。

多模态能力

Doubao-1.5-pro 在同一模型中融合并提升了视觉、语音等多模态能力，可为用户带来更自然、更丰富的交互体验。

视觉多模态

模型在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升，进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循等方面的能力。在同一模型中融入强大的视觉理解能力，使模型可以同时理解虚拟和现实世界的各类视觉信号，更好地辅助人类决策。自研的 Doubao ViT 在多种视觉分类任务中表现优异，仅凭 2.4B 规模便在综合评分上取得 SOTA 表现，效果超越 7 倍于自身规模的模型。

语音多模态

在语音多模态上，模型提出了新的 Speech2Speech 的端到端框架，不仅通过原生方法将语音和文本模态进行深度融合，同时还实现了语音对话中真正意义上的语音理解生成端到端。相比传统的 ASR+LLM+TTS 的级联方式，在对话效果上有质的飞跃。框架设计上，将语音和文本 Token 进行融合，为语音多模态数据的 Scaling 提供了必要条件。在 Pretrain 和 PostTraining 阶段，通过多样化的数据生产和使用方式，探索多种有效方案，通过 Scaling 最大化地将语音和文本能力进行深度融合。

推理能力的提升

团队致力于使用大规模 RL 的方法不断提升模型的推理能力，拓宽当前模型的智能边界。在完全不使用其他模型数据的条件下，通过 RL 算法的突破和工程优化，充分发挥 test time scaling 的算力优势，研发了 Doubao 深度思考模式。阶段性进展 Doubao-1.5-pro-AS1-Preview 在 AIME 上已经超过 O1-preview，O1 等推理模型。并且，随着 RL 的持续，模型能力还在不断提升中。在这一过程中，我们看到了推理能力在不同领域的泛化，智能的边界正在被慢慢拓宽。

如何运行豆包大模型1.5

豆包大模型1.5已灰度上线，用户可在豆包APP中体验其强大的多模态功能和低时延语音对话能力。

资源

项目官网：https://team.doubao.com/zh/special/doubao_1_5_pro

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

Doubao-1.5-pro：字节跳动最新豆包大模型，性能超越GPT-4o和Claude 3.5 Sonnet

🚀 快速阅读

正文（附运行示例）

豆包大模型1.5 是什么