Doubao-1.5-pro:字节跳动最新豆包大模型,性能超越GPT-4o和Claude 3.5 Sonnet

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: 豆包大模型1.5是字节跳动推出的最新大模型,采用大规模稀疏MoE架构,支持多模态输入输出,具备低时延语音对话能力,综合性能优于GPT-4o和Claude 3.5 Sonnet。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 性能优势:豆包大模型1.5在知识、代码、推理、中文等多个测评基准上表现优于GPT-4o和Claude 3.5 Sonnet。
  2. 多模态能力:支持文本、图像、语音等多种模态的输入输出,视觉推理和文档识别能力显著增强。
  3. 低成本高效:采用大规模稀疏MoE架构,硬件成本大幅降低,推理效率显著提升。

正文(附运行示例)

豆包大模型1.5 是什么

Doubao-1.5-pro

Doubao-1.5-pro 是一款基于 MoE 架构的先进预训练模型,专注于在模型性能和推理性能之间取得极致平衡。通过较少的激活参数,它能够超过一流超大稠密预训练模型的性能,并在多个公开评测基准上取得优异成绩。模型在视觉、语音等多模态能力方面也有显著提升,提供更自然、更丰富的交互体验。

模型从预训练阶段就坚持训练-推理一体化设计,以在最强的模型性能和最优的推理成本之间取得平衡。Doubao-1.5-pro 使用高效的 MoE 模型结构,在预训练阶段仅用较小参数激活的 MoE 模型,性能即可超过 Llama3.1-405B 等超大稠密预训练模型。团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能。

Doubao-1.5-pro 是一个高度稀疏的 MoE 模型,在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中表现出显著不同的计算与访存特征。针对四个不同象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。

此外,Doubao-1.5-pro 在同一模型中融合并提升了视觉、语音等多模态能力,可为用户带来更自然、更丰富的交互体验。视觉多模态方面,模型在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循等方面的能力。语音多模态上,模型提出了新的 Speech2Speech 的端到端框架,通过原生方法将语音和文本模态进行深度融合,实现了语音对话中真正意义上的语音理解生成端到端,相比传统的 ASR+LLM+TTS 的级联方式,在对话效果上有质的飞跃。

Doubao-1.5-pro 的技术原理

稀疏 MoE 架构

从训练和推理效率的角度出发,Doubao-1.5-pro 使用稀疏 MoE 架构。在预训练阶段,仅用较小参数激活的 MoE 模型,性能即可超过 Llama3.1-405B 等超大稠密预训练模型。团队通过对稀疏度 Scaling Law 的研究,确定了性能和效率比较平衡的稀疏比例,并根据 MoE Scaling Law 确定了小参数量激活的模型即可达到世界一流模型的性能。此前,业界在这一性能杠杆上的普遍水平为不到 3 倍。团队通过模型结构和训练算法优化,在完全相同的数据(9T tokens)对比验证下,用激活参数仅为稠密模型参数量 1/7 的 MoE 模型,超过了稠密模型的性能,将性能杠杆提升至 7 倍。

高性能推理系统

Doubao-1.5-pro 在 Prefill/Decode 与 Attention/FFN 构成的四个计算象限中表现出显著不同的计算与访存特征。针对四个不同象限,采用异构硬件结合不同的低精度优化策略,在确保低延迟的同时大幅提升吞吐量,在降低总成本的同时兼顾 TTFT 和 TPOT 的最优化目标。

  • Prefill 阶段:通信和访存瓶颈不明显,但容易达到计算瓶颈。通过多种计算访存比高的设备上做 Chunk-PP Prefill Serving,使线上系统 Tensor Core 的利用率接近 60%。
  • Prefill Attention:使用 MMA/WGMMA 等指令扩展开源的 FlashAttention 8-bit 实现,结合 Per N tokens Per Sequence 的量化策略,确保该阶段可以在不同架构的 GPU 上无损运行。
  • Prefill FFN:采用 W4A8 量化,有效降低了稀疏 MoE 专家的访存开销,并通过跨 Query Batching 的策略,使 MFU 提升至 0.8。
  • Decode 阶段:计算瓶颈不明显,但对通信和访存能力要求比较高。采用计算访存比较低的设备 Serving 来换取更高的 ROI,同时,采用极低成本的 Sampling 采样以及 Speculative Decoding 策略,降低 TPOT 指标。
  • Decode Attention:采用 TP 方式部署,并通过启发式搜索以及激进的长句拆分策略,优化单 batch 内不同 Query KV 长度差异大的常见场景;精度上,依然采用 Per N tokens Per Sequence 量化方式。
  • Decode FFN:保持 W4A8 量化,采用 EP 方式部署。

多模态能力

Doubao-1.5-pro 在同一模型中融合并提升了视觉、语音等多模态能力,可为用户带来更自然、更丰富的交互体验。

视觉多模态

模型在多模态数据合成、动态分辨率、多模态对齐、混合训练上进行了全面的技术提升,进一步增强了模型在视觉推理、文字文档识别、细粒度信息理解、指令遵循等方面的能力。在同一模型中融入强大的视觉理解能力,使模型可以同时理解虚拟和现实世界的各类视觉信号,更好地辅助人类决策。自研的 Doubao ViT 在多种视觉分类任务中表现优异,仅凭 2.4B 规模便在综合评分上取得 SOTA 表现,效果超越 7 倍于自身规模的模型。

语音多模态

在语音多模态上,模型提出了新的 Speech2Speech 的端到端框架,不仅通过原生方法将语音和文本模态进行深度融合,同时还实现了语音对话中真正意义上的语音理解生成端到端。相比传统的 ASR+LLM+TTS 的级联方式,在对话效果上有质的飞跃。框架设计上,将语音和文本 Token 进行融合,为语音多模态数据的 Scaling 提供了必要条件。在 Pretrain 和 PostTraining 阶段,通过多样化的数据生产和使用方式,探索多种有效方案,通过 Scaling 最大化地将语音和文本能力进行深度融合。

推理能力的提升

团队致力于使用大规模 RL 的方法不断提升模型的推理能力,拓宽当前模型的智能边界。在完全不使用其他模型数据的条件下,通过 RL 算法的突破和工程优化,充分发挥 test time scaling 的算力优势,研发了 Doubao 深度思考模式。阶段性进展 Doubao-1.5-pro-AS1-Preview 在 AIME 上已经超过 O1-preview,O1 等推理模型。并且,随着 RL 的持续,模型能力还在不断提升中。在这一过程中,我们看到了推理能力在不同领域的泛化,智能的边界正在被慢慢拓宽。

如何运行 豆包大模型1.5

豆包大模型1.5已灰度上线,用户可在豆包APP中体验其强大的多模态功能和低时延语音对话能力。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
3月前
|
人工智能 Prometheus 监控
监控vLLM等大模型推理性能
本文将深入探讨 AI 推理应用的可观测方案,并基于 Prometheus 规范提供一套完整的指标观测方案,帮助开发者构建稳定、高效的推理应用。
661 169
监控vLLM等大模型推理性能
|
3天前
|
数据采集 自然语言处理 调度
优化通义大模型推理性能:企业级场景下的延迟与成本削减策略
本文基于金融、电商、医疗等领域的实战经验,深入探讨通义千问等大模型的推理优化技术栈。从计算图优化、批处理策略、量化压缩到系统架构四个维度展开,结合Python代码示例与压力测试数据,提供企业级解决方案。针对延迟敏感、高吞吐及成本敏感场景,分析性能瓶颈并提出算子融合、动态批处理、混合精度量化等方法,同时设计分布式推理架构与冷启动优化策略。通过案例展示,如电商大促场景优化,实现峰值QPS提升6.5倍、P99延迟降低53%、月度成本下降62%。文章还提供优化实施路线图,助力企业分阶段落地技术方案。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
通义千问推理模型QwQ-32B开源,更小尺寸、更强性能
阿里云发布并开源全新推理模型通义千问QwQ-32B,通过大规模强化学习,在数学、代码及通用能力上实现质的飞跃,性能比肩DeepSeek-R1。该模型大幅降低部署成本,支持消费级显卡本地部署,并集成智能体Agent相关能力。阿里云采用Apache2.0协议全球开源,用户可通过通义APP免费体验。此外,通义团队已开源200多款模型,覆盖全模态和全尺寸。
|
4月前
|
Web App开发 人工智能
UC伯克利:给大模型测MBTI,Llama更敢说但GPT-4像理工男
UC伯克利研究团队推出VibeCheck系统,自动比较大型语言模型(LLM)的输出特征,如语调、格式和写作风格。该系统通过迭代挖掘特征并利用LLM法官量化其实用性,验证结果显示其能有效捕捉模型的独特“vibes”。VibeCheck应用于对话、摘要、数学和字幕生成等任务,揭示了不同模型的行为差异,并在预测模型身份和用户偏好方面表现出色。尽管存在主观性和测试范围有限的局限性,VibeCheck为改进LLM评估提供了新视角。论文地址:https://arxiv.org/abs/2410.12851
178 98
|
2月前
|
人工智能 自然语言处理 算法
全模态模型Qwen2.5-Omni开源,7B尺寸实现全球最强性能
通义千问Qwen2.5-Omni-7B正式开源,作为首个端到端全模态大模型,支持文本、图像、音频和视频等多种输入形式,实时生成文本与自然语音合成输出。它在多模态融合任务测评中刷新纪录,性能远超同类模型。Qwen2.5-Omni采用Thinker-Talker双核架构,实现语义理解与语音生成高效协同,以小尺寸7B参数让全模态大模型广泛应用成为可能,现已在魔搭社区和Hugging Face同步开源。
全模态模型Qwen2.5-Omni开源,7B尺寸实现全球最强性能
|
2月前
|
运维 Cloud Native Serverless
仅3步!即刻拥有 QwQ-32B,性能比肩全球最强开源模型
本文详细介绍如何将 QwQ-32B 开源模型部署到函数计算 FC(Function Compute),并通过云原生应用开发平台 CAP(Cloud Application Platform)实现 Ollama 和 Open WebUI 两个 FC 函数的部署。
|
3月前
|
机器学习/深度学习 人工智能 机器人
阿里通义开源推理模型新王者!QwQ-32B:性能直逼671B的DeepSeek-R1
QwQ-32B 是阿里巴巴开源的新型推理模型,基于强化学习训练,具备强大的数学推理和编程能力,性能媲美更大参数量的模型。
584 8
阿里通义开源推理模型新王者!QwQ-32B:性能直逼671B的DeepSeek-R1
|
3月前
|
机器学习/深度学习 人工智能 测试技术
阿里云百炼已上线超强推理开源模型QwQ-32B,尺寸更小,性能比肩DeepSeek满血版
通义千问团队推出了320亿参数的QwQ-32B模型,通过大规模强化学习和多阶段训练,在数学、编程及通用能力上达到或超越了DeepSeek-R1等先进模型。QwQ-32B模型已在阿里云百炼上线,支持API调用,用户可通过官方文档了解详细使用方法。未来,团队将继续探索智能体与RL集成,推动人工通用智能的发展。
|
4月前
|
机器学习/深度学习 人工智能 编解码
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频
Wan2.1是阿里云开源的一款AI视频生成大模型,支持文生视频和图生视频任务,具备强大的视觉生成能力,性能超越Sora、Luma等国内外模型。
1476 2
阿里开源AI视频生成大模型 Wan2.1:14B性能超越Sora、Luma等模型,一键生成复杂运动视频

热门文章

最新文章

OSZAR »