备案控制台

开发者社区人工智能文章正文

Transformer总结笔记

2025-05-11 32

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 1、PyTorch中的基础运算2、自注意力机制3、多头注意力机制4、带隐码的多头注意力机制5、交叉注意力机制

由于阿里云社区的编辑器编辑公式不方便，因此将notion页面直接贴过来了。笔记中有些字母符号的表示未统一，主要是精力有限，表达含义即可。若笔记中存在错误，欢迎指正。
Notion页面链接：https://savory-carol-bd2.notion.site/PyTorch-1f07919d671680bd88a7fd79fe988f1b

文章标签：

机器学习/深度学习

算法框架/工具

PyTorch

XiaoPenYou

目录

相关文章

aliyun3944920541

|

机器学习/深度学习自然语言处理算法

Transformer 模型：入门详解（1）

动动发财的小手，点个赞吧！

aliyun3944920541

13617 1 6

Transformer 模型：入门详解（1）

clichong

|

机器学习/深度学习编解码并行计算

论文阅读笔记 | Transformer系列——CSWin Transformer

论文阅读笔记 | Transformer系列——CSWin Transformer

clichong

859 0 0

论文阅读笔记 | Transformer系列——CSWin Transformer

智能计算老群群

|

8月前

|

机器学习/深度学习自然语言处理并行计算

一文快速读懂Transformer

Transformer模型近年来成为自然语言处理（NLP）领域的焦点，其强大的特征提取能力和并行计算优势在众多任务中取得显著效果。本文详细解读Transformer的原理，包括自注意力机制和编码器-解码器结构，并提供基于PyTorch的代码演示，展示了其在文本分类等任务中的应用。

智能计算老群群

644 13 14

YOLO创新改进大师

|

11月前

|

机器学习/深度学习编解码算法

【YOLOv8改进】Polarized Self-Attention: 极化自注意力 (论文笔记+引入代码)

该专栏专注于YOLO目标检测算法的创新改进和实战应用，包括卷积、主干网络、注意力机制和检测头的改进。作者提出了一种名为极化自注意（PSA）块，结合极化过滤和增强功能，提高像素级回归任务的性能，如关键点估计和分割。PSA通过保持高分辨率和利用通道及空间注意力，减少了信息损失并适应非线性输出分布。实验证明，PSA能提升标准基线和最新技术1-4个百分点。代码示例展示了如何在YOLOv8中实现PSA模块。更多详细信息和配置可在提供的链接中找到。

YOLO创新改进大师

522 2 2

路人贾jia

|

机器学习/深度学习自然语言处理并行计算

【Transformer系列（3）】《Attention Is All You Need》论文超详细解读（翻译＋精读）

【Transformer系列（3）】《Attention Is All You Need》论文超详细解读（翻译＋精读）

路人贾jia

1863 0 0

【Transformer系列（3）】《Attention Is All You Need》论文超详细解读（翻译＋精读）

小小杨树1

|

12月前

|

机器学习/深度学习编解码自然语言处理

【VIT】小白入门篇：从各个角度认识Vision Transformer

【VIT】小白入门篇：从各个角度认识Vision Transformer

小小杨树1

670 0 0

【VIT】小白入门篇：从各个角度认识Vision Transformer

clichong

|

计算机视觉

论文阅读笔记 | Transformer系列——Transformer in Transformer

论文阅读笔记 | Transformer系列——Transformer in Transformer

clichong

362 0 0

论文阅读笔记 | Transformer系列——Transformer in Transformer

clichong

|

机器学习/深度学习编解码自然语言处理

论文阅读笔记 | Transformer系列——Swin Transformer

论文阅读笔记 | Transformer系列——Swin Transformer

clichong

1519 0 0

论文阅读笔记 | Transformer系列——Swin Transformer

Deephub

|

机器学习/深度学习人工智能关系型数据库

简化版Transformer ：Simplifying Transformer Block论文详解

在这篇文章中我将深入探讨来自苏黎世联邦理工学院计算机科学系的Bobby He和Thomas Hofmann在他们的论文“Simplifying Transformer Blocks”中介绍的Transformer技术的进化步骤。这是自Transformer 开始以来，我看到的最好的改进。

Deephub

138 0 0

OpenMMLab

|

机器学习/深度学习算法大数据

Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析（下）

在 Vision Transformer 大行其道碾压万物的同时，也有人在尝试非注意力的 Transformer 架构(如果没有注意力模块，那还能称为 Transformer 吗)。这是一个好的现象，总有人要去开拓新方向。相比 Attention-based 结构，MLP-based 顾名思义就是不需要注意力了，将 Transformer 内部的注意力计算模块简单替换为 MLP 全连接结构，也可以达到同样性能。典型代表是 MLP-Mixer 和后续的 ResMLP。

OpenMMLab

1245 0 0

Vision Transformer 必读系列之图像分类综述(三): MLP、ConvMixer 和架构分析（下）

热门文章

最新文章

最新发布！阿里云卓越架构框架重磅升级

Ubuntu安装笔记(一):安装显卡驱动、cuda/cudnn、Anaconda、Pytorch、Tensorflow、Opencv、Visdom、FFMPEG、卸载一些不必要的预装软件

利用云存储网关在Windows上挂载OSS

MySQL数据库主从同步实现

CRP升级到RDC，迁移指南

Python的Django框架的运行方式及处理流程

机器学习-异常检测算法（二）：Local Outlier Factor

Multi-Cloud模式下Terraform和Packer开源工具实践分享

管理输入输出管道 tee

noip2014普及组比例简化

智创 AI 新视界 -- 提升 AI 推理速度的高级方法（16 - 2）

智创 AI 新视界 -- 优化 AI 模型训练效率的策略与技巧（16 - 1）

菜鸟之路day31一一MySQL之多表设计

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

Spring Boot与Druid升级解决方案

用Python编程基础提升工作效率

学不会编程也能写测试？AI让测试更平权

配置Flask以提高应用的安全性

阿里云服务器ECS实例规格选型指南：根据使用场景选择合适的配置

监理18年下选择题真题解析

相关课程

更多

神经网络与深度学习

深度学习理论与实战（基于TensorFlow实现）

深入浅出PyTorch

相关电子书

更多

典型模型-卷积神经网络入门

机器能理解上下文吗-RNN和LSTM神经网络的原理及应用

机器能理解上下文吗 RNN和LSTM神经网络的原理及应用

相关实验场景

更多

使用PAI-快速开始，低代码实现大语言模型微调和部署

下一篇

一文了解：阿里云对象存储OSS是什么？

	
		OSZAR »