为什么我还是无法理解transformer?
来源:
编辑:
时间:2025-06-24 22:35:16

不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
-
{dede:pagebreak/}


网友评论:
{dede:include file='ajaxfeedback.htm' /}
栏目分类

最新文章

热门文章
- 微软宣布 5 月 28 日开始下架「Microsoft 远程桌面」应用,背后原因有哪些?
- 在年轻时被公认为美女的女人,到了老了不美了,会不会感到失落?
- 广西可以摆烂吗?
- ***如你是负责核弹发射的人员,一天你正在值班,突然收到了发射核弹的命令,这种情况下你会按下发射按钮吗?
- 为什么多地「国补」暂停了?
- Caddy 和 Nginx 比有哪些优点和缺点?
- 给你100万,但你必须从4度的水域和40度的水域中选一个游1公里,你选哪个?
- J***aScript 已经强大到什么程度了?
- 为什么章若楠和杨超越长得很像,男人却更喜欢章若楠,认为有女人味,而觉得杨超越像小女孩?
- 公司就一个后端一个前端,有必要搞微服务吗?
