mamba-vision

摘要内容

January 11, 2026 · 3 min · 503 words · Bob

Transformer

本文主要介绍了输入向量、自注意力机制的概念和作用,并讨论了它们在BERT模型中的实现。同时,提到self-attention层的依赖性可以被feed-forward层解决。

November 20, 2025 · 8 min · 1690 words · Bob
微信二维码

扫一扫,加我微信