从ssm到mamba
参考: https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mamba-and-state SSM 基础概念 状态空间(State Space) 用一组变量,将系统某一时刻的信息打包,也就是状态。 举例:迷宫问题,一个状态用向量表示为(x,y,distance),即当前坐标、距离出口的距离。根据当前状态,和输入(这里是指向哪个方向走)便可预测下一个状态 为何叫 状态空间(State Space) 例子中的每个单元格都可以代表一个状态,而空间在数学上一般是封闭的,也就是说状态空间包含了所有的可能状态。 状态空间模型(State Space Model) 这里有连续、离散两种形式,实际上采用的是离散形式。 A,B,C,D矩阵何意味? A,B矩阵对预测下一个状态发挥作用。 SSM中训练完成后,A,B,C,矩阵就不变了,而mamba中的相关矩阵,则是根据当前词来变化。 C,D对当前输出发挥作用。 计算过程描述 输入X与B做运算,当前状态h与A做运算,相加得到下一个状态; 下一个状态同C做运算,附加上X和D矩阵的运算(这里更像是残差,帖子里用了skip-connection),得到输入y 更形象的计算过程图示: 从连续到离散的转变 离散输入到连续输入,以步长$\Delta$维持一个离散输入 we make use of the Zero-order hold technique. It works as follows. First, every time we receive a discrete signal, we hold its value until we receive a new discrete signal. 连续输入到离散输出,通过$\Delta$ 步长对连续输出进行采样 像RNN一样推理 当前的离散SSM公式 ...
