标签2 | AmeBob

标准化-归一化-BN-激活函数

标准化、归一化，用于数据预处理，一般是将原始数据统一刻度,预防原始数据差异较大带来的反向传播时的梯度爆炸。具体刻度根据所应用的公式而不同。 Min-Max Scaling公式是，将数值归一化到[0,1]内 $x' = \frac{x - \min(x)}{\max(x) - \min(x)}$ 而Z-score 公式根据实际数据将数值标准化到一定范围内 $z = \frac{x - \mu}{\sigma}$，由于每个值都减去均值，故标准化后均值为0，那为何标准化后标准差为1？实际上这种标准化在实践中也被中称为Normalization 特性归一化 (Normalization) 标准化 (Standardization) 典型做法 Min-Max Scaling Z-score Normalization 计算公式 $x' = \frac{x - \min}{\max - \min}$ $z = \frac{x - \mu}{\sigma}$ 数值范围严格限制在 $[0, 1]$ 或 $[-1, 1]$ 无固定范围（通常在 $[-3, 3]$ 之间）数据中心不固定严格以 0 为中心对异常值非常敏感（一个极大值会把其他数压扁）较稳健（异常值只影响均值，不至于摧毁范围） Batch Normalization 对每个Batch的神经网络输出做（特别的）Normalization，注意这里的g，b是不是标量 Batch Size = 每次神经网络输入的数据数量；epoch = 总样本量 / Batch Size ...

从ssm到mamba

参考： https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mamba-and-state SSM 基础概念状态空间（State Space）用一组变量，将系统某一时刻的信息打包，也就是状态。举例：迷宫问题，一个状态用向量表示为（x，y，distance），即当前坐标、距离出口的距离。根据当前状态，和输入（这里是指向哪个方向走）便可预测下一个状态为何叫状态空间（State Space）例子中的每个单元格都可以代表一个状态，而空间在数学上一般是封闭的，也就是说状态空间包含了所有的可能状态。状态空间模型（State Space Model）这里有连续、离散两种形式,实际上采用的是离散形式。 A，B，C，D矩阵何意味？ A,B矩阵对预测下一个状态发挥作用。 SSM中训练完成后，A，B，C，矩阵就不变了，而mamba中的相关矩阵，则是根据当前词来变化。 C，D对当前输出发挥作用。计算过程描述输入X与B做运算，当前状态h与A做运算，相加得到下一个状态；下一个状态同C做运算，附加上X和D矩阵的运算（这里更像是残差，帖子里用了skip-connection），得到输入y 更形象的计算过程图示：从连续到离散的转变离散输入到连续输入,以步长$\Delta$维持一个离散输入 we make use of the Zero-order hold technique. It works as follows. First, every time we receive a discrete signal, we hold its value until we receive a new discrete signal. 连续输入到离散输出，通过$\Delta$ 步长对连续输出进行采样像RNN一样推理当前的离散SSM公式 ...

李劲-ML-大作业

大纲：解读顺序：由前到后，由整体到局部，由潜入深用什么，做什么？ a recurrent neural network ,Generating coherent sketch drawings in a vector format. 怎么做？ idea:以人的思维方式进行生成，具体是模拟控笔的动作：移动方向，提笔，结束绘画数据：$ (∆x,∆y, p1, p2, p3).$ dataset 为笔画动作，每个点由5个元素表示，分别是偏移和状态，其中偏移是相对于上一个点的偏移，状态则包含：笔尖触纸、抬笔、结束绘画 $p_1, p_2, p_3$ 是 One-hot 向量。这意味着在任意时刻，笔只能处于这三种状态中的一种（要么画，要么抬，要么停），具体结构：一个双向RNN编码器（Bidirectional LSTM），一个自回归的HyperLSTM解码器编码器: 生成h 投影到$ \mu $和 $\sigma$ 得到z 生成h：输入S到正序，反序中，输出一对h, 得到最终的h,该h便具备正向到反向的上下文信息。 $h→ = encode→(S), h← = encode←(Sreverse), h = [ h→ ; h← ]$ 投影到$ \mu $和$\sigma$ 得到的h经过全连接层投影到$ \mu $和 $\sigma$ $\mu = W_{\mu}h + b_{\mu}, \quad \hat{\sigma} = W_{\sigma}h + b_{\sigma}, \quad \sigma = \exp\left(\frac{\hat{\sigma}}{2}\right)$ ...

文章标题

📊 基础定义 TP：真正例 (True Positive) FP：假正例 (False Positive) FN：假负例 (False Negative) TN：真负例 (True Negative) 📈 核心指标公式 1. 准确率 (Accuracy) 2. 精确率 (Precision) 3. 召回率 (Recall) / 敏感度 (Sensitivity) 4. 特异度 (Specificity) 5. F1分数 (F1-Score) 6. 交并比 (IoU, Jaccard Index) IoU（Intersection over Union） IoU = |预测 ∩ 真实| / |预测 ∪ 真实| = TP / (TP + FP + FN) 区域重叠的精确度高IoU（>0.8）：边界对齐很好，区域匹配准确低IoU（<0.5）：要么漏检，要么多检，要么定位不准收获1：语义分割的关键指标F1,IOU 收获2：使用TensorBoard实时观测训练情况和参数小提示：如果您进行了多次实验（例如修改参数后重新训练），建议每次修改 save_dir 或者在 tb 下建立子文件夹（如 tb/exp1, tb/exp2），这样可以在 TensorBoard 中同时对比多次实验的曲线。 ...