标准化-归一化-BN-激活函数

标准化、归一化,用于数据预处理,一般是将原始数据统一刻度,预防原始数据差异较大带来的反向传播时的梯度爆炸。 具体刻度根据所应用的公式而不同。 Min-Max Scaling公式是,将数值归一化到[0,1]内 $x' = \frac{x - \min(x)}{\max(x) - \min(x)}$ 而Z-score 公式根据实际数据将数值标准化到一定范围内 $z = \frac{x - \mu}{\sigma}$,由于每个值都减去均值,故标准化后均值为0,那为何标准化后标准差为1?实际上这种标准化在实践中也被中称为Normalization 特性 归一化 (Normalization) 标准化 (Standardization) 典型做法 Min-Max Scaling Z-score Normalization 计算公式 $x' = \frac{x - \min}{\max - \min}$ $z = \frac{x - \mu}{\sigma}$ 数值范围 严格限制在 $[0, 1]$ 或 $[-1, 1]$ 无固定范围(通常在 $[-3, 3]$ 之间) 数据中心 不固定 严格以 0 为中心 对异常值 非常敏感(一个极大值会把其他数压扁) 较稳健(异常值只影响均值,不至于摧毁范围) Batch Normalization 对每个Batch的神经网络输出做(特别的)Normalization,注意这里的g,b是不是标量 Batch Size = 每次神经网络输入的数据数量;epoch = 总样本量 / Batch Size ...

January 19, 2026 · 1 min · 72 words · Bob

从ssm到mamba

参考: https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mamba-and-state SSM 基础概念 状态空间(State Space) 用一组变量,将系统某一时刻的信息打包,也就是状态。 举例:迷宫问题,一个状态用向量表示为(x,y,distance),即当前坐标、距离出口的距离。根据当前状态,和输入(这里是指向哪个方向走)便可预测下一个状态 为何叫 状态空间(State Space) 例子中的每个单元格都可以代表一个状态,而空间在数学上一般是封闭的,也就是说状态空间包含了所有的可能状态。 状态空间模型(State Space Model) 这里有连续、离散两种形式,实际上采用的是离散形式。 A,B,C,D矩阵何意味? A,B矩阵对预测下一个状态发挥作用。 SSM中训练完成后,A,B,C,矩阵就不变了,而mamba中的相关矩阵,则是根据当前词来变化。 C,D对当前输出发挥作用。 计算过程描述 输入X与B做运算,当前状态h与A做运算,相加得到下一个状态; 下一个状态同C做运算,附加上X和D矩阵的运算(这里更像是残差,帖子里用了skip-connection),得到输入y 更形象的计算过程图示: 从连续到离散的转变 离散输入到连续输入,以步长$\Delta$维持一个离散输入 we make use of the Zero-order hold technique. It works as follows. First, every time we receive a discrete signal, we hold its value until we receive a new discrete signal. 连续输入到离散输出,通过$\Delta$ 步长对连续输出进行采样 像RNN一样推理 当前的离散SSM公式 ...

January 15, 2026 · 3 min · 483 words · Bob

李劲-ML-大作业

大纲: 解读顺序:由前到后,由整体到局部,由潜入深 用什么,做什么? a recurrent neural network ,Generating coherent sketch drawings in a vector format. 怎么做? idea:以人的思维方式进行生成,具体是模拟控笔的动作:移动方向,提笔,结束绘画 数据:$ (∆x,∆y, p1, p2, p3).$ dataset 为笔画动作,每个点由5个元素表示,分别是偏移和状态,其中偏移是相对于上一个点的偏移,状态则包含:笔尖触纸、抬笔、结束绘画 $p_1, p_2, p_3$ 是 One-hot 向量。这意味着在任意时刻,笔只能处于这三种状态中的一种(要么画,要么抬,要么停), 具体结构: 一个双向RNN编码器(Bidirectional LSTM),一个自回归的HyperLSTM解码器 编码器: 生成h 投影到$ \mu $和 $\sigma$ 得到z 生成h: 输入S到正序,反序中,输出一对h, 得到最终的h,该h便具备正向到反向的上下文信息。 $h→ = encode→(S), h← = encode←(Sreverse), h = [ h→ ; h← ]$ 投影到$ \mu $和$\sigma$ 得到的h经过全连接层投影到$ \mu $和 $\sigma$ $\mu = W_{\mu}h + b_{\mu}, \quad \hat{\sigma} = W_{\sigma}h + b_{\sigma}, \quad \sigma = \exp\left(\frac{\hat{\sigma}}{2}\right)$ ...

December 12, 2025 · 2 min · 417 words · Bob

文章标题

📊 基础定义 TP:真正例 (True Positive) FP:假正例 (False Positive) FN:假负例 (False Negative) TN:真负例 (True Negative) 📈 核心指标公式 1. 准确率 (Accuracy) 2. 精确率 (Precision) 3. 召回率 (Recall) / 敏感度 (Sensitivity) 4. 特异度 (Specificity) 5. F1分数 (F1-Score) 6. 交并比 (IoU, Jaccard Index) IoU(Intersection over Union) IoU = |预测 ∩ 真实| / |预测 ∪ 真实| = TP / (TP + FP + FN) 区域重叠的精确度 高IoU(>0.8):边界对齐很好,区域匹配准确 低IoU(<0.5):要么漏检,要么多检,要么定位不准 收获1:语义分割的关键指标F1,IOU 收获2:使用TensorBoard实时观测训练情况和参数 小提示: 如果您进行了多次实验(例如修改参数 后重新训练),建议每次修改 save_dir 或者在 tb 下建立子文件夹(如 tb/exp1, tb/exp2),这样可以在 TensorBoard 中同时对比多次实验的曲线。 ...

December 3, 2025 · 1 min · 75 words · Bob
微信二维码

扫一扫,加我微信