本文核心观点

NOAI 2025 复赛第 3 题知识拆解：合成语音检测——把声音变成梅尔频谱图、当成 CV 题做。跨领域迁移是 AI 工程师的核心思维。

NOAI 2025 复赛第3题 | 声音变图片：跨领域迁移的AI思维

迁移学习语音处理

用NOAI复赛真题，构建孩子的AI知识图谱

每个知识点后续都会单独展开讲解，欢迎先关注收藏

这道题在做什么

区分真实人声和AI合成语音。但你拿到的不是音频文件——题目已经把声音转成了梅尔频谱图，形状是(1, 128, 94)。题目原文直接说了："可以把这道题纯当做计算机视觉题来做。"

声音的问题，变成了图像的问题。

知识全景

这道题的知识链路横跨两个领域——先从音频处理的角度理解数据，再用计算机视觉的方法解题。

阶段	知识点
理解数据	① 声音的数字表示 ② 频谱图 ③ 梅尔频谱图
解决问题	④ 迁移学习 ⑤ 预训练模型
提升效果	⑥ 领域适配的数据增强

CNN、池化、BatchNorm等在2024年第2题（真假图像识别）已经详细展开，这道题直接复用。

① 声音的数字表示

声音是空气的振动。麦克风把振动转换成随时间变化的电信号，录音设备以固定频率（比如每秒16,000次）对这个信号采样，每次采样记录一个数值。

所以一段1秒的声音就是16,000个数字组成的一维数组——这叫波形（Waveform）。

波形包含了声音的全部信息，但对机器学习来说不够直观：你很难从一串数字里看出"这个人在说什么"或者"这段声音是真的还是假的"。需要做一些变换，把信息组织成更有用的形式。

② 频谱图

人说话时，声带振动产生的不是单一频率的声音，而是很多频率的混合。不同的元音、辅音、语调，在各个频率上的能量分布不同。

频谱图（Spectrogram）就是把声音按频率拆开，看每个频率在每个时刻的能量大小。

做法是：把波形按时间切成很多短片段（比如每25毫秒一段），对每一段做傅里叶变换——一种数学变换，能把"随时间变化的信号"分解成"各个频率的分量"。

结果是一张二维图：横轴是时间，纵轴是频率，颜色深浅表示能量大小。声音从一维的波形变成了二维的"图片"。

③ 梅尔频谱图

普通频谱图的频率轴是线性均匀分布的。但人耳对频率的感知不是线性的——低频的差异我们听得很清楚（100Hz和200Hz完全不同），高频的差异很难分辨（8000Hz和8100Hz几乎一样）。

梅尔刻度（Mel Scale）按照人耳的感知方式重新排列频率轴：低频区域分得密，高频区域分得疏。用梅尔刻度画出来的频谱图就是梅尔频谱图（Mel Spectrogram）。

这道题的数据形状 (1, 128, 94)：

• 1 = 一个通道（类似灰度图）

• 128 = 128个梅尔频率带

• 94 = 94个时间帧

本质上就是一张128×94的灰度图。到这里，"声音问题"就完全转化成了"图像问题"。

④ 迁移学习

从头训练一个CNN需要大量数据。但如果有一个在大规模数据集上已经训练好的模型，能不能借用它学到的知识？

这就是迁移学习的核心思想：把一个任务上学到的能力，迁移到另一个任务上。

为什么能迁移？因为CNN浅层学到的特征（边缘、纹理、颜色变化）是通用的——不管你是在识别猫狗、检测缺陷还是分析频谱图，图像中"边缘长什么样"这件事是一样的。

迁移学习的做法：

• 拿一个在大数据集上预训练好的模型（比如在ImageNet上训练的ResNet18）

• 保留前面的卷积层（它们提取通用特征），替换最后的分类层（适配新任务）

• 用新任务的数据做微调（Fine-tune）——训练但用较小的学习率，让模型在保持通用能力的基础上适应新数据

迁移学习极大降低了对数据量的要求。一个只有几千张图片的任务，如果从头训练可能严重过拟合；但在预训练模型的基础上微调，往往效果很好。

⑤ 预训练模型

预训练模型是在大规模数据集上训练好、可以直接下载使用的模型。

最知名的图像预训练模型来自ImageNet——一个包含1400万张图片、1000个类别的数据集。在ImageNet上训练过的模型（ResNet、VGG、EfficientNet等）已经学会了丰富的视觉特征。

使用预训练模型时，有几个常见选择：

• 只替换输出层：冻结所有卷积层的参数，只训练新的分类层。速度最快，适合新数据和预训练数据差异不大的情况

• 全部微调：所有层都参与训练，但用较小的学习率。效果通常更好，但需要更多训练时间

• 渐进解冻：先只训分类层，再逐层解冻卷积层。在数据量很小时比较稳

这道题用ResNet18预训练模型是最稳的方案。需要注意的是：ResNet18的输入是3通道（RGB），而梅尔频谱图是1通道。要么修改第一层卷积接收1通道输入，要么把频谱图复制3份变成"伪RGB"。

⑥ 领域适配的数据增强

2024年第2题讲了数据增强。但这道题有一个重要的差异：频谱图不是普通照片，它的两个轴有不同的物理含义。

普通照片水平翻转后还是合理的图片（猫翻转还是猫）。但频谱图水平翻转意味着时间倒流——声音倒着播放，物理上不合理。垂直翻转意味着频率颠倒——高频变低频，同样不合理。

适合频谱图的数据增强：

• 时间遮挡（Time Masking）：随机把几个时间帧遮住（设为0），模拟"缺失部分时间信息"

• 频率遮挡（Frequency Masking）：随机把几个频率带遮住，模拟"缺失部分频率信息"

• 加噪声：给频谱图加轻微的随机噪声

这两种遮挡方法合称SpecAugment，是语音领域最常用的数据增强技术。

数据增强不能盲目套用，必须理解数据的物理含义。对照片有效的增强方式，对频谱图可能有害。这种"知道什么不能做"的判断力，和"知道什么能做"同样重要。

两道题合在一起，覆盖了AI内容检测的两个主要领域：图像和语音。而"把声音转成图像来处理"这种跨领域的思路，体现了一种重要的AI思维——找到问题的等价表示，然后用最成熟的工具来解决。

这道题的核心洞察不是某个具体技术，而是一种思维方式：声音可以变成图片，图片可以用现成的视觉模型来处理。找到合适的"翻译"方式，就能把新问题变成已经解决的老问题——这就是迁移学习的本质。

NOAI 2025 复赛第3题 | 声音变图片：跨领域迁移的AI思维

NOAI 2025 复赛第3题 | 声音变图片：跨领域迁移的AI思维

获取 NOAI 真题包