NOAI 2025 复赛第3题 | 声音变图片:跨领域迁移的AI思维

NOAI 2025 复赛第3题 | 声音变图片:跨领域迁移的AI思维

本文核心观点
NOAI 2025 复赛第 3 题知识拆解:合成语音检测——把声音变成梅尔频谱图、当成 CV 题做。跨领域迁移是 AI 工程师的核心思维。

NOAI 2025 复赛第3题 | 声音变图片:跨领域迁移的AI思维

迁移学习 语音处理

用NOAI复赛真题,构建孩子的AI知识图谱

每个知识点后续都会单独展开讲解,欢迎先关注收藏

这道题在做什么

区分真实人声和AI合成语音。但你拿到的不是音频文件——题目已经把声音转成了梅尔频谱图,形状是(1, 128, 94)。题目原文直接说了:"可以把这道题纯当做计算机视觉题来做。"

声音的问题,变成了图像的问题。

知识全景

这道题的知识链路横跨两个领域——先从音频处理的角度理解数据,再用计算机视觉的方法解题。

阶段 知识点
理解数据 ① 声音的数字表示   ② 频谱图   ③ 梅尔频谱图
解决问题 ④ 迁移学习   ⑤ 预训练模型
提升效果 ⑥ 领域适配的数据增强

CNN、池化、BatchNorm等在2024年第2题(真假图像识别)已经详细展开,这道题直接复用。

① 声音的数字表示

声音是空气的振动。麦克风把振动转换成随时间变化的电信号,录音设备以固定频率(比如每秒16,000次)对这个信号采样,每次采样记录一个数值。

所以一段1秒的声音就是16,000个数字组成的一维数组——这叫波形(Waveform)

波形包含了声音的全部信息,但对机器学习来说不够直观:你很难从一串数字里看出"这个人在说什么"或者"这段声音是真的还是假的"。需要做一些变换,把信息组织成更有用的形式。

② 频谱图

人说话时,声带振动产生的不是单一频率的声音,而是很多频率的混合。不同的元音、辅音、语调,在各个频率上的能量分布不同。

频谱图(Spectrogram)就是把声音按频率拆开,看每个频率在每个时刻的能量大小。

做法是:把波形按时间切成很多短片段(比如每25毫秒一段),对每一段做傅里叶变换——一种数学变换,能把"随时间变化的信号"分解成"各个频率的分量"。

结果是一张二维图:横轴是时间,纵轴是频率,颜色深浅表示能量大小。声音从一维的波形变成了二维的"图片"。

③ 梅尔频谱图

普通频谱图的频率轴是线性均匀分布的。但人耳对频率的感知不是线性的——低频的差异我们听得很清楚(100Hz和200Hz完全不同),高频的差异很难分辨(8000Hz和8100Hz几乎一样)。

梅尔刻度(Mel Scale)按照人耳的感知方式重新排列频率轴:低频区域分得密,高频区域分得疏。用梅尔刻度画出来的频谱图就是梅尔频谱图(Mel Spectrogram)

这道题的数据形状 (1, 128, 94):

1 = 一个通道(类似灰度图)

128 = 128个梅尔频率带

94 = 94个时间帧

本质上就是一张128×94的灰度图。到这里,"声音问题"就完全转化成了"图像问题"。

④ 迁移学习

从头训练一个CNN需要大量数据。但如果有一个在大规模数据集上已经训练好的模型,能不能借用它学到的知识?

这就是迁移学习的核心思想:把一个任务上学到的能力,迁移到另一个任务上。

为什么能迁移?因为CNN浅层学到的特征(边缘、纹理、颜色变化)是通用的——不管你是在识别猫狗、检测缺陷还是分析频谱图,图像中"边缘长什么样"这件事是一样的。

迁移学习的做法:

拿一个在大数据集上预训练好的模型(比如在ImageNet上训练的ResNet18

保留前面的卷积层(它们提取通用特征),替换最后的分类层(适配新任务)

用新任务的数据做微调(Fine-tune)——训练但用较小的学习率,让模型在保持通用能力的基础上适应新数据

迁移学习极大降低了对数据量的要求。一个只有几千张图片的任务,如果从头训练可能严重过拟合;但在预训练模型的基础上微调,往往效果很好。

⑤ 预训练模型

预训练模型是在大规模数据集上训练好、可以直接下载使用的模型。

最知名的图像预训练模型来自ImageNet——一个包含1400万张图片、1000个类别的数据集。在ImageNet上训练过的模型(ResNetVGGEfficientNet等)已经学会了丰富的视觉特征。

使用预训练模型时,有几个常见选择:

只替换输出层:冻结所有卷积层的参数,只训练新的分类层。速度最快,适合新数据和预训练数据差异不大的情况

全部微调:所有层都参与训练,但用较小的学习率。效果通常更好,但需要更多训练时间

渐进解冻:先只训分类层,再逐层解冻卷积层。在数据量很小时比较稳

这道题用ResNet18预训练模型是最稳的方案。需要注意的是:ResNet18的输入是3通道(RGB),而梅尔频谱图是1通道。要么修改第一层卷积接收1通道输入,要么把频谱图复制3份变成"伪RGB"。

⑥ 领域适配的数据增强

2024年第2题讲了数据增强。但这道题有一个重要的差异:频谱图不是普通照片,它的两个轴有不同的物理含义。

普通照片水平翻转后还是合理的图片(猫翻转还是猫)。但频谱图水平翻转意味着时间倒流——声音倒着播放,物理上不合理。垂直翻转意味着频率颠倒——高频变低频,同样不合理。

适合频谱图的数据增强:

时间遮挡(Time Masking):随机把几个时间帧遮住(设为0),模拟"缺失部分时间信息"

频率遮挡(Frequency Masking):随机把几个频率带遮住,模拟"缺失部分频率信息"

加噪声:给频谱图加轻微的随机噪声

这两种遮挡方法合称SpecAugment,是语音领域最常用的数据增强技术。

数据增强不能盲目套用,必须理解数据的物理含义。对照片有效的增强方式,对频谱图可能有害。这种"知道什么不能做"的判断力,和"知道什么能做"同样重要。

两道题合在一起,覆盖了AI内容检测的两个主要领域:图像和语音。而"把声音转成图像来处理"这种跨领域的思路,体现了一种重要的AI思维——找到问题的等价表示,然后用最成熟的工具来解决

这道题的核心洞察不是某个具体技术,而是一种思维方式:声音可以变成图片,图片可以用现成的视觉模型来处理。找到合适的"翻译"方式,就能把新问题变成已经解决的老问题——这就是迁移学习的本质。

微信二维码

扫码备注【NOAI】加交流群