资 源 简 介
应用背景所涉及的是:帧的语音信号转换成短,重叠帧。通常帧采取约20ms长。为16kHz采样的音频文件,这相当于0.020s×16000样本/秒=长400样本。然后,我们使用一个重叠的50%,或约200个样本。这意味着第一个帧开始在采样0,二开始在样本200,第三个在400等。关键技术首先,框架的要点是什么?音频信号是不断变化,所以我们假设,在很短的时间尺度音频信号不会有很大变化(当我们说它不会改变,我们的意思是统计即统计平稳,明显的样本不断变化,即使短时间尺度)。这就是为什么我们在20-40ms帧帧的信号。如果帧是短得多我们不有足够多的样本,得到一个可靠的频谱估计,如果它不再是信号变化太多的整个框架,FFT将最终涂抹的内容框架。