语音识别之基本概念

 

写在前面

术语列表

技术

术语 英文 含义
ASR Automatic Speech Recognition 自动语音识别
TTS Text-to-Speech 语音合成
VAD Voice Activity Detection 语音活性检测
AEC Auto echo cancellation 自适应回声消除
LEC Line Echo Cancellation 线性回声消除
NS Noise suppression 降噪

模型与算法

术语 英文 含义
CMVN Cepstral Mean and Variance Normalization 倒谱均值方差归一化
MFCC Mel-Frequency Cepstral Coefficients 梅尔频率倒谱技术
LDA Linear Determine Analysis 线性判别分析
AM Acoustic Model 声学模型
LM Language Model 语言模型
GMM Gaussian Mixture Model 高斯混合模型
HMM Hidden Markov Model 隐马尔可夫模型
LSTM Long Short Term Memory 长短期记忆
CNN Convolution Neural Network 卷积神经网络
RNN Recursion Neural Network 循环神经网络
WFST Weighted Finite-State Transducer 加权有限状态转录机
KWS keyword search 关键词检索
VTLN Vocal Tract Length Normalization 声道长度归一化
MLLT Maximum likelihood linear transformation 最大似然线性变换

研究对象

术语 中文
Monophone 单音子
Triphone 三音子
Phoneme 音素
Pronunciation Lexicon 发音词典
OOV(out of Vocabulary) 集外词

模型的检验指标

术语 英文 含义
CER character error rate 字错误率
WER word error rate 词错误率
RTF real time factor 实时率

kaldi 专用

术语 中文 含义
egs 示例或样本存档(example )  
table 表单  
     
     
     

音频格式

格式 英文 含义
pcm Pulse Code Modulation 脉冲编码调制, 一种数字音频编码格式,它将模拟声音信号转换为数字信号。在 PCM 格式中,声音信号被采样并量化为离散的数字值,然后使用脉冲编码调制(PCM)来表示这些采样值
wav    
flac