写在前面
术语列表
技术
| 术语 | 英文 | 含义 |
|---|---|---|
| ASR | Automatic Speech Recognition | 自动语音识别 |
| TTS | Text-to-Speech | 语音合成 |
| VAD | Voice Activity Detection | 语音活性检测 |
| AEC | Auto echo cancellation | 自适应回声消除 |
| LEC | Line Echo Cancellation | 线性回声消除 |
| NS | Noise suppression | 降噪 |
模型与算法
| 术语 | 英文 | 含义 |
|---|---|---|
| CMVN | Cepstral Mean and Variance Normalization | 倒谱均值方差归一化 |
| MFCC | Mel-Frequency Cepstral Coefficients | 梅尔频率倒谱技术 |
| LDA | Linear Determine Analysis | 线性判别分析 |
| AM | Acoustic Model | 声学模型 |
| LM | Language Model | 语言模型 |
| GMM | Gaussian Mixture Model | 高斯混合模型 |
| HMM | Hidden Markov Model | 隐马尔可夫模型 |
| LSTM | Long Short Term Memory | 长短期记忆 |
| CNN | Convolution Neural Network | 卷积神经网络 |
| RNN | Recursion Neural Network | 循环神经网络 |
| WFST | Weighted Finite-State Transducer | 加权有限状态转录机 |
| KWS | keyword search | 关键词检索 |
| VTLN | Vocal Tract Length Normalization | 声道长度归一化 |
| MLLT | Maximum likelihood linear transformation | 最大似然线性变换 |
研究对象
| 术语 | 中文 |
|---|---|
| Monophone | 单音子 |
| Triphone | 三音子 |
| Phoneme | 音素 |
| Pronunciation Lexicon | 发音词典 |
| OOV(out of Vocabulary) | 集外词 |
模型的检验指标
| 术语 | 英文 | 含义 |
|---|---|---|
| CER | character error rate | 字错误率 |
| WER | word error rate | 词错误率 |
| RTF | real time factor | 实时率 |
kaldi 专用
| 术语 | 中文 | 含义 |
|---|---|---|
| egs | 示例或样本存档(example ) | |
| table | 表单 | |
音频格式
| 格式 | 英文 | 含义 |
|---|---|---|
| pcm | Pulse Code Modulation | 脉冲编码调制, 一种数字音频编码格式,它将模拟声音信号转换为数字信号。在 PCM 格式中,声音信号被采样并量化为离散的数字值,然后使用脉冲编码调制(PCM)来表示这些采样值 |
| wav | ||
| flac | ||