重读R.Rabbinner数字语音信号处理—Chap1|重读R.Rabbinner数字语音信号处理—Chap1 Introduction 重读R.Rabbinner数字语音信号处理

重读R.Rabbinner数字语音信号处理—Chap1 Introduction Introduction to Digital Speech Recognition, 这本书早在今年早些时候认真读过几次，不过当时比较侧重于Speech Perception部分，而且有些公式也是囫囵吞枣般没有细推，最近打算用大概一周的时间，也就是1.14-1.21，回家前，把这本书细致的读一遍，力求尽自己最大的能力来理解，即使是不理解，也要详尽的写出哪点不理解，深入的读下去。
力求能翻译出大致的意思，从而有更深刻的理解，自己个人的批注或者理解用斜线表示，大概一天发一篇博文，保持每天6个小时或者以上的阅读时间。
Abstract

介绍了一下DSP的历史：从1960年开始，DSP就是语音学习的一个中心，知道现在，DSP也是理解现在语音领域的成果的关键。伴随着集成电路和计算机的发展，各种语音沟通的应用也在发展。
所以在这本书里，我们主要讲DSP在speech communication中的重要角色。我们会全方面的介绍Digital Speech Processing，从语音信号的本质，一系列数字化的表示语音的方法，以及在voice communication和语音合成以及语音识别。
这本书的目的只是为了给一个综述，并不能再深度上进行扩展。

以前没学过写论文的时候总听别人讲说abstract多重要，请别人写之类的，现在看看其实还好，换汤不换药，介绍下历史，介绍下文章中心。
Introduction

语音最基本的目的是为了沟通/ acoustic waveform。
从贝尔发明电话/shannon定理开始引出信息编码（Infromation encodding）

The Speech Chain

重读R.Rabbinner数字语音信号处理—Chap1|重读R.Rabbinner数字语音信号处理—Chap1 Introduction

文章图片
image Speech Production

Lanaguage Code: 脑子里想的东西如果用Text来标示的话，那么language code就是一个把text和sound对应起来。From text to phonetic symbles(Phonemes 音素，Prosody 韵律)，以及IPA（International Phonetic Association）用ARPAbet表来标记音素。
人脑把信号转换成肌肉控制信号，来控制发音器官（articulators）的震动，包括舌头，嘴唇，牙齿，下巴和软腭(velum).
声带震动/变形 vocal tracts shapes over time so as to create an acoustic waveform.
信息的速录 speaking rate 最高大概10 symbols per second, 1个symbol如果用5bit表示（2^5=32）,那么text message的速率是50 bps.
text message-> phonemes, 大概乘以4，所以是200bps. (很粗略的估计)
离散信号变成连续信号，大概control rate(有点载波的意思),大概是2000bps.
最后可能的速率大概是64000–700000bps
这些补充点到为止，暂时不深究了。
不同的保真度要求导致滤波贷款不一样。”Telephone quality“要求0-4kHZ，所以采样速率是8000 samples/s. 量化成8bits，所以速率是64000bps.（查了一下最新的音频采样速率
- 知乎上的科普，没有深入的一步步去追文献2G/3G/4G编码速率
- Sample Rate
CD 44100 采样速率，16bit 量化，所以CD速率是705600bps.

补充：发生器官的英文

Vocal apparatus	发音器官
alveolar ridge	牙槽嵴	al?vē?l?r
larynx	喉	lariNGks
Pharynx	咽	fariNGks
Nasal cavity	鼻腔
Epiglottis	会厌/喉头盖
Trachea	气管
vocal folds	声带
velum	软腭
hard palate	硬腭	palit
oesophagus	食管	i?s?f?g?s

文章图片
image

附：这张表是North America English辅音分类图

文章图片
image 【重读R.Rabbinner数字语音信号处理—Chap1|重读R.Rabbinner数字语音信号处理—Chap1 Introduction】附：vowel(vou?l)三角形，North America English，嘴巴的开闭和发音的位置

文章图片
image Speech Perception

transmitted by acoustic wave propagation/ decoded by hearing mechanism.
语音中还包含着emotional state， speech mannerism， accent.
- 问题，如何理解这句 Part of the extra infromation represents the charasteristics of the talker such as emotional state, speech mannerisms, accent, etc. But much of it is due to the inefficiency of simply sampling and finely quantizing analog signals. Thus, motivated by an awareness of the low intrinsic information rate(text 50bps—>最后的速率64000-70000bps) of speech, a central theme of much of digital speech processing is to obtain digital representation with low date rate than that of the sampled waveform.
  应该是这样理解的，问题本来只有50bps，但最后传输的速率却是64000-700000. 尽管含有一些冗余的信息比如说话时的情态，口音，但大部分的冗余都是因为简单的采样速率以及对模拟信号的精细量化。
basilar membrane, 把一维信号转换为spectral representation（频域表示）。频率间隔非均等的滤波器组（non-uniform filter bank）。
第二部，神经系统把这些频域特征转换为一组声音特征，然后大脑来解码，最后理解语音。
传输信道transmission channel中包含着真实世界的噪声和channel distortion（信道失真）。

数字语音处理的应用

AD 变换。
- 先高速率采样，再用一个低通滤波器保留需要的频率。这是大多数应用的开始。
- 数字语音处理的一系列处理技巧都是基于（grounded）降低信息速率。
Speech coding/ speech compression，把语音压缩为更低速率的表示。
关于编码方面，没有仔细深究。虽然好像有点皮毛印象，有时间可以不上
关于语音通信方面的编码有很多应用比如telephony， cellular communications, VoIP
Text-to-speech synthesis。text -> linguistic rules ->synthesis algorithm -> D-A-converter。
- Emphasis, pauses, rates of speaking, natural voice能更好的呗人解码
- 合成算法必须模拟人发生系统。最具希望的是unit selection and concatenation. 计算机存储了多种语音单元的不同表示形式。然后选出最适合的组合。
- 还要选择合适的DA变换，控制时长，以及连音。
- 是现在人机交互的核心系统之一。
Speech Recognition and Other Pattern Matching Problems ： automatic extract information。 Speaker recognition/ speaker verification， word spotting, automatic indexing of speech recordings based on recognition(Or spotting) of spoken keywords.
- speech signal->feature vector
- time aligns the set of feature vectors. 然后寻找最接近的。
- 最多的应用是语音识别和理解。
- 还有一个应用是自动翻译。
Enhancement of Speech Quality
- 消除或者减弱造影或者是回声或者是混响（reverberation）
- 人与人交互里：是对话更加智能和自然
- 目前的状况是 less perceptually annoying speech that essentially maintains, but does not improve the intelligibility of noisy speech. 噪音少了，但是清晰度依然没提高（都2019了目前有没有新的突破呢？2007的时候推荐的树是Loizou的speech enhancement）

本书的目的

digital speech processing是语音研究的基石。we make no pretense of exhaustive coverage(套话)
我们集中介绍 coding， synthesis 以及识别，最新的一些算法和创新将不会介绍，不是因为他么不重要，只是数字语音处理的核心还是有很多基本的试验过的而且是对的方法。（Tried and True Techniques）

自己的一些心得和总结

总体来说，这个introduction还是比较简单的，但总体读下来，其中有几句比较拗口的还是得多读几遍才能理解其中内在的逻辑关系。
有几个点很感兴趣但没有深入研究下去的
- 现在常用的语音方面的coding算法是怎样的，包括采样速率，压缩算法，或者是否有一些协议，协议的相同点和不同的地方在哪？
- Speaker synthesis 的Review, 这个领域觉得挺有意思，但一无所知
有些专业术语真难读有必要去系统学一下发音规则了