为了让电脑说人话，人们在电脑里装了一个假喉咙

撰文 | Skin

审校 | Ziv

当你呼唤某度、某爱同学、某艺和某Siri时候，这些语音助手往往会用优雅的声音回复你“嗯？发生什么事了？”

当你打开短视频网站，听到一些千篇一律的AI配音。有不同角色的，不同口音的……“家人们！谁懂啊！”

你可能也接到过AI打的电话，有些电话甚至难以分辨。目前语音合成的技术已经甚至还能让我们听到以假乱真的各类AI歌手。

不过，你知道电脑是如何发出“人类”的声音的吗？

回到100年甚至更早前，当时的人们为了让机器能说出话，制造了许多奇奇怪怪的东西。

这张展示照片内部结构可能有误，不过你可以看到为了做一只能吃能拉的机器鸭，人们真的很努力！ Wiki

1764年，一位发明家展示了一只机器鸭。这只鸭子会嘎嘎乱叫，还能喝水（不是真的喝，指把水溅到地上）和夺取食物。据说，这只鸭子体内有一个机械版的“消化道”，甚至可以消化食物，排出粪便。

鸭子说话只能“嘎嘎嘎”，但人说话就难多了。想要让机器说人话，就意味着要让它发出不同词语的发音，再用正确的音调组合成句子。

这听起来就十分复杂，在18世纪，人们想出的办法，其实和复刻一只机器鸭子一样：用发条和齿轮模仿人类的身体构造，做出一套机械版的喉咙和口腔。

最原始的说话“机器”其实并不能真的说话，毕竟当时的人们也并不清楚我们的说话声是如何发出来的。靠着一些仅有的知识，人们为这种机器安上了假的声带和舌头，当空气流过时，假声带就会震动，假舌头也会移动。通过控制机械移动的方式，以及气流的开始和停止，就会形成不同的元音。

能吹出不同的元音。 research.spa.aalto.fi

1779年，发明家 Christian Kratzenstein发明了一套“人类声道模型”，这五种模型分别能发出aeiou五种元音。

实物长这样参考资料2

后来人又有人发明了一种假的共鸣腔。当他挤压风箱，让空气流入共鸣腔后，他会直接用双手改变共鸣腔的形状，以此来改变发出的辅音。再后来，一些发明家（比如发明电话的贝尔）也做出了相似类型的说话机器。不过，这种机械式的设备并没有取得什么显著的成功。

手动调整假喉咙？ research.spa.aalto.fi

这些东西看起来就像是某种乐器，虽然能发出不同的声音，但是和人类的语言还大相径庭，语言成为了一个个音符碎片。而想要让他们成为完整的一句话，则需要像音乐家操纵乐器那样，拥有一套纯熟的“演奏”技巧。

1937年，一种新的设备出现了，它不是靠机械驱动，而是靠电来发声，加上娴熟的演奏技巧，人们获得了一种真的能说话的电设备：Voder。

你现在在视频里听到的，就是Voder说出来的语言。它能说出完整的一句话，虽然和我们如今的语音助手还相差甚远，但仍然可以听清，甚至还能变换不同的音色。

Voder发出的声音来源于振荡器电路发出的嗡嗡声，因为有了滤波器，所以能让特定的频率凸显出来，它有着像钢琴一样的共10个按键，如果你能巧妙地操作它，就可以发出可以识别的语言。

这个机器的操作非常复杂，据说在当时，有一些操作员需要练习一年才能真的用它输出内容。如果你想知道它到底有多难，也可以点进软件工程师Griffin Moe最近重建的一个网址体验一下（https://griffin.moe/voder/）（小编玩了10分钟还没打出一个单词……

感兴趣的可以去玩玩！

而在十年后，另一种说话机器也被发明了出来，这种机器使用的“模式回放”技术，在当时是通过将声音的频谱图，转换为一种光谱图，然后再通过光伏电池将其转化为声音。

在上面的视频中，你可以看到，单词变成了光谱图，被机器读了出来，不得不说，这效果听起来似乎比之前Voder演奏的好一点。关键是比较容易，人们不需要再画非常长的时间练习。

而不管是Voder，还是这项“模式回放”的技术，都为后来的现代语音合成技术打下了基础。从此之后，说话机器说出来的语言越来越逼真，不仅能说话，还能唱歌，它们被用在游戏、艺术作品，也大量走入我们的生活。

单词对应不同的光谱图

不仅是我们日常使用的语音助手，还可以辅助盲人的阅读和交流、帮助先天性听力障碍的语言技能、阅读障碍孩子的语言指导。各种警报系统也能及时提醒我们需要的消息。如今通过AI技术，机器甚至能够精细地重现我们说话的口音、情感等。

你可以再回听100年前演奏出来的那些说话声，那可是由一个个元音和辅音人工演奏出来的……

参考资料：

[1]http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html

[2]https://www.isca-speech.org/archive_v0/hscr_2015/papers/hs15_052.pdf

[3]https://www.mediamatic.net/en/page/9118/virtual-voices-1

[4]https://120years.net/pattern-playback-franklin-s-cooper-usa-1949/#:~:text=The%20Pattern%20Playback%20was%20not,1940s%20and%20completed%20in%201950.

转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号

来源：把科学带回家

编辑：*0

展开阅读全文

页面更新：2024-02-08

标签：元音发明家光谱鸭子喉咙说话人类声音机器语言电脑技术

1 2 3 4 5

为了让电脑说人话，人们在电脑里装了一个假喉咙

为什么国内很多人都在说Python好，真正招聘的时候不需要呢？

以色列研究人员通过干细胞创建出人类早期胚胎模型

海上也能5G冲浪！首艘国产大型邮轮第二次试航进入尾声

深圳首个庭院风格智慧捐血站启用

一瓶矿泉水竟可摧毁整座厂房！广东铝厂发生意外，铝水有多危险？

40余组全球顶级DJ阵容燃动青岛！盖亚电音嘉年华来了

JVM对象创建流程深入剖析

三峡水库启动2023年175米蓄水

美国拆解华为手机后发现不对劲，封锁成了笑话，中美芯片战已逆转

全面停用中国芯？印度拿出150亿入局，美企去中化遭到“报复”！

西湖大学副校长许田：科研成果转化中建立利益共享的联合攻关团队至关重要

海口新海港新能源小车出岛专班增至4班，具体时段→

地下自行车库要改做这个业主：不同意

张奶奶对银行态度180度大转弯，什么情况？

快来看看会展行业有哪些增值税优惠政策吧！

以色列研究人员通过干细胞创建出人类早期胚胎模型

@深圳技术能手，职业技能大赛来了！市赛省赛都有

湖南株洲一架动力滑翔伞坠落桥面飞行员受伤，飞行营地：机

谷歌发布Pixel 8系列手机在摄像头等零部件采用AI技术

杭州亚运会科技感满满！亚奥理事会官员点赞：数字技术保障

无脑机器人可逃脱复杂迷宫

全球技术转移大会在沪开幕，释放超2万项科技创新人才需

基于静态分析模型的柔性机器人工作用扣管伺服阀设计

华为Mate 60 Pro对美国造成的冲击：技术突破与全球市场

最早的电脑游戏回忆