为了让电脑说人话,人们在电脑里装了一个假喉咙

撰文 | Skin

审校 | Ziv


当你呼唤某度、某爱同学、某艺和某Siri时候,这些语音助手往往会用优雅的声音回复你“嗯?发生什么事了?”


当你打开短视频网站,听到一些千篇一律的AI配音。有不同角色的,不同口音的……“家人们!谁懂啊!”


你可能也接到过AI打的电话,有些电话甚至难以分辨。目前语音合成的技术已经甚至还能让我们听到以假乱真的各类AI歌手。


不过,你知道电脑是如何发出“人类”的声音的吗


回到100年甚至更早前,当时的人们为了让机器能说出话,制造了许多奇奇怪怪的东西。


这张展示照片内部结构可能有误,不过你可以看到为了做一只能吃能拉的机器鸭,人们真的很努力! Wiki


1764年,一位发明家展示了一只机器鸭。这只鸭子会嘎嘎乱叫,还能喝水(不是真的喝,指把水溅到地上)和夺取食物。据说,这只鸭子体内有一个机械版的“消化道”,甚至可以消化食物,排出粪便。


鸭子说话只能“嘎嘎嘎”,但人说话就难多了。想要让机器说人话,就意味着要让它发出不同词语的发音,再用正确的音调组合成句子。


这听起来就十分复杂,在18世纪,人们想出的办法,其实和复刻一只机器鸭子一样:用发条和齿轮模仿人类的身体构造,做出一套机械版的喉咙和口腔。


最原始的说话“机器”其实并不能真的说话,毕竟当时的人们也并不清楚我们的说话声是如何发出来的。靠着一些仅有的知识,人们为这种机器安上了假的声带和舌头,当空气流过时,假声带就会震动,假舌头也会移动。通过控制机械移动的方式,以及气流的开始和停止,就会形成不同的元音。


能吹出不同的元音。 research.spa.aalto.fi

1779年,发明家 Christian Kratzenstein发明了一套“人类声道模型”,这五种模型分别能发出aeiou五种元音。

实物长这样 参考资料2

后来人又有人发明了一种假的共鸣腔。当他挤压风箱,让空气流入共鸣腔后,他会直接用双手改变共鸣腔的形状,以此来改变发出的辅音。再后来,一些发明家(比如发明电话的贝尔)也做出了相似类型的说话机器。不过,这种机械式的设备并没有取得什么显著的成功。


手动调整假喉咙? research.spa.aalto.fi


这些东西看起来就像是某种乐器,虽然能发出不同的声音,但是和人类的语言还大相径庭,语言成为了一个个音符碎片。而想要让他们成为完整的一句话,则需要像音乐家操纵乐器那样,拥有一套纯熟的“演奏”技巧。


1937年,一种新的设备出现了,它不是靠机械驱动,而是靠电来发声,加上娴熟的演奏技巧,人们获得了一种真的能说话的电设备:Voder。



你现在在视频里听到的,就是Voder说出来的语言。它能说出完整的一句话,虽然和我们如今的语音助手还相差甚远,但仍然可以听清,甚至还能变换不同的音色。


Voder发出的声音来源于振荡器电路发出的嗡嗡声,因为有了滤波器,所以能让特定的频率凸显出来,它有着像钢琴一样的共10个按键,如果你能巧妙地操作它,就可以发出可以识别的语言


这个机器的操作非常复杂,据说在当时,有一些操作员需要练习一年才能真的用它输出内容。如果你想知道它到底有多难,也可以点进软件工程师Griffin Moe最近重建的一个网址体验一下(https://griffin.moe/voder/)(小编玩了10分钟还没打出一个单词……


感兴趣的可以去玩玩!


而在十年后,另一种说话机器也被发明了出来,这种机器使用的“模式回放”技术,在当时是通过将声音的频谱图,转换为一种光谱图,然后再通过光伏电池将其转化为声音


在上面的视频中,你可以看到,单词变成了光谱图,被机器读了出来,不得不说,这效果听起来似乎比之前Voder演奏的好一点。关键是比较容易,人们不需要再画非常长的时间练习。


而不管是Voder,还是这项“模式回放”的技术,都为后来的现代语音合成技术打下了基础。从此之后,说话机器说出来的语言越来越逼真,不仅能说话,还能唱歌,它们被用在游戏、艺术作品,也大量走入我们的生活。


单词对应不同的光谱图


不仅是我们日常使用的语音助手,还可以辅助盲人的阅读和交流、帮助先天性听力障碍的语言技能、阅读障碍孩子的语言指导。各种警报系统也能及时提醒我们需要的消息。如今通过AI技术,机器甚至能够精细地重现我们说话的口音、情感等。


你可以再回听100年前演奏出来的那些说话声,那可是由一个个元音和辅音人工演奏出来的……


参考资料:

[1]http://research.spa.aalto.fi/publications/theses/lemmetty_mst/chap2.html

[2]https://www.isca-speech.org/archive_v0/hscr_2015/papers/hs15_052.pdf

[3]https://www.mediamatic.net/en/page/9118/virtual-voices-1

[4]https://120years.net/pattern-playback-franklin-s-cooper-usa-1949/#:~:text=The%20Pattern%20Playback%20was%20not,1940s%20and%20completed%20in%201950.


转载内容仅代表作者观点

不代表中科院物理所立场

如需转载请联系原公众号


来源:把科学带回家

编辑:*0


展开阅读全文

页面更新:2024-02-08

标签:元音   发明家   光谱   鸭子   喉咙   说话   人类   声音   机器   语言   电脑   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top