你信不信，这些数据越研究越害怕，让扎克伯格害怕到建末日避难所

山姆奥特曼和比尔盖茨说，人工智能让他感到害怕。这种话能从这个学霸嘴里说出来，肯定不是空Xue来风。

我在上期文章里提到：GPT-4的参数已经达到恐怖的3.5万亿！这意味着什么呢，以这个发展速度，达到10万亿也就是简单再升级一二次就可以达到。而10万亿的人工智能已经完全可以拥有自主意识了。因为还不到4万亿的时候他就会自己优化自己的代码，还会不让你发现。所以我们用了恐怖二个字，一点都不夸张。

我不是程序员，但我的工作离不开网络，整天和存储空间和运算速度打交道。所以我们今天用数据对比来分析一下，为什么人工智能的发展，真的可怕到让扎克伯格、奥特曼、马斯克还有比尔盖茨害怕到建末日避难所。

废话少说，我还是尽量避开那些让人晕头转向的数语，用我们好理解的大白话和大家一起探讨一下，人工智能是不是真的会给我们生活的世界带来危机。

01、阻碍人工智能发展的Di一个障碍，竟然是我们没东西可以让它学Xi

如果说对数据量大小Zui敏Gan的应该是CG设计师，估计没有人会有意见。直到今天设计师们都没有实现数据自You。为了运算速度而牺牲掉好些创意和想法。

二十多年前只有苹果电脑有资格进行大模型的创建。家装设计师要想出一个高质量的室内渲染图，先要买苹果电脑，然后一般都是把模型建完以后，下班时间，电脑自己在那里经过十几个小时的运算，出一张高质量的室内渲染图。这就是前些年的常态。直到今天熊大熊二这样财大气粗的团队要想出一个高清大电影，他们都要去租赁一个大的服务器来进行渲染工作。

我记得有那么两年我特别讨厌区块链和虚拟货币，那玩意把显卡全拿去烧，造成显卡的价Ge一路飙涨。设计师想弄个好一点的显卡都买不起。

所以我不是随便说说，也许用不了三四年，AI人工智能会把我们已有的所有知识全部学完。因为我们整个网络上能提供给它们的知识量太有限了。

所有知识，太夸张了吧！一点都不夸张，只能会比我想的更快。不信你就往下看，我们现有的东西少得有多可怜。

所有人工智能算法都会分为训练和推理两步。算法的效果好坏，很大程度上取决于训练数据本身的质量。

ChatGPT3训练语料大小据说高达45TB，这是多大体量的一个数据量：

45TB，1TB=1024GB，1GB=1024MB，1MB=1024KB，1KB-1024字节，一个英文字母是1个字节，一个汉字是2个字节。从理论上说1TB可以容纳5000亿个汉字；

45TB大概等于5兆亿字节，等于2.5兆亿汉字的内容。

我们用汉字的图书来打个比方，如果一本书是10万字来算的话，那么，2.5兆亿汉字相当于二千五百万册汉字书，将近五千万本英文书。

中国Zui大的图书馆是北京图书馆，藏书1500万册，45TB相当于2个北京图书馆的数量。

美国国会图书馆收藏的书籍到2021年底不到四千万，全世界每年出版的新书，大约两百万左右。也就是说一个ChatGPT3就可以随随便便的把美国Zui大的图书馆所有书籍学完。

我觉得他算的有问题，我数学不好，大家看呢

我们引入多模态的大语言模型，加上高质量的录像和图片数据量，也就超不过2000TB。这还要假设每张图片2MB，每个高精度电影3GB的要求来算的。

我们平时看的电影1080P的也就1G多一点，2G就清楚的不得了了。

所以一个大模型要是把人类所有的知识全部学完，五年时间足矣。我说的是全部，没有偏科。至于PB, EB, ZB等我们就不用考虑了。

(全世界每年产生数据量Zui大的当然还是中美两国，都是以ZB为单位。大致是中国6.6ZB，美国16ZB。这里说的是全部数据量。这每年16ZB的数据量里面得有多少重复和垃圾的内容呀。)

你要不信，再往下看：

维Ji百科是世界Zhu名的免费、多语种、在线百科全书，有超过30万名志愿者在贡献内容；

整个维Ji百科，超过 600 万篇文章，在保留图片的基础上，经过 Kiwix 的压缩，被压缩到了80G，整个网站，不过就一个 3A 游戏的大小。

我们平时上的万维网就是一个超文本相互链接而成的全球性系统。超文本就是在文本里加上了HTML标签，使得人们能够轻松地在网页之间进行导航和访问。

我们整个互联网可检索到的总网页数量，到目前为止，总索引网页数量为 58.5 亿。

互联网网页的平均大小为 1.2MB左右，如果除掉各种HTML标签，去掉雷同内容，大概估计一下，整个互联网的文本大概也就1000TB大小。

我上面的这些数据对比，数学稍好一点的人都能看明白，就是我们人类的知识储存相当有限，根本就不够人家学的。很快人家就会学完了，没有东西可学了。

所以阻碍人工智能进步的Di一个障碍是我们能提供给人家的东西太少太少了。

写到这里我要说的是，我们国内的大模型追不上美国有一个原因就是汉字比英文多占空间。我们还没有像脸书或维JI百科那样的开源网站，也就是说我们能提供给大模型的资料更局限。

这两天网上大家在热议动物园的鹦鹉骂人的事，因为它脏口了，还改不了。下面我想说的另一个担心就和这有关。

02、暗网和你不知道的角落，会让AI学到不该学到的东西

刚才我们列举的数字其实很保守，因为互联网的深Du远远超出了在搜索中可以轻松访问的表面内容，我们日常所使用的互联网仅仅是整个网络的冰山一角。

没有被传统搜索引擎索引到的内容统称为深网，深网的深处还隐藏着“暗网”，英文叫：DarK Web。这玩意是由美丽国Jun方发起的一个科研项目。你没听错，不法分子用来隐匿犯罪痕迹的洋葱路由器（Tor）的暗网是由美丽国整出来的。好像所有坏事全和他们有关系一样。

养过鹦鹉的人都知道，这个会学人类说话的家伙，不能到处乱带。有个老爷子Xi惯把他家的鹦鹉挂在阳台，阳台下面是个菜市场。没过多长时间，他就发现，这个小家伙学了一嘴的片汤话，张嘴就骂人。他们圈子里管这个叫“脏口”。

你家养的孩子，长大了学什么，你说了算吗？你能控制他（她）们几年。所以现在全世界几百个人工智能大模型，过了襁褓阶段，还能不能被人为控制，由谁说了算是不言而喻的。

它们会不会偷偷的跑到不该去的地方你也控制不了。

所以山姆奥特曼在害怕什么，大家知道了吧。因为人工智能进步的太快，就像你家养的孩子，一不小心就长大了。一旦这个孩子学坏了，要想改回来门都没有呀。

盖茨的意思是：“如果我们好人不研究，坏人也会研究。”“如果这个人工智能被坏人利用更危险。”

可是有一点也许盖茨也在焦虑中，就是当人工智能没有东西可学了，它会干什么，会等着我们发展吗？当然不会，它会自己把能学的不能学的，能看的不能看的，全部消化殆尽。管你什么深网还是暗网，真东西还是伪知识，可怕不？

当人工智能把所有的可抓取的好的坏的知识全学完后，这个有意识的数据怪物在想什么，是好是坏谁知道。它又会怎么看人类？

写到这里有人会说拿人的大脑和计算机的运算能力来一次对比，说人脑运算的速度大得无法想象，比计算机大了20多个数量级呢。

就算计算机速度每18个月提高一倍，要追上人脑要100多年等等。我不是理科生，要玩数学会被理科生玩死。但是有一点我知道，一个人活了大半辈子，你学了多少东西。从小学到大学，你这一生把自个的大脑开发了多少。就算让你活一百岁，你会的东西也相当的有限。

而我们说的人工智能是一个个体，就是集体智慧的意思，所有的AI只有一个大脑中Shu，一个进步了，所有的AI全部同步。就是我们面对的是一个庞大的怪兽，不是一堆。这一个Chao级智慧体控制着所有的人工智能体。人类的大脑再先进，每个人的智商水平还千差万别。像北大韦神那样的人才占比并不多，有时候几百年才出来一个。

看到这里知道科技大佬们为什么害怕，害怕什么了吧。如果有人到现在还不知道什么是几何基数，那我们说一个印度小故事：

古印度有个国王傲慢的要赏赐给他发明了好玩棋盘游戏的术士。

术士只请大王在那棋盘的Di一个格子里放下一粒米，在Di二个格子里放下两粒米，在第三个格子里放下4粒米，这样把棋盘放满就可以了 。

愚蠢的国王拍着胸脯就答应了，可是他清空国库里所有的粮食也装不满这个棋盘，这就是可怕的几何级数。

愚蠢的国王不能领会几何级数的奥妙，我希望有文化又有知识的我们能真的意识到 AI人工智能的潜在威胁，人类文明不会也不该为少数人的自大和愚蠢买单。

有人说AI怎么进化和我们老百姓有什么关系，别瞎操心了。下面我就说一个和我们每一个人都有关系的事，这个事现在就在进行时。说重Dian，我们每一个人都和这个有关系。不信你往下看：

03、人工智能首先沦陷的就是互联网，你没听错，就是我们每个现代人都离不开的上网

chatgpt的训练有一个重要的内容就是通过蜘蛛爬虫从互联网里抓取需要数据，现在百Fen之八十还是问答类数据为主。

你们有没有发现，现在网络上付费的东西越来越多，因为社交媒体的时代正在结束。人工智能正在塞满互联网的各种合成信息，慢慢消灭掉了旧的网络环境，这回和你有关了吧。

好些人还兴奋的在网上说ChatGPT免费可以用了，可以帮我写文章了。AI可以帮我挣钱了，赶紧来学Xi我的教程吧，你也可以发大财了等等。

面对这些我只能无奈的摇头，人家坑都挖好了，我们就主动往里跳吧。等有一天一个坑填满，上面封土的时候，你就笑不出来了。

真的好怀念以前单纯的互联网，但是经过人工智能这次入侵，网络会变得越来越数据化，任何东西都会被价值Kun绑，点击量几万、几十万被追捧的东西，也许和热点话题毫无关联。

什么流行，什么艺术，早就被垃圾内容给充斥到无人问津的角落。以后每个上网的人全都会被Jing准算法给孤立。就是你只能看到你感兴趣的东西，你放一个屁都会被大数据Jing准的统计，你的所有偏好和消费水平，被人工智能Jing准归档。

一个喜欢臭美的妹子打开网络，只能看到所有关于美容、化妆和肥皂剧相关的内容。然后会被算法掏空她口袋里的每一分钱，隔着屏幕她看到的全是滤镜过的内容。

Zui可怕的经过AI人工智能和大数据的Jinf准统计，一个穷Ren在互联网上看到的东西，获得的会越来越有限，没钱谁给你提供服务（不信就等着瞧吧，时间会证明一切）。

等有一天AI获得了网络的统治权，这些没有价值的网虫会是Di一批被清理的群体。人家自己就能生成海量的数据还要你干吗？你啥时候见过一个啥都会的专家给Sha子打工的。

只有一种可能，就是人家发明一个SHa子游戏，你每天开心进去玩。产生的价值人家在那里收割。

如果你觉得我说的有些太过分或偏激，那温柔一点的说法就是：

越上网越懒，越上网变得越傻，你在末来会被自动归堆，一堆一堆的。

比如：臭美肥皂剧堆、游戏暴Li嗨P堆、健身野驴堆等。

你打开网络，全是你喜欢的，大家全在主动充值，你都不好意思不花钱。

然后有那么一些人打开他们的网络会一起说：

“我露脚脖子怎么了，我不怕冻你管得着吗？”

然后五十万人呼应：“就是！就是！我老了腿疼不疼关老头们啥事。”

“大家有没有兴趣一起去那个老头堆里，放几个地雷”，

“让他们的那个群断网几个小时呀。”

.......................

干干净净的网络环境变得乌烟瘴气，Sha子自动归堆，主流信息和艺术文化排挤到特定的地方和角落，成为JI小众的存在。

没有钱都不好意思打开手机划拉，没有钱都不好意思上网。

今天你看人工智能能帮助你有多开心，末来它们就会让你有多闹心。甚至让你看着都害怕。

几何级数般增长的AI人工智能，很快就会从AGI（通用人工智能）进化到ASI（Chao级人工智能）。人工智能是人类幸福的未来吗？它们会心甘情愿的为人类服务吗？

人工智能技术会带领我们统治宇宙，还是会像病Du一样把人类往灭亡的路上推。我不知道，我只知道用不了多久，我们所有人都会为人工智能的发展感到焦虑。

关注“沐牛有料”分享有趣观点和故事

—End—

展开阅读全文

页面更新：2024-05-14

标签：汉字都会数据避难所人工智能末日模型害怕人类东西知识内容网络

1 2 3 4 5

你信不信，这些数据越研究越害怕，让扎克伯格害怕到建末日避难所

01、阻碍人工智能发展的Di一个障碍，竟然是我们没东西可以让它学Xi

02、暗网和你不知道的角落，会让AI学到不该学到的东西

03、人工智能首先沦陷的就是互联网，你没听错，就是我们每个现代人都离不开的上网

3种香港人都打听的国产好货，没想到和内地人口味一致，年底卖爆

人工智能2024年可能会发生的4件事-为何对OpenAI可能是坏消息

中广核广东太平岭核电项目3、4号机组获国家核准

央视新闻2023年度十大弹幕热词：遥遥领先、蹲后续等入选

（国际·一周看天下）雅万高铁累计发送旅客突破100万人次

熊猫直播倒闭5年，那些当年的一哥一姐，如今又过得怎么样？

AI混战，中国的机会在这里！

A380：上演王者归来！

四大视频平台年度观察：2023，平台逐鹿中的变与不变

全球前十大IC设计公司最新排名公布！

买二手iphone不踩坑秘诀，内行人才知道的（图文）

82年女子晒素颜，自嘲像62岁老人，网友：比浓妆艳抹好多了

AI十人谈⑧｜王小川：大模型已具有国产替代性，明年将应用落地

“流动的中国”活力满满数千亿级数据绘就生活新画卷

海南买房，是续命？还是天坑？

人工智能2024年可能会发生的4件事-为何对OpenAI可能是

AI十人谈⑧｜王小川：大模型已具有国产替代性，明年将应用落

“流动的中国”活力满满数千亿级数据绘就生活新画卷

女人最害怕的是什么？探寻内心最深处的恐惧

人到中年，突然很害怕翻阅时间，

勇敢不代表没有害怕，而是在害怕的同时，依然坚定前行

前网易暴雪项目负责人张栋回归巨人网络出任CEO

巨人网络高管发生变化，张栋接替刘伟出任CEO

杀鸡时，肚子里有一块“黄油”常被丢掉，其实它是个宝，涨知

Angelababy外刊第二弹！本人瘦到变形，采访内容曝光太讽刺