用AI解析古籍《黄帝内经》

#古籍守护人#

众所周知,人工智能技术已经被人们大量用于各个领域教育,医疗,工商业,科研,等等,它的用处就不必多言。

自然语言处理是属于人工智能研究和应用的一个重要领域,在这一领域中已经诞生了许多非常有用的应用,比如,今日头条等各种社交媒体平台,以及最近如日中天的ChatGPT,等等。

在自然语言处理领域中,包涵了各种技术,比如,文本数据挖掘,分析,信息可视化等,其作用是通过对文本数据的整理和研究,从各种角度全方位探索文本中的信息,从中提取出有价值的东西,特别是有些隐藏的,不易被普通阅读方式发现的信息模式。

当我们面对海量的文本大数据,无法通过普通的逐字阅读的方式来探索时,这些计算机和人工智能技术与方法就可辅助人们完成曾经不可能完成的任务。

而对于尘封已久的古籍,人们也并没有失去热情,不少机构和个人都在孜孜不倦第从事着古籍相关的收集,整理,储藏,发布,使用,等工作,包括把人工智能技术应用在其中。

在古代,这样整理古籍的事业是非常不容易的,没有雄厚的人力,财力,物力,是难以办到的,我做了一个简表来对比一下古代和现在的情况:

项目

古代

现代

收集

书写在甲骨,贝叶,石板,竹简,纸张等实体材料上。

影印图片,录入电脑的文本,打印出来的书本。

整理

需要多人手工整理

只需很少人用电脑处理

存储

藏书阁,洞穴,或某个安全的地方,难以备份。

硬盘,云存储,可有无数备份。

发布

需要手工复制,抄写,车马或人力运输,耗资巨大,后来有了造纸书术和印刷术会方便一些。

可以瞬间拷贝,互联网远距离瞬时发布,有网站,多媒体等各种形式,快捷便宜,又智能。

使用

普通人难以获取,而且只能逐字阅读,查阅需靠记忆和手工搜索。

可随身携带整个图书馆的书籍,随时随地使用,阅读,听书,智能搜索,等等。

我们可以看出,这张表一目了然地展示了把计算机科学和人工智能技术运用到古籍事业当中的明显好处。

今天,我也想用自然语言处理的方法来探索一下古籍,选一本比较有名的古书《黄帝内经》来做这个实验。《黄帝内经》分为《灵枢》、《素问》两部分,是我国最著名的医学著作,是传统医学四大经典著作之一。此书相传是黄帝与岐伯、雷公、伯高、俞跗、少师、鬼臾区、少俞等多位大臣或国师讨论医学的记述。

我用Python系列的文本分析工具来做实验,实验计划如下:

  1. 文本预处理
  2. 对文本进行内容长度总览分析
  3. 对文本各章节进行单字和词汇的频率统计分析

首先,通过网上搜集来的《黄帝内经》原文,对它进行文本预处理,比如,去除标点,空行,分割,融合,数据结构化,等等。这些都是重要的准备工作,因为后续的文本分析流程需要用到这样的材料,才能得到更好的结果,我来简单解释一下各个步奏的目的。

首先,去除标点,是一项可选项目,有的任务需要去除标点,有的任务不需要,我们可以根据具体情况灵活运用。

去除多余空行,这应该是必须的,因为多余的空行对文义和后续任务几乎没有作用。

文本分割意,味着把一整篇文本分成多个章节,或段落的模块,这样有助于分析和统计各章节的情况。

文本融合往往与数据结构化联系在一起,这样可以形成有助于后续的文本挖掘和分析任务。

由于本篇文章重点在于解析和展示古籍的内容,为了阅读顺畅的缘故,我省去了处理过程中的技术细节和源代码,以后需要讨论技术细节的时候,再另外发布。

这样文本预处理后的结果,就形成了一个表格化的《黄帝内经》文本,如下图所示,图中只展示了前10行的内容:

于是,我们通过这个表格,便可以得到一个关于《黄帝内经》的基本篇目和字数统计,可以看出来,《素问》的总字数是八万多,接近九万个字,总卷数有24卷。《灵枢》的文字数量要相对少一些。(因为原始文本可能有疏漏或者错误,所以字数不一定是完全准确的)


接下来,我们再对两各篇目的各章节的字数进行一个总览的分析和可视化,第一图为《素问》,第二图为《灵枢》,这样可以一目了然,看出《黄帝内经》中各章节的内容长度,从而对整书的章节有一个大概的了解。

《素问》各卷字数统计

《灵枢》各卷字数统计

接下来我们再对《黄帝内经》做一个全文的字频统计分布,通过这样的统计分布,我们可以看出整本书中的高频字,也许可以惊鸿一瞥,一睹全文的文字风貌,以及重点所在。

在统计字频分布的过程中,有一个重要的步奏是去除停词,也就是一些诸如语气助词,知,乎,者,也,一类常见的,但在统计中可以忽略的一类文字,我去除的大概有以下停词:

'之', '乎', '者', '也', '哉', '矣', '而', '不', '其', '于', '曰', '以', '有', '故', '则', '於', '为'。

字频统计如下,由于篇幅有限,每篇只展示了排名前十五的字,可以看出,这些字在全文中的重要性。

《素问》字频前十五

《灵枢》字频前十五

对于字频的分布,除了图表的展示,还有一种特别的可视化方式,叫做词云,我们来做一个全文的词云看看是什么效果:

《素问》词云图

《灵枢》词云图

可以看出来,这种频率分布的效果更加显著了,字面越大代表它出现的频率越多,这样更加能够认识到全文的风貌了。

当然,除了对古籍进行单字分布的分析和统计,我们还可以通过词汇来进行,为什么呢?因为从词汇比从单字得到的信息更加丰富,更加完整和精确,而且对于其他的自然语言处理任务,比如信息抽取,文本分类,机器翻译,问答等等,都可以有更好的帮助。

我们来看看对《黄帝内经》进行词汇统计的效果,可以看出,这样的分布效果,得到的关于全文风貌的信息,比看单字分布更加全面和准确了:

《素问》词汇前十五

《灵枢》词汇前十五

《素问》词汇云图

《灵枢》词汇云图

这样,目前的实验就暂时完成了,当然,除了对单字,词汇出现的频率分布统计,还可以再深入分析和挖掘,可以从其他方面,比如,命名实体识别,实体关系抽取,以及其他方面来探讨研究一下各种自然语言处理与数据科学方法,在古籍方面的应用。

《黄帝内经》是一本博大精深的古籍,值得我们仔细阅读和研究,在阅读的过程中,希望人工智能的方式能够辅助大家更加深入地了解和挖掘到文中更加深层的内涵!

展开阅读全文

页面更新:2024-05-01

标签:黄帝内经   古籍   字频   素问   自然语言   云图   单字   人工智能   词汇   文本

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top