生物数据库介绍

人类基因组计划的完成,为系统研究人类基因组从进化史到疾病精准医疗奠定了基础。随着生物数据的爆炸式增长,越来越多的生物数据库被开发出来以帮助人类相关研究。本文中,我们将简要概述与人类相关的主要生物数据库。如何根据数据类型对数据进行排列和分类,以及,如何检索和分析它们?

随着与人类相关的数据库不仅在数量上而且在容量上都在不断增长,大数据存储、处理、交换和管理方面面临着挑战。

什么是数据库?数据库是经过组织的信息集合,以便于访问、管理和更新。数据库由计算机硬件和用于数据管理的软件组成。开发数据库的主要目标是将数据组织成一组结构化记录,以便于检索信息。虽然数据检索是所有数据库的主要目的,但生物数据库往往有更高层次的要求,称为知识发现——它指的是识别信息首次输入时未知的信息片段之间的联系。例如,包含原始序列信息的数据库可以执行额外的计算任务来识别序列同源性或保守基序。这些特征有助于从原始数据中发现新的生物学见解。

根据《核酸研究》杂志2014 年分子生物学数据库合集的报告,共有1552个数据库可在线公开访问。这不包括未在同行评审期刊上发表或由商业公司开发的在线服务。因此,在线数据库的实际数量可能远远超过这个数量。考虑到生物数据库的数量不断增加,在大量感兴趣的数据库中导航变得越来越麻烦。

考虑到数据类型、范围和管理的异质性,生物数据库可以根据不同的标准分为多个类别。

根据数据覆盖范围,生物数据库可分为综合数据库和专业数据库。综合数据库涵盖了来自众多物种的不同类型的数据,典型的例子有GenBank、欧洲分子生物学实验室(EMBL) 和日本DNA 数据库(DDBJ)。这三个数据库于1988 年作为国际核苷酸序列数据库协作组织建立,用于收集和传播DNA和 RNA序列。另一方面,专门的数据库包含特定类型的数据或来自特定生物体的数据。例如,WormBase用于线虫生物学和基因组学,而RiceWiki 用于水稻基因的社区管理。

根据数据监管的层次,生物数据库大致可分为一级数据库和二级数据库或衍生数据库。一级数据库包含原始数据作为存档存储库,例如NCBI 序列读取存档(SRA),而二级或衍生数据库包含作为附加值的精选信息,例如NCBI RefSeq。

由于数据呈爆炸式增长,管理越来越需要集体智慧来协作数据集成和注释。因此,生物数据库也可以分为专家管理的数据库,例如RefSeq和TAIR,以及社区管理的数据库,这些数据库由许多研究人员以集体和协作的方式管理,例如LncRNAWiki和GeneWiki。

最后,根据不同数据库管理的数据类型,生物数据库大致可以分为以下几类:DNA、RNA、蛋白质、表达、通路、疾病、命名法、文献、标准和本体。


尽管功能截然不同,但几乎所有生物数据库都具有相似的架构。每个都由三层软件组成。底部是管理事实集合的数据库管理系统(DBMS);顶部是Web 浏览器,它将数据请求传输到数据库并将响应呈现为网页;中间是一个软件层,它在DBMS 和Web 浏览器之间进行调解,将数据请求转换为数据库查询,并将查询响应转换为超文本标记语言(HTML)。

除了基因数据库和PDB之外,还有更多针对不同目的而设计的生物数据库。此处的表格显示了生物信息学中一些最常用的十大数据库,以供参考。

展开阅读全文

页面更新:2024-05-15

标签:在线   生物   数据库   目的   分子生物学   序列   数据类型   数量   数据   信息

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top