打造“基因界的谷歌” 国家基因库生命大数据平台上线

发布时间:2018-10-25

10月25日,在由华大集团主办的第十三届国际基因组学大会(ICG-13)上,深圳国家基因库在与会嘉宾的共同见证下,正式发布“国家基因库生命大数据平台”(China National GeneBank Database ,以下简称“CNGBdb”),成为本届ICG大会的一大亮点。

 

CNGBdb发布会现场

 

国家基因库CNGBdb平台负责人、华大集团大数据中心大数据应用团队负责人魏晓锋对CNGBdb进行了介绍。该平台为促进生物大数据的共享和利用而生。与其他数据平台不同,CNGBdb在大数据和云计算技术的加持下,基于国家基因库、NCBI(美国国立生物技术信息中心)、EBI(欧洲生物信息研究所)、OMIM(在线人类孟德尔遗传数据库)等平台海量数据的整合,贯穿“搜”、“存”、“算”、“用”多重需求,打破领域内数据库分散林立的障碍,以统一门户为用户一站式解决全部需求,因此被称为“基因界的谷歌”。

 

CNGBdb具体能做什么?平台负责人魏晓锋介绍称,该平台面向全球科研人员提供数据归档、知识搜索、计算分析、管理授权、可视化等数据服务,覆盖母婴健康、肿瘤、动植物多样性、病原微生物等十几个研究领域,形成一个融合多研究领域、多数据类型、多分析维度的超大型科研数据系统。

 

CNGBdb首先为国内科研人员解决了“存”的难题——国内本地化的数据归档空间。它旗下的核酸序列归档系统(CNSA)提供英汉双语界面、1Gb带宽、批量归档功能,确保用户能轻松上手、快速上传和下载,并加强了我国遗传数据资源的安全性。同时,CNGBdb赋予每条科学数据一个唯一的“身份证”——DOI(数字对象标识符)标识,方便检索、追踪和引用,提高数据的曝光率和引用率。截至现在,该平台已经支持了近3000个项目,归档数据将近600TB。

 

据悉,CNGBdb的另外一大优势,是分布式的、由AI驱动的搜索引擎。它同时也是生命科学垂直领域的最大搜索引擎,已实现30+亿索引、10+TB元信息的互联。文献、变异、基因、蛋白质、序列等12个结构的数据彼此联结,检索时关联信息汇集于同一页面,一目了然,使信息搜集和筛选效率翻倍。此外,CNGBdb搜索引擎不仅达到秒级响应速度,还支持中文关键词和全文检索。

 

而在“算”方面,CNGBdb提供一系列数据计算和分析服务,其中BLAST是最值得推荐的应用之一,这是一个高性能混合计算池,整合了NCBI 最新的nt、nr库,且拥有CNGB独有的千种植物转录组数据集、万种鸟基因组项目数据集、全球最大免疫序列数据集等,方便用户对核酸或蛋白质序列进行搜索对比。

 

CNGBdb生命大数据平台的发布,可谓生命科学领域的一大盛举,引起国内外与会嘉宾的强烈反响。该平台目前已正式上线,用户可访问db.cngb.org体验其各项功能和服务。平台负责人魏晓锋表示,相信GNGBdb将为国内外生命科学领域的科研提供巨大便利。国家基因库还将进一步扩充平台的数据存储,结合前沿技术继续加强平台的功能和服务,更好地促进生命多组学大数据的互联互通、开放共享及有效利用,推动生命科学和生物产业的快速发展。