生物信息数据进入PB量级时代,商用级玩家“群雄逐鹿”

周俊、张舒俊 2016-11-17 13:52 新媒体 来源:思达派 查看原文

2e16562.jpg

生命科学的理论化进程是从观察研究到实验研究,最终到理论研究。为了了解人类自身的奥秘,生命大数据不断地产生与驱动相关的理论研究。因此,海量数据的存储、传输和计算的商用化成为当下热点。

自1998年人类启动基因组计划以来,各项工程已逐步开始揭示人类基因组与疾病之间相关联的奥秘。随着测序技术的不断进步,基因检测的费用从2001年的1亿美金下降到当前仅用1000美元即可识别出人类基因组,完全超越了摩尔定律。有人大胆预测到2019年,对于单个人的基因组测序费用将只需要1美元。

29DE.tm.png

生命科学的理论化进程是从观察研究到实验研究,最终到理论研究。为了了解人类自身的奥秘,数据驱动下的理论研究成为主流。基因组计划通过分子生物学手段获取信息,利用生物信息学方法破译信息。随之带来了大量需要存储、传输和分析的生物信息数据,如基因组学、转录子学、蛋白组学、微生物学、表观基因组学和非基因性的外环境影响因素等。相关数据容量已从KB(千字节),MB(兆字节),GB(吉字节),TB(太字节)跨越到PB(拍字节),它们之间后一级都是前一级的1024倍。

7a1ba5e.jpg

众多基因、癌症、医学研究机构和制药公司不断产生的海量数据,已不再能被及时地处理并恰当地存储,甚至通过常规通讯线路进行传输都变得困难。生物信息云计算中出现了两个最重要的问题——数据的压缩和生物信息的计算。我们知道,只有高效的压缩才便于大规模向云端传输数据,降低云端存储成本;只有高效的计算才能充分体现云端弹性计算应有的优势。这两个问题的重要性不言而喻,解决好这两个问题,就能站在技术制高点上,推动生物信息云计算行业的发展。

A41E.tm.png

目前,全球的基因组云数据市场可谓“群雄逐鹿”,数据的分析处理是整个基因云数据市场中的关键难点。目前全球涉及基因大数据的公司数以百计,Seven Bridges Genomics,DNAnexus,NextCODE,Galaxy, BaseSpace(Illumina)以及国内的华大基因、百迈客生物科技、人和未来、赛福基因、聚道科技等公司,都先后加入基因云数据服务的市场,开始抢占自己的市场份额。

1.png

d.png

w.png

m.png

国外实例:七桥基因公司(Seven Bridges Genomics)

七桥基因公司成立于2009年,总部位于美国加州三藩市。这家公司主要面向生物技术公司、制药公司和国家政府,为他们提供生物信息云计算服务。公司旨在为用户提供免费的工具并帮助设计数据分析流程。火石创造从公司概况、运作模式、主要产品、竞争对手等维度详尽分析了该公司的商业模式和优势劣势。

B4ED.tm.png

F411.tm.png

3B40.tm.png

7A44.tm.png

B736.tm.png

F63B.tm.png

2CD7.tm.png

616F.tm.png

国内新秀:人和未来

2016年11月4日,基因组云计算技术开发者大会(GCTA)在第11届国际基因组学大会(ICG)上正式公布了历时6个月的全球公开竞赛结果,人和未来脱颖而出,成为本届大赛的黑马。该公司在数据压缩和计算加速两个项目上的成绩均刷新了世界纪录,同时保持了最低的计算成本,将全基因组的计算分析带入百元(16$)时代。

3af9292.jpg

人和未来的Genetalks全基因组分布式计算平台基于亚马逊AWS云计算平台构建。该云平台具有良好的可扩展性,能够根据计算需求自动扩展集群规模,从而缩小测序计算时间。同时,该云平台能够根据亚马逊spotinstance的动态价格以最优的方式申请使用AWS机器,从而最大限度的降低计算费用。在基因加速计算的比赛结果方面,该平台近19分钟就能完成400G 55x的人类全基因组分析。

55f337a.jpg

全基因组测序所需计算的各个步骤

 GTX Compressor是该公司开发的通用数据压缩打包系统,可以对任意基因测序数据的目录进行高压缩率的快速打包,形成单一压缩数据文件,以方便存储档与远程传输、校验。在数据压缩存储的比赛结果方面,该系统在达到7个测序质量值下,压缩率达到1/18;在33个测序质量值下,压缩率达到1/8。

8e72f53.jpg

GTX Compressor数据压缩系统的简易流程

作者:周俊、张舒俊

更多资讯欢迎关注火石官方微信或网站:火石创造(firestone-link)/www.hsmap.com

为您推荐: