中文  English
您当前位置:首页 > 中文 > 生物信息云平台
生物信息云平台
生物信息云平台发展目标
开发团队介绍
合作机会

 生物信息云平台

 

 

   生物信息云平台(BioCloud.org.cn)是由北京市计算中心、北京市科学技术研究院资助开发的面向生命科学及相关应用领域的云计算平台,BioCloud平台采用网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)、远程访问(Remote Desktop)等多种云计算技术,整合近200种生物信息学软件及数据库工具,旨在为广大科研院所、中小企业提供高性能、低成本的数据分析服务,使每一位终端用户都能够分享到高性能计算的强大与便捷,为推动云计算、生物信息学、生命科学的发展做出贡献。

BioCloud的硬件资源基于北京市计算中心的百万亿次高性能计算机集群,集群基于CPUGPU混合架构,普通节点由曙光天阔、联想万全、IBM x3650等服务器组成,主要采用26CPU24G内存配置,大节点为IBM x3850,拥有88CPU512G内存;集群节点之间InfinibandIB)、光线、以太等多种网络形式互联,其中计算网络IB QDR4X的单向带宽达到40Gbps;高性能存储采用NAS+SAN构架,裸容量达500TB。目前BioCloud发布版本为内部测试1.0版,登录地址:http://BioCloud.bcc.ac.cn:8080/Portal

 

 

高通量测序数据分析

 

随着第二代测序技术的迅速发展与普及,高通量测序迈入工业化发展进程。生物信息学研究工作的重心逐渐发生变化,由原来的以实验为主要研究方法向现在的基于高性能计算的数据分析方法倾斜。如何提取高通量测序数据中的信息,为进一步生物学研究提供依据,已经成为生物信息学领域重要课题。特别是近年来由于RNA信息在组学研究、分子育种、药物筛选等一系列领域中所发挥的关键作用, RNA-seq数据的分析备受关注。对RNA-seq数据的深入分析有助于了解生命体的基因表达与调控、DNA分子结构等机理。

BioCloud集成了许多RNA-seq数据分析资源,包括优秀的硬件平台、大量的数据库、宝贵的数据资源,一方面提供RNA测序数据的自动分析工具,同时也提供开发平台,使得研究人员的科研成果可以第一时间在互联网上发布。其软件服务模块主要包括:测序数据预处理、序列聚类与拼接、基因功能注释等。由于高通量测序数据的分析工具非常繁多,数据库种类也非常丰富,但并不是每个分析任务都需要用到所有的资源,为了简化使用,在给用户提供分析工具、数据库的自由选择之外,BioC还在服务模块的基础上,将RNA-seq数据分析流程化,通过对不同模块的组合,可以得出不同类型的解决方案,例如基本功能分析流程、SSR分析流程、DGE分析流程、SNP分析流程等。

 

 

1.      单项功能分析

 


-          数据预处理

测序试验一般在样品DNA分子中引入载体或接头来进行复制,这些序列都难以与真实序列区别,因此,在对测序序列进行分析之前,必须截除两端的载体或接头序列,并根据一定的规则进行过滤。此外,在测序过程中,实验误差、样品污染等可能会给影响测序结果,通过数据预处理可以有效提高数据质量,提高后续分析准确性。

重测序拼接所面临的另一个巨大挑战便是大量重复序列的存在,在使用重叠-排序-生成共有序列(overlap-layout-consensus)拼接算法时,由于重复序列的相似结构,经常会导致错误的拼接结果。因此,在很多情况下,在拼接之前我们需要将片段中的重复序列屏蔽。

……

-          基因组拼接

-          转录组拼接

-          BLAST

-          短序列比对

-          功能分析

-          SSR分析

-          SNP分析

-          DGE分析

 

 

 

 

 

 

2.      项目流程分析

 

-          RNA分析

-          MiRNA分析


3.      案例

 

 

 

 

 

 

数据库系统

 

为了满足全世界生物信息学研究人员对于最新数据的需求,许多国际著名机构建立了一级或二级生物分子公共数据库,例如美国生物信息中心(NCBI)的GenBank、欧洲分子生物学实验室的EMBL-Bank、日本遗传研究所的DDBJ、蛋白质数据库SWISS-PROTTrEBML、欧洲生物信息研究所(EBI)的UniProt等、GO分类库等。随着测序周期越来越短,完成一项基因组注释也越来越快,这几年,大量非模式物种的全基因组数据库相继公布,这些数据库对于近缘物种以及重测序基因序列分析提供了极有价值的参考,帮助科研工作者摆脱了以往非模式生物中遗传背景缺乏的束缚。BioCloud平台不仅集成了上述的公共数据库,也加入了20多个单个物种的基因、蛋白库。

 

 

个性化服务

 

1.      生物信息云培训课程

为了让用户能够更好的使用生物信息云平台,北京市计算中心开设了专门针对BioCloud的培训课程,从入门到进阶,由高级设计师亲自教授用户如何使用、怎样发挥出平台的最大性能等一系列课题。

 

 

2.      数据分析进阶

 

生物信息云平台的分析内容如果无法满足用户的个性化需求,我们后台的生物信息数据分析团队能够为用户提供进一步的个性化分析服务,从分析需求、设计参数到最后的结果统计,我们会与用户紧密配合,帮助用户找出最优解决方案。

 

 

3.      私有云构建咨询服务

 

生物信息云平台基于互联网为用户提供数据分析服务,如果用户对于数据安全、传输速度有特殊需求,可以与我们的开发团队联系,我们能够为用户定制本地化的生物信息云平台,提供从整体规划、架构方案设计、硬件设备选型、软件采购、平台部署、调试测试等一系列服务。

 

 

开发团队介绍

 

目前生物信息云平台开发团队拥有18人,其中博士6人,硕士8人,本科4人,成员均来自生物信息、计算机和分子生物学等学科的专业人员。(此处参考生物计算宣传手册)

……

 

 

生物信息云平台发展目标

 

生物信息云平台旨在为生物技术公司提供生物信息数据分析服务,目前平台的业务能力主要集中在软件服务(Software as a Service, SaaS),我们承诺在后续业务拓展过程中,我们将致力于开放出更多的自由度,让用户参与到云平台的建设中来,包括开发出基于PaaSPlatform as a Service)、IaaSInfrastructure as a Service)的平台功能等。

 

 

合作机会

 

欢迎用户与我们合作开展生物信息云平台前沿领域的研究,包括分析算法设计、函数库开发、平台搭建等。


 

 

 

版权声明 | 免责条款 | 隐私政策 | 友情链接 | 联系我们
Copyright 2011 北京市计算中心 版权所有 zving.com. All Rights Reserved
地址:北京市海淀区永丰产业基地丰贤中路7号北科产业3号楼 电话:010-59341999 邮编:100094 E-mail:jszx@bcc.ac.cn
备案号:京ICP备20111117号 技术支持:北京市计算中心生物计算事业部技术组