中文  English
您当前位置:首页 > 中文 > 技术支持
FAQ
在线咨询

  测序相关问题 

 

1. 二代测序各平台的原始数据包含哪些格式的文件?

Solexa平台为FASTQ454平台为FASTA+FASTQSOLiD平台为csfasta格式  

 

2. 平台间的描述核酸序列的数据可以互相转化吗?怎样才能比较不同平台间的结果差异呢?

平台间的数据可以相互转化,目前没有公认的方法和标准评估平台间的差异  

 

3. 各平台的技术缺陷是什么,在实验设计时怎样规避这种技术缺陷?

SolexaSOLiD平台读长比较短,454平台通量相对较低,实验设计时可以根据具体问题,选择特定平台或者混合采用多种平台  

 

4. 各平台的数据量大小是多少?

454平台测序数据量约1G左右,Solexa GA系列约50GSOLiD系列约50G  

 

5. 多长的读长就可以代表一个基因?

没有确定答案,基因长短不一,理论上600-800bp以上  

 

6. 测序质量与什么有关?

和实验,测序操作有关  

 

7. 怎样才能获得高质量的测序数据?

采用技术和实验手段成熟的平台和公司  

 

分析相关问题 

1. 对原始数据预处理的原理和作用是什么?

测序得到的原始数据存在一定的错误率,预处理就是去掉那些有测序错误产生的数据,提高数据质量,避免对后续分析造成影响  

 

2. 预处理后的数据发生了那些显著变化?

平均质量会显著提高,数据量可能会损失一些  

 

3. 什么样的数据才是满足后续分析要求的?

根据不同实验要求标准不一,一般solexa454选择质量值20为标准过滤,SOLiD选择10  

 

4. 什么叫做mapping,有什么作用?

Mapping就是将测序得到的短片段比对到基因组或其他参考序列上,主要是定位测序的短序列  

 

5. Mapping后,有没有不能mapping到基因组的读长,如何评价这些数据?

会有相当一部分不能mapping到参考序列的read存在,这些数据很难继续利用  

 

6. 什么叫做TRIM,有什么作用? Trim是指从read3‘短切去底质量碱基的过程,属于预处理的一种,可以去除提高测序数据中的低质量  

 

7. 怎样评价载体去除完全?

可以在记过中查找载体序列,如果还能发现载体序列,说明没有去除完全  

 

8. 载体去除错误会对后续的分析有什么影响?

会引入人为错误,造成奇怪的结果和假阳性结果  

 

9.质量差的数据进入后续分析,会有什么样的风险?

会使分析结果中存在大量假的结果  

 

10.差质量的数据如何进行最大限度的挖掘?

低质量的数据可以进行一定计算机修正,这样可以提高数据的利用率  

 

11.统计读长质量的指标有那些,分别有什么意义?

读长的指标一般有:总的read数目,平均长度,最大产度,最小长度等等  

 

12.拼接的作用和意义是什么?

拼接是将测序得到的短的序列连接成长的DNA序列,还原真实完整的DNA状态  

 

13. 拼接的原理是什么?

目前拼接的原理是根据序列时间重复的部分进行的,如果两条序列有重叠的部分,会进行合并延长。具体算法会考虑很多情况,非常复杂。最常用的算法是de bruijin图论算法  

 

14.拼接的参数怎样影响拼接的结果?

拼接参数设定不当会降低拼接的效果  

 

15.拼接质量对后续分析有什么影响?

拼接结果不准确将直接导致后续分析产生错误的结果,实验将无法得到验证  

 

16.怎样评价拼接的质量?

一般会通过比较不同参数的结果,或者和已知的数据进行比对来评估  

 

17.拼接的工具有那些?各有什么样的优缺点?适用于何种情况?

VelvetsoapdenovotrinityCLCbionewblerallpathABySS等等VelvetsoapdonovoallpathABySS主要拼接solexa的短序列,可以处理pair-end数据;newbler主要针对454数据进行拼接。CLCBio可以处理多种平台的数据。  

 

18.基因功能注释与基因组注释是同一个概念吗?如果不是,有什么区别?

不是,基因功能注释针对基因本身进行的生物学意义的解读,基因组注释是正对全基因组中不同的元件进行分类说明。  

 

19.注释有什么用?如何指导后续的研究?

基因注释可以让生物学家直观的指导这个基因有什么功能,之后后续的实验  

 

20. 注释的可靠性怎么评价?

通过判定注释中的evalue或者一致性等指标可以进行评价  

 

21.注释数据库在不停的更新,怎样让注释信息保持最新?

我们的数据是定期更新的,可以保证在学术界认可的范围内保持最新状态 

 

22.如果研究的物种没有专门的数据库,怎样进行注释?

根据同源的物种或者专家注释好的公共数据库进行  

 

23.怎样评价没有注释上得contigs

目前的技术条件和分析手段很难对没有注释上的基因进行评价,只能通过实验的方式去验证。

 

24.什么叫做contigscontig有多长?

Contig是指拼接之后的长序列,长度范围不定  

 

25.注释时搜索的机制是什么?怎样控制严谨度?

注释是根据序列同源性进行的,可以通过控制比对参数和指标进行控制  

 

26.ORF预测用的算法是什么?怎样评价这个算法?

根据密码子表,对6种可能的读码框进行搜索得到,算法成熟,无需评估  

 

27.测序数据分析得到的差异基因的假阳性有多大?

没有确定数字,不同实验情况差别很大,要大量实验验证  

 

28.怎样衡量和控制测序数据差异分析中的假阳性?

可以通过提高差异检验的P值,来控制假阳性的数量  

 

29.测序能否做到精确定量?

目前测序可以做到相对精确的定量分析,这个主要依靠测序的实验阶段 

 

30.MicroRNA预测的准确度有多大?

如果让我直接回答这个问题,我肯定说很高,现在基本上都在90%以上;但这也不表明我们技术人员敢保证实验中各个都能被验证出来;准确度是敏感性和特异性综合计算出来的数值,每个已发表的软件计算出来的准确度都是找的比较好的数据测试的;比如miRDeep比较适合预测动物中的miRNA,它的paper选取了人和狗的mirBASE数据,但是用果蝇的miRNA则达不到paper中的准确度。对于客户的数据,我们会设计出专门的预测算法(主要是找到具有特异性的miRNA特征),提高预测的准确度。         

 

 

 

版权声明 | 免责条款 | 隐私政策 | 友情链接 | 联系我们
Copyright 2011 北京市计算中心 版权所有 zving.com. All Rights Reserved
地址:北京市海淀区永丰产业基地丰贤中路7号北科产业3号楼 电话:010-59341999 邮编:100094 E-mail:jszx@bcc.ac.cn
备案号:京ICP备20111117号 技术支持:北京市计算中心生物计算事业部技术组