◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。
创业资讯门户网站
本篇文章给大家谈谈生物信息学软件,以及生物信息学软件的使用方法对应的知识点,希望对各位有所帮助,不要忘了收藏佰雅经济喔。
组学omics,研究的是整体.按照分析目标不同主要分为基因组学,转录组学,蛋白质组学,代谢组学.基因组学研究的主要是基因组DNA,使用方法目前以二代测序为主,将基因组拆成小片段后再用生物信息学算法进行迭代组装.当然这仅仅是第一步,随后还有繁琐的基因注释等数据分析工作.转录组学研究的是某个时间点的mRNA总和,可以用芯片,也可以用测序.芯片是用已知的基因探针,测序则有可能发现新的mRNA,蛋白组学针对的是全体蛋白,组要以2D-Gel和质谱为主,分为top-down和bottom-up分析方法.理念和基因组类似,将蛋白用特定的物料化学手段分解成小肽段,在通过质量反推蛋白序列,最后进行搜索,标识已知未知的蛋白序列.代谢组分析的代谢产物,是大分子和小分子的混合物,主要也是用液相和质谱.总而言之,这些技术都想从全局找变量,都是一种top-down的研究方法,原因很简单:避免‘只缘身在此山中’的尴尬.但因为技术局限,都各有缺点,尤其是转录组和蛋白组数据,基本上颠覆了以前一直认为的mRNA水平能代表蛋白水平的观念,因为这两组数据的重合度太低.所以目前很多研究都开始使用交叉验证方法.
GeneGazer是一个,不过上网看了以后觉得貌似据说比较戳。。。
下面是一篇文章,MAYBE对你有用,我虽然也学生物滴,不过跟生物信息学没什么交集哈。。。
Wisconsin 软件包( GCG )
Genetics Computer Group 公司开发的 Wisconsin 软件包,是一组综合性的序列分析程序,使用公用的核酸和蛋白质数据库。 SeqLab 是其图形用户界面( GUI ),通过它可以使用所有 Wisconsin 软件包中的程序及其支持的数据库。此外,它还提供了一个环境用于创建、显示、编辑和注释序列。 SeqLab 也可以被扩展使其可以包括其它公用或非公用的程序和数据库。
Wisconsin软件包由120多个独立的程序组成,每个程序进行一项单一的分析任务。包括所有程序的完整目录以及详细的描述可以在Wisconsin软件包的程序使用文档中找到。GCG支持两种核酸数据库(GenBank数据库, 简化版的EMBL核酸序列数据库)和三种蛋白质数据库(PIR,SWISS-PROT, SP-TrEMBL)。这些数据库既有GCG格式的(供大多数Wisconsin软件包程序使用),也有BLAST格式的(供BLAST数据库搜索程序使用)。同时还提供了用于LookUp程序以及数据库参考搜索的索引。
关于GCG,Wisconsin软件包,支持的平台以及硬件需求的一般性信息可以在GCG的主页以及Wisconsin软件包的用户手册中找到。GCG主页提供了更新信息以及Wisconsin软件包程序的完整列表。
SeqLab中可以使用多个序列分析程序的特性使用户可以应用这些程序顺序地回答相关问题或在对输入序列进行编辑后重复某项分析。而可以同时访问公用数据库和本机序列的优点使用户可以在一个分析中使用其中任意一种而不用先进行转换或格式化的工作。SeqLab可以解决的序列分析问题:
(1)在两条mRNA中寻找开放阅读框架,翻译并对比RNA与蛋白质序列
对两条相关的mRNA进行测序的用户可能希望寻找开放阅读框架(ORF)、翻译以及进行核酸与氨基酸序列间的两两对比。
把序列加入SeqLab Editor中,从Functions菜单中选中Map选项运行Map程序。Map输出文件包含了限制性酶切图和6种可能的翻译框架的ORF的显示。这些ORF的起始和终止位置可进行标记并选为SeqLab Editor中序列显示的范围,然后可用Edit菜单的Translate操作进行翻译。翻译结果自动出现在SeqLab Editor中。
两条相关的核酸或蛋白质序列可用Gap程序或BestFit程序进行对比。Gap程序寻找两条序列间的全局最优对比结果。适用于两条待比对的序列是进化相关的情况。BestFit程序寻找两条序列的局部最优对比结果,它适用于两条序列不是进化相关而是功能相关的情况。
(2)通过参考搜索寻找数据库中的相关条目并进行对比
研究一个特征序列家族成员的用户可能希望寻找这个家族中的其它成员并建立它们的多序列对比。
从Functions菜单中选取LookUp程序。LookUp在数据库条目的参考信息部分搜索描述词并建立匹配条目的列表。在参考部分的Definiton, Author, Keyword和Organism域中搜索描述词并在词之间使用“and”()、“or”(|)以及“but not”(!)布尔表达式。例如,在SWISS-PROT条目的Description域搜索“lactate dehydrogenase h chain”将产生一个输出文件,其中列出了乳酸脱氢酶 H 链(lactate dehydrogenase H chain)条目。这个输出文件可以从Output Manager窗口中加以显示,然后与用户的序列一起添加到SeqLab Editor中。
要创建所有这些序列的多序列对比,只要根据序列名称选中这些序列并从Functions菜单中运行PileUp程序。由PileUp产生的多序列文件也列在Output Manager窗口中并可以直接添加到SeqLab Editor中。推荐采用这一步的原因在于数据库条目的特征表格(Features table)信息可与对比结果一起被包括进来。必要时对比结果是可以被编辑的,并且如果数据库条目有相似的特征,这些特征可被附加给用户序列。
(3)用查询序列搜索数据库,将找到的条目与查询序列进行对比并产生进化系统树
克隆并测序一个未知功能基因的用户可能希望在一个数据库中搜索相似的序列。如果搜索到了,用户可能进一步希望创建与查询序列最相似的序列的多序列对比并产生数据的种系图。
往SeqLab Editor中添加一个查询序列并从Functions菜单中选取FASTA程序。FASTA程序在数据库中搜索与查询序列相似的序列。输出文件可从Output Manager窗口中加以显示并直接添加到SeqLab Editor中。在这个输出文件中数据库条目与查询序列局部相似性最好的区域被加以标记。如果要显示的话,每个数据库条目只有这种区域可以显示在SeqLab Editor中。不要的条目可以从SeqLab Editor中一起被删除。
从Functions菜单中选中PileUp程序创建这些序列的多序列对比。输出可从Output Manager窗口中加以显示并添加到SeqLab Editor中更新已经存在的未对比序列。必要时可对这一对比结果进行编辑,并且数据库条目的有用的特征表格信息也可以添加给查询序列。
从Functions菜单中选取PaupSearch程序,程序提供了一个PAUP(进化系统简约性分析(Phylogenetic Analysis Using Parsimony))中树搜索方式的GCG接口。PaupDisplay程序为PAUP中的树操作,鉴定以及显示方式提供了一个GCG接口。
(4)拼接交叠序列片段产生一连续序列,寻找并翻译这一序列的编码区域并在数据库中搜索相似序列
克隆了一个基因,把它分解克隆为一组有交叠的序列片段并进行了测序的用户可能希望把这些序列片段重新组装为一条连续的序列。一旦contig拼接完成,用户可能希望在序列中寻找阅读框架,翻译并在数据库中搜索相似序列。
Fragment Assmbly System的程序可用于拼接交叠序列片段。GelStart程序创建一个项目。GelEnter程序把序列片段复制到项目中。GelMerge程序寻找片段之间的交叠并把它们拼接成contig。GelAssemble程序是一个编辑器,可用于编辑这些连续的部分并解决片段之间的冲突问题。所有这些程序都可以从Functions菜单中选取。一旦拼接完成,最终构成此contig的连续序列可以被保存为一个序列文件并添加到SeqLab Editor中。
使用Map、Frames、TestCode或Codon Preference程序可预测序列中的编码区(所有这些程序可以从Functions菜单中选中)。使用Edit菜单的Select Range功能选择这些程序预测的区域并使用Edit菜单中的翻译操作把它们翻译为蛋白质。这些提出的翻译区域也可以作为核酸共有序列的特征被加入。
选取蛋白质序列然后选择Functions菜单中BLAST。BLAST程序在数据库中搜索与查询序列相似的条目,此程序既可以进行远程搜索也可以进行本机搜索。搜索结果可以从Output Manager窗口中加以显示。如果被搜索的是一个本机的数据库,结果文件可以加入SeqLab Editor或Main List窗口中,并允许对找到的序列进行进一步分析。
(5)对比相关的蛋白质序列,计算对比结果的共有序列,辨识序列中新的特征序列模式,在数据库中搜索包含此模式的序列或在对比结果的共有序列中搜索已知的蛋白质模式
辨识了一组相关序列的用户可能希望对其进行对比并计算对比结果的共有序列。如果可以在对比结果中找到保守模式,用户可能希望在数据库中搜索包含这种模式的其它序列。用户可能还希望在计算出的共有序列搜索已知的蛋白质模式。
选取待对比的序列,从Functions菜单中选取PileUp程序创建多序列对比,PileUp程序的输出文件可从Output Manager窗口中加以显示并添加到SeqLab Editor中。用户可以对对比结果的某个区域重新加以对比并以此替换原有的对比结果。只要选取一个区域并重新运行PileUp即可。从PileUp Options窗口中选取"realign a portion of an existing alignment(重新对比一个已存在的对比结果的一部分)",这可能有利于选择一个替代评分矩阵或不同的创建和扩展处罚。新的输出文件将包含最初的对比结果以及替换原始对比结果的重新对比的区域。
用Edit菜单中Consensus操作计算对比结果的共有序列。如果保守模式可被辨识,从Functions菜单中选取FindPatterns选项。从共有序列中剪切下此特征序列模式并把它粘贴到FindPatterns模式选择器中,并在数据库中搜索包含这一模式的序列。
此外,运行Motif程序可在共有序列中搜索已知的蛋白质模式。Motif在蛋白质序列中搜索在PROSITE,蛋白质位点和模式的PROSITE字典中已知的蛋白质模式。如果辨识出一个Motif,则给所有序列增加一个特征,并标出它的位置。图4.9显示了一个蛋白质序列的匹配、一个共有序列以及Motif搜索的结果。
(6)使用Profile进行相似性搜索并对比相关序列

《生物信息学与功能基因组学原著第三版》百度网盘pdf最新全集下载:
链接:
提取码:uosh
简介:本书为原著第三版,内容新颖,具有以下主要特色:
(1)内容全面,很好地将生物信息学与功能基因组学的理论和实践应用结合起来,非常重视生物信息学的具体应用技巧。
(2)内容新颖,包含了二代测序的进展。
(3)实用性强,包含了一些工具使用指导、R语言及命令行操作等。并且每一章都有问题集、与生物信息学有关的web操作训练以及相应的web链接,还列出了可以免费获取的生物信息学软件和作者推荐的读物。
(4)作者,为霍普金斯医学院教授,在国际上有很高的声誉和性。
(5)图文并茂。本书在论述的同时配以大量的图片,直观、形象、通俗易懂。
一般来说所用的分析工具有在线跟下载的 下面简要列举一些常用在线软件的使用 1、使用VecScreen工具,分析下列未知序列,输出序列长度、载体序列的区域、可能使用的克隆载体都有哪些。一、步骤:
打开google 首页,搜索VecScreen,进入VecScreen首页,复制序列,运行,View report。
二、结果:
输出序列长度918bp,
载体序列的区域456bp——854bp.
克隆载体:M13mp18 phage,pGEM-13Zf(+),pBR322,pRKW2。
2、使用相应工具,分析下列未知序列的重复序列情况,输出重复序列的区域、包含的所有重复序列的类型、重复序列的总长度及Masked Sequence。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的。
进入google首页,搜索RepeatMasker,进入RepeatMasker主页,进入RepeatMasking,复制序列,DNA source选择human,运行!点击超链接,在结果中选择
Annotation File :RM2sequpload_1287631711.out.html
3、使用CpGPlot/CpGReport/Isochore工具,分析下列未知序列,输出CpG岛的长度、区域、GC数量、所占的百分比及Obs/Exp值。一、步骤:
进入google首页,搜索CpGPlot,进入CpGPlot主页,program中选择cpgreport复制序列,运行!
二、结果:
CpG岛的长度:385bp
区域:48——432;
GC数量:Sum C+G=297,百分数=77.14
Obs/Exp:1.01
4、预测下面序列的启动子,输出可能的启动子序列及相应的位置。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Neural Network Promoter Prediction,进入主页,复制序列,选择eukaryote,运行!
二、结果:
位置:711—761 ,1388—1438,1755—1805;
5、运用Splice Site Prediction工具分析下面序列,分别输出内含子-外显子剪接位点给体和受体的区域及剪接处位置的碱基。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是human的
进入google首页,搜索Splice Site Prediction,进入主页,复制序列。Organism选择Human or other。其他默认,运行!
二、结果:
供体:
受体:
6、对下面序列进行六框翻译,利用GENESCAN综合分析(首先确定给定序列的物种来源)哪个ORF是正确的,输出六框翻译(抓图)和GENESCAN结果(包括predicted genes/exons 和 predicted peptide sequence(s) 两个部分)。一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST。得出序列是Zea的
进入google首页;搜索NCBI,进入主页,选择all resources(A~Z),选择O,选择ORF finder。复制序列,默认,运行!
二、结果:ORF图
三、步骤:进入google首页,搜索GENESCAN,进入主页,Organism:Maize, ,其他默认,运行!
四、结果:
G7、进入REBASE限制性内切酶数据库,输出AluI、MboI、EcoI三种内酶的Recognition Sequence和Type。
一、步骤:进入google首页,google in English,搜索REBASE,进入主页, 分别输入AluI、MboI、EcoI,运行!
在MboI中选择第一个,EcoI选择第二个。
二、结果:
ENSCAN图
8、使用引物设计工具,针对下列未知序列设计一对引物,要求引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃。请写出选择的一对引物(Forward Primer and Reverse Primer)、及相应的GC含量、引物的位点、Tm值和产物长度。一、步骤:进入google首页,搜索genefisher,进入主页,复制fasta格式,chechk input, sunmit, ; ;设置一下引物长度为20-25bp,扩增产物长度300-500bp,退火温度为50-60℃; 。
二、结果:
GC含量:
引物的位点:
Tm值:
产物长度:。
9、将下面的序列用NEBcutter 2.0工具分析,用产生平末端及有四个酶切位点的酶进行酶切,并用抓图提交胶图(view gel),要求1.4% agarose和Marker为100bp DNA Ladder。
一、步骤:
进入google首页,进入ICBI主页,对序列进行BLAST,得知是linear。
进入google首页,搜索NEBcutter 2.0,进入主页,选择linear,运行!选择custom digest, ,把“1”改为“4”,选择平末端,后digest。View gel。选择1.4% agarose和Marker为100bp。
二、结果:
然后就是蛋白质的了一般都在expasy里swiss-prot 适用于检索的 compute pi/mw 求理论分子量 分子量 protparam物理化学性质 protscale亲水性疏水性 peptidemass分析蛋白酶和化学试剂处理后的内切产物
NCBI()-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder()
分析实验序列外显子部分——GENSCAN()
分析实验序列的可能酶切位点——NEBcutter2.0 ()
注: Custom digest -- view gel
限制性内切酶数据库——REBASE()
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL()--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019
NCBI()-GenBank数据库
数据库相似性搜索——核酸序列与核酸数据库比较(BLASTN)
蛋白质序列与数据库中蛋白质序列比较(BLASTP)
两序列比对(Align two sequences)
DNA序列分析——ORF Finder()
分析实验序列外显子部分——GENSCAN()
分析实验序列的可能酶切位点——NEBcutter2.0 ()
注: Custom digest -- view gel
限制性内切酶数据库——REBASE()
设计引物扩增实验序列——Genefisher
Primer 3
蛋白质序列分析及结构预测:
1.预测蛋白质的分子量及等电点:ExPASy(Compute pI/Mw)
2.分析蛋白质的基本物理化学性质:ExPASy(ProtParam)
3.分析蛋白质的亲水性和疏水性:ExPASy(ProtScale)
4.分析蛋白质在各种蛋白酶和各种化学试剂处理后的内切产物:ExPASy(PeptideMass) [* :kinase K]
5.分析蛋白质的信号肽:ExPASy(SignalP)
6.预测蛋白质的二级结构:ExPASy(Jpred 3)
多物种分子系统发育分析:EMBL()--Toolbox--Clustal2W
人脂联素蛋白质序列:NP_004788
人类胰岛素生长因子IB前体:P05019
必学:1、计算机基础(linux+perl+R 或者 python+matlab)
2、生信基础知识(测序+数据库+数据格式)
3、生信研究领域(全基因组,全转录组,全外显子组,捕获目标区域测序)
4、生信应用领域(肿瘤筛查,产前诊断,流行病学,个性化医疗)
分而治之:
一、计算机基础,需要看三本书,一步步的学会学通,不需要刻意去找哪个书,一般linux是鸟哥私房菜,perl是小骆驼咯,R是R in action,但是看一本书只能入门,真正想成为菜鸟,必须每个要看五本书以上!我云盘里面有这基本上的高清打印版,大家可以去淘宝打印一下才几十块钱还包邮,对书比较讲究的也可以买正版,也不过是一百多块钱而已!
二、生信基础知识,测序方面,在百度文库找十几篇一代二代三代测序仪资料仔细研读,然后去优酷下载各大主流测序仪的动画讲解,再看看陈巍学基因的讲解;数据库先看看三大主流数据库——NCBI,ENSEMBL,UCSC,还有一些也可以了解一些(uniprot,IMGT,KEGG,OMIN,TIGR,GO)同样也是百度文库自己搜索资料,但是这次需要自己去官网一个个页面点击看,一个个翻译成中文理解吃透;数据格式讲起了就多了,这个主要是在项目流程中慢慢学,或者你有机会去上课,不然你看来也是立马忘记的,主要有sam,vcf,fasta,fastq,bed,gtf,gff,genbank,ensembl,psl等等
三、生信研究领域,各个领域主要是软件繁多,合起来常用的估计有上百个软件了,一般只有从业五六年以上的人才有可能把它们全部用过一遍,而且这也完全需要项目来训练,而不能仅仅是看看软件手册,但是研究领域最重要的是背后的原理,需要看各大牛的综述。
a) 生信基础软件(blast++套件,fastqc,flash,blast,solexaQA,NGS-QC-toolkit,SRA-toolkit,fastx-toolkit)
b) snp-calling相关软件(bwa,bowtie,samtools,GATK,VarScan.jar,annovar)
c) 基因组相关软件(velvet,SOAPdenovo2,repeatmasker,repeatscount,piler,orthMCL,inparanoid,clustw,muscle,MAFFT,quickparanoid,blast2go,RAxML,phyML)
d) 转录组相关软件(trinity,tophat,cufflinks,RseQC,RNAseq,GOseq,MISO,RSEM,khmer,screed,trimmomatic,transDecoder,vast-tools,picard-tools,htseq,cuffdiff,edgeR,DEseq,funnet,davidgo,wego,kobas,KEGG,Amigo,go)
生物信息学软件的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于生物信息学软件的使用方法、生物信息学软件的信息别忘了在本站进行查找喔。
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。