×

alignment生物信息学

alignment生物信息学(生物信息学实验教学中如何巧用数据库)

admin admin 发表于2024-04-21 02:59:22 浏览24 评论0

抢沙发发表评论

其实alignment生物信息学的问题并不复杂,但是又很多的朋友都不太了解生物信息学实验教学中如何巧用数据库,因此呢,今天小编就来为大家分享alignment生物信息学的一些知识,希望可以帮助到大家,下面我们一起来看看这个问题的分析吧!

本文目录

生物信息学实验教学中如何巧用数据库

生物信息学中数学占了很大的比重。统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明. Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法. 问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BLAST,FASTA. 综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。

生物信息学有哪些经典的应用实例

1,测序与序列比对(Sequence Alignment)测序是生物信息学的基础和主要数据来源,可以是人类数据也可以是其他的数据。序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.2, 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.3, 基因识别,非编码区分析研究.基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等.

什么是生物信息学

生物信息学一, 生物信息学发展简介生物信息学是建立在分子生物学的基础上的,因此,要了解生物信息学,就必须先对分子生物学的发展有一个简单的了解.研究生物细胞的生物大分子的结构与功能很早就已经开始,1866年孟德尔从实验上提出了假设:基因是以生物成分存在,1871年Miescher从死的白细胞核中分离出脱氧核糖核酸(DNA),在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前,人们仍然认为染色体蛋白质携带基因,而DNA是一个次要的角色.1944年Chargaff发现了著名的Chargaff规律,即DNA中鸟嘌呤的量与胞嘧定的量总是相等,腺嘌呤与胸腺嘧啶的量相等.与此同时,Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构.1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构(双螺旋).DNA以磷酸糖链形成发双股螺旋,脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对.这个模型表明DNA具有自身互补的结构,根据碱基对原则,DNA中贮存的遗传信息可以精确地进行复制.他们的理论奠定了分子生物学的基础.DNA双螺旋模型已经预示出了DNA复制的规则,Kornberg于1956年从大肠杆菌(E.coli)中分离出DNA聚合酶I(DNA polymerase I),能使4种dNTP连接成DNA.DNA的复制需要一个DNA作为模板.Meselson与Stahl(1958)用实验方法证明了DNA复制是一种半保留复制.Crick于1954年提出了遗传信息传递的规律,DNA是合成RNA的模板,RNA又是合成蛋白质的模板,称之为中心法则(Central dogma),这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用.经过Nirenberg和Matthai(1963)的努力研究,编码20氨基酸的遗传密码得到了破译.限制性内切酶的发现和重组DNA的克隆(clone)奠定了基因工程的技术基础.正是由于分子生物学的研究对生命科学的发展有巨大的推动作用,生物信息学的出现也就成了一种必然.2001年2月,人类基因组工程测序的完成,使生物信息学走向了一个高潮.由于DNA自动测序技术的快速发展,DNA数据库中的核酸序列公共数据量以每天106bp速度增长,生物信息迅速地膨胀成数据的海洋.毫无疑问,我们正从一个积累数据向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能,"生物信息学"正是从这一前提产生的交叉学科.粗略地说,该领域的核心内容是研究如何通过对DNA序列的统计计算分析,更加深入地理解DNA序列,结构,演化及其与生物功能之间的关系,其研究课题涉及到分子生物学,分子演化及结构生物学,统计学及计算机科学等许多领域.生物信息学是内涵非常丰富的学科,其核心是基因组信息学,包括基因组信息的获取,处理,存储,分配和解释.基因组信息学的关键是"读懂"基因组的核苷酸顺序,即全部基因在染色体上的确切位置以及各DNA片段的功能;同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计.了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断,治疗内在规律.它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律",解释生命的遗传语言.生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿.二, 生物信息学的主要研究方向生物信息学在短短十几年间,已经形成了多个研究方向,以下简要介绍一些主要的研究重点.1,序列比对(Sequence Alignment)序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的.2, 蛋白质结构比对和预测基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要.3, 基因识别,非编码区分析研究.基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(HiddenMarkov Model)和GENSCAN,Splice Alignment等等.4, 分子进化和比较基因组学分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因Paralogous: 相同种族,不同功能的基因Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现.5, 序列重叠群(Contigs)装配根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题.6, 遗传密码的起源通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材.7, 基于结构的药物设计人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益.8, 其他如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.三, 生物信息学与机器学习生物信息的大规模给数据挖掘提出了新课题和挑战,需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题.究竟原因,是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义:学习是系统的变化,这种变化可使系统做相同工作时更有效.机器学习的目的是期望能从数据中自动地获得相应的理论,通过采用如推理,模型拟合及从样本中学习,尤其适用于缺乏一般性的理论,"噪声"模式,及大规模数据集.因此,机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识,发现知识成为可能.机器学习方法在大样本,多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别,标注,以避免即耗时又花费巨大的人工处理方法.早期的科学方法—观测和假设----面对高数据的体积,快速的数据获取率和客观分析的要求---已经不能仅依赖于人的感知来处理了.因而,生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的,从某种意义来说,是统计模型拟合的延续,其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类,神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.目前研究重心包括:1)观测和探索有趣的现象.目前ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间,如常规的主成分分析(PCA),核主成分分析(KPCA),独立成分分析(Independent component analysis),局部线性嵌套(LocallyLinear embedding).2)生成假设和形式化模型来解释现象.大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中,癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展,也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤其如此,因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次,机器学习方法中常采用"黑箱"操作,如神经网络和隐马尔可夫模型,对于获得特定解的内在机理仍不清楚.四, 生物信息学的数学问题生物信息学中数学占了很大的比重.统计学,包括多元统计学,是生物信息学的数学基础之一;概率论与随机过程理论,如近年来兴起的隐马尔科夫链模型(HMM),在生物信息学中有重要应用;其他如用于序列比对的运筹学;蛋白质空间结构预测和分子对接研究中采用的最优化理论;研究DNA超螺旋结构的拓扑学;研究遗传密码和DNA序列的对称性方面的群论等等.总之,各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的,以下以统计学和度量空间为例来说明.1, 统计学的悖论数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了,如图1:图1 两组同心圆的数据集图1是两组同心圆构成的数据集,显然,两组数据集的均值均在圆点,这也就说明了要采用常规的均值方法不能将这两类分开,也表明均值并不能带来更多的数据的几何性质.那么,如果数据呈现类似的特有分布时,常有的进化树算法和聚类算法(如K-均值)往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.2, 度量空间的假设在生物信息学中,进化树的确立,基因的聚类等都需要引入度量的概念.举例来说,距离上相近或具有相似性的基因等具有相同的功能,在进化树中满足分值最小的具有相同的父系,这一度量空间的前提假设是度量在全局意义下成立.那么,是否这种前提假设具有普适性呢我们不妨给出一般的描述:假定两个向量为A,B,其中,,则在假定且满足维数间线性无关的前提下,两个向量的度量可定义为:(1)依据上式可以得到满足正交不变运动群的欧氏度量空间,这也是大多数生物信息学中常采用的一般性描述,即假定了变量间线性无关.然而,这种假设一般不能正确描述度量的性质,尤其在高维数据集时,不考虑数据变量间的非线性相关性显然存在问题,由此,我们可以认为,一个正确的度量公式可由下式给出:(2)上式中采用了爱因斯坦和式约定,描述了变量间的度量关系.后者在满足(3)时等价于(1),因而是更一般的描述,然而问题在于如何准确描述变量间的非线性相关性,我们正在研究这个问题.五, 几种统计学习理论在生物信息学中应用的困难生物信息学中面对的数据量和数据库都是规模很大的,而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难,可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾,一般从数学上来看,引入某个正则项来改善性能是必然的,Kolmogorov复杂性及其存在的问题给出简要介绍.支持向量机(SVM)是近来较热门的一种方法,其研究背景是Vapnik的统计学习理论,是通过最大化两个数据集的最大间隔来实现分类,对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质,这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择,因此,受到广泛的注意.在生物信息学中也开始受到重视,然而,核函数的选择问题本身是一个相当困难的问题,从这个层次来看,最优核函数的选择可能只是一种理想,SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质,前者从编码的角度,后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的,因此由此衍生了MDL原则(最小描述长度),其最初只适用于离散数据,最近已经推广至连续数据集中,试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高,导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑,BIC准则对模型复杂度较高的给予大的惩罚,反之,惩罚则小,隐式地体现了奥卡姆剃刀("Occam Razor")原理,近年也广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性,在数据量较大时处理较慢.因此,在这一方面仍然有许多探索的空间.六, 讨论与总结人类对基因的认识,从以往的对单个基因的了解,上升到在整个基因组水平上考察基因的组织结构和信息结构,考察基因之间在位置,结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变,本节就这些问题做出探讨和思索.启发式方法:Simond在人类的认知一书中指出,人在解决问题时,一般并不去寻找最优的方法,而只要求找到一个满意的方法.因为即使是解决最简单的问题,要想得到次数最少,效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大,后者不依赖于问题的空间,不需要进行全部搜索,而只要能达到解决的程度就可以了.正如前所述,面对大规模的序列和蛋白质结构数据集,要获得全局结果,往往是即使算法复杂度为线性时也不能够得到好的结果,因此,要通过变换解空间或不依赖于问题的解空间获得满意解,生物信息学仍需要人工智能和认知科学对人脑的进一步认识,并从中得到更好的启发式方法.问题规模不同的处理:Marvin Minsky在人工智能研究中曾指出:小规模数据量的处理向大规模数据量推广时,往往并非算法上的改进能做到的,更多的是要做本质性的变化.这好比一个人爬树,每天都可以爬高一些,但要想爬到月球,就必须采用其他方法一样.在分子生物学中,传统的实验方法已不适应处理飞速增长的海量数据.同样,在采用计算机处理上,也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐(sequence Alignment)问题上,在小规模数据中可以采用动态规划,而在大规模序列对齐时不得不引入启发式方法,如BALST,FASTA.乐观中的隐扰生物信息学是一门新兴学科,起步于20世纪90年代,至今已进入"后基因组时代",目前在这一领域的研究人员均呈普遍乐观态度,那么,是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史,在1960年左右,西蒙曾相信不出十年,人类即可象完成登月一样完成对人的模拟,造出一个与人智能行为完全相同的机器人.而至今为止,这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域,但对人的思维行为的了解远未完全明了.从本质来看,这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的;从研究角度来看,将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为,期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学,其目的是期望从基因序列上解开一切生物的基本奥秘,从结构上获得生命的生理机制,这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为,也来自于早期分子生物学,生物物理和生物化学的成就.然而,从本质上来讲,与人工智能研究相似,都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能,而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考,这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 现在说肯定的话也许为时尚早.综上所述,不难看出,生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密.在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果.那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力.毫无疑问,正如Dulbecco1986年所说:"人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关".但要完全破译这一序列以及相关的内容,我们还有相当长的路要走.***隐藏网址***生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白学(Proteomics)两方面,具体说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是一门利用计算机技术研究生物系统之规律的学科。目前的生物信息学基本上只是分子生物学与信息技术(尤其是因特网技术)的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据,其研究工具是计算机,研究方法包括对生物学数据的搜索(收集和筛选)、处理(、整理、管理和显示)及利用(计算、模拟)。1990年代以来,伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及,数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战:数以亿计的ACGT序列中包涵着什么信息?基因组中的这些信息怎样控制有机体的发育?基因组本身又是怎样进化的?生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪,如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物信息学的主要研究方向: 基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学

对于一个基因,生物信息学分析都要分析什么

楼主的问题问的太宽泛了。请问你是具体问题出在哪里呢?你可以利用Biomart这个工具(www.biomart.org),找到种间的orthlogue关系以及各种类型的注释ID直接的对应关系。你也可以用ncbi里面的homologene数据库去找种间的同源序列.multiple alignment可以用clust W或者mega做。系统发育树可以用mega做。PHYLIP好像也可以。基因结构上可以做做gc含量,外显子大小,splicing,调控序列什么的蛋白结构预测软件很多,不过我没做过。ncbi有一个conserved domain 的数据库,你可以和他比较下,分析下结构域。表达情况。。。。你可以找找相关的EST(ncbi)或者array(。。这个不记得了,在ncbi上应该有别人的数据)的表达数据。

生物学分支学科特点 互联网上生物学信息资源类型和特点生物学信息数据库特点

一、名词解释: 1、生物信息学:生物分子信息的获取、存贮、分析和利用;以数学为基础,应用 计算机技术,研究生物学数据的科学。 2、相似性(similarity):两个序列(核酸、蛋白质)间的相关性。 3、同源性(homology):生物进化过程中源于同一祖先的分支之间的关系。 4、同一性(identity):两个序列(核酸、蛋白质)间未发生变异序列的关系。 5、序列比对(alignment):为确定两个或多个序列之间的相似性以至于同源性 ,而将它们按照一定的规律排列。 6、生物数据库检索(database query,数据库查询):对序列、结构以及各种二 次数据库中的注释信息进行关键词匹配查找。 7、生物数据库搜索(database search):通过特定序列相似性比对算法,找出核 酸或蛋白质序列数据库中与待检序列具有一定程度相似性的序列。 二、简答题: 1、分子生物学的三大核心数据库是什么?它们各有何特点? GenBank核酸序列数据库;SWISS-PROT蛋白质序列数据库;PDB生物大分子结构数 据库; 2、简述生物信息学的发生和发展。 20世纪50年代,生物信息学开始孕育; 20世纪60年代,生物分子信息在概念上将计算生物学和计算机科学联系起来; 20世纪70年代,生物信息学的真正开端; 20世纪70年代到80年代初期,出现了一系列著名的序列比较方法和生物信息分析 方法; 20世纪80年代以后,出现一批生物信息服务机构和生物信息数据库; 20世纪90年代后,HGP促进生物信息学的迅速发展。 3、生物信息学的主要方法和技术是什么? 数学统计方法 ;动态规划方法 ;机器学习与模式识别技术;数据库技术及数据 挖掘 ;人工神经网络技术;专家系统;分子模型化技术;量子力学和分子力学 计算;生物分子的计算机模拟;因特网(Internet)技术 4、常见的DNA测序方法有哪些?各有何技术特点和优缺点? Maxam-Gilbert DNA化学降解法:优点:可测完全未知序列及CG富含区;缺点:操 作繁琐; Sanger双脱氧链终止法:优点:简便,可测较长片段;缺点:需已知部分序列或 加接头; 焦磷酸测序:优点:廉价、高通量;缺点:一次测序片段短。 5、分子生物学数据库有哪些类型?各有何特点? 基因组数据库:基因组测序 核酸序列数据库:核酸序列测定 一次数据库:蛋白质序列数据库:蛋白质序列测定。生物大分子(蛋白质)三维结 构数据库:X-衍射和核磁共振 特点:数量少,容量大,更新快 二次数据库:上述四类数据库和文献资料为基础构建 特点:数量多,容量小,更新慢 6、简述NCBI Entrez系统的功能。 高级检索系统;查找核酸、蛋白、文献、结构、基因组序列、大分子三维结构、 突变数据、探针序列、单核苷酸多态性等数据。 7、简述NCBI BLAST的功能和种类。 序列相似性比对工具; 对核酸:普通blastn,对高度相似序列megablast; 对蛋白质:普通blastp,对保守域rpsblast; 对人工翻译序列:核酸翻译序列对蛋白质序列blastx,蛋白质对翻译序列tblastn ,核酸翻译序列对翻译序列tblastx; 其它:基因组blast,基因表达序列搜索GEO blast,序列两两比对…… 8、举例说明生物信息学软件的应用。 9、生物芯片制作和分析过程中可以应用哪些生物信息学软件。 三、论述题: 1、什么是生物信息学?生物信息学有哪些主要应用领域? 生物分子信息的获取、存贮、分析和利用;以数学为基础,应用计算机技术,研 究生物学数据的科学。 生物分子数据的收集与管理;数据库搜索及序列比较;基因组序列分析;基因表 达数据的分析与处理;蛋白质结构预测。 2、生物信息学在医药领域有什么应用? 辅助诊断(遗传病,HLA分型); 研究药物作用机制,辅助新药物开发和制造。 3、人类基因组计划中主要使用的那些生物信息学手段?它们对人类基因组计划发 挥了哪些重大作用? 单一测序结果判读;contig和chromosome拼接;识别基因区及其调控区;寻找基 因相互作用的时空关系; 4、试述蛋白质二级结构预测的主要策略和方法。 策略: 目标:判断每一段中心的残基是否处于a螺旋、b折叠、b转角(或其它状态)之一 的二级结构态,即三态。 a、理论分析法(从头计算法):通过理论计算(分子力学、分子动力学等)进行 结构预测。优点:不需要经验数据,由一级结构推测高级结构 缺点:天然和未折叠蛋白间能级差很小 (kcal/mol);蛋白质可能的构想空间庞大 ,针对蛋白质折叠的计算量巨大;计算模型中力场参数不准确。 b、统计方法:对已知结构的蛋白质进行统计分析,建立序列到结构的映射模型, 进而根据映射模型对未知结构的蛋白质直接从氨基酸预测结构。 经验性方法:根据一定序列形成一定结构的倾向进行结构预测。通过对已知结构 的蛋白质进行统计分析,发现各种氨基酸形成不同二级结构的倾向,从而形成一 系列关于二级结构预测的规律。 结构规律提取方法:从蛋白质结构数据库中提取关于蛋白质结构形成的一般性 规律,指导建立未知结构的蛋白质模型。 同源模型化方法:通过同源序列分析或模式匹配,预测蛋白质的空间结构或结 构单元。 方法: 1、Chou-Fasman方法;(基于单个氨基酸残基统计的经验参数方法,由Chou 和 Fasman在20世纪70年代提出来。通过统计分析,获得每个残基出现于特定二级结 构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。)2、 GOR方法;(是一种基于信息论和贝叶斯统计学的方法GOR将蛋白质序列当作一连 串的信息值来处理;GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而 且考虑相邻残基种类对该位置构象的影响)3、基于氨基酸疏水性的方法;4、最 邻近方法;5、人工神经网络方法;6、综合方法:7、利用进化信息预测蛋白质的

生物信息学中:序列联配的工具 特点 用途是什么急求,谢谢!

联配(alignment)的目的,是对它们的序列相似性进行评估,找出这些序列中结构或功能相似性区域等。通过联配未知序列与已知序列(其功能或结构等已知)的相似程度,我们可以判断或推测未知序列的结构与功能。一般我们常用的软件是Blast吧。用Blast的结果进行进一步的分析

对一种疾病相关基因或其他感兴趣的基因进行生物信息学分析

光从基因表达谱找有异常表达的基因也不全面。做出来的基因表达谱往往有很多基因存在差异,有的可能是一些下游的免疫生物学反应,有的可能是误差或个体差异(尤其是做的数量少时),剩下的可能才有加以考虑的价值。 另外,有时疾病易感基因本身表达并无改变,而是通过调控其它基因发挥作用。所以,致病基因的寻找应从多种途径着手。 一孔之见,如有谬误之处,请大家指教。 多谢verygood 兄,我的第一步可能只能做到表达谱的改变这一层次,如果有机会做下去的话,如你所言,应该从各种途径全面考虑。我现在的想法是以表达谱基因芯片技术为核心方法,做出患者和正常人小梁细胞基因表达谱的差异的总体信息,如maxon和你所说,这样可能找到新的致病相关基因,也可能不行,我想着起码是一个方面吧(不知对不对)。 我目前所能考虑的是如何组织自己的思路,来吧这个工作做好。还有几个问题请教: 1.基因文库的建立方法中,比如有一篇文章中选了1118个基因进行研究,通过BLAST,分成了已知基因、已知序列、未知基因等几类,我不明白他们是如何从基因文库(提取细胞全mRNA逆转录来的)中选定的?(还是从别的地方查到的?),我理解好像是直接测序,请问是如何从基因文库中找出(分离)这些基因一一测序的? 2.如何使用BLAST?比如同一文章中所说的已经测定出的1118个小梁细胞的表达谱基因序列我如何能查到?能给我讲解一下吗?太感谢了 有没有注意到一个问题,基因芯片只能检测已知的基因或序列,对于那些未知的则无能为力,一孔之见. Andrew说得不错,不过芯片中的基因数也在随对基因研究的深入而在不断增加。对普通的研究来说,主要的已知通路基本已能包括。 多谢指教。有能回答我上面几个问题的吗?我还是有些不明白,看了一天资料也没有明白。 请问:如果我用一个正常群体的基因表达谱cDNA定做了一个芯片(含已知的1118个基因),在与患者cDNA样品的杂交中发现有一个基因表达下调了或者不表达,其原因是什么呢?是真的没有表达还是别的? 多谢多谢 样本是否一致?比如血细胞,其细胞亚群是否有可比性? 有对照吗? 样本是随机样本,小梁细胞是均一的内皮细胞。至于对照,你指的是阴性对照、阳性对照还是转录的内对照? 小弟所知甚少,低级错误也可能犯,请多多指教。 除去实验和DNA芯片误差外,在与患者cDNA样品的杂交中发现有一个基因表达下调了或者不表达,需要用RT-PCR进行验证。其表达的下调或不表达,可能是受到其上游基因的调控,也可能是基因本身结构有改变,如无义突变可检测到表达的下降。对这些经RT-PCR证实后,应该进行测序,察看这些基因是否有结构的异常。 在天天站长和各位战友的帮助下,我对现在所申请的课题从无知到略懂,终于完成了自然科学基金申请书的写作,在明天,我们的这份凝结着大家的汗水和智慧的申请书就要送出去之前,对各位这几天来的帮助表示诚挚的感谢,尽管这是我第一次写这样的申请,尽管几乎没有中的可能,我还是觉得自己学到了很多东西,也结识了很多好朋友,真诚的感谢给了我这个机会! 我把这份申请的正文部分放在了附件里了,希望感兴趣的朋友可以看一下,提一些宝贵意见,因为我认为这样的一个课题还是很值得去做的,尽管我们可能没有这个机会和能力去做。 再次感谢大家啦! 88411-.doc《/A》 (76.5k) 恭祝申请成功!! 谢谢天天站长的指教,谢谢各位战友。 近日科研基金开始申报,老板急命申请课题。由于对基础刚刚接触,故请教站长以及各位战友。 1目前收集到一少见的单基因病(癫痫方面),在国内未见临床和基础报道。临床工作,包括留取血样已经完成。 2本病自从98年以来,致病基因得到了定位和克隆,但存在遗传异质性,相同的致病基因的突变位点也不相同。多篇文章发表在nature genetic等权威杂志上。最新的研究显示,仍有其他未知的致病基因。 3合作实验室,有曾经成功的定位和克隆了一例致病基因的经验。 我们申请的目的是致病基因的定位和克隆,并有望发现新的致病基因。 想请教各位: 1在目前仅仅掌握临床资料的情况下,能否提出申请? 2还需要做那一方面的工作? 2如果可以,可能申请失败的原因是什麽? 谢谢各位,急切盼望指教!谢谢 如果是单基因疾病,那要看你收集的家系怎么样了。另一个问题主要是你的临床诊断正确与否。我不是临床的,这个临床诊断事关重大,如果有些是诊断错误或分型有误的,很有可能导致无法discover disease gene 单基因疾病这方面的技术策略已经很成熟,有很多文献可以参考。国内也有多家研究机构在做。 我想研究下某个基因SNP与一种疾病的关联。国外已有报道在2个位点上有联系。那么我是进行RFLP分析,还是用SNP分析? 各位大侠,我最近在做一个X染色体连锁遗传家系的疾病相关基因的定位,现在已用两个位点的MARKER(STR)做了基因组扫描,但是在连锁分析时遇到了困难,我用的是LINKAGE(version 5.1). 我想请教各位在进行连锁分析时,性连锁与常染色体连锁遗传参数设置有何不同?急盼各位予以赐教,不胜感激! 答无事转转 我想研究下某个基因SNP与一种疾病的关联。国外已有报道在2个位点上有联系。那么我是进行RFLP分析,还是用SNP分析? RFLP是最早期的遗传标记(第一代),随着遗传学的发展和测序片段的不断增多,已出现了第二代、第三代遗传标记。RFLP通过酶切作用进行分析,操作简单,花费不多,但特异性差,有被淘汰的趋势;SNP定位明确,相对花费较大,对其分析可以通过测序、小测序(Snapshot)、荧光探针、SNP芯片等方法。 具体行RFLP分析,还是用SNP分析看你的研究目标和经济实力。 请教verygood,能否介绍一下小测序(snapshot)? 我最近想检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),但我要研究的病未见报道。请问我应对所有外显子测序吗? coldant wrote: 请教verygood,能否介绍一下小测序(snapshot)? 我最近想检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),但我要研究的病未见报道。请问我应对所有外显子测序吗? Snapshot为小测序反应,其原理简单地说是首先扩增包含SNP在内的一段DNA模板,再对PCR产物进行纯化,加入带有不同荧光的ddNTP和中间探针(所谓中间探针即SNP前20个bp左右寡核苷酸序列,探针与ddNTP按照模板序列结合,因为是ddNTP,其后不能再延伸,而结合的ddNTP反应的就是SNP情况),再纯化一下进行电泳,根据不同的荧光可以判断相应SNP基因型。 该方法适用于对已知SNP等位基因型进行确认,对探针要求不高;但操作步骤多,大规模应用较为困难(采用基于毛细管的测序方法,如ABI3100测序仪系列时,相对工作量小些)。 检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),建议你先研究一下这些位点。当然如果基因序列很短,也可以直接测序,因为目前发现的SNP或mutation毕竟还只有预计值的2%左右。 Good luck 谢谢verygood:) 最近忙着论文答辩的事情。我对于这方面完全是菜鸟,但是老板说要有新意,同学给出了个这样的主意。 目前已经提取DNA,进行基因分型。但是我希望测序进行确定。上面提到的SNAPSHOT是小型测序,我已经确定了突变位点,片段在300bp左右,是否可以全部测序? 另外是全部的样本测序还是就挑选几个杂合子和纯合子测就可以证明?这方面的资料在哪里有介绍?我还是新手:( 无事转转 wrote: 谢谢verygood:) 最近忙着论文答辩的事情。我对于这方面完全是菜鸟,但是老板说要有新意,同学给出了个这样的主意。 目前已经提取DNA,进行基因分型。但是我希望测序进行确定。上面提到的SNAPSHOT是小型测序,我已经确定了突变位点,片段在300bp左右,是否可以全部测序? 另外是全部的样本测序还是就挑选几个杂合子和纯合子测就可以证明?这方面的资料在哪里有介绍?我还是新手:( 如果只是300bp,且标本不多的话,还是直接测序好,因为不仅可以明确已知的SNP基因型,还可能顺带发现一些文献未报道过的,这也就是说所有标本都要测序。 如果只想对已知的那些SNP进行基因分型,你可以采用SNAPSHOT方法,当然亦可以用RFLP,只是特异性差些,所得的条带不一定与目标SNP不同等位基因有关,可能切到染色体其他区域。 这方面到没有一定的资料,我们也是做过以后才逐渐理解的,具体采用何种技术还是因地制宜吧。 verygood wrote 检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),建议你先研究一下这些位点。当然如果基因序列很短,也可以直接测序,因为目前发现的SNP或mutation毕竟还只有预计值的2%左右。 谢谢verygood老师。我研究的基因编码区2930bp,mRNA5084bp,基因全长80kb。本打算直接测序,但病人组18例(石蜡),对照组20例(外周血DNA行吗?),费用可能要6万!!!,所以现在想改成PCR-SSCP加异常条带测序,您看行吗? verygood wrote: 如果只是300bp,且标本不多的话,还是直接测序好,因为不仅可以明确已知的SNP基因型,还可能顺带发现一些文献未报道过的,这也就是说所有标本都要测序。 如果只想对已知的那些SNP进行基因分型,你可以采用SNAPSHOT方法,当然亦可以用RFLP,只是特异性差些,所得的条带不一定与目标SNP不同等位基因有关,可能切到染色体其他区域。 这方面到没有一定的资料,我们也是做过以后才逐渐理解的,具体采用何种技术还是因地制宜吧。 测序以后的结果要分析突变有什么软件检测呢?另外的统计学分析是不是有专门的生物统计学书有相关的介绍?还是就是普通的统计就可以了? To coldant : 对于初步研究,您的方法应该可行。 To 无事转转: 测序以后的结果分析突变主要通过序列比对初筛,可以利用Blast进行。不过确定是否确实为突变需要谨慎,应扩大样本再进行分型研究。   作疾病相关研究,你的case 和control太少了。一般国内期刊好像也要200对200,国外一般性期刊需要400-500对500左右。一流的杂志一般都是至少1000对1000的。由于你经费不足,你不可能作测序,你还是直接选用已知的位点做。因为这个基因跟多种疾病相关,说明这个基因很保守,很有可能跟你所研究的疾病相关,就算没有相关,通过与年龄、性别、该疾病的危险因素综合分析(就是玩数字游戏),一般总能发文章的。     寻找疾病相关基因的SNP,目前主要是直接测序(外周血抽提的DNA,而不是组织),通过对比病人和正常人(无该疾病的人)该基因序列,搜寻SNP。verygood所说的blast,实际上并不适用。   你可对目标SNP所在区域设计一对prime1,使得该SNP位于其中,PCR长度500bp左右。同时在PRIMER1覆盖的区域内,再设计一对PRIMER2。PRIMER2其中一个引物的3‘最后一个碱基必需是与目标SNP所在位点的正常碱基互补,如此,若病人在此位点突变,将导致PRIMER2一对引物不能扩增。另外PRIMER2与PRIMER1至少相距100多bp,PRIMER2产物为200多BP。这样,在一个PCR反应中同时放入这2对引物,就可以得到4个片段(在设计引物时,必须使得这4个片段的长度不同,以便电泳时区别),而含有目标SNP的个体,则只有3个片段,通过电泳,就可以确定是否该个体有突变。 这个方法具体的名称我忘了。希望能对你有所帮组。 maxon wrote:   寻找疾病相关基因的SNP,目前主要是直接测序(外周血抽提的DNA,而不是组织),通过对比病人和正常人(无该疾病的人)该基因序列,搜寻SNP。verygood所说的blast,实际上并不适用。   你可对目标SNP所在区域设计一对prime1,使得该SNP位于其中,PCR长度500bp左右。同时在PRIMER1覆盖的区域内,再设计一对PRIMER2。PRIMER2其中一个引物的3‘最后一个碱基必需是与目标SNP所在位点的正常碱基互补,如此,若病人在此位点突变,将导致PRIMER2一对引物不能扩增。另外PRIMER2与PRIMER1至少相距100多bp,PRIMER2产物为200多BP。这样,在一个PCR反应中同时放入这2对引物,就可以得到4个片段(在设计引物时,必须使得这4个片段的长度不同,以便电泳时区别),而含有目标SNP的个体,则只有3个片段,通过电泳,就可以确定是否该个体有突变。 这个方法具体的名称我忘了。希望能对你有所帮组。 呵呵,我指的是借用blast来方便序列的比对,当然applied biosystems有更好的软件,不过您如未购买相应仪器则很难获得。 至于标本量的多少,确实是越多越好。对于相对危险度为2的致病位点来说,case-control各1000例检测效能才能达到100%,病例数减少则检测效能也随之降低。但对于初步研究,还不清楚该位点是否有研究疾病有关就大规模投入,有可能颗粒无收。 供参考。 今天基康公司建议我直接测序,把样本4个一组形成一个“pool?”来测,节省经费。他们本来的建议是正常和病人各用4例分别形成1个“pool”来找SNP,然后用公司的TAG MAN(一种新技术)大规模检测SNP,但我没有这么多病人标本。所以只好只是测序。 请大侠看看这样好吗?如果我总共25例病人分成6个“pool”测序再分析可以吗? 先谢谢了。 maxon wrote:   寻找疾病相关基因的SNP,目前主要是直接测序(外周血抽提的DNA,而不是组织),通过对比病人和正常人(无该疾病的人)该基因序列,搜寻SNP。verygood所说的blast,实际上并不适用。   你可对目标SNP所在区域设计一对prime1,使得该SNP位于其中,PCR长度500bp左右。同时在PRIMER1覆盖的区域内,再设计一对PRIMER2。PRIMER2其中一个引物的3‘最后一个碱基必需是与目标SNP所在位点的正常碱基互补,如此,若病人在此位点突变,将导致PRIMER2一对引物不能扩增。另外PRIMER2与PRIMER1至少相距100多bp,PRIMER2产物为200多BP。这样,在一个PCR反应中同时放入这2对引物,就可以得到4个片段(在设计引物时,必须使得这4个片段的长度不同,以便电泳时区别),而含有目标SNP的个体,则只有3个片段,通过电泳,就可以确定是否该个体有突变。 这个方法具体的名称我忘了。希望能对你有所帮组。 呵呵,谢谢了。我在相关文献上看到的是设计2个引物(突变和未突变的),另外反义引物相同。正常对照组设计的引物很象你所谈到的PROMER2。我就纳闷为什么这样做? verygood wrote: To 无事转转: 测序以后的结果分析突变主要通过序列比对初筛,可以利用Blast进行。不过确定是否确实为突变需要谨慎,应扩大样本再进行分型研究。 确定是不可能做出结论,只是提出个展望。测序以后可以用SEQUENCEMAN软件分析,但是后面我想加个RFLP,按照相关文献报道来进行。这样分析起来好象就有更多的数据支持。 coldant wrote: 今天基康公司建议我直接测序,把样本4个一组形成一个“pool?”来测,节省经费。他们本来的建议是正常和病人各用4例分别形成1个“pool”来找SNP,然后用公司的TAG MAN(一种新技术)大规模检测SNP,但我没有这么多病人标本。所以只好只是测序。 请大侠看看这样好吗?如果我总共25例病人分成6个“pool”测序再分析可以吗? 先谢谢了。 呵呵,你也是在基康做吗?他们好象是用探针来检测SNP啊。我听说探针的准确性不如直接测序。不知道他们和你提出的是什么样的建议?:) maxon wrote:   作疾病相关研究,你的case 和control太少了。一般国内期刊好像也要200对200,国外一般性期刊需要400-500对500左右。一流的杂志一般都是至少1000对1000的。由于你经费不足,你不可能作测序,你还是直接选用已知的位点做。因为这个基因跟多种疾病相关,说明这个基因很保守,很有可能跟你所研究的疾病相关,就算没有相关,通过与年龄、性别、该疾病的危险因素综合分析(就是玩数字游戏),一般总能发文章的。   5555555,可是我收集不到这么多的病例呀,经费也有限。 您说的直接做已知位点是什么方法啊?另外您有看过《生物学统计》这样的书吗?听说参照它就可以进行相关的分析了。上海哪个图书馆或是书店有呀? 具体什么方法我忘了。统计学主要就是T检验和X2 多态性分析方法有两大类: 其一,基于家系分析,主要采用连锁不平衡方法。 其二,基于case-control,如maxon所言,主要就是T检验和X2 。但是应注意control是否能代表所抽样的群体。因抽样错误而导致的假阳性结果在早期文献中比比皆是,这已逐渐引起大家的关注。 无事转转wrote: 呵呵,你也是在基康做吗?他们好象是用探针来检测SNP啊。我听说探针的准确性不如直接测序。不知道他们和你提出的是什么样的建议?:) 看样子无事转转做的工作与我的很相似,可以多多交流! 基康公司建议:病人与对照各25例(病人只收集到25例),4例一组形成一个“pool”,PCR扩增所以外显子,直接测序。(节省费用) 申能公司建议:对每个病人进行扩增,直接测序,与genbank比较(不设对照组,费用18000元/10例) 北京鼎国公司:PCR-SSCP,(正常,病人各25例) 请verygood,maxon,无事转转等战友们参谋参谋,哪个可行? 申请斑竹们帮助。 coldant wrote: 看样子无事转转做的工作与我的很相似,可以多多交流! 基康公司建议:病人与对照各25例(病人只收集到25例),4例一组形成一个“pool”,PCR扩增所以外显子,直接测序。(节省费用) 申能公司建议:对每个病人进行扩增,直接测序,与genbank比较(不设对照组,费用18000元/10例) 北京鼎国公司:PCR-SSCP,(正常,病人各25例) 请verygood,maxon,无事转转等战友们参谋参谋,哪个可行? 申请斑竹们帮助。 我病例30,对照12。人家的建议是直接测序。我想测序以后再做个RFLP,因为是要写论文,所以内容不可以少。

生物信息学研究的内容

生物信息学的主要研究内容1、序列比对(Alignment)基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列比对是生物信息学的基础,非常重要。两个序列的比对有较成熟的动态规划算法,以及在此基础上编写的比对软件包BLAST和FASTA,可以免费下载使用。这些软件在数据库查询和搜索中有重要的应用。2、结构比对基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。已有一些算法。3、蛋白质结构预测,包括2级和3级结构预测,是最重要的课题之一从方法上来看有演绎法和归纳法两种途径。前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建(Homology)和指认(Threading)方法属于这一范畴。虽然经过30余年的努力,蛋白结构预测研究现状远远不能满足实际需要。4、计算机辅助基因识别(仅指蛋白质编码基因)。最重要的课题之一基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.这是最重要的课题之一,而且越来越重要。经过20余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难的问题,研究现状不能令人满意,仍有大量的工作要做。5、非编码区分析和DNA语言研究,是最重要的课题之一在人类基因组中,编码部分进展总序列的3~5%,其它通常称为“垃圾”DNA,其实一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区DNA序列需要大胆的想象和崭新的研究思路和方法。DNA序列作为一种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中。6、分子进化和比较基因组学,是最重要的课题之一早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供了条件。7、序列重叠群(Contigs)装配一般来说,根据现行的测序技术,每次反应只能测出500或更多一些碱基对的序列,这就有一个把大量的较短的序列全体构成了重叠群(Contigs)。逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配。拼接EST数据以发现全长新基因也有类似的问题。已经证明,这是一个NP-完备性算法问题。8、遗传密码的起源遗传密码为什么是现在这样的?这一直是一个谜。一种最简单的理论认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物最后的共同祖先里,一直延续至今。不同于这种“冻结”理论,有人曾分别提出过选择优化、化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。9、基于结构的药物设计。是最重要的课题之一人类基因组计划的目的之一在于阐明人的约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其3级结构的基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也有着巨大的经济效益

试述生物信息学主要研究方向

【答案】:①序列比对(Sequence Alignment):基本问题是比较两个或两个以上序列的相似性或不相似性;②蛋白质结构比对和预测。基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性;③基因识别非编码区分析研究。基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置;④分子进化和比较基因组学;⑤序列重叠群(contigs)装配;⑥遗传密码的起源;⑦基于结构的药物设计。人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗;⑧生物系统的建模和仿真;⑨生物信息学技术方法的研究。生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难,需要像非参数统计、聚类分析等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(paltial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的可实现性;⑩生物图像;(11)其他。如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域。

生物信息学中什么叫Alignment

Alignment是指序列联配的结果,即比对的结果,分为pairwise和mutliple两种,即成对比对结果,和多序列比对结果。

关于alignment生物信息学到此分享完毕,希望能帮助到您。