Thursday, September 12, 2013

dna01 蛋白质比对蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应（不一定全真），物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模（homology modeling）和指认（Threading）方法属于这一范畴

蛋白质比对

基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性。蛋白质的结构与功能是密切相关的，一般认为，具有相似功能的蛋白质结构一般相似。蛋白质是由氨基酸组成的长链，长度从50到1000~3000AA（Amino Acids），蛋白质具有多种功能，如酶，物质的存贮和运输，信号传递，抗体等等。氨基酸的序列内在的决定了蛋白质的3维结构。一般认为，蛋白质有四级不同的结构。研究蛋白质结构和预测的理由是：医药上可以理解生物的功能，寻找dockingdrugs的目标，农业上获得更好的农作物的基因工程，工业上有利用酶的合成。直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留，同时也包含了较AA序列更多的信息。蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应（不一定全真），物理上可用最小能量来解释。从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源建模（homology modeling）和指认（Threading）方法属于这一范畴。同源建模用于寻找具有高度相似性的蛋白质结构（超过30%氨基酸相同），后者则用于比较进化族中不同的蛋白质结构。然而，蛋白结构预测研究现状还远远不能满足实际需要。

生物信息学

百科名片

生物信息学(Bioinformatics)是研究生物信息的采集，处理，存储，传播，分析和解释等各方面的一门学科，它通过综合利用生物学，计算机科学和信息技术而揭示大量而复杂的生物数据所赋有的生物学奥秘。

编辑本段 简介

生物信息学（Bioinformatics）^[1]是在生命科学的研究中，以计算机为工具对生物信息进行储存、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一，同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学（Genomics）和蛋白质组学（Proteomics）两方面，具体说就是从核酸和蛋白质序列出发，分析序列中表达的结构功能的生物信息。

编辑本段 定义

一.生物信息学是一门收集、分析遗传数据以及分发给研究机构的新学科（Bioinformatics is a new subject of genetic data collection,analysis and dissemination to the research community）。（林华安，Dr. Hwa A. Lim，1987)^[2]

二.生物信息学特指数据库类的工作，包括持久稳固的在一个稳定的地方提供对数据的支持（Bioinformatics refers to database-like activities,involving persistent sets of data that are maintained in a consistent state over essentially indefinite periods of time）。（林华安，Dr. Hwa A. Lim，1994)

三.生物信息学是在大分子方面的概念型的生物学，并且使用了信息学的技术，这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法，并以此在大尺度上来理解和组织与生物大分子相关的信息。（Luscombe,2001)

具体而言，生物信息学作为一门新的学科领域，它是把基因组DNA序列信息分析作为源头，在获得蛋白质编码区的信息后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行必要的药物设计。基因组信息学，蛋白质空间结构模拟以及药物设计构成了生物信息学的3个重要组成部分。从生物信息学研究的具体内容上看，生物信息学应包括这3个主要部分：⑴新算法和统计学方法研究；⑵各类数据的分析和解释；⑶研制有效利用和管理数据新工具。

生物信息学是一门利用计算机技术研究生物系统之规律的学科。

生物信息学基本上只是分子生物学与信息技术（尤其是因特网技术）的结合体。生物信息学的研究材料和结果就是各种各样的生物学数据，其研究工具是计算机，研究方法包括对生物学数据的搜索（收集和筛选）、处理（编辑、整理、管理和显示）及利用（计算、模拟）。

1990年代以来，伴随着各种基因组测序计划的展开和分子结构测定技术的突破和Internet的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。对生物信息学工作者提出了严峻的挑战：数以亿计的ACGT序列中包涵着什么信息？基因组中的这些信息怎样控制有机体的发育？基因组本身又是怎样进化的？

生物信息学的另一个挑战是从蛋白质的氨基酸序列预测蛋白质结构。这个难题已困扰理论生物学家达半个多世纪，如今找到问题答案要求正变得日益迫切。诺贝尔奖获得者W. Gilbert在1991年曾经指出：“传统生物学解决问题的方式是实验的。现在，基于全部基因都将知晓，并以电子可操作的方式驻留在数据库中，新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发，然后再回到实验中去，追踪或验证这些理论假设”。

生物信息学的主要研究方向：基因组学 - 蛋白质组学 - 系统生物学 - 比较基因组学，1989年在美国举办生物化学系统论与生物数学的计算机模型国际会议，生物信息学发展到了计算生物学、计算系统生物学的时代。

姑且不去引用生物信息学冗长的定义，以通俗的语言阐述其核心应用即是：随着包括人类基因组计划在内的生物基因组测序工程的里程碑式的进展，由此产生的包括生物体生老病死的生物数据以前所未有的速度递增，已达到每14个月翻一番的速度。同时随着互联网的普及，数以百计的生物学数据库如雨后春笋般迅速出现和成长。然而这些仅仅是原始生物信息的获取，是生物信息学产业发展的初级阶段，这一阶段的生物信息学企业大都以出售生物数据库为生。以人类基因组测序而闻名的塞莱拉公司即是这一阶段的成功代表。

生物信息学产业的高级阶段体现于此，人类从此进入了以生物信息学为中心的后基因组时代。结合生物信息学的新药创新工程即是这一阶段的典型应用。

编辑本段 经历阶段

前基因组时代（20世纪90年代前）这一阶段主要是各种序列比较算法的建立、生物数据库的建立、检索工具的开发以及DNA和蛋白质序列分析等。
基因组时代（20世纪90年代后至2001年）这一阶段主要是大规模的基因组测序，基因识别和发现，网络数据库系统地建立和交互界面工具的开发等。
后基因组时代（2001至今）随着人类基因组测序工作的完成，各种模式生物基因组测序的完成，生物科学的发展已经进入了后基因组时代，基因组学研究的重心由基因组的结构向基因的功能转移。这种转移的一个重要标志是产生了功能基因组学，而基因组学的前期工作相应地被称为结构基因组学。^[3]

编辑本段 发展简介

生物信息学是建立在分子生物学的基础上的，因此，要了解生物信息学，就必须先对分子生物学的发展有一个简单的了解。研究生物细胞的生物大分子的结构与功能很早就已经开始，1866年孟德尔从实验上提出了假设：遗传因子是以生物成分存在，1871年Miescher从死的白细胞核中分离出脱氧核糖核酸（DNA），在Avery和McCarty于1944年证明了DNA是生命器官的遗传物质以前，人们仍然认为染色体蛋白质携带基因，而DNA是一个次要的角色。1944年Chargaff发现了著名的Chargaff规律，即DNA中鸟嘌呤的量与胞嘧定的量总是相等，腺嘌呤与胸腺嘧啶的量相等。与此同时，Wilkins与Franklin用X射线衍射技术测定了DNA纤维的结构。1953年James Watson 和FrancisCrick在Nature杂志上推测出DNA的三维结构（双螺旋）。DNA以磷酸糖链形成发双股螺旋，脱氧核糖上的碱基按Chargaff规律构成双股磷酸糖链之间的碱基对。这个模型表明DNA具有自身互补的结构，根据碱基对原则，DNA中贮存的遗传信息可以精确地进行复制。他们的理论奠定了分子生物学的基础。DNA双螺旋模型已经预示出了DNA复制的规则，Kornberg于1956年从大肠杆菌（E.coli）中分离出DNA聚合酶I（DNA polymerase I），能使4种dNTP连接成DNA。DNA的复制需要一个DNA作为模板。Meselson与Stahl(1958）用实验方法证明了DNA复制是一种半保留复制。Crick于1954年提出了遗传信息传递的规律，DNA是合成RNA的模板，RNA又是合成蛋白质的模板，称之为中心法则（Central dogma），这一中心法则对以后分子生物学和生物信息学的发展都起到了极其重要的指导作用。经过Nirenberg和Matthai(1963）的努力研究，编码20氨基酸的遗传密码得到了破译。限制性内切酶的发现和重组DNA的克隆（clone）奠定了基因工程的技术基础。正是由于分子生物学的研究对生命科学的发展有巨大的推动作用，生物信息学的出现也就成了一种必然。2001年2月，人类基因组工程测序的完成，使生物信息学走向了一个高潮。由于DNA自动测序技术的快速发展，DNA数据库中的核酸序列公共数据量以每天106bp速度增长，生物信息迅速地膨胀成数据的海洋。毫无疑问，我们正从一个积累数据向解释数据的时代转变，数据量的巨大积累往往蕴含着潜在突破性发现的可能，"生物信息学"正是从这一前提产生的交叉学科。粗略地说，该领域的核心内容是研究如何通过对DNA序列的统计计算分析，更加深入地理解DNA序列，结构，演化及其与生物功能之间的关系，其研究课题涉及到分子生物学，分子演化及结构生物学，统计学及计算机科学等许多领域。生物信息学是内涵非常丰富的学科，其核心是基因组信息学，包括基因组信息的获取，处理，存储，分配和解释。基因组信息学的关键是"读懂"基因组的核苷酸顺序，即全部基因在染色体上的确切位置以及各DNA片段的功能；同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测，然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容，根据生物分子在基因调控中的作用，描述人类疾病的诊断，治疗内在规律。它的研究目标是揭示"基因组信息结构的复杂性及遗传语言的根本规律"，解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分，成为生命科学研究的前沿。

编辑本段 研究方向

生物信息学在短短十几年间，已经形成了多个研究方向，以下简要介绍一些主要的研究重点。

序列比对

序列比对（Sequence Alignment）的基本问题是比较两个或两个以上符号序列的相似性或不相似性。从生物学的初衷来看，这一问题包含了以下几个意义：从相互重叠的序列片断中重构DNA的完整序列。在各种试验条件下从探测数据（probe data）中决定物理和基因图存贮，遍历和比较数据库中的DNA序列，比较两个或多个序列的相似性，在数据库中搜索相关序列和子序列，寻找核苷酸（nucleotides）的连续产生模式，找出蛋白质和DNA序列中的信息成分。序列比对考虑了DNA序列的生物学特性，如序列局部发生的插入，删除（前两种简称为indel）和替代，序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和，对齐的方法包括全局对齐，局部对齐，代沟惩罚等。两个序列比对常采用动态规划算法，这种算法在序列长度较小时适用，然而对于海量基因序列（如人的DNA序列高达10^9bp），这一方法就不太适用，甚至采用算法复杂性为线性的也难以奏效。因此，启发式方法的引入势在必然，著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的。

蛋白质比对

基因识别分析

基因识别的基本问题是给定基因组序列后，正确识别基因的范围和在基因组序列中的精确位置。非编码区由内含子组成（introns），一般在形成蛋白质后被丢弃，但从实验中，如果去除非编码区，又不能完成基因的复制。显然，DNA序列作为一种遗传语言，既包含在编码区，又隐含在非编码序列中。分析非编码区DNA序列没有一般性的指导方法。在人类基因组中，并非所有的序列均被编码，即是某种蛋白质的模板，已完成编码部分仅占人类基因总序列的3~5%，显然，手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子（codon）的频率，一阶和二阶马尔可夫链，ORF（Open Reading Frames），启动子（promoter）识别，HMM（Hidden Markov Model）和GENSCAN，Splice Alignment等等。

分子进化

分子进化是利用不同物种中同一基因序列的异同来研究生物的进化，构建进化树。既可以用DNA序列也可以用其编码的氨基酸序列来做，甚至于可通过相关蛋白质的结构比对来研究分子进化，其前提假定是相似种族在基因上具有相似性。通过比较可以在基因组层面上发现哪些是不同种族中共同的，哪些是不同的。早期研究方法常采用外在的因素，如大小，肤色，肢体的数量等等作为进化的依据。较多模式生物基因组测序任务的完成，人们可从整个基因组的角度来研究分子进化。在匹配不同种族的基因时，一般须处理三种情况：Orthologous：不同种族，相同功能的基因；Paralogous：相同种族，不同功能的基因；Xenologs：有机体间采用其他方式传递的基因，如被病毒注入的基因。这一领域常采用的方法是构造进化树，通过基于特征（即DNA序列或蛋白质中的氨基酸的碱基的特定位置）和基于距离（对齐的分数）的方法和一些传统的聚类方法（如UPGMA）来实现。

序列重叠群（Contigs）装配

根据现行的测序技术，每次反应只能测出500 或更多一些碱基对的序列，如人类基因的测量就采用了短枪（shortgun）方法，这就要求把大量的较短的序列全体构成了重叠群（Contigs）。逐步把它们拼接起来形成序列更长的重叠群，直至得到完整序列的过程称为重叠群装配。从算法层次来看，序列的重叠群是一个NP-完全问题。

遗传密码

通常对遗传密码的研究认为，密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的，并被固定在现代生物的共同祖先里，一直延续至今。不同于这种"冻结"理论，有人曾分别提出过选择优化，化学和历史等三种学说来解释遗传密码。随着各种生物基因组测序任务的完成，为研究遗传密码的起源和检验上述理论的真伪提供了新的素材。

药物设计

人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构，功能，相互作用以及与各种人类疾病之间的关系，寻求各种治疗和预防方法，包括药物治疗。基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某些酶或蛋白质的活性，在已知其蛋白质3级结构的基础上，可以利用分子对齐算法，在计算机上设计抑制剂分子，作为候选药物。这一领域目的是发现新的基因药物，有着巨大的经济效益。

生物系统

随着大规模实验技术的发展和数据累积，从全局和系统水平研究和分析生物学系统，揭示其发展规律已经成为后基因组时代的另外一个研究热点-系统生物学。目前来看，其研究内容包括生物系统的模拟（Curr Opin Rheumatol，2007，463-70），系统稳定性分析（Nonlinear Dynamics Psychol Life Sci，2007，413-33），系统鲁棒性分析（Ernst Schering Res Found Workshop， 2007，69-88）等方面。以SBML（Bioinformatics，2007，1297-8）为代表的建模语言在迅速发展之中，以布尔网络（PLoS Comput Biol，2007，e163）、微分方程（Mol Biol Cell，2004，3841-62）、随机过程（Neural Comput，2007，3262-92）、离散动态事件系统等（Bioinformatics，2007，336-43）方法在系统分析中已经得到应用。很多模型的建立借鉴了电路和其它物理系统建模的方法，很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题（Anal Quant Cytol Histol，2007，296-308）。当然，建立生物系统的理论模型还需要很长时间的努力，实验观测数据虽然在海量增加，但是生物系统的模型辨识所需要的数据远远超过了数据的产出能力。例如，对于时间序列的芯片数据，采样点的数量还不足以使用传统的时间序列建模方法，巨大的实验代价是系统建模主要困难。系统描述和建模方法也需要开创性的发展。

技术方法

生物信息学不仅仅是生物学知识的简单整理和数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难，需要像非参数统计（BMC Bioinformatics，2007，339）、聚类分析（Qual Life Res，2007，1655-63）等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘（partial least squares，PLS）等特征空间的压缩技术。在计算机算法的开发中，需要充分考虑算法的时间和空间复杂度，使用并行计算、网格计算等技术来拓展算法的可实现性。

生物图像

没有血缘关系的人，为什么长得那么像呢？

外貌是像点组成的，像点愈重合两人长得愈像，那两个没有血缘关系的人像点为什么重合？

有什么生物学基础？基因是不是相似？我不知道，希望专家解答。

其他

如基因表达谱分析，代谢网络分析；基因芯片设计和蛋白质组学数据分析等，逐渐成为生物信息学中新兴的重要研究领域；在学科方面，由生物信息学衍生的学科包括结构基因组学，功能基因组学，比较基因组学，蛋白质学，药物基因组学，中药基因组学，肿瘤基因组学，分子流行病学和环境基因组学，成为系统生物学的重要研究方法。从发展不难看出，基因工程已经进入了后基因组时代。我们也有应对与生物信息学密切相关的如机器学习，和数学中可能存在的误导有一个清楚的认识。

编辑本段 研究方法

以数据（库）为核心

1 数据库的建立

2 生物学数据的检索

3 生物学数据的处理

4 生物学数据的利用：计算生物学

编辑本段 机器学习

生物信息的大规模给数据挖掘提出了新课题和挑战，需要新的思想的加入.常规的计算机算法仍可以应用于生物数据分析中，但越来越不适用于序列分析问题.究其原因，是由于生物系统本质上的模型复杂性及缺乏在分子层上建立的完备的生命组织理论.西蒙曾给出学习的定义：学习是系统的变化，这种变化可使系统做相同工作时更有效。机器学习的目的是期望能从数据中自动地获得相应的理论，通过采用如推理，模型拟合及从样本中学习，尤其适用于缺乏一般性的理论，"噪声"模式，及大规模数据集.因此，机器学习形成了与常规方法互补的可行的方法.机器学习使得利用计算机从海量的生物信息中提取有用知识，发现知识成为可能.机器学习方法在大样本，多向量的数据分析工作中发挥着日益重要的作用，而大量的基因数据库处理需要计算机能自动识别，标注，以避免即耗时又花费巨大的人工处理方法.早期的科学方法——观测和假设——面对高数据的体积，快速的数据获取率和客观分析的要求——已经不能仅依赖于人的感知来处理了.因而，生物信息学与机器学习相结合也就成了必然.机器学习中最基本的理论框架是建立在概率基础上的，从某种意义来说，是统计模型拟合的延续，其目的均为提取有用信息.机器学习与模式识别和统计推理密切相关.学习方法包括数据聚类，神经网络分类器和非线性回归等等.隐马尔可夫模型也广泛用于预测DNA的基因结构.研究重心包括：1）观测和探索有趣的现象.ML研究的焦点是如何可视化和探索高维向量数据.一般的方法是将其约简至低维空间，如常规的主成分分析（PCA），核主成分分析（KPCA），独立成分分析（Independent component analysis），局部线性嵌套（LocallyLinear embedding）.2）生成假设和形式化模型来解释现象[6].大多数聚类方法可看成是拟合向量数据至某种简单分布的混合.在生物信息学中聚类方法已经用于microarray数据分析中，癌症类型分类及其他方向中.机器学习也用于从基因数据库中获得相应的现象解释.机器学习加速了生物信息学的进展，也带了相应的问题.机器学习方法大多假定数据符合某种相对固定的模型，而一般数据结构通常是可变的，在生物信息学中尤其如此，因此，有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构.其次，机器学习方法中常采用"黑箱"操作，如神经网络和隐马尔可夫模型，对于获得特定解的内在机理仍不清楚.

编辑本段 数学问题

生物信息学中数学占了很大的比重.统计学，包括多元统计学，是生物信息学的数学基础之一；概率论与随机过程理论，如隐马尔科夫链模型（HMM），在生物信息学中有重要应用；其他如用于序列比对的运筹学；蛋白质空间结构预测和分子对接研究中采用的最优化理论；研究DNA超螺旋结构的拓扑学；研究遗传密码和DNA序列的对称性方面的群论等等.总之，各种数学理论或多或少在生物学研究中起到了相应的作用.但并非所有的数学方法在引入生物信息学中都能普遍成立的，以下以统计学和度量空间为例来说明.

统计学的悖论

数学的发展是伴随悖论而发展的.对于进化树研究和聚类研究中最显著的悖论莫过于均值了，就说明了要采用常规的均值方法不能将这两类分开，也表明均值并不能带来更多的数据的几何性质.那么，如果数据呈现类似的特有分布时，常有的进化树算法和聚类算法（如K-均值）往往会得错误的结论.统计上存在的陷阱往往是由于对数据的结构缺乏一般性认识而产生的.

度量空间的假设

在生物信息学中，进化树的确立，基因的聚类等都需要引入度量的概念.举例来说，距离上相近或具有相似性的基因等具有相同的功能，在进化树中满足分值最小的具有相同的父系，这一度量空间的前提假设是度量在全局意义下成立.那么，是否这种前提假设具有普适性呢，我们不妨给出一般的描述：假定两个向量为A，B，其中，则在假定且满足维数间线性无关的前提下，两个向量的度量可定义为：⑴依据上式可以得到满足正交不变运动群的欧氏度量空间，这也是大多数生物信息学中常采用的一般性描述，即假定了变量间线性无关.然而，这种假设一般不能正确描述度量的性质，尤其在高维数据集时，不考虑数据变量间的非线性相关性显然存在问题，由此，我们可以认为，一个正确的度量公式可由下式给出：⑵上式中采用了爱因斯坦和式约定，描述了变量间的度量关系.后者在满足⑶时等价于⑴，因而是更一般的描述，然而问题在于如何准确描述变量间的非线性相关性，我们正在研究这个问题.

编辑本段 统计学习

生物信息学中面对的数据量和数据库都是规模很大的，而相对的目标函数却一般难以给出明确的定义.生物信息学面临的这种困难，可以描述成问题规模的巨大以及问题定义的病态性之间的矛盾，一般从数学上来看，引入某个正则项来改善性能是必然的[7].以下对基于这一思想产生的统计学习理论，Kolmogorov复杂性[98]和BIC（Bayesian Information Criterion）[109]及其存在的问题给出简要介绍.支持向量机（SVM）是较热门的一种方法，其研究背景是Vapnik的统计学习理论，是通过最大化两个数据集的最小间隔来实现分类，对于非线性问题则采用核函数将数据集映射至高维空间而又无需显式描述数据集在高维空间的性质，这一方法较之神经方法的好处在于将神经网络隐层的参数选择简化为对核函数的选择，因此，受到广泛的注意.在生物信息学中也开始受到重视，然而，核函数的选择问题本身是一个相当困难的问题，从这个层次来看，最优核函数的选择可能只是一种理想，SVM也有可能象神经网络一样只是机器学习研究进程中又一个大气泡.Kolmogorov复杂性思想与统计学习理论思想分别从不同的角度描述了学习的性质，前者从编码的角度，后者基于有限样本来获得一致收敛性.Kolmogorov复杂性是不可计算的，因此由此衍生了MDL原则（最小描述长度），其最初只适用于离散数据，已经推广至连续数据集中，试图从编码角度获得对模型参数的最小描述.其缺陷在于建模的复杂性过高，导致在大数据集中难以运用.BIC准则从模型复杂性角度来考虑，BIC准则对模型复杂度较高的给予大的惩罚，反之，惩罚则小，隐式地体现了奥卡姆剃刀（"Occam Razor"）原理，广泛应用于生物信息学中.BIC准则的主要局限是对参数模型的假定和先验的选择的敏感性，在数据量较大时处理较慢.因此，在这一方面仍然有许多探索的空间.

编辑本段 讨论总结

人类对基因的认识，从以往的对单个基因的了解，上升到在整个基因组水平上考察基因的组织结构和信息结构，考察基因之间在位置，结构和功能上的相互关系.这就要求生物信息学在一些基本的思路上要做本质的观念转变，本节就这些问题做出探讨和思索.

启发式方法

Simond在人类的认知一书中指出，人在解决问题时，一般并不去寻找最优的方法，而只要求找到一个满意的方法.因为即使是解决最简单的问题，要想得到次数最少，效能最高的解决方法也是非常困难的.最优方法和满意方法之间的困难程度相差很大，后者不依赖于问题的空间，不需要进行全部搜索，而只要能达到解决的程度就可以了.正如前所述，面对大规模的序列和蛋白质结构数据集，要获得全局结果，往往是即使算法复杂度为线性时也不能够得到好的结果，因此，要通过变换解空间或不依赖于问题的解空间获得满意解，生物信息学仍需要人工智能和认知科学对人脑的进一步认识，并从中得到更好的启发式方法.

问题规模不同的处理：Marvin Minsky在人工智能研究中曾指出：小规模数据量的处理向大规模数据量推广时，往往并非算法上的改进能做到的，更多的是要做本质性的变化.这好比一个人爬树，每天都可以爬高一些，但要想爬到月球，就必须采用其他方法一样.在分子生物学中，传统的实验方法已不适应处理飞速增长的海量数据.同样，在采用计算机处理上，也并非依靠原有的计算机算法就能够解决现有的数据挖掘问题.如在序列对齐（sequence Alignment）问题上，在小规模数据中可以采用动态规划，而在大规模序列对齐时不得不引入启发式方法，如BLAST，FASTA.

乐观中的隐扰

生物信息学是一门新兴学科，起步于20世纪90年代，至今已进入"后基因组时代"，在这一领域的研究人员均呈普遍乐观态度，那么，是否存在潜在的隐扰呢不妨回顾一下早期人工智能的发展史，在1960年左右，西蒙曾相信不出十年，人类即可象完成登月一样完成对人的模拟，造出一个与人智能行为完全相同的机器人.而至今为止，这一诺言仍然遥遥无期.尽管人工智能研究得到的成果已经渗入到各个领域，但对人的思维行为的了解远未完全明了.从本质来看，这是由于最初人工智能研究上定位错误以及没有从认识论角度看清人工智能的本质造成的；从研究角度来看，将智能行为还原成一般的形式化语言和规则并不能完整描述人的行为，期望物理科学的成功同样在人工智能研究中适用并不现实.反观生物信息学，其目的是期望从基因序列上解开一切生物的基本奥秘，从结构上获得生命的生理机制，这从哲学上来看是期望从分子层次上解释人类的所有行为和功能和致病原因.这类似于人工智能早期发展中表现的乐观行为，也来自于早期分子生物学，生物物理和生物化学的成就.然而，从本质上来讲，与人工智能研究相似，都是希望将生命的奥秘还原成孤立的基因序列或单个蛋白质的功能，而很少强调基因序列或蛋白质组作为一个整体在生命体中的调控作用.我们因此也不得不思考，这种研究的最终结果是否能够支撑我们对生物信息学的乐观呢 ?说肯定的话也许为时尚早.

总结

综上所述，不难看出，生物信息学并不是一个足以乐观的领域，究竟原因，是由于其是基于分子生物学与多种学科交叉而成的新学科，现有的形势仍表现为各种学科的简单堆砌，相互之间的联系并不是特别的紧密。在处理大规模数据方面，没有行之有效的一般性方法；而对于大规模数据内在的生成机制也没有完全明了，这使得生物信息学的研究短期内很难有突破性的结果。那么，要得到真正的解决，最终不能从计算机科学得到，真正地解决可能还是得从生物学自身，从数学上的新思路来获得本质性的动力。毫无疑问，正如Dulbecco1986年所说："人类的DNA序列是人类的真谛，这个世界上发生的一切事情，都与这一序列息息相关"。但要完全破译这一序列以及相关的内容，我们还有相当长的路要走。

编辑本段 经典教材

书名：生物信

息学

作者：霍奇曼（T.CharlieHodgman）

出版社：科学出版社

出版时间：2010年9月1日

ISBN：978703 0288738

开本：16开

定价：52.00元

内容简介

“精要速览系列（Instant Notes Series）”丛书是国外教材“Best Sellei-”榜的上榜教材。该系列教材结构新颖，视角独特；重点明确，脉络分明；图表简明清晰；英文自然易懂，被许多高等院校双语教学选用。

《生物信息学（第2版）（导读版）》在前版基础上修订，涵盖了生物信息学的基本内容及拓展知识。全书共分三大部分：学科概况（A-B）、基础部分（C-I）、应用领域（J-R），合计18章：A生物学研究方式的转变、B生物信息学的定义、C物理学要素、D数据及数据库、E数据类型、F计算、G概率与统计、H模拟与数学技术、1人工智能和机器学习、J基因组及其他序列、K转录物组学、L蛋白质与蛋白质组学技术、M代谢物组学、N超分子结构、0生化动力学、P生理学、Q图像分析、R文本分析。书前附有缩略词表，书后附有进一步阅读的文献以及索引。

《生物信息学（第2版）（导读版）》适合普通高校生命科学、医药科技相关专业，以及数学、物理、化学、计算机等理工科专业教学使用，也可供科研人员参考阅读。

作者简介

作者：（英国）霍奇曼（T.Charlie Hodgman） Andrew French David R.Westhead

图书目录

前言

缩略词

A 生物学研究方式的转变

B 生物信息学的定义

C 物理学要素

D 数据及数据库

E 数据类型：

E1 数据类型

E2 生物信息学中数据表达的最佳方法

F 计算

G 概率与统计

G1 概率和概率分布

G2 条件概率和贝叶斯法则

G3 基本的统计学检验

H 模型与数学技术

H1 系统特征

H2 图论及其应用

H3 常微分方程和代数学

H4 高级模拟技术

H5 形状、变形和生长

1 人工智能和机器学习

1 人工智能和机器学习的概论

12 人工智能和机器学习的统计学方法

13 人工智能和机器学习的计算方法

J 基因组及其他序列

J1 数据库和数据源

J2 基因组注释

J3 序列分析

J4 序列家族、联配和系统发育

J5 结构域家族和数据库

K 转录物组学

K1 转录谱

K2 转录分析的统计问题

K3 基因表达的差异分析

K4 多元技术和网络推理

K5 数据标准和实验设计

L 蛋白质与蛋白质组学技术

L1 蛋白质组学技术

L2 相互作用蛋白质组学

L3 相互作用数据库和网络

L4 结构生物信息学

L5 结构分类

L6 结构预测和模建

L7 分子动力学和药物设计

M 代谢物组学

N 超分子结构

N1 超分子结构

N2 组织和生物体尺度结构

O 生化动力学

01 新陈代谢网络的研究

02 微积分和代数学的应用

P 生理学

P1 生理学

P2 整合生物学和植物模型

P3 整合生物学——结束语

Q 图像分析

Q1 什么是图像分析

Q2 什么是生物科学研究中的图像分析

Q3 图像增强

Q4 特征检测

Q5 数据析取

R 文本分析

进一步阅读的文献

索引

编辑本段 相关图书信息

书名：生物信息学——基础与临床医学应用指南

ISBN：703015127

作者：伍欣星/赵旻

出版社：科学出版社

定价：30

页数：254

出版日期：2005-3-1

版次：1

开本：16开

包装：平装

简介：本书较为详尽地介绍了生物信息学在医学科研和临床应用中的最新信息及资料。全书分为上下两篇，共十四章，通过大量的实例，系统介绍了生物信息学的一些基本知识，以及生物信息学在功能基因组学研究中的应用，这些内容对于医学科研的设计和实施将极具指导意义。

本书对分子生物学以及信息学的一些名词给出了中英文对照和必要的解释，列出了一些常用的生物信息相关网站，更加方便了读者的使用。

本书既可作为生物信息学课程的教材，也是一本实用性很强的生物信息学参考书。

上篇生物信息学基础

第一章生物信息学概述

⒈1 生物信息学的定义和研究范畴

⒈1.1 生物信息学的定义

⒈1.2 生物信息学中的数据库与网络

⒈1.3 生物信息学的主要研究范畴

⒈2 生物信息学的建立与发展

⒈3 医学生物信息学的发展与展望

⒈3.1 医学生物信息学的主要研究内容

⒈3.2 生物信息学的发展和展望

第二章医学生物信息数据库

⒉1 医学生物信息数据库简介

⒉2 国外常用医学文献数据库

⒉2.1 PubMed文献数据库

⒉2.2 HighWire Press电子期刊数据库

⒉3 国内常用生物医学文献检索数据库

⒉3.1 万方数据资源系统

⒉3.2 中国期刊网

第三章核酸数据库的应用

⒊1 常用的DNA数据库及软件

⒊1.1 GenBank--NCBI核酸序列数据库

⒊1.2 EMBL--欧洲核酸序列数据库

⒊1.3 DDBJ--日本DNA数据库

⒊2 常用的RNA数据库及软件

⒊2.1 Transterm--mRNA序列和翻译调控元件数据库

⒊2.2 RDP-Ⅱ--核糖体数据库

⒊2.3 RNA二级结构预测

⒊3 核酸同源性序列比对的策略和方法

⒊3.1 数据库中的相似性搜索

⒊3.2 BLAST简介

⒊3.3 BLAST应用举例

⒊4 新序列的提交

第四章人类基因组变异数据库

⒋1 SNP数据库

⒋1.1 dbSNP数据库

⒋1.2 人类基因组变异数据库

⒋2 突变数据库

⒋3 基因标记物与微卫星数据库

⒋4 观察SNP和突变的工具

⒋4.1 在基因组水平上观察SNP和突变的工具

⒋4.2 在基因水平上观察SNP和突变的工具

第五章蛋白质资源数据库

⒌1 SWISS-PORT蛋白序列数据库

⒌1.1 SWISS-PORT蛋白序列数据库区别于其他蛋白序列数据库的优点

⒌1.2 SWISS-PROT数据库的结构与级别

⒌1.3 序列条目的结构

⒌1.4 不同的行类型

⒌1.5 数据库的检索

⒌2 ASTRAL--蛋白质结构和序列分析体系

第六章生物芯片

⒍1 概述

⒍1.1 生物芯片简介

⒍1.2 生物芯片分类

⒍1.3 几种常见的生物芯片

⒍2 基因芯片基本原理和基本流程

⒍2.1 基因芯片的基本原理

⒍2.2 基因芯片的基本流程

⒍3 几种新型的芯片技术

⒍4 生物芯片的应用

⒍5 生物信息学中的新技术

附基因芯片进行基因差异表达实际操作举例

第七章疾病相关数据库

⒎1 综合临床数据库

⒎2 肿瘤相关数据库

⒎2.1 肿瘤网

⒎2.2 Oncolink

⒎2.3 癌症基因组剖析计划（CGAP)

⒎2.4 中国癌症网

⒎3 心血管疾病相关数据库

⒎3.1 心血管疾病相关医学数据库（Cardio)

⒎3.2 中华心血管医学网

⒎4 遗传性疾病数据库

⒎5 感染性疾病数据库

第八章生物信息学与药物设计

⒏1 概述

⒏2 生物信息学在药物设计中的优势

⒏3 生物信息学在药物设计环节中的应用

⒏3.1 初始阶段：事半功倍的效果

⒏3.2 生物活性筛选阶段：提高筛选命中率

⒏3.3 药物开发阶段：联系遗传信息与药物疗效的桥梁

⒏4 药物设计过程中生物信息学应用流程

⒏4.1 综合分子生物学方法

⒏4.2 EST数据库搜寻

⒏4.3 结构生物学方法

⒏5 生物信息学在药物设计中的其他应用

⒏5.1 药物作用的机制

⒏5.2 药物的药代动力学及毒理性质的研究

⒏5.3 计算机辅助药物设计

⒏6 后基因组时代药物研究的新进展和新趋势

附药物设计实例

第九章常用软件介绍

⒐1 Omiga介绍

⒐2 Antheprot介绍

⒐3 MACAW介绍

⒐4 Primer Premier介绍

⒐5 Reference Manager介绍

⒐6 常用限制酶分析与质粒作图软件

⒐6.1 Gene Construction Kit 2.5

⒐6.2 Clone Manager 7

⒐7 RNA二级结构预测及分析软件

⒐7.1 RNAdraw 1.1b

⒐7.2 RNA Structure 3.2

⒐8 序列综合分析软件

第十章基因芯片微阵列数据分析

⒑1 常用基因芯片及其数据简介

⒑2 基因芯片数据处理与分析

⒑3 基因芯片数据分析的基本策略与方法

⒑4 基因微阵列数据分析中的常用软件

⒑4.1 Excel

⒑4.2 SAM

⒑4.3 R及其在基因表达数据分析中的应用

下篇生物信息学与功能基因组学互动平台

第十一章生物信息学与基因组学技术

⒒1 新基因分析的生物信息学策略

⒒2 新基因的分离——cDNA末端快速扩增技术

⒒3 基因突变检测（分析）技术

⒒4 mRNA差异显示技术

⒒5 比较基因组杂交技术

⒒6 微阵列-比较基因组杂交技术

⒒7 基因表达分析技术

⒒8 SNPs、ESTs在研究新（未知）基因中的应用

第十二章 RNA组学及常用研究技术

⒓1 反义核酸技术

⒓2 核酶技术

⒓3 RNA错折叠技术

⒓4 RNA干扰技术

第十三章模式生物体研究

⒔1 转基因动物

⒔1.1 转基因动物概念

⒔1.2 基本原理

⒔1.3 嵌合体动物

⒔1.4 转基因动物模型在医学研究中的应用

⒔2 基因打靶技术

⒔2.1 基因打靶技术的原理

⒔2.2 基因打靶的操作要点

⒔2.3 提高基因打靶效率的途径

⒔2.4 基因打靶技术的应用

⒔3 时空可调节性基因打靶技术与基因陷阱

⒔3.1 时空可调节性基因打靶

⒔3.2 基因陷阱

⒔3.3 诱变技术在功能基因组学中的应用

第十四章蛋白质组学技术

⒕1 蛋白质组分离技术

⒕1.1 二维聚丙烯酰胺凝胶电泳

⒕1.2 高效液相色谱（HPLC)

⒕1.3 毛细管电泳及电色谱（CE/CEC)

⒕2 鉴定技术

⒕2.1 质谱技术

⒕2.2 图像分析技术

⒕.2.3 高流通量筛选（HTS)

⒕3 蛋白质芯片技术

⒕4 酵母双杂交系统

附录生物信息学及分子生物学术语

书名：生物信息学^[4]

书号：978730 2177937

作者：许忠能等

定价：59元

出版日期：2008-9-1

出版社：清华大学出版社

编辑本段 内容简介

生物信息学是一门新兴的交叉科学。本书共分16章，详细介绍了生物信息学的定义、研究内容、生物学基础、数据库网络基础、算法与数学基础以及其在序列拼接、基因预测、引物设计、生物进化与分子发育分析、蛋白质结构预测、RNA结构预测、生物芯片、计算机辅助药物设计、生物分子网络与生物系统仿真、DNA计算中的应用与发展状况等内容。

本书结构清晰，系统完整，文笔流畅，既可作为高等院校相关专业师生的教材，也可作为该领域中研究、教学、软件开发等科研人员的参考用书。

编辑本段 目录

第1章生物信息学概述

⒈1背景与定义

⒈1.1生物学原始数据量的急剧扩增

⒈1.2名词“bioinformatics”的第一次出现

⒈1.3定义

⒈2研究内容

⒈2.1生物信息的存储与获取

⒈2.2序列比对

⒈2.3测序与拼接

⒈2.4基因预测

⒈2.5生物进化与系统发育分析

⒈2.6蛋白质结构预测

⒈2.7RNA结构预测

⒈2.8分子设计及药物设计

⒈2.9代谢网络分析

⒈2.10生物芯片

⒈2.11DNA计算

⒈3数据库、软件、科研教育机构

⒈3.1数据库

⒈3.2软件

⒈3.3科研教育机构

⒈4期刊与著作

⒈4.1期刊

⒈4.2著作

⒈5生物学、计算机技术与数学基础

⒈5.1生物学

⒈5.2计算机技术

⒈5.3数学

⒈6展望

⒈6.1研究内容的展望

⒈6.2应用领域的拓展

⒈6.3研究者的回报

可免费登录的相关网站

习题

参考文献

第2章生物信息学的生物学基础

⒉1生物学研究的层次

⒉1.1宇宙生命的研究目录生物信息学

⒉1.2生物与环境的关系

⒉1.3生物种类

⒉1.4生理

⒉1.5细胞

⒉1.6生物分子

⒉1.7生物进化

⒉2分子生物学基础

⒉2.1核酸的结构

⒉2.2蛋白质的结构

⒉2.3DNA的复制

⒉2.4基因的转录

⒉2.5蛋白质的生物合成

⒉3人类基因组计划

⒉3.1目标与意义

⒉3.2资助

⒉3.3研究机构

⒉3.4研究方法

⒉3.5目前结果

可免费登录的相关网站

习题

参考文献

第3章数据库与网络基础

⒊1数据库技术基础

⒊1.1数据库的基本概念

⒊1.2数据库的体系结构和数据独立性

⒊1.3关系数据库系统

⒊1.4生物数据处理常用的数据库系统

⒊2网络技术简介

⒊2.1网络基础知识

⒊2.2Internet及其应用

⒊2.3基于Web的数据库系统

⒊2.4基于网络的搜索引擎

可免费登录的相关网站

习题

参考文献

第4章UNⅨ操作系统与计算机语言

⒋1UNⅨ操作系统

⒋1.1UNⅨ历史

⒋1.2UNⅨ系统的特点

⒋1.3Redhat Linux 9的安装

⒋1.4UNⅨ的基本使用

⒋1.5大型应用软件

⒋2计算机语言

⒋2.1Perl语言简介

⒋2.2Java语言简介

可免费登录的相关网站

习题

参考文献

第5章算法与数学基础

⒌1算法

⒌2图论

⒌2.1图

⒌2.2寻找最短路

⒌2.3欧拉图与哈密顿图

⒌2.4树

⒌2.5图论在生物信息学中的应用

⒌3动态规划

⒌4贝叶斯统计

⒌4.1经典统计学的几个概念

⒌4.2经典统计与贝叶斯统计的差异

⒌4.3贝叶斯定理

⒌4.4贝叶斯统计在生物信息学中的应用

⒌5马尔可夫模型

⒌5.1概念

⒌5.2转移概率

⒌5.3算法过程

⒌5.4马尔可夫模型在生物信息学中的应用

⒌6隐马尔可夫模型

⒌6.1概念

⒌6.2算法过程

⒌6.3隐马尔可夫模型三个问题的研究

⒌6.4隐马尔可夫模型在生物信息学中的应用

⒌7神经网络模型

⒌7.1神经网络的分类

⒌7.2神经网络的学习方法

⒌7.3神经网络模型在生物信息学中的应用

⒌8遗传算法

⒌8.1概念

⒌8.2遗传算法运算过程

⒌8.3遗传算法在生物信息学中的应用

⒌9聚类分析

⒌9.1相似性测度及聚类准则

⒌9.2聚类算法

⒌9.3聚类分析在生物信息学中的应用

⒌10其他应用于生物信息学中的算法

⒌11生物信息学中算法的发展

可免费登录的相关网站

习题

参考文献

第6章序列比对

⒍1序列比对的概念

⒍2序列比对的意义

⒍3全局比对与局部比对

⒍3.1全局比对

⒍3.2局部比对

⒍4计分方法

⒍4.1匹配计分

⒍4.2结构与性质的计分

⒍4.3可观测变换计分

⒍4.4空格罚分

⒍5比对的算法过程

⒍5.1两个序列比对

⒍5.2多序列比对

⒍6比对软件的使用

⒍6.1用比对软件进行两序列比对

⒍6.2用比对软件进行多序列比对

⒍7计算机语言编写程序进行序列比对

可免费登录的相关网站

习题

参考文献

第7章序列拼接

⒎1霰弹法测序的DNA序列拼接

⒎1.1霰弹法测序原理

⒎1.2霰弹法测序拼接的计算模型

⒎2杂交测序法的DNA序列拼接

⒎2.1杂交测序法原理

⒎2.2杂交法测序拼接的计算模型

可免费登录的相关网站

习题

参考文献

第8章生物信息数据库的查询与搜索

⒏1生物信息数据库

⒏1.1核酸序列数据库

⒏1.2蛋白质序列数据库

⒏1.3结构数据库

⒏1.4基因组数据库

⒏1.5蛋白组数据库

⒏1.6代谢组数据库

⒏1.7疾病数据库

⒏1.8药物与分子设计数据库

⒏1.9分析与记录方式数据库

⒏2生物信息数据库的字符匹配查询

⒏2.1查询系统SRS

⒏2.2查询系统Entrez

⒏3生物信息数据库的相似性搜索

⒏3.1BLAST

⒏3.2FASTA

可免费登录的相关网站

习题

参考文献

第9章生物进化与分子系统发育分析

⒐1生物进化

⒐1.1进化理论的历史

⒐1.2进化与自然选择的证据

⒐1.3分子进化

⒐1.4生物进化与生物信息学的关系

⒐2分子系统发育分析

⒐2.1分子系统发育分析的概念

⒐2.2构建进化树的方法

⒐2.3用网上软件构建进化树

可免费登录的相关网站

习题

参考文献

第10章基因预测与引物设计

⒑1基因特征

⒑1.1原核生物的基因特征

⒑1.2真核生物的基因特征

⒑2基于EST的基因鉴定

⒑2.1EST概念

⒑2.2EST的获得

⒑2.3EST与基因识别

⒑2.4EST的其他用途

⒑2.5EST数据的不足

⒑3基因预测的算法

⒑3.1相似性比较预测

⒑3.2隐马尔可夫模型

⒑3.3神经网络方法

⒑3.4密码学方法

⒑3.5Z?曲线法

⒑3.6其他算法

⒑4引物设计

⒑4.1上、下游引物的3′末端与5′末端

⒑4.2引物分子内不互补

⒑4.3引物的长度、组分与解链温度

⒑5网上的基因预测软件

可免费登录的相关网站

习题

参考文献

第11章蛋白质结构及其预测

⒒1蛋白质的结构及其实验测定方法

⒒1.1蛋白质的结构概述

⒒1.2维系蛋白质结构的作用力

⒒1.3蛋白质结构的显示软件

⒒1.4蛋白质结构的实验测定方法

⒒2蛋白质分类

⒒2.1按序列特征分类

⒒2.2按在生物体中的位置分类

⒒2.3按折叠类型分类

⒒3蛋白质结构预测算法

⒒3.1特殊序列预测

⒒3.2蛋白质二级结构的预测

⒒3.3蛋白质三级结构的预测

⒒4蛋白质结构预测软件

⒒4.1蛋白质二级结构预测软件

⒒4.2蛋白质三级结构预测软件

⒒5编写计算机程序进行蛋白质二级结构预测

可免费登录的相关网站

习题

参考文献

第12章RNA结构与预测

⒓1RNA的发现及其功能研究

⒓2RNA的结构特征及其与功能的关系

⒓2.1RNA的结构层次

⒓2.2核糖体RNA的结构

⒓2.3tRNA的结构

⒓2.4mRNA的结构与功能

⒓2.5核酶的结构与功能

⒓2.6形成RNA特定结构的序列特征

⒓3RNA二级结构的预测算法

⒓3.1比较序列分析方法

⒓3.2动态规划算法

⒓3.3对RNA结构预测算法的评价

⒓4网上RNA二级结构分析软件

可免费登录的相关网站

习题

参考文献

第13章生物芯片

⒔1引言

⒔2生物芯片的原理

⒔2.1生物芯片的制备

⒔2.2待检生物样品制备和标记

⒔2.3生物分子之间的结合

⒔2.4检测原理

⒔3数据分析

⒔3.1图像分析

⒔3.2标准化处理（normalization）

⒔3.3Ratio分析（ratio analysis）

⒔3.4聚类分析（clustering analysis）

⒔3.5基因表达数据库

⒔4其他生物芯片技术

⒔4.1微流路芯片

⒔4.2活体化芯片

⒔4.3芯片实验室（lab on a chip）

可免费登录的相关网站

习题

参考文献

第14章计算机辅助药物设计

⒕1计算机辅助药物设计的概念

⒕2药物设计的理论基础

⒕2.1受体与配体

⒕2.2理论计算方法

⒕3结合自由能的计算

⒕3.1自由能微扰/热力学积分方法

⒕3.2线性相互作用能方法

⒕3.3打分函数

⒕4基于配体的药物设计

⒕4.1定量构效关系方法

⒕4.2药效团模型方法

⒕5基于受体的药物设计

⒕5.1重新配体设计

⒕5.2分子对接虚拟筛选

⒕5.3生物大分子模建和药物设计集成软件包——InsightⅡ

⒕6药物发现集成平台

可免费登录的相关网站

习题

参考文献

第15章生物分子网络与生物系统仿真

⒖1生物分子网络

⒖1.1生物分子网络的特征与研究方法

⒖1.2代谢网络

⒖1.3基因调控网络

⒖1.4蛋白质相互作用网络

⒖2生物系统仿真

⒖3系统生物学概况

可免费登录的相关网站

习题

参考文献

第16章DNA计算

⒗1DNA计算的生物学基础

⒗1.1DNA的组成

⒗1.2碱基配对

⒗1.3DNA分子的制备

⒗1.4连接、合成DNA与RNA分子的酶类的作用

⒗1.5切割DNA的酶类的作用

⒗1.6DNA序列的测定

⒗2Adleman开创DNA计算研究领域的实验

⒗3DNA计算的应用

⒗4问题与展望

可免费登录的相关网站

习题

参考文献

附表1生物信息数据库

附表2中国、美国、英国、加拿大、澳大利亚科研教育机构开设生物信息学专业的情况

汉英名词索引

英汉名词索引

编辑本段 学术期刊

《生物信息学》杂志是由哈尔滨工业大学主办的生物信息及相关领域的国内外公开发行的学术刊物，报道我国生物信息技术研究开发的重要成果和国内外生物信息技术及其产业化最新进展。主要刊载生物信息及相关领域的研究进展、综述、研究论文、研究简报、技术与方法、专题评论等学术文章。^[5]

编辑本段 期刊信息

期刊名称：生物信息学

主办单位：哈尔滨工业大学

出版周期：季刊

出版地：黑龙江省哈尔滨市

语言种类：中文

开本尺寸：大16开

国际刊号：1672-5565

国内刊号：23-1513/Q

邮发代号：14-14

创刊时间：2003年

该刊被以下数据库收录：

中国科学引文数据库(CSCD—2008)

▪ 070401：生物科学	▪ 070402：生物技术	▪ 070403W：生物信息学
▪ 070404W：生物信息技术	▪ 070405W：生物科学与生物技术	▪ 070406W：动植物检疫专业
▪ 070407W：生物化学与分子生物学	▪ 070408W：医学信息学	▪ 070409W：植物生物技术
▪ 070410W：动物生物技术	▪ 070411S：生物资源科学	▪ 070412S：生物安全专业
▪ 070413S：生物医学英语专业

▪ 基因组计划	▪ 古多倍性	▪ 糖组学	▪ 人类基因组计划
▪ 蛋白质组学	▪ 免疫组学	▪ 代谢物组学	▪ 化学基因组学
▪ 结构基因组学	▪ 药物遗传学	▪ 药物基因组学	▪ 毒理基因组学
▪ 计算基因组学	▪ 生物信息学	▪ 化学信息学	▪ 系统生物学

▪ 细胞学	▪ 细胞生物学	▪ 分子细胞生物学	▪ 辐射细胞学	▪ 分析细胞学
▪ 超微形态学	▪ 细胞分类学	▪ 细胞形态学	▪ 形态测量细胞学	▪ 核形态学
▪ 核型分类学	▪ 细胞核学	▪ 染色体学	▪ 细胞遗传学	▪ 细胞生理学
▪ 细胞化学	▪ 细胞病理学	▪ 细胞免疫学	▪ 细胞能[力]学	▪ 细胞动力学
▪ 细胞社会学	▪ 生物信息学	▪ 基因组学	▪ 细胞组学	▪ 蛋白质组学
▪ 基因组	▪ 细胞质基因组	▪ 核基因组	▪ 细胞器基因组	▪ 线粒体基因组
▪ 叶绿体基因组	▪ 基因组计划	▪ 人类基因组计划	▪ 后基因组计划	▪ 细胞组
▪ 人类细胞组计划	▪ 蛋白质组	▪ 蛋白质组计划	▪ 种质学说	▪ 细胞学说

▪ 经典假说	▪ 内共生学说	▪ 非内共生学说	▪ 内共生体	▪ 类菌体
▪ 共生体	▪ 种质	▪ 团聚体	▪ 古核生物	▪ 原核生物
▪ 真核生物	▪ 支原体	▪ 蓝细菌	▪ 细菌	▪ 真菌
▪ 酵母	▪ 黏菌	▪ 病毒	▪ 衣壳	▪ 核壳
▪ 原病毒	▪ 类病毒	▪ DNA病毒	▪ RNA病毒	▪ 反转录病毒
▪ 肿瘤病毒	▪ RNA肿瘤病毒	▪ 劳斯肉瘤病毒	▪ DNA肿瘤病毒	▪ 猿猴空泡病毒40
▪ 腺病毒	▪ 转化病毒	▪ 人类免疫缺陷病毒	▪ 病毒[粒]体	▪ 噬菌体
▪ λ噬菌体	▪ 细胞	▪ 原核细胞	▪ 真核细胞	▪ 祖细胞
▪ 骨髓基质细胞	▪ 单核细胞	▪ 吞噬细胞	▪ 血细胞	▪ 红细胞
▪ 红细胞血影	▪ 白细胞	▪ 粒细胞	▪ 嗜碱性粒细胞	▪ 嗜酸性粒细胞
▪ 中性粒细胞	▪ 血小板	▪ 成纤维细胞	▪ 脂肪细胞	▪ 破骨细胞
▪ 骨细胞	▪ 巨核细胞	▪ 生成细胞	▪ 支持细胞	▪ 稚细胞
▪ 卵泡细胞	▪ 视网膜节细胞	▪ 胶质细胞	▪ 成胶质细胞	▪ 星形胶质细胞
▪ 成星形胶质细胞	▪ 少突胶质细胞	▪ 施万细胞	▪ 肝[实质]细胞	▪ 角质[形成]细胞
▪ 黑素细胞	▪ 肌肉细胞	▪ 肌纤维	▪ 成肌细胞	▪ 肌细胞
▪ 肌上皮细胞	▪ 肌成纤维细胞	▪ 肌管	▪ 平滑肌细胞	▪ 顶端细胞
▪ 基细胞	▪ 表皮细胞	▪ 极化细胞	▪ 分生组织细胞	▪ 叶肉
▪ 栅栏组织	▪ 海绵组织	▪ 蜜腺	▪ 薄壁细胞	▪ 厚角细胞
▪ 厚壁细胞	▪ 根毛	▪ 石细胞	▪ 伴胞	▪ 筛管
▪ 气孔	▪ 保卫细胞	▪ 副卫细胞	▪ 管胞	▪ 导管
▪ 胚囊	▪ 花粉母细胞	▪ 根冠	▪ 平衡石	▪ 平衡细胞

▪ 遗传学	▪ 细胞遗传学	▪ 体细胞遗传学	▪ 临床细胞遗传学	▪ 群体细胞遗传学
▪ 分子细胞遗传学	▪ 细胞器遗传学	▪ 分子遗传学	▪ 发育遗传学	▪ 生化遗传学
▪ 群体遗传学	▪ 数量遗传学	▪ 辐射遗传学	▪ 生态遗传学	▪ 生理遗传学
▪ 免疫遗传学	▪ 行为遗传学	▪ 毒理遗传学	▪ 进化遗传学	▪ 群落遗传学
▪ 病理遗传学	▪ 药物遗传学	▪ 人类遗传学	▪ 微生物遗传学	▪ 细菌遗传学
▪ 植物遗传学	▪ 动物遗传学	▪ 医学遗传学	▪ 临床遗传学	▪ 法医遗传学
▪ 肿瘤遗传学	▪ 遗传流行病学	▪ 反求遗传学	▪ 表观遗传学	▪ 核遗传学
▪ 染色体学	▪ 细胞核学	▪ 核型分类学	▪ 核形态学	▪ 表型系统学

▪ 基因组学	▪ 结构基因组学	▪ 功能基因组学	▪ 表观基因组学	▪ 化学基因组学
▪ 药物基因组学	▪ 环境基因组学	▪ 进化基因组学	▪ 计算基因组学	▪ 比较基因组学
▪ 转录物组学	▪ 蛋白质组学	▪ 计算蛋白质组学	▪ 表型组学	▪ 生物信息学
▪ 遗传的染色体学说	▪ 基因学说	▪ 多基因学说	▪ 突变[学]说	▪ 断裂愈合假说
▪ 交叉型假说	▪ 模板选择假说	▪ 念珠理论	▪ 一基因一酶假说	▪ 一基因一多肽假说
▪ 泛生说	▪ 种质学说	▪ 先成说	▪ 后成说	▪ 生源说
▪ 自然发生说	▪ 起源中心学说	▪ 拉马克学说	▪ 新拉马克学说	▪ 达尔文学说
▪ 新达尔文学说	▪ 进化论	▪ 分子进化中性学说	▪ 动态平衡说	▪ 间断平衡
▪ 纯系学说	▪ 种质	▪ 遗传	▪ 双亲遗传	▪ 获得性状遗传
▪ 变异	▪ 彷徨变异	▪ 遗传重组	▪ 遗传背景	▪ 遗传惰性
▪ 遗传体系	▪ 遗传指纹	▪ 遗传异质性	▪ 遗传紊乱	▪ 遗传多态性
▪ 遗传多样性	▪ 遗传拯救	▪ 遗传筛选	▪ 遗传咨询	▪ 持续饰变
▪ 遗传病	▪ 染色体病	▪ 遗传信息	▪ 遗传单位	▪ 基因
▪ 人类基因组计划	▪ 克隆

▪ 生物化学	▪ 生物无机化学	▪ 原始生物化学	▪ 古生物化学	▪ 前生命化学
▪ 地球生物化学	▪ 放射生物化学	▪ 低温生物化学	▪ 制备生物化学	▪ 反向生物化学
▪ 生命科学	▪ 分子生物学	▪ 结构分子生物学	▪ 分子遗传学	▪ 生物信息学
▪ 反向生物学	▪ 结构生物学	▪ 生物能学	▪ 生物物理化学	▪ 生物物理学
▪ 酶学	▪ 糖生物学	▪ 基因组学	▪ 结构基因组学	▪ 功能基因组学
▪ 比较基因组学	▪ 药物基因组学	▪ 转基因学	▪ 蛋白质组学	▪ RNA组学
▪ 糖组学	▪ 相互作用物组学	▪ 代谢物组学	▪ 代谢组学	▪ 表型组学

▪ 转录物组学	▪ 基因组	▪ 功能基因组	▪ 蛋白质组	▪ 转基因组
▪ 转录物组	▪ 表型组	▪ 代谢物组	▪ RNA组	▪ 糖组
▪ 相互作用物组	▪ 生物大分子	▪ 生物多聚体	▪ 单体	▪ 多体
▪ 寡聚体	▪ 多聚体	▪ 残基	▪ 一级结构	▪ 二级结构
▪ 三级结构	▪ 二维结构	▪ 超螺旋	▪ 氢键	▪ 二级氢键
▪ 三级氢键	▪ 共价键	▪ 离子键	▪ 疏水作用	▪ 螺旋结构
▪ 螺旋度	▪ 螺旋参数	▪ 十字形[结构]	▪ 环	▪ 凸起
▪ 序列	▪ 共有序列	▪ 保守序列	▪ 前导序列	▪ 下游
▪ 下游序列	▪ 模件	▪ 模体	▪ 结构模体	▪ 域
▪ 激活域	▪ 结构域	▪ 结构元件	▪ 链	▪ 主链
▪ 侧链	▪ 反向平行链	▪ 折叠	▪ 错折叠	▪ 解折叠
▪ 重折叠	▪ 变性	▪ 变性剂	▪ 复性	▪ 退火
▪ 重退火	▪ 失活	▪ 活性	▪ 比活性	▪ 激活[作用]
▪ 激活物	▪ 激动剂	▪ 解聚	▪ 解离	▪ 效应物
▪ 正效应物	▪ 负效应物	▪ 同促效应	▪ 异促效应	▪ 协同作用
▪ 负协同	▪ 拮抗作用	▪ 拮抗剂	▪ 辅因子	▪ 协同部位
▪ 抑制	▪ 阻抑	▪ 阴性对照	▪ 化学修饰	▪ 修饰系统
▪ 调制	▪ 调制物	▪ 调制系统	▪ 调节	▪ 正调节
▪ 负调节	▪ 邻近依赖性调节	▪ 负调控	▪ 全局调节	▪ 顺式调节
▪ 反式调节	▪ 反式阻遏	▪ 时序调节	▪ 反向调节	▪ 协同调节
▪ 调节物	▪ 正调物	▪ 下调物	▪ 调节因子	▪ 调节域
▪ 调节区	▪ 调节部位	▪ 调节级联	▪ 副作用	▪ 副产物
▪ 副反应	▪ 稳定性	▪ 转运	▪ 接纳体	▪ 衔接子
▪ 连接物	▪ 抗体	▪ 单克隆抗体	▪ 多克隆抗体	▪ 嵌合抗体
▪ 抗原	▪ 表位	▪ 同种型	▪ 结合部位	▪ 配体
▪ 衍生物	▪ 排比	▪ 供体	▪ 受体	▪ 同源物
▪ 同系物	▪ 杂合体	▪ 杂交体	▪ 同形体	▪ 嵌合体
▪ 重组体	▪ 衔接点	▪ 接界	▪ 前体	▪ 引物
▪ 识别元件	▪ 报道分子	▪ 应答元件	▪ 亚基	▪ 基因家族
▪ 蛋白质家族	▪ 亚家族	▪ 超家族	▪ 兼性离子	▪ 趋化性
▪ 协同性	▪ 两亲性	▪ 亲水性	▪ 疏水性	▪ 亲脂性
▪ 同源性	▪ 旋光色散	▪ 旋光异构	▪ 旋光性	▪ 变旋
▪ 手性	▪ 外消旋化	▪ 构型	▪ 构象	▪ 顺向构象
▪ 异构现象	▪ 异构化	▪ 顺反异构	▪ 互变异构	▪ 异构体
▪ 顺式异构体	▪ 反式异构体	▪ 右旋异构体	▪ 左旋异构体	▪ 对映[异构]体
▪ 非对映[异构]体	▪ 互变异构体	▪ 差向异构体	▪ 差向异构化	▪ 专一性
▪ 立体选择性	▪ 立体专一性	▪ 均一性	▪ 不均一性	▪ 微不均一性
▪ 集落	▪ 丰度	▪ 抗终止作用	▪ 装配	▪ 缔合
▪ 亚基缔合	▪ 平衡常数	▪ 缔合常数	▪ 解离常数	▪ 延伸
▪ 识别	▪ 阻滞	▪ 易位	▪ 分子模拟	▪ 成熟
▪ 细胞程序性死亡	▪ 细胞凋亡	▪ 发酵	▪ 融合	▪ [细]胞外基质
▪ 基质	▪ 古核生物	▪ 生物信息	▪ 多态性	▪ 生物多样性
▪ 生物安全性	▪ 生物可利用度	▪ 生物危害	▪ 生物发光	▪ 微环境
▪ 分子病	▪ 人类基因组计划

参考资料

1．生物信息．生物帮[引用日期2013-07-9]．
2． [医学]生物信息学-绪论．
3．医学信息学概论董建成主编人民卫生出版 2010年1月第一版 271页
4．生物信息学．清华大学出版社[引用日期2012-06-19]．
5．生物信息学．期刊[引用日期2009-3-16]．

相关文献

生物信息学中计算机算法的应用研究-福建电脑-2011年第12期 (27)
基于生物信息学特征的DNA序列数据压缩算法-电子学报-2011年第5期 (39)
生物信息学中的文本挖掘方法-计算机工程与设计-2011年第12期 (32)

>> 查看更多相关文献

词条标签：: 科学生物学学科生物化学与分子生物学细胞生物学分子生物学生物信息学自然科学二级学科·生物科学

百度百科中的词条正文与判断内容均由用户提供，不代表百度百科立场。如果您需要解决具体问题（如法律、医学等领域），建议您咨询相关领域专业人士。

本词条对我有帮助

合作编辑者: 消失的海鸥， luotao19861127 ， lj552081983 ，十年生死8793 ，郭TTgreat ， w_ou ， zizhujie ，杨周易， i度百， obbbbabo
更多

如果您认为本词条还需进一步完善，百科欢迎您也来参与编辑词条在开始编辑前，您还可以先学习如何编辑词条

如想投诉，请到百度百科投诉中心；如想提出意见、建议，请到意见反馈。

科学系列

形式科学

数学	-	数理逻辑
数理统计学	-	计算机科学

自然科学

物理学

经典物理学	-	现代物理学
应用物理学	-	计算物理学
原子物理学	-	核物理学
粒子物理学	-	实验物理学
理论物理学	-	凝聚态物理学
力学	-	经典力学
量子力学	-	连续介质力学
流变学	-	固体力学
流体力学	-	等离子体
热力学	-	狭义相对论
弦论	-	M理论

化学

酸碱理论	-	炼金术
分析化学	-	宇宙化学
生物化学	-	晶体学
环境化学	-	食品化学
地球化学	-	绿色化学
无机化学	-	材料科学
分子物理学	-	核化学
有机化学	-	光化学
物理化学	-	放射化学
固体化学	-	立体化学
超分子化学	-	表面科学
理论化学

天文学

天体物理学	-	宇宙学
银河系天文学	-	行星地质学
行星科学	-	恒星天文学

地球科学

大气科学	-	生态学
环境科学	-	大地测量学
地质学	-	地貌学
地球物理学	-	冰川学
水文学	-	湖沼学
矿物学	-	海洋学
古气候学	-	孢粉学
自然地理学	-	土壤学
空间科学

生物学

解剖学	-	天体生物学
生物化学	-	生物地理学
生物工程学	-	生物物理学
生物心理学	-	生物技术
植物学	-	细胞生物学
保育生物学	-	低温生物学
发育生物学	-	生态学
人种生物学	-	进化生物学
遗传学	-	老人学
免疫学	-	湖沼学
海洋生物学	-	微生物学
分子生物学	-	神经科学
古生物学	-	寄生虫学
生理学	-	放射生物学
生物数学	-	毒理学
动物学

社会科学

人类学	-	考古学
犯罪学	-	人口学
经济学	-	教育学
人文地理学	-	历史学
国际关系学	-	法学
语言学	-	政治学
心理学	-	社会学

应用科学

工程学
农学	-	航空航天
生物医学	-	化学工程
土木工程	-	计算机工程
电机工程	-	消防工程
基因工程	-	工业工程
机械工程	-	军事工程
矿业工程	-	核工程
运筹学	-	自动机
软件工程
医疗卫生科学
生物工程学	-	牙医学
流行病学	-	医疗卫生
医学	-	护理学
药学	-	社会工作学
兽医学

学科交叉

应用物理学	-	人工智能
生物伦理学	-	生物信息学
生物医学工程	-	生物统计学
认知科学	-	计算语言学
文化研究	-	控制论
环境科学	-	环境社会科学
种族研究	-	演化心理学
图书馆信息学	-	逻辑学
生物数学	-	数学物理学
科学建模	-	神经工程
神经科学	-	STS
符号学	-	社会生物学
系统科学	-	城市规划学

科学史与基本原理

科学政策

phymath888

去兑换>>您尚无道具可使用

成长任务

日常任务

本月累计点亮0天。今日笑脸还没点亮哦。
一目了然日常任务：参加任务

热词推送

编辑热词可获得额外经验值

词条动态

进入我的百科

您目前的等级是1级
您目前的经验值是74点
您还需26点经验值即可升为2级

词条统计: 浏览次数：约 193250次; 编辑次数：54次历史版本; 词条讨论：2次讨论历史; 最近更新：2013-09-02; 创建者：kidscorpio

更多贡献光荣榜

辛勤贡献者：
	zhang_sy19...	展开
版本
版本
版本
版本
	yangke1994...	版本
	邋遢旅人	版本
	clair鑫	版本
	百科图书馆	版本
查看更多贡献者

最新动态

百科校园知识先锋报名啦：

百科消息：: 看蓝精灵2 抢ipad mini; 百度知道问医生隆重上线; 快来围观2013暑假作业大盘点; 趣味冷知识，尽在百科官方微信; 快来下载全新百科客户端2.0版

推广链接

生物信息学服务首选华大..
国际领先的生物信息学服务机构,拥有完整的生物信息分析服务体系..
www.bgitechsolutions.cn

生物信息「亚马逊Z.cn」..
生物信息,亚马逊提供29大类,上千万种的产品亚马逊生物信息,正品..
www.Amazon.cn

参考资料

会员:发帖:

Thursday, September 12, 2013

蛋白质比对

生物信息学

百科名片

编辑本段简介

编辑本段定义

编辑本段经历阶段

编辑本段发展简介

编辑本段研究方向

序列比对

蛋白质比对

基因识别分析

分子进化

序列重叠群（Contigs）装配

遗传密码

药物设计

生物系统

技术方法

生物图像

其他

编辑本段研究方法

编辑本段机器学习

编辑本段数学问题

统计学的悖论

度量空间的假设

编辑本段统计学习

编辑本段讨论总结

启发式方法

乐观中的隐扰

总结

编辑本段经典教材

内容简介

作者简介

图书目录

编辑本段相关图书信息

编辑本段内容简介

编辑本段目录

编辑本段学术期刊

编辑本段期刊信息

二级学科·生物科学

基因组学主题

细胞生物学总论

其他科技名词

遗传学总论

其他科技名词

生物化学与分子生物学总论

其他科技名词

科学系列

科学史与基本原理

No comments:

Post a Comment