生物大分子体系量子化学计算方法新进展
生物大分子体系量子化学计算方法新进展
大分子体系的理论计算一直是一个具有挑战性的研究领域, 尤其是生物大分子体系的理论研究具有重要意义。由于量子化学可以在分子、电子水平上对体系进行精细的理论研究, 是其它理论研究方法所难以替代的。因此要深入理解有关酶的催化作用、基因的复制与突变、药物与受体之间的识别与结合过程及作用方式等, 都很有必要运用量子化学的方法对这些生物大分子体系进行研究。毫无疑问, 这种研究可以帮助人们有目的地调控酶的催化作用,甚至可以有目的地修饰酶的结构、设计并合成人工酶; 可以揭示遗传与变异的奥秘, 进而调控基因的复制与突变, 使之造福于人类; 可以根据药物与受体的结合过程和作用特点设计高效低毒的新药, 等等,可见运用量子化学的手段来研究生命现象是十分有意义的。因此, 大分子体系的量子化学计算方法的研究便成为当今计算化学领域中极具挑战性的研究热点之一。90 年代初以来, 不少计算化学家作了很多的努力去发展新的理论和算法以使计算量仅与分子大小尺寸成线性关系( linear scaling algo rithm )。尽管这些研究取得了一定的进展, 但运用于生物大分子的计算研究还不能令人满意。使人鼓舞的是最近两年来又有人提出了几种计算方法用来研究大分子体系, 取得了一些新进展。本文就生物体系的量子化学计算方法及趋势作一综述。
计算显微镜(computational microscope) 方法
该方法由加拿大学者Mezey 等人于1994 年提出。首先运用ab in itio 方法对组成大分子的各小分子碎片进行电子密度的计算, 然后基于M EDLA (mo lecu lar elect ronden sity lego addem ber) 原理运用计算机进行模糊电子密度碎片叠加而得到大分子的电子密度图像。有文献报道了由1384 个原子组成的蛋白质的电子等密度图, 声称其精度甚至可相当于6-31G的从头计算水平。这是模糊数学方法在计算大分子体系电子密度图像方面的成功应用。
计算显微镜实际上是基于电子密度碎片叠加原理建立起来的计算大分子电子密度的方法。Mezey 等声称由于分子小碎片电子密度可以进行精确的从头计算, 故相加得到的分子的电子密度图可与ab in itio 方法在6-31G基组水平上的计算结果相当。当碎片进行拼合时,MEDLA 方法可以使电子云相互渗透。结果是在碎片对接的区间并不出现密度的间隙和过度的交盖, 克服了其它碎片方法在这方面的缺陷。由于将大分子拆分成许多小碎片, 而这些碎片的电子密度已经计算好了并存放在数据库中, 因此在计算大分子的电子密度时, 只要将这些碎片的密度取出按MEDLA 规则进行叠加即可得到大分子的电子密度图, 所以计算速度是非常快的。如计算环己烷的电子密度MEDLA 仅仅需要10s, 而ab in itio 在6-31G基组水平上的计算需125min (GAU SSIAN程序)。对于含1384 的蛋白质(g5P)分子, 如果采用从头计算方法, 按现在的超级计算机计算水平, 得花100 年以上的时间, 而用MEDLA 方法在Kubo ta3000 工作站上仅需21min。
不同的电子等密度图可以反映分子结构的不同信息。高阀值等密度图(high density featu re) 可以勾勒出分子的骨架和键的特征; 而低阀值等密度图( low density feature) 可以描绘出分子的外形和表面特征。
计算显微镜MEDLA 方法成功地解决了大分子体系电子密度图的计算问题, 结果的准确度可以和ab in tio 方法在6-31G水平上的结果相比。但该方法还不能进行体系的能量计算和构型优化, 因此不能不说这是该方法令人十分遗憾的缺陷。另外, 该方法的数据库中小分子碎片的种类和数目还不多, 仅在计算蛋白质和多肽时比较方便。这两个方面的工作有待进一步开展。
定域分子轨道法( localized molecular orbitals, LMO)
该方法由Stewart 于1996 年提出。它提供了一条运用半经验量子化学方法研究包含数以千计个原子的大分子体系的途径。Stewart 认为常用的量子化学计算方法不能研究生物大分子体系的原因是无法实现自洽场(SCF)方程的求解。对于一个包含N个原子的体系, 被占分子轨道和原子轨道与原子数N 成正比, 因此,密度矩阵元数将以N2增加, 同时在每一个矩阵元的计算过程中所需要的计算量以N2增加,故在密度矩阵的计算中整个计算量将以N3增加。在这种情况下, 即使不考虑其它因素, 传统的半经验量子化学方法用来计算诸如酶这些大体系在时间上也是不现实的。这样, 求解密度矩阵就成了问题的关键。为了有效地减少密度矩阵的计算量, Stewart 提出用定域分子轨道来求解自洽场方程。分子轨道(molecular orbitals, MOs) 的生成可从定域分子轨道开始, 这种定域分子轨道对应于分子结构的Lewis 电子结构。传统的分子轨道遍及整个体系, 而定域分子轨道高度定域化。这样, 在涉及定域分子轨道的计算时, 仅仅计算LMOs 所涉及到的某些区域而不必遍及整个体系。为了生成自洽场,LMOs 必须作足够的扩展, 因此定域分子轨道方法求解自洽场方程用于处理小分子体系并不体现什么优势, 但当处理大分子体系时, 密度矩阵的计算仅随体系的增大成线性增加, 从而显示出该方法的优势, 这主要有以下3个原因:(1) 涉及远距离占据及虚设定域分子轨道间的相互作用为零, 而不为零的相互作用与LMOs 数有关。对于大体系,LMOs 规模仅决定于体系的大小, 故这种作用仅随体系规模呈准线性增加;(2) 密度矩阵的计算可只限于那些由定域分子轨道表示的矩阵元。
很明显, 如果一定域分子轨道不涉及某一原子, 则该定域分子轨道对和这个原子有关的任何密度矩阵的贡献为零。这也意味着密度矩阵的计算仅随体系的增大而呈准线性增加;(3) 能量和占据虚设轨道相互作用亦仅局限于所涉及原子。由于LMO 数仅依赖于定域电子结构, 故在计算能量和占据虚设轨道相互作用时计算量也仅依赖于体系的大小。因此计算量的增加仅随体系增大而呈准线性增加。
定域分子轨道方法中密度矩阵的求解过程与传统的过程基本相似, 不同之处主要有两点: 一是传统求解自洽场步骤中的对角化被湮灭(annihilation) 步骤所取代; 另一是增加了对于分子轨道的修饰( tidying up ) 步骤。
为了验证定域分子轨道方法求解密度矩阵的半经验量子化学方法的可靠性, Stewart把依据该思想用FORTRAN 77 编写的程序“MOZYME”的计算结果和MOPAC的计算结果进行了比较, 发现两者的计算结果能很好地吻合, 说明用定域分子轨道方法求解密度矩阵的思想是正确可靠的。该方法具有两个明显的特点: 一是准确性和单点计算大分子体系的快速性; 另一是可进行构型优化。计算结果表明,MOZYME 方法计算小分子体系时, 计算速度不仅没有加快反而有所下降。只有当体系包含的原子数超过100 时MOZYME 才显示出快速的优势, 并且体系越大, 这种优势越明显。当体系大到含2000 个原子时,MOZYME 已比MOPAC 快约两个数量级。由此可见,MOZYME 方法在计算大分子体系时, 计算量基本上与体系的大小成线性关系。有关构型优化的问题, Stewart 认为对于大分子体系进行全构型优化是不必要的, 因此他只详细讨论了部分构型优化的问题。同样,MOZYME 进行部分构型优化所需的机时要比MOPAC少得多。
总的说来, Stewart 发展的定域分子轨道求解密度矩阵的半经验量子化学方法由于采用定域分子轨道, 同时又不考虑远距离原子间的相互作用, 从而可大大加快求解自洽场方程的速度, 节省大量的计算机时。对于数以千计个原子组成的大分子体系, 用根据该思想编写成的MOZYM E 程序求解自洽场方程所需的时间仅仅为MOPAC的1% 左右, 而计算结果的精度无明显差异。MO ZYME 在用来进行大体系中的部分构型优化同样显示出快速的特点, 但对于大体系的全构型优化仍然存在存储空间巨大的难题。
线性标度半经验量子化学方法
关于矩阵元和长程库仑相互作用的线性标度( linear scaling) 算法已有不少学者进行过研究, 杨伟涛等人于1996 年将称为“分而歼之(divide and conquer) ”的线性标度半经验量子化学方法推广到研究生物大分子体系, 并在工作站上完成了超过9 000 个原子的蛋白质的计算研究。
在分而歼之的算法中, 其核心思想是将密度矩阵元分解成若干个子体系的矩阵元的贡献
为了获得准确可靠的计算结果, 分而歼之半经验量子化学计算方法定义了两个新参数R b 和R h。如果某原子处在距某子体系R b 区域以内, 则该原子称为这个子体系的缓冲原子(buffer atom ) , 在计算这个子体系时该原子也将被考虑进去。R h 是一个距离判据, 只有当两个原子之间的距离小于R h 时, 它们的矩阵元才被计算和储存。很明显, R b 及R h 越大, 计算结果应该越准确, 但计算量和要求的计算机资源也将越大。
总的来说, 杨伟涛等发展的“分而歼之”的半经验量子化学方法不仅计算速度快、准确度较高, 而且可进行构型优化和溶剂化计算。计算结果表明分而歼之方法的计算量在该范围内确实随体系的增大而线性增加, 而传统的MOPAC 程序的计算量却随体系的增大而迅速增大。由于运用了距离限制, 舍弃了许多远距离原子间的相互作用, 从而大大节省了内存空间, 体系越大, 节约的内存空间越多, 当体系大到9 000 个原子时, 分而歼之半经验量子化学方法所需的内存仅约为普通半经验量子化学方法的1% 左右。分而歼之半经验量子化学方法由于将大分子体系划分成若干个子体系, 同时引进距离限制使得计算量和所需内存大大减少, 实现了含9 000 个原子的蛋白质大分子体系的量子化学计算研究。
并行算法
为了实现生物大分子的量子化学计算研究, 除了要发展新理论和新的算法以外, 还需提
高计算机的处理能力。现在, 人们越来越认识到仅仅通过提高计算机硬件是难以达到显著提高CPU 的运算速度的; 另一方面, 将数以百计甚至千计的处理器连接起来却可以解决计算所需的内存和速度问题。事实上, 80 年代末出现的这种所谓的并行计算机已经开始带来了科学计算领域的一场革命, 其中包括计算化学在内。
Abinitio SCF HF 计算的最主要任务是计算密度矩阵。在并行计算中, 计算机将把密度
矩阵的任务分配到并行计算机的各个处理器上进行处理, 然后再把各个计算结果合并处理得到最终计算结果。可以想象, 一台由数以百计甚至更多的处理器组成的并行计算机的计算能力是非常大的。目前, 用并行计算机已可求解含有3000 个以上基函数的自洽场方程。因此并行计算是显著提高计算机处理能力的很好途径, 并将在科学计算包括量子化学的计算中发挥重要作用。
大分子体系的理论计算一直是一个具有挑战性的研究领域, 尤其是生物大分子体系的理论研究具有重要意义。由于量子化学可以在分子、电子水平上对体系进行精细的理论研究, 是其它理论研究方法所难以替代的。因此要深入理解有关酶的催化作用、基因的复制与突变、药物与受体之间的识别与结合过程及作用方式等, 都很有必要运用量子化学的方法对这些生物大分子体系进行研究。毫无疑问, 这种研究可以帮助人们有目的地调控酶的催化作用,甚至可以有目的地修饰酶的结构、设计并合成人工酶; 可以揭示遗传与变异的奥秘, 进而调控基因的复制与突变, 使之造福于人类; 可以根据药物与受体的结合过程和作用特点设计高效低毒的新药, 等等,可见运用量子化学的手段来研究生命现象是十分有意义的。因此, 大分子体系的量子化学计算方法的研究便成为当今计算化学领域中极具挑战性的研究热点之一。90 年代初以来, 不少计算化学家作了很多的努力去发展新的理论和算法以使计算量仅与分子大小尺寸成线性关系( linear scaling algo rithm )。尽管这些研究取得了一定的进展, 但运用于生物大分子的计算研究还不能令人满意。使人鼓舞的是最近两年来又有人提出了几种计算方法用来研究大分子体系, 取得了一些新进展。本文就生物体系的量子化学计算方法及趋势作一综述。
计算显微镜(computational microscope) 方法
该方法由加拿大学者Mezey 等人于1994 年提出。首先运用ab in itio 方法对组成大分子的各小分子碎片进行电子密度的计算, 然后基于M EDLA (mo lecu lar elect ronden sity lego addem ber) 原理运用计算机进行模糊电子密度碎片叠加而得到大分子的电子密度图像。有文献报道了由1384 个原子组成的蛋白质的电子等密度图, 声称其精度甚至可相当于6-31G的从头计算水平。这是模糊数学方法在计算大分子体系电子密度图像方面的成功应用。
计算显微镜实际上是基于电子密度碎片叠加原理建立起来的计算大分子电子密度的方法。Mezey 等声称由于分子小碎片电子密度可以进行精确的从头计算, 故相加得到的分子的电子密度图可与ab in itio 方法在6-31G基组水平上的计算结果相当。当碎片进行拼合时,MEDLA 方法可以使电子云相互渗透。结果是在碎片对接的区间并不出现密度的间隙和过度的交盖, 克服了其它碎片方法在这方面的缺陷。由于将大分子拆分成许多小碎片, 而这些碎片的电子密度已经计算好了并存放在数据库中, 因此在计算大分子的电子密度时, 只要将这些碎片的密度取出按MEDLA 规则进行叠加即可得到大分子的电子密度图, 所以计算速度是非常快的。如计算环己烷的电子密度MEDLA 仅仅需要10s, 而ab in itio 在6-31G基组水平上的计算需125min (GAU SSIAN程序)。对于含1384 的蛋白质(g5P)分子, 如果采用从头计算方法, 按现在的超级计算机计算水平, 得花100 年以上的时间, 而用MEDLA 方法在Kubo ta3000 工作站上仅需21min。
不同的电子等密度图可以反映分子结构的不同信息。高阀值等密度图(high density featu re) 可以勾勒出分子的骨架和键的特征; 而低阀值等密度图( low density feature) 可以描绘出分子的外形和表面特征。
计算显微镜MEDLA 方法成功地解决了大分子体系电子密度图的计算问题, 结果的准确度可以和ab in tio 方法在6-31G水平上的结果相比。但该方法还不能进行体系的能量计算和构型优化, 因此不能不说这是该方法令人十分遗憾的缺陷。另外, 该方法的数据库中小分子碎片的种类和数目还不多, 仅在计算蛋白质和多肽时比较方便。这两个方面的工作有待进一步开展。
定域分子轨道法( localized molecular orbitals, LMO)
该方法由Stewart 于1996 年提出。它提供了一条运用半经验量子化学方法研究包含数以千计个原子的大分子体系的途径。Stewart 认为常用的量子化学计算方法不能研究生物大分子体系的原因是无法实现自洽场(SCF)方程的求解。对于一个包含N个原子的体系, 被占分子轨道和原子轨道与原子数N 成正比, 因此,密度矩阵元数将以N2增加, 同时在每一个矩阵元的计算过程中所需要的计算量以N2增加,故在密度矩阵的计算中整个计算量将以N3增加。在这种情况下, 即使不考虑其它因素, 传统的半经验量子化学方法用来计算诸如酶这些大体系在时间上也是不现实的。这样, 求解密度矩阵就成了问题的关键。为了有效地减少密度矩阵的计算量, Stewart 提出用定域分子轨道来求解自洽场方程。分子轨道(molecular orbitals, MOs) 的生成可从定域分子轨道开始, 这种定域分子轨道对应于分子结构的Lewis 电子结构。传统的分子轨道遍及整个体系, 而定域分子轨道高度定域化。这样, 在涉及定域分子轨道的计算时, 仅仅计算LMOs 所涉及到的某些区域而不必遍及整个体系。为了生成自洽场,LMOs 必须作足够的扩展, 因此定域分子轨道方法求解自洽场方程用于处理小分子体系并不体现什么优势, 但当处理大分子体系时, 密度矩阵的计算仅随体系的增大成线性增加, 从而显示出该方法的优势, 这主要有以下3个原因:(1) 涉及远距离占据及虚设定域分子轨道间的相互作用为零, 而不为零的相互作用与LMOs 数有关。对于大体系,LMOs 规模仅决定于体系的大小, 故这种作用仅随体系规模呈准线性增加;(2) 密度矩阵的计算可只限于那些由定域分子轨道表示的矩阵元。
很明显, 如果一定域分子轨道不涉及某一原子, 则该定域分子轨道对和这个原子有关的任何密度矩阵的贡献为零。这也意味着密度矩阵的计算仅随体系的增大而呈准线性增加;(3) 能量和占据虚设轨道相互作用亦仅局限于所涉及原子。由于LMO 数仅依赖于定域电子结构, 故在计算能量和占据虚设轨道相互作用时计算量也仅依赖于体系的大小。因此计算量的增加仅随体系增大而呈准线性增加。
定域分子轨道方法中密度矩阵的求解过程与传统的过程基本相似, 不同之处主要有两点: 一是传统求解自洽场步骤中的对角化被湮灭(annihilation) 步骤所取代; 另一是增加了对于分子轨道的修饰( tidying up ) 步骤。
为了验证定域分子轨道方法求解密度矩阵的半经验量子化学方法的可靠性, Stewart把依据该思想用FORTRAN 77 编写的程序“MOZYME”的计算结果和MOPAC的计算结果进行了比较, 发现两者的计算结果能很好地吻合, 说明用定域分子轨道方法求解密度矩阵的思想是正确可靠的。该方法具有两个明显的特点: 一是准确性和单点计算大分子体系的快速性; 另一是可进行构型优化。计算结果表明,MOZYME 方法计算小分子体系时, 计算速度不仅没有加快反而有所下降。只有当体系包含的原子数超过100 时MOZYME 才显示出快速的优势, 并且体系越大, 这种优势越明显。当体系大到含2000 个原子时,MOZYME 已比MOPAC 快约两个数量级。由此可见,MOZYME 方法在计算大分子体系时, 计算量基本上与体系的大小成线性关系。有关构型优化的问题, Stewart 认为对于大分子体系进行全构型优化是不必要的, 因此他只详细讨论了部分构型优化的问题。同样,MOZYME 进行部分构型优化所需的机时要比MOPAC少得多。
总的说来, Stewart 发展的定域分子轨道求解密度矩阵的半经验量子化学方法由于采用定域分子轨道, 同时又不考虑远距离原子间的相互作用, 从而可大大加快求解自洽场方程的速度, 节省大量的计算机时。对于数以千计个原子组成的大分子体系, 用根据该思想编写成的MOZYM E 程序求解自洽场方程所需的时间仅仅为MOPAC的1% 左右, 而计算结果的精度无明显差异。MO ZYME 在用来进行大体系中的部分构型优化同样显示出快速的特点, 但对于大体系的全构型优化仍然存在存储空间巨大的难题。
线性标度半经验量子化学方法
关于矩阵元和长程库仑相互作用的线性标度( linear scaling) 算法已有不少学者进行过研究, 杨伟涛等人于1996 年将称为“分而歼之(divide and conquer) ”的线性标度半经验量子化学方法推广到研究生物大分子体系, 并在工作站上完成了超过9 000 个原子的蛋白质的计算研究。
在分而歼之的算法中, 其核心思想是将密度矩阵元分解成若干个子体系的矩阵元的贡献
为了获得准确可靠的计算结果, 分而歼之半经验量子化学计算方法定义了两个新参数R b 和R h。如果某原子处在距某子体系R b 区域以内, 则该原子称为这个子体系的缓冲原子(buffer atom ) , 在计算这个子体系时该原子也将被考虑进去。R h 是一个距离判据, 只有当两个原子之间的距离小于R h 时, 它们的矩阵元才被计算和储存。很明显, R b 及R h 越大, 计算结果应该越准确, 但计算量和要求的计算机资源也将越大。
总的来说, 杨伟涛等发展的“分而歼之”的半经验量子化学方法不仅计算速度快、准确度较高, 而且可进行构型优化和溶剂化计算。计算结果表明分而歼之方法的计算量在该范围内确实随体系的增大而线性增加, 而传统的MOPAC 程序的计算量却随体系的增大而迅速增大。由于运用了距离限制, 舍弃了许多远距离原子间的相互作用, 从而大大节省了内存空间, 体系越大, 节约的内存空间越多, 当体系大到9 000 个原子时, 分而歼之半经验量子化学方法所需的内存仅约为普通半经验量子化学方法的1% 左右。分而歼之半经验量子化学方法由于将大分子体系划分成若干个子体系, 同时引进距离限制使得计算量和所需内存大大减少, 实现了含9 000 个原子的蛋白质大分子体系的量子化学计算研究。
并行算法
为了实现生物大分子的量子化学计算研究, 除了要发展新理论和新的算法以外, 还需提
高计算机的处理能力。现在, 人们越来越认识到仅仅通过提高计算机硬件是难以达到显著提高CPU 的运算速度的; 另一方面, 将数以百计甚至千计的处理器连接起来却可以解决计算所需的内存和速度问题。事实上, 80 年代末出现的这种所谓的并行计算机已经开始带来了科学计算领域的一场革命, 其中包括计算化学在内。
Abinitio SCF HF 计算的最主要任务是计算密度矩阵。在并行计算中, 计算机将把密度
矩阵的任务分配到并行计算机的各个处理器上进行处理, 然后再把各个计算结果合并处理得到最终计算结果。可以想象, 一台由数以百计甚至更多的处理器组成的并行计算机的计算能力是非常大的。目前, 用并行计算机已可求解含有3000 个以上基函数的自洽场方程。因此并行计算是显著提高计算机处理能力的很好途径, 并将在科学计算包括量子化学的计算中发挥重要作用。
No comments:
Post a Comment