phymath999: qmchem01 计算量与分子大小呈指数(电子数的3 次方或更高) 关系发展新的理论和算法以使计算量仅

Sunday, March 9, 2014

qmchem01 计算量与分子大小呈指数(电子数的3 次方或更高) 关系发展新的理论和算法以使计算量仅

数以万计个原子组成的大分子体系(如核酸、蛋白质和固体材料等) 进行量子化学计算研

究。这主要是由于计算量与分子大小呈指数(电子数的3 次方或更高) 关系。因此, 大分

子体系的量子化学计算方法的研究便成为当今计算化学领域中极具挑战性的研究热点之

一。90 年代初以来, 不少计算化学家作了很多的努力去发展新的理论和算法以使计算量仅

与分子大小尺寸成线性关系( linear scaling algo rithm ) [ 8- 13 ]。尽管这些研究取得了一定的进

展, 但运用于生物大分子的计算研究还不能令人满意

静电相互作用是一种非定域的长程相互作用, 其计算量随体系的增大而呈二次方增加。

Stewart 认为常用的量子化学计算方法不能研究生物大分子体系的原因是无法实现自洽场(SCF)方程的求解。对于一个包含N个原子的体系, 被占分子轨道和原子轨道与原子数N 成正比, 因此,密度矩阵元数将以N2增加, 同时在每一个矩阵元的计算过程中所需要的计算量以N2增加,故在密度矩阵的计算中整个计算量将以N3增加。在这种情况下, 即使不考虑其它因素, 传统的半经验量子化学方法用来计算诸如酶这些大体系在时间上也是不现实的

http://wenku.baidu.com/view/0caa3b82b9d528ea81c779ed

幸好静电相互作用的计算显得比较简单。

　　收稿: 1998 年8 月, 收修改稿: 1999 年1 月

　3 国家杰出青年基金和“863”高科技项目基金资助项目

3 3 通讯联系人

生物大分子体系量子化学计算方法新进展3

朱维良　蒋华良3 3 　陈凯先3 3 　嵇汝运

(中国科学院上海药物研究所　上海200031)

曹　阳

(苏州大学化学系　苏州215006)

摘　要　本文就近年来报道的4 种研究生物大分子体系的量子化学计算方法(计算显

微镜方法、定域分子轨道方法、线性标度半经验量子化学方法和并行算法) 作了较为详细

的介绍, 并展望了该领域的研究前景。

关键词　量子化学　生物大分子　计算方法

New Advances in Quan tum Chem istry Ca lcula t ion

M ethods of Biomacromolecular System

Z hu W eiliang 　J iang H ua liang 　Chen K a ix ian　J i R uy un

(State Key L abo rato ry of D rug Research, Shanghai In st itu te ofM ateriaM edica,

Ch inese A cadem y of Sicences, Shanghai 200031, Ch ina)

Cao Y ang

(Departm en t of Chem ist ry, Suzhou U n iversity, Suzhou 215006, Ch ina)

Abstract 　Fou r new quan tum chem ist ry calcu lat ion m ethods ( compu tat ional

m icro scope, localized mo lecu lar o rb itals, linear2scaling sem iemp irical quan tum chem ist ry

and parallel calcu lat ion m ethod) w h ich can be app lied to study b iom acromo lecu lar system s

w ere review ed in th is paper. The perspect ive of these m ethods w as also discu ssed.

Key words 　quan tum chem ist ry; b iom acromo lecu lar system; calcu lat ion m ethods

一、引　言

大分子体系的理论计算一直是具有挑战性的研究领域, 尤其是生物大分子体系的理论

研究具有重要意义。由于量子化学可以在分子、电子水平上对体系进行精细的理论研究, 是

其它理论研究方法所难以替代的。因此要深入理解有关酶的催化作用、基因的复制与突变、

药物与受体之间的识别与结合过程及作用方式等, 都很有必要运用量子化学的方法对这些

第11 卷第4 期

1999 年11 月

化　学　进　展

PRO GRESS IN CHEM ISTRY

Vo l. 11 No. 4

Nov. , 1999

生物大分子体系进行研究。毫无疑问, 这种研究可以帮助人们有目的地调控酶的催化作用,

甚至可以有目的地修饰酶的结构、设计并合成人工酶; 可以揭示遗传与变异的奥秘, 进而

调控基因的复制与突变, 使之造福于人类; 可以根据药物与受体的结合过程和作用特点设

计高效低毒的新药, 等等。可见运用量子化学的手段来研究生命现象是十分有意义的。

随着理论的发展与计算机技术的提高, 目前量子化学计算方法和计算程序已能对由几

个甚至几十个原子组成的中小分子的性质进行十分精确的理论研究。特别是分子的总能量,

许多计算方法(如M P[ 1 ]、DFT [ 2 ]、QC ISD [ 3 ]等方法) 的计算结果都能与精确实验结果很好

地吻合。J. A. Pop le 小组创建的Gau ssian21 (G1)、Gau ssian22 (G2)、G2 (M P2) 和G2

(M P3) 理论[ 4- 7 ] , 其能量方面的计算值与精确实验结果的差异在2kcalömo l 范围以内, 而

所需的计算机资源相对较小, 计算结果甚至可以用来评判有关实验测定结果的可靠性。然

而, 到目前为止, 还没有一种成熟的理论和普遍可接受的计算程序用于对由数以千计乃至

数以万计个原子组成的大分子体系(如核酸、蛋白质和固体材料等) 进行量子化学计算研

究。这主要是由于计算量与分子大小呈指数(电子数的3 次方或更高) 关系。因此, 大分

子体系的量子化学计算方法的研究便成为当今计算化学领域中极具挑战性的研究热点之

一。90 年代初以来, 不少计算化学家作了很多的努力去发展新的理论和算法以使计算量仅

与分子大小尺寸成线性关系( linear scaling algo rithm ) [ 8- 13 ]。尽管这些研究取得了一定的进

展, 但运用于生物大分子的计算研究还不能令人满意。使人鼓舞的是最近两年来又有人提

出了几种计算方法用来研究大分子体系, 取得了一些新进展。本文就生物体系的量子化学

计算方法及趋势作一综述。

二、计算显微镜(computa t iona l m icroscope) 方法

该方法由加拿大学者M ezey 等人于1994 年提出[ 14- 15 ]。首先运用ab in itio 方法对组成

大分子的各小分子碎片进行电子密度的计算, 然后基于M EDLA (mo lecu lar elect ron

den sity lego addem ber) 原理运用计算机进行模糊电子密度碎片叠加而得到大分子的电子密

度图像。文献[14 ]报道了由1384 个原子组成的蛋白质的电子等密度图, 声称其精度甚至可

相当于6- 31G3 3 的从头计算水平。这是模糊数学方法在计算大分子体系电子密度图像方

面的成功应用。

1. 方法原理

计算显微镜实际上是基于电子密度碎片叠加原理建立起来的计算大分子电子密度的方

法。分子的电子密度Q( r) 可表示为:

Q( r) = Σ

i= 1 Σ

j= 1

P ijUi ( r)Uj ( r) (1)

式中, r 是位矢, n 是LCAO ab in itio 分子波函数中的原子轨道总数, U( r) 是原子轨道波函

数, P ij是相应的n×n 阶密度矩阵。若将分子划分成m 个碎片, 则第k 个碎片的电子密度可

表示成:

Qk ( r) = Σ

i= 1 Σ

j= 1

P ki

jUi ( r)Uj ( r) (2)

则分子电子密度可通过碎片电子密度的叠加得到:

Q( r) = Σ

k= 1

Qk ( r) (3)

·368· 化　学　进　展第11 卷

具体的相加过程是依M EDLA 原理进行的。

2. 方法特点

图1　含1384 个原子的蛋白质(g5P)

的不同阀值的电子等密度图

M ezey 等声称由于分子小碎片电子密度可

以进行精确的从头计算, 故相加得到的分子的

电子密度图可与ab in itio 方法在6- 31G3 3 基

组水平上的计算结果相当。当碎片进行拼合时,

M EDLA 方法可以使电子云相互渗透。结果是

在碎片对接的区间并不出现密度的间隙和过度

的交盖, 克服了其它碎片方法在这方面的缺

陷[ 16- 19 ]。

由于将大分子拆分成许多小碎片, 而这些

碎片的电子密度已经计算好了并存放在数据库

中, 因此在计算大分子的电子密度时, 只要将这

些碎片的密度取出按M EDLA 规则进行叠加

即可得到大分子的电子密度图, 所以计算速度

是非常快的。如计算环己烷的电子密度

M EDLA 仅仅需要10s, 而ab in itio 在6- 31G3 3 基组水平上的计算需125m in (GAU SS IAN

程序)。对于含1384 的蛋白质(g5P) 分子, 如果采用从头计算方法, 按现在的超级计算机计

算水平, 得花100 年以上的时间, 而用M EDLA 方法在Kubo ta3000 工作站上仅需21 m in。

不同的电子等密度图可以反映分子结构的不同信息。高阀值等密度图(h igh2den sity2

featu re) 可以勾勒出分子的骨架和键的特征; 而低阀值等密度图( low 2den sity2featu re) 可以

描绘出分子的外形和表面特征。图1 为用M EDLA 程序计算得到的含1384 个原子的蛋白

质(g5P) 不同阀值的电子等密度图。每一种等密度图有两个不同方向上的视图。

计算显微镜M EDLA 方法成功地解决了大分子体系电子密度图的计算问题, 结果的准

确度可以和ab in tio 方法在6- 31G3 3 水平上的结果相比。但该方法还不能进行体系的能量

计算和构型优化, 因此不能不说这是该方法令人十分遗憾的缺陷。另外, 该方法的数据库中

小分子碎片的种类和数目还不多, 仅在计算蛋白质和多肽时比较方便。这两个方面的工作有

待进一步开展。

三、定域分子轨道法( loca l ized molecular orbita ls, LMO)

该方法由Stew art 于1996 年提出[ 20 ]。它提供了一条运用半经验量子化学方法研究包含

数以千计个原子的大分子体系的途径。

1. 方法原理

Stew art 认为常用的量子化学计算方法不能研究生物大分子体系的原因是无法实现自

洽场(SCF) 方程的求解。对于半经验量子化学方法, 自洽场方程可以表示为:

WßH - E ßW= 0 (4)

　　其中W为分子的正交归一波函数集, H 是Fock 矩阵, E 是Fock 矩阵的本征值。求解自

洽场方程必须采用叠代的方法, 求解过程可用图2 表示。

第4 期朱维良等　生物大分子体系量子化学计算方法新进展·369·

对角化

构造密度矩阵

建立新的

Fock 矩阵

计算电子能

是否自洽

结束

是

否

单电子积分

双电子积分

起始密度矩阵

定域轨道重

组和归一化

轨道湮灭

(annihilate)

构造密度矩阵

建立新的

Fock 矩阵

计算电子能

是否自洽

结束

是

否

单电子积分

双电子积分

起始定域轨道

图2　传统的自洽场求解过程图3　定域分子轨道的自洽场求解过程

对于一个包含N 个原子的体系, 被占分子轨道和原子轨道与原子数N 成正比, 因此,

密度矩阵元数将以N 2 增加, 同时在每一个矩阵元的计算过程中所需要的计算量以N 增加,

故在密度矩阵的计算中整个计算量将以N 3 增加。在这种情况下, 即使不考虑其它因素, 传

统的半经验量子化学方法用来计算诸如酶这些大体系在时间上也是不现实的[ 21 ]。这样, 求

解密度矩阵就成了问题的关键。

为了有效地减少密度矩阵的计算量, Stew art 提出用定域分子轨道来求解自洽场方程。

分子轨道(mo lecu lar o rb itals,MO s) 的生成可从定域分子轨道开始, 这种定域分子轨道对应

于分子结构的L ew is 电子结构。传统的分子轨道遍及整个体系, 而定域分子轨道高度定域

化。这样, 在涉及定域分子轨道的计算时, 仅仅计算LMO s 所涉及到的某些区域而不必遍及

整个体系。为了生成自洽场,LMO s 必须作足够的扩展, 因此定域分子轨道方法求解自洽场

方程用于处理小分子体系并不体现什么优势, 但当处理大分子体系时, 密度矩阵的计算仅随

体系的增大成线性增加, 从而显示出该方法的优势, 这主要有以下3 个原因。

(1) 涉及远距离占据及虚设定域分子轨道间的相互作用为零, 而不为零的相互作用与

LMO s 数有关。对于大体系,LMO s 规模仅决定于体系的大小, 故这种作用仅随体系规模呈

准线性增加。

(2) 密度矩阵的计算可只限于那些由定域分子轨道表示的矩阵元。很明显, 如果一定域

分子轨道不涉及某一原子, 则该定域分子轨道对和这个原子有关的任何密度矩阵的贡献为

零。这也意味着密度矩阵的计算仅随体系的增大而呈准线性增加。

(3) 能量和占据2虚设轨道相互作用亦仅局限于所涉及原子。由于LMO 数仅依赖于定

域电子结构, 故在计算能量和占据2虚设轨道相互作用时计算量也仅依赖于体系的大小。因

此计算量的增加仅随体系增大而呈准线性增加。

·370· 化　学　进　展第11 卷

静电相互作用是一种非定域的长程相互作用, 其计算量随体系的增大而呈二次方增加。

幸好静电相互作用的计算显得比较简单。

定域分子轨道方法中密度矩阵的求解过程与传统的过程基本相似, 不同之处主要有两

点: 一是传统求解自洽场步骤中的对角化被湮灭(ann ih ilat ion) 步骤所取代; 另一是增加了

对于分子轨道的修饰( t idying up ) 步骤。具体的求解过程见图3。

2. 方法准确度验证

为了验证定域分子轨道方法求解密度矩阵的半经验量子化学方法的可靠性, Stew art

把依据该思想用FORTRAN 277 编写的程序“MO ZYM E”的计算结果和MO PAC293[ 22 ]的计

算结果进行了比较(表1) , 发现两者的计算结果能很好地吻合, 说明用定域分子轨道方法求

解密度矩阵的思想是正确可靠的。同时表1 也表明, 对于小分子体系,MO ZYM E 在运算时

间上并不具有优势。

表1　MOZYME 和MOPAC-93 关于生成焓的计算结果和计算时间的比较

体系

MOPAC293 MOZYM E

生成焓(kcalömo l) 时间(m s) 生成焓(kcalömo l) 时间(m s)

H2O - 53. 430 100 - 53. 430 100

NH3 - 3. 074 83 - 3. 074 83

C2H4 - 16. 609 150 - 16. 608 167

C6H6 23. 386 433 23. 385 1100

Cystein - 96. 022 300 - 96. 023 650

Zw itterion - 57. 838 350 - 57. 839 767

(H2O ) 2 - 110. 364 133 - 110. 364 217

Th r2The - 210. 267 3917 - 210. 266 9083

Gly2Gly2Gly2Gly - 199. 559 4783 - 199. 566 8383

31 方法特点

该方法具有两个明显的特点: 一是准确性和单点计算大分子体系的快速性; 另一是可进

行构型优化。关于准确性可从表1 看出, 表2 列出了用MO ZYM E 和MO PAC293 单点计算

蛋白质大分子所需的时间。由表1、表2 可见,MO ZYM E 方法计算小分子体系时, 计算速度

不仅没有加快反而有所下降。只有当体系包含的原子数超过100 时MO ZYM E 才显示出快

速的优势, 并且体系越大, 这种优势越明显。当体系大到含2000 个原子时,MO ZYM E 已比

MO PAC 快约两个数量级。由此可见,MO ZYM E 方法在计算大分子体系时, 计算量基本上

与体系的大小成线性关系。

有关构型优化的问题, Stew art 认为对于大分子体系进行全构型优化是不必要的, 因此

他只详细讨论了部分构型优化的问题。同样,MO ZYM E 进行部分构型优化所需的机时要比

MO PAC293 少得多。

第4 期朱维良等　生物大分子体系量子化学计算方法新进展·371·

表2　MOZYME 和MOPAC 计算蛋白质大分子体系所需机时的比较

总数所耗机时时间比

残基原子MOPAC293 MOZYM E MOPACöMOZYM E

1 10 0. 3 0. 6 0. 5

2 29 3. 5 8. 2 0. 4

4 62 27. 8 24. 3 1. 1

8 114 189. 6 118. 8 1. 6

16 255 2662. 8 541. 7 4. 9

32 481 (17871. 2) 3 1244. 7 (14. 4)

64 992 (156766. 4) 5489. 0 (28. 6)

128 1995 (1275107. 2) 17592. 2 (72. 5)

256 3924 (9702977. 0) 63321. 2 (153. 2)

265 4046 (10636424. 0) 65266. 0 (162. 9)

　　3 括号中的数字是按体系的大小估算得到的时间(∝N 3)

　　总的说来, Stew art 发展的定域分子轨道求解密度矩阵的半经验量子化学方法由于采

用定域分子轨道, 同时又不考虑远距离原子间的相互作用, 从而可大大加快求解自洽场方程

的速度, 节省大量的计算机时。对于数以千计个原子组成的大分子体系, 用根据该思想编写

成的MO ZYM E 程序求解自洽场方程所需的时间仅仅为MO PAC293 的1% 左右, 而计算结

果的精度无明显差异。MO ZYM E 在用来进行大体系中的部分构型优化同样显示出快速的

特点, 但对于大体系的全构型优化仍然存在存储空间巨大的难题。

四、线性标度半经验量子化学方法

( l inear- sca l ing sem iem ir ica l quan tum chem istry)

关于矩阵元和长程库仑相互作用的线性标度( linear scaling) 算法已有不少学者进行过

研究[ 23- 29 ] , 杨伟涛等人于1996 年将称为“分而歼之(divide2and2conquer) ”的线性标度半经

验量子化学方法推广到研究生物大分子体系[ 30 ] , 并在工作站上完成了超过9 000 个原子的

蛋白质的计算研究。

1. 方法原理

在分而歼之的算法中, 其核心思想是将密度矩阵元Qij 分解成若干个子体系的矩阵元

Qij

A 的贡献:

Qij = ΣA

ij (5)

式中, A代表子体系。而Qij

A 可用下式表示:

i j = P A

i jΣm

nA imCA imCA

jm (6)

其中PA

ij为子体系的权重矩阵, nA

m 为

phymath999

Sunday, March 9, 2014

qmchem01 计算量与分子大小呈指数(电子数的3 次方或更高) 关系发展新的理论和算法以使计算量仅

No comments:

Post a Comment

Sunday, March 9, 2014

qmchem01 计算量与分子大小呈指数(电子数的3 次方或更高) 关系 发展新的理论和算法以使计算量仅

No comments:

Post a Comment

qmchem01 计算量与分子大小呈指数(电子数的3 次方或更高) 关系发展新的理论和算法以使计算量仅