跳到主页内容
美国国旗

美国政府的官方网站

Dot政府

gov意味着它是官方的。
联邦政府网站通常以.gov或.mil结尾。之前分享敏感信息,确保你在联邦政府政府网站。

Https系统

网站是安全的。
这个https(https)://确保您连接到官方网站,并且您提供的任何信息都是加密的并安全传输。

访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
.2017年11月14日;13(11):5255-5264.
doi:10.1021/acs.jctc.7b00577。 Epub 2017年10月10日。

分子机器学习模型的预测误差小于混合DFT误差

附属公司

分子机器学习模型的预测误差小于混合DFT误差

费利克斯·A·费伯等。 化学理论计算杂志. .

摘要

我们研究了选择回归变量和分子表征对构建13种有机分子电子基态性质的快速机器学习(ML)模型的影响。使用学习曲线评估每个回归变量/表示/属性组合的性能,学习曲线报告样本外误差,作为训练集大小的函数,具有高达~118k的不同分子。混合密度泛函理论(DFT)理论层面的分子结构和性质来自QM9数据库[Ramakrishnan等人科学数据2014年1月14日22],包括原子化焓和自由能、HOMO/LUMO能量和间隙、偶极矩、极化率、零点振动能、热容、,和最高基波振动频率。已经研究了各种分子表征(库仑矩阵、键袋、BAML和ECFP4、分子图(MG)),以及新开发的基于分布的变体,包括距离直方图(HD)、角度直方图和二面体(HDAD)。回归量包括线性模型(贝叶斯岭回归(BR)和带弹性网正则化的线性回归(EN))、随机森林(RF)、核岭回归(KRR)以及两种类型的神经网络,即图卷积(GC)和门限图网络(GG)。样本外误差在很大程度上取决于表征和回归因子的选择以及分子性质。电子特性通常最好由MG和GC解释,而能量特性最好由HDAD和KRR描述。在~118k训练集大小限制中,样本外误差最小的具体组合是(自由)能量和原子化焓(HDAD/KRR)、HOMO/LUMO特征值和间隙(MG/GC),偶极矩(MG/GC)、静态极化率(MG/GG)、零点振动能(HDAD/KRR)、室温热容(HDAD/GRR)和最高基波振动频率(BAML/RF)。我们提供了数值证据,证明ML模型预测偏离DFT(B3LYP。此外,混合DFT参考的样本外预测误差与化学精度相当或接近。结果表明,如果有明确的电子相关量子(或实验)数据,ML模型可能比混合DFT更准确。

PubMed免责声明

类似文章

引用人

LinkOut-更多资源