鄂维南院士:AI for Science 助力电池材料技术新质发展

2024年9月1日下午,由四川省人民政府主办、欧阳明高院士工作站承办的2024世界动力电池大会——全球先进电池前瞻技术专题会议于在四川省宜宾市成功召开。会议围绕动力电池材料体系、系统结构、研发升级及下一代技术研判,开展跨学科、跨领域、跨区域的深度交流与对话,打造先进电池科技创新、交流合作、战略引领新高地,推动实现合作共赢的全球动力电池产业发展新格局。中国科学院院士、北京大学教授鄂维南以“AI for Science 助力电池材料技术新质发展”为主题发表精彩演讲。

鄂维南 中国科学院院士、北京大学教授

以下为演讲实录:

鄂维南:首先非常感谢欧阳院士的邀请。昨天下午我们去参观了欧阳院士的院士工作站,感到很震惊,无论形式还是内容给我们定了天花板,我们也得努力。

今天主题是AI for Science怎么帮助电池的研发,今天早上万钢主席致辞也提到这点,我们感到压力非常大,得干点活出来。核心问题,能不能用AI的办法来帮助解决电池材料目前研发周期长、成本高、效率低的问题。比方芯片,芯片也是非常高大上的,但是芯片设计行业有一套比较完整的工具就是EDA,在电池领域能不能有类似的工具,我们把它叫BDA,这个事情我们好几年前就开始设计,已经在这方面做了好几年的努力。要做成这件事情其实是挺困难的,一方面是方法、工具方面的,另一方面可能更重要的就是要跟实验形成闭环,形成快速的迭代。

EDA(Electronic Design Automation)即电子设计自动化,是一套用于设计和制造集成电路(IC)和电子系统的软件工具。这些工具帮助工程师自动化设计流程,从而提高设计效率、减少错误、缩短产品上市时间,并降低成本。EDA工具广泛应用于芯片设计、电路板设计、系统设计等领域。

我今天分三点讲。

第一点,最典型的问题,我们现在设计电池材料、工艺,一个试错的方式,而空间是非常大的,怎样能够更加理性地进行材料搜索,可以拓展我们搜索的空间。

举个例子,比方电解液,刚才我和陈忠伟院士在聊电解液,电解液的材料和配方空间都非常大,可以数一数,13次方也好,10次方也好,20次方也好,从溶剂、添加剂等等三个主要方面,很多选择,当然你的目标,优化哪些性能,这样的工作,他们在一起做这个工作,前一阵上了央视,这是件什么事情?首先深势科技他们开发了一个模型,深势科技他们开发了一系列模型都是以Uni命名的,他们做的事情是什么,你确定一个目标性质,这是比较一般的框架,不光是对电解液,针对分子设计和配方设计做的,你确定一个目标要做什么事情,就是刚才做的这些性能,通过Uni—ELF给你一个初步的推荐,实验验证,Uni—ELF不光推进分子本身,溶剂的配方也可以推荐,然后实验测试,通过实验数据再做微调,这样形成闭环,这就是这件事情想达到的目的。具体这里面,在溶剂配方上做了优化,他的效率在右边这个图里面展示出来,如果用倍率优化,给它快速充放电背书,我们看有什么变化,红色的线是通常用的溶剂,这些结果都是推荐出来的几个组合,在倍率优化的场景下有比较大的提升。虽然现在已经在正常运行了,这件事情整个概念不光是对电解液配方,对很多其他的,包括固态电池,我们需要的其实都是这样一个循环,达到刚才说的几个目的,缩短周期、提高效率等等,很重要就是这样基准的人工智能模型,这样基准的人工智能模型过去是难以做到的。

现在人工智能比较火了,我发现有两个现象,一个是大家对人工智能的期望值非常高,二是很多人摸了一下神经网络、摸了一下大模型以后觉得我也能干,这两个都不足取,我们对人工智能的期望值也不能太高。第二,门槛是非常高的,不能说你学了一个神经网络,几个参数,就可以拿来帮你解决问题了,这个差距是非常远的。这个场景我们需要做的两件事情,一个是我们把所有的数据整合起来,理解比较差一点的,跟通常的人工智能场景很大的区别,必须依赖物理模型,必须依赖基本原理,因为我们永远很难达到像人本模型、自然语言处理模型所需要的数据量,在科学研究的场景,每一个数据都是经过科学家们花了很大工夫收集起来,这个差别是非常大的,这个问题只有通过物理模型解决、通过对物理模型的有效利用,比方在分子层面、结构层面,甚至到界面、器件层面,都有它的物理模型,这些物理模型必须得到充分利用。这样的方法可以得到比较好的效果,至少超过SORA。

第二点,这些物理模型、这些机理模型,怎么让这些机理模型真正有用,这些事情在我们科学研究里面是几百年来的难题。一方面我们最重要的成果就是这些基本原理,除了这个以外还有近似的基本原理,还有分子动力学等等,这些都是人类科学研究最重要的成果。但另一方面,这些东西很难用来解决实际问题,材料科学领域里面长期以来大家感觉到,做计算材料的人、理论材料的人跟做实验的人不是同一拨人,做实验的人大家可以问问,你对做理论的人究竟有多大期望,期望值是不高的,并不指望他们能够帮助用基本原理解决材料研发的问题。当然另一方面也不完全是这样,像固体力学、弹性力学、流体力学、结构力学,要建这个房子,我们知道它不会垮下来,因为我们用有限元算了一遍,知道它能够承载多大应力,这些领域这些问题是解决的,基本原理可以用来帮助解决实际问题,汽车设计、飞机、工业软件等都是为了干这些事情。

另一方面,在化学、材料、催化剂这些领域,远远没有达到效果,原因就是维数灾难,分子、原则设计的场景,自由度太多了,数学上的自由度叫维数,当自由度增加的时候,计算复杂性是指数增加的。我们虽然干了上百年,但是我们这些理论工具都没办法用来解决实际问题,困难就是刚才说的维数灾难指数增长的复杂度,这个问题恰好是可以用AI来解决的。

所以为什么我们现在对AI有这么大的期望?很多人都在AI for Science,我可能是最早来提出推动AI for Science的,根本的原因,就是因为AI可以帮助我们解决维数灾难的问题。

基于这样的认识,我们从15、16年开始,从最下面到最上面,用AI的办法来提升设计新的算法,提升这些算法的效率。一系列工作,现在已经用的很多的就是DeePMD、密度泛函、量子力学、介观尺度模型、动理学模型、非牛顿流体力学等,我们都做出了开创性的成果,每个理论里面基本上具体工作都是我们做出来的。

举个例子,比如电解液,这是分子层面做设计,我们就需要在原子层面的大模型,能够把原子和原子之间的相互作用明确描述出来,这就是DPA。这样的事情还没有完全做成,但是他的目标就跟GPT一样,GPT现在是大模型主要的一个框架,GPT的目标是大语言模型,我们的困难就在于刚才说的数据,我们可以利用的数据量比文本的场景用的数据量低很多,我们一步步来,我们已经发表了DPA1、DPA2,现在正在做DPA3,希望把数据周期表上的所有材料大分子、小分子都能够汉代在里面。

其中已经做到的一件事情,比方我们如果我们要预测锂离子的扩散系数,用空气动力学的办法来算锂离子的扩散系数,以前这件事是做不到的,他根本走不了那么快,通常温度下根本走不了几步,现在就可以在通常的温度下,跟实验的复合是非常好的,不需要人为的把温度搞的很高让锂离子跑的很快,就可以做相对比较准确的预测。

这是掺杂效应,基本可以达到理论预测和试验已经开始画在同一条线上,虽然不在一起,大家可能觉得这是两条不同的线,就跟湍流一样,我有一个朋友做湍流的,发表了一篇文章,一个在这儿,一个在这儿,他还说复合的很好,我说显然复合的不好,他说我能把它画在一张图上就已经非常好了,做化学的人、做催化的人都知道,只要涉及到化学反应也是同样的概念。

刚刚说的工具DeePMD,这个工具已经在电池领域有很多应用,已经发表了很多文章。

第三点,这是理论工具,最重要要跟实验耦合在一起,实验里面最重要的是表征,表征耗费大量的人力,再就是凭经验,有经验的老师看一下这个图就知道,这个背后是什么,学生就看不懂,这样的事情也是可以通过人工智能来帮助解决的。

围绕材料场景,比如电池材料场景有各种各样的需要表征的东西,比方颗粒、隔膜的结构等等,这些结构都可以用电镜把它拍下来,人一看大概知道什么意思,但是如果我们要实现高效率的闭环,不能人顶着看,而要让机器来看,机器人看懂这些事情,这样的事情涉及到的方面也是比较多的,高精度识别算法、自动化的分析、高通量等等,这个事情已经在深势科技做了尝试,Uni—AIMS。

这样的自动识别,识别颗粒,每个颗粒识别出来,看看它的大小、分布,这样的事情至少在这样的场景,正极扫描电镜已经实现了,类似的场景工具也可以开发。

这是我通常讲的AI for Science,AI for Science不光对电池材料,真的是对所有科学领域都能够产生影响的,未来我们做科研怎么做,我们要通过刚才说的算法、实验表征、文献算力作为基本工具,可能就是未来所有科研的基础设施,我们国家只要把一套基础设施建好就好了,上面所有的场景,比如电池材料、生命科学、海洋来开发相应的工具,也可以有其他的。

刚刚说到文献利用这是其中的支柱之一,文献的利用这样的工具Science Navigator,是国内第一个以AI for Science作为研发的主要工具,这个想法是什么,人类历史上有几亿个科学文献和一些专利文献,我们把这些文献全部放到一个数据库里,同一个数据库,能够做到这一点,是因为2018年我还有另外一组学生他们开发了国内第一个数据库MyScale,也是国内性能最好的AI数据库,把各种结构化的数据、表格、文本、向量、视频、图像等都可以放在同一个数据库里面统一管理、联合查询,有这样的工具就可以把所有的文献放在库里,开发一堆解析工具,把分子式、方程等解析出来,有了这些东西就在这个基础上开发你自己的Agent,来完成你的任务,比方要设计一个好的电解质,你问他一下,什么样要求的电解质大概会有什么样的可能性,他就会告诉你,这样的工具现在我们已经有了第一版本,第一版本还不太好用,这个负责人今天也坐在这儿,他说要把第二个版本开发出来,第二个版本开发出来大家都可以用。

有了这样的工具,我们不光对文献,对未来的数据也可以在同一个平台上统一关系,这个是非常重要的,因为现在都强调科学数据,也知道科学数据的重要性,但是怎么来管理科学数据,给他提供什么样的附加值,这个好像没有提到。

总结一下。

1、我们希望建立智能化的电池研究平台。

2、建立自动化的实验平台。

就说这些,谢谢大家!

(速记未经嘉宾本人确定)

来源:汽车总站网