社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT+MOF,发表一篇JACS!

微算云平台 • 2 年前 • 326 次点击  

【做计算 找华算】理论计算助攻顶刊,10000+成功案例,全职海归技术团队、正版商业软件版权!
经费预存选华算,高至15%预存增值!


成果简介
加州大学伯克利分校Omar M. Yaghi院士团队通过使用提示工程(Prompt Engineering)来指导ChatGPT从不同格式和风格的科学文献中,自动挖掘出金属有机框架(MOF)合成条件的文本信息。这有效地减少了由ChatGPT产生的信息误差倾向,同时,这也克服了以往在科学领域使用大型语言模型(LLMs)所面临的挑战性问题。
该方法包括开发一个工作流程,实现三个不同的文本挖掘过程,由ChatGPT本身编程。它们都支持解析、搜索、过滤、分类、汇总和数据统一,并在人工、速度和准确性之间进行不同的权衡。
作者在该系统提取26257个不同的合成参数,涉及来自同行评审研究文章的大约800个MOFs。这个过程结合了本文所提出的的化学提示(Chem-Prompt)工程策略来指导ChatGPT进行文本挖掘,从而获得了良好的精度、召回率以及90-99%的F1分数。利用文本挖掘构建的数据集,作者构建了预测MOF实验结晶结果准确率超过87%的机器学习模型,初步识别了影响MOF结晶的重要因素。
此外,作者还开发了一个可靠的基于数据的MOF聊天机器人来回答有关化学反应和合成过程的问题。考虑到使用ChatGPT的过程以统一的格式可靠地挖掘和制表各种MOF合成信息,同时只使用叙述语言,不需要编码专业知识,可以预计该ChatGPT化学助手将在各种其他化学子学科中扮演着重要角色。
相关工作以《ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis》为题在《Journal of the American Chemical Society》上发表论文。同时,这也是Omar M. Yaghi院士在《Journal of the American Chemical Society》上发表的第88篇论文。

图文导读
图1. ChatGPT化学助手工作流程的示意图
在与化学相关的任务领域,ChatGPT的性能可以通过使用提示工程(PE)得到显著提高,这是一种精心设计提示的方法,可以引导ChatGPT生成精确和相关的信息。作者提出了以化学为重点的应用中提示工程的三个基本原则,称为化学提示工程。
首先,需要制定提示,以避免从ChatGPT中引出捏造或误导性的内容。如下表所示。
例如,当被要求在没有任何额外提示或上下文的情况下提供MOF的合成条件时,ChatGPT可能会识别出MOF-99999不存在,但会为现有的名称为MOF-41、MOF-419和MOF-519的化合物生成合成条件。因此,在问题之后有额外的提示,可以最大限度地减少ChatGPT产生误差,并迫使ChatGPT根据其知识回答问题,如下表所示。
在为ChatGPT设计提示以处理与化学信息相关的文本和问题时,这应该是首先要遵循的原则。
其次,需要实施详细指示,在提示中提供明确的指示,以帮助ChatGPT理解上下文和期望的响应格式。通过将详细的指导和上下文合并到提示中,我们可以促进ChatGPT更集中和准确的响应。在化学相关的任务中,这种方法缩小了潜在的答案空间,减少了不相关或模棱两可的回答的可能性。
最后是请求结构化输出,其中包括合并有组织且定义良好的响应模板或指令,以促进数据提取。结构化的输出能够有效地提取和解释关键信息,这反过来又可以大大促进该领域的研究和知识的进步。
图2. ChemPrompt工程的三个基本原则
通过结合上述这些原则,生成的提示符可以确保ChatGPT产生准确可靠的结果,最终增强其在处理复杂化学相关任务中的实用性(图2)。进一步采用了交互式提示符改进的思想。在这个思想中,首先要求ChatGPT编写一个提示符,通过给它提供初步的描述和信息来指导它自己。通过对话,为提示添加更具体的细节和注意事项,用一些文本进行测试,一旦获得输出,就可以向ChatGPT提供反馈,并要求它提高提示的质量。
图3. 18248个文本片段嵌入的二维可视化
为了评估该方法的有效性,对嵌入数据进行了可视化探索(图3)。通过降低向量的维数,观察到不同的簇对应于不同的话题。
图4. 由ChatGPT直接管理或代管理的各种数据统一任务的示意图
ChatGPT还有助于文本挖掘后的实体解析(图4)。这一步涉及到标准化数据格式,包括单位、符号和复合表示。对于每个任务,为ChatGPT设计了一个特定的提示符来直接处理数据,或者为ChatGPT生成一个专门的Python代码。
在更简单的情况下,ChatGPT可以直接处理时间和反应温度等转换。对于复杂的计算,利用ChatGPT生成Python代码。例如,为了计算每种金属源的摩尔质量,ChatGPT可以根据给定的化合物公式生成相应的Python代码。为了协调复合对或混合物的表示法,ChatGPT可以将不同的表示法标准化为统一的格式,从而便于后续的数据处理。
图5. 基于ChatGPT的文本挖掘过程的多方面性能分析
通过首先评估每个进程的执行时间消耗来开始性能分析(图5a)。如前所述,进程1中的ChatGPT助手专门接受预先选择的实验部分进行总结。因此,流程1需要人工干预,以识别和提取论文中的合成部分。在本研究中,228篇论文的完整选择过程持续了12小时,平均每篇论文约2.5分钟。这段时间必须被认为是进程1执行的必要时间。
对于总结任务,ChatGPT助手展示出了惊人的能力,平均每篇论文花费13秒。考虑到数据集中的某些论文包含超过20个MOF化合物,如果没有人工智能,以传统的方式进行人工总结可能会消耗更长的时间,这一点值得注意。通过加速总结过程,有效减轻了重复工作的负担,为研究人员腾出了宝贵的时间。
流程2以完全自动化的方式操作,将分类和结果传递流程集成到下一个助手进行汇总。毫无疑问,由于ChatGPT优越的文本处理能力,它在速度方面优于流程1的手动识别和摘要组合。最后,流程3,正如预期的那样,是最快的,因为它结合了由嵌入驱动的部分过滤,减少了分类任务,随后提高了速度。
所有论文中11个合成参数中TP标签的分布如图5b所示。需要注意的是,并非所有的MOF合成条件都需要报告全部11个参数。例如,一些合成不涉及调节剂,在这种情况下,要求ChatGPT为相应的列及其数量分配N/A。随后,计算了所有三个过程中每个参数的精度、召回率和F1分数,如图5c和d所示。
所有的方法在识别化合物名称、金属源名称、连接剂名称、调节剂名称和溶剂名称方面都表现出良好的效果。然而,它们在准确确定所涉化学品的数量或体积方面遇到了困难。另一方面,反应温度和反应时间等通常具有固定模式的参数(例如,分别以℃和小时为单位)被所有过程准确识别,从而获得较高的召回率、精度和F1分数。
图6. 分类模型在预测合成MOF结晶态中的性能
考虑到通过基于ChatGPT的文本挖掘程序获得的大量合成条件,利用这些数据来调查、理解和预测MOF材料的结晶条件。在对数据进行统一整理,纳入11个综合参数变量和1个综合结果目标变量后,为每个综合参数设计了各自的描述符,能够稳定表示综合条件的多样性和复杂性,并便于将这些变量转化为适合机器学习算法的特征。
根据提取的合成参数,对金属节点、连接剂、调节剂、溶剂、各自的摩尔比、反应条件等组成了6组化学描述符。为了提取最相关的特征并简化模型,对80%的总数据进行递归特征消除(REF),并进行5倍交叉验证。其余部分在学习过程中被保留为不可见的集合,用于独立评估。
在所涉及的描述符中,前10个最具影响力的描述符是预测MOF结晶结果的关键。这些描述符与化学直觉和我们对MOF晶体生长的理解大致一致。例如,与MOF合成的化学计量有关的描述符,即调节剂与金属的比例、溶剂与金属的比例和连接剂与金属的比例,在排名中占据优先地位。这些描述符反映了精确的化学计量控制在MOF晶体形成中的重要作用,并直接影响结晶过程,在决定MOF晶体的质量和形貌方面起着关键作用。
紧接其后的是描述符“时间”,它突出了反应持续时间在结晶过程中的重要作用。此外,“金属价”描述符强调了金属离子的性质和反应性在MOF合成中的关键作用。价态直接影响MOF的二级构建单元(SBUs)和最终结晶状态。同时,与分子和连接体相关的描述符会影响合成动力学,影响晶体生长的有序性。总之,这一结果提供了对影响MOF结晶的关键因素的更好理解,并将有助于设计和优化合成条件,以有针对性地制备单晶或多晶MOF。
图7. MOF聊天机器人的集成工作流程
文献信息
ChatGPT Chemistry Assistant for Text Mining and the Prediction of MOF Synthesis,Journal of the American Chemical Society,2023.
https://pubs.acs.org/doi/10.1021/jacs.3c05819
【做计算 找华算】华算科技专注DFT代算服务、正版商业软件版权、全职海归计算团队,10000+成功案例!Nature Catalysis、JACS、Angew.、AM、AEM、AFM等狂发顶刊,好评如潮!
计算内容涉及OER、HER、ORR、CO2RR、NRR自由能台阶图、火山理论、d带中心、反应路径、掺杂、缺陷、表面能、吸附能
添加下方微信好友,立即咨询

电话/微信:13360540278

 点击阅读原文,立即咨询计算!


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/160401
 
326 次点击