研究人员开发了具有纳米材料专业知识的聊天机器人
一位研究人员刚刚写完一篇科学论文。她知道她的工作可以从另一个角度受益。她是不是忽略了什么?或者也许她的研究有一个她没有想到的应用。如果有第二双眼睛就好了,但即使是最友好的合作者也可能无法抽出时间阅读所有必需的背景出版物来跟上进度。
Kevin Yager 是美国能源部 (DOE) 布鲁克海文国家实验室科学用户设施办公室功能纳米材料中心 (CFN) 电子纳米材料小组的负责人,他想象了人工智能 (AI) 和机器学习 (ML) 可以帮助科学头脑风暴和构思。为了实现这一目标,他开发了一个聊天机器人,该机器人具有他所从事的科学知识。
人工智能和机器学习的快速发展已经让位于可以生成创意文本和有用软件代码的程序。这些通用聊天机器人最近引起了公众的想象力。现有的聊天机器人基于大型、多样化的语言模型,缺乏科学子领域的详细知识。
通过利用文档检索方法,Yager 的机器人在纳米材料科学领域拥有其他机器人所不具备的知识。该项目的详细信息以及其他科学家如何利用这位人工智能同事开展自己的工作最近已在Digital Discovery上发表。
机器人的崛起
“CFN 长期以来一直在寻找利用 AI/ML 加速纳米材料发现的新方法。目前,它正在帮助我们快速识别、编目和选择样本、自动化实验、控制设备和发现新材料。Esther Tsai, CFN 电子纳米材料小组的一名科学家正在开发一种人工智能伴侣,以帮助加快国家同步加速器光源 II (NSLS-II) 的材料研究实验。” NSLS-II 是布鲁克海文实验室的另一个科学用户设施办公室。
CFN 在人工智能/机器学习方面做了很多工作,可以通过使用自动化、控制、机器人和分析来帮助推动实验,但研究人员还没有探索过拥有一个擅长处理科学文本的程序一样深。能够快速记录、理解和传达有关实验的信息可以在很多方面提供帮助——从打破语言障碍到通过总结更大的工作来节省时间。
观察你的语言
为了构建专门的聊天机器人,该程序需要特定领域的文本——取自机器人想要关注的领域的语言。在这种情况下,文本是科学出版物。特定领域的文本帮助理解新的术语和定义,并将其引入前沿科学概念。最重要的是,这套精心策划的文档使能够使用可信事实来进行推理。
为了模仿自然人类语言,接受现有文本的训练,使它们能够学习语言结构、记忆各种事实并发展出一种原始的推理能力。Yager 没有费力地在纳米科学文本上重新训练,而是赋予了它在一组精选出版物中查找相关信息的能力。为其提供相关数据库只是成功的一半。为了准确有效地使用此文本,机器人需要一种方法来破译正确的上下文。
“语言模型面临的一个常见挑战是,有时它们会‘产生幻觉’听起来似乎合理但不真实的事情,”耶格尔解释道。“对于用于研究的聊天机器人来说,这是一个需要解决的核心问题,而不是像写诗这样的机器人。我们不希望它捏造事实或引文。这个问题需要解决。解决这个问题的方法是我们称之为‘嵌入’,这是一种在幕后快速分类和链接信息的方法。”
嵌入是将单词和短语转换为数值的过程。由此产生的“嵌入向量”量化了文本的含义。当用户向聊天机器人询问问题时,它也会被发送到 ML 嵌入模型以计算其向量值。该向量用于搜索类似嵌入的科学论文中的文本块的预先计算的数据库。然后,机器人使用它发现的与问题语义相关的文本片段来更全面地理解上下文。
用户的查询和文本片段被组合成一个“提示”,发送到一个大型语言模型,这是一个扩展程序,可以创建以自然人类语言为模型的文本,并生成最终响应。嵌入可确保提取的文本与用户问题的上下文相关。通过提供可信文档正文中的文本块,聊天机器人可以生成真实且有来源的答案。
“该程序需要像参考图书馆员一样,”耶格尔说。“它需要严重依赖文档来提供来源答案。它需要能够准确解释人们的问题,并能够有效地将这些问题的上下文拼凑在一起,以检索最相关的信息。虽然答案可能不准确虽然还算完美,但它已经能够回答具有挑战性的问题,并在规划新项目和研究时引发一些有趣的想法。”
机器人赋予人类权力
CFN 正在开发 AI/ML 系统作为工具,可以解放人类研究人员来解决更具挑战性和有趣的问题,并在计算机在后台自动执行重复性任务的同时,从有限的时间中获得更多成果。这种新的工作方式仍然存在许多未知因素,但这些问题是科学家们目前正在进行的重要讨论的开始,以确保人工智能/机器学习的使用是安全和合乎道德的。
“像这样的特定领域的聊天机器人可以从科学家的工作量中清除许多任务。分类和组织文档、总结出版物、指出相关信息以及加快新主题领域的速度只是其中的一些潜在任务应用程序,”Yager 评论道。“不过,我很高兴看到这一切将走向何方。三年前我们从未想象过我们现在的处境,我期待着三年后我们将达到的目标。”
对于有兴趣亲自尝试该软件的研究人员,可以在此GitHub 存储库中找到 CFN 聊天机器人和相关工具的源代码。
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。