Advanced Energy Materials:基于作者消歧的材料知识图谱的构建以及在磷酸铁锂发展历程中的应用

数据挖掘技术在材料科学研究中的应用崭露头角,材料信息学这一新兴领域应运而生。材料科学研究历史悠久,长时间的发展使得海量的材料学术文献中积累了丰富的科学成果,文献中的科学知识主要以文本形式记录,人工收集和分析的方法通常会消耗很大的时间和人力成本,同时信息的完整度也难以保证。机器辅助的方法则可以很好地解决这个难题,大规模地从海量科学文献中进行信息抽取,将材料科学信息表示为结构化的知识后进行关联、融合以及推理,构建材料领域的知识图谱,可以高效地对知识进行管理,极大地促进我们对科学知识发展的宏观及全面理解。

因此,北京大学深圳研究生院新材料学院潘锋教授课题组结合机器学习和依赖匹配算法发展了一套高精度且高效的同名消歧以及信息搜索的框架,在材料科学领域中主体(作者)与客体(材料)之间对应关系的基础上构建名为MatKG的材料知识图谱框架。并对锂电正极材料LiFePO4进行自动化分析,生成其发现和发展历程以及关键发展节点与里程碑,追踪其研究历史和预见其发展趋势。MatKG可以提供自动化的材料科学领域的信息获取方式,有助于探索潜在的知识联系以及有效处理复杂多样的关联分析。相关结果发表在Advanced Energy Materials上(论文信息附后)。

高精度地实体消歧是准确构建知识图谱的前提。在材料知识图谱的构建过程中,同名以及相似姓名变体的作者经常会被混淆,常造成信息的搜索或关联错误,因此,作者的歧义化是知识库构建的主要难点之一。为了解决此问题,研究团队基于作者及文本信息,结合机器学习和依赖匹配算法对材料知识图谱中的主体(作者)进行高精度消歧,并引入剪枝策略以解决在面对庞大且复杂的数据时查找效率较低的问题,实现高效信息匹配和搜索。该工作结合自然语言处理、机器学习等方法,可以有效提高科研人员精准获取信息的效率,有助于挖掘潜在的知识关联,发现有价值的隐藏信息。研究团队在未来将结合材料的更多特性信息构建基于MatKG的材料推理和预测系统,旨在为材料开发和设计开辟新的范式。

论文信息:

Construction and Application of Materials Knowledge Graph Based on Author Disambiguation: Revisiting the Evolution of LiFePO4

Zhiwei Nie, Yuanji Liu, Luyi Yang, Shunning Li, Feng Pan

Advanced Energy Materials

DOI: 10.1002/aenm.202003580