融合知识图谱的人工智能矿产资源预测


          

融合知识图谱的矿产资源定量预测

王成彬1,3,王明果1,2,王博1,陈建国1,3,马小刚4,蒋恕3

1 中国地质大学(武汉)地质过程与矿产资源国家重点实验室/自然资源部资源定量评价与信息工程重点实验室

2 云南省地矿测绘院有限公司云南地质大数据中心

微信号:ziranziyuan1
更多资料,添加微信
复制微信号

3 中国地质大学(武汉)资源学院

4 爱达荷大学计算机系,美国爱达荷州

          

第一作者:王成彬,博士,副教授,主要从事地学知识图谱构建与智慧应用、数学地质与地质信息方面研究工作。
          
导读:
随着矿产勘查和开发的持续推进,未被发现的露头矿和浅表矿越来越少,找矿难度不断增大与此同时,地质调查工作程度也随之提高,积累的地质资料越来越丰富随着科学技术,特别是人工智能技术的快速发展,这些都对地质找矿有利。众所周知,大数据和人工智能能够极大地促进矿产勘查技术的发展,然而,如何利用大数据和人工智能技术创新矿产预测理论、提升战略性矿产找矿效果,成了计算机和地质矿产领域学者共同关心的问题
知识图谱可以整合多源、异构的地质找矿大数据,其中蕴含的知识和规则在驱动地球科学领域的知识发现方面具有重要的发展潜力本文针对大数据和人工智能时代对资源定量预测智能化和自动化的需求,结合知识图谱相关技术的特点,探讨了融合知识图谱技术的矿产资源定量预测智能化和自动化的可行性和技术方法路线。重点剖析面向矿产预测的成矿-勘查系统多时序全要素知识图谱构建,以及基于知识图谱从“求同”和“求异”的角度建立找矿预测模型,知识图谱中的知识嵌入到地物化遥异常信息提取的方法,以及融合知识图谱的资源定量预测工作的机遇和挑战。

基金项目:国家重点研发计划项目(2022YFF0801202,2023YFC2906404,2022YFF0801201);国家自然科学基金项目(41902305);新疆维 吾尔自治区重点专项 (2022A03009-3);战略性矿产资源潜力智能评价湖北省创新群体项目(2023AFA001);“云找矿”应用支撑能力技术研究项目(YNGH[2023]-155)。

          

------内容提纲------

0 引言

1 知识图谱与地学大数据    

1.1 知识图谱概念

1.2 大数据和人工智能时代的地学知识图谱研究

2 融合知识图谱的矿产资源定量预测技术方法

2.1 资源定量预测智能化发展

2.2 知识图谱与资源定量预测智能化和自动化需求

2.2.1 面向矿产预测的成矿-勘查系统全要素知识图谱构建

2.2.2 基于知识图谱的矿产预测模型构建

2.2.3 知识图谱中蕴含的深层次异常信息提取

3 结论

-----------
0  引言
随着地质勘查工作的持续推进,未被发现的露头矿和浅表矿越来越少,找矿的难度不断增大近年来,大数据和人工智能技术的发展和突破,深刻改变了科学研究范式,为矿产勘查的发展提供了新的动能和机遇如何利用大数据和人工智能技术创新矿产预测理论、提升战略性矿产找矿效果成了计算机和地质矿产领域学者共同关切的问题。近年来,受深时数字地球国际大科学计划的推动,知识图谱技术被引入到地质信息领域,地学领域知识图谱的构建与应用得到了快速发展
人工智能技术的发展早期主要是构建知识规则,代替人类解决一些简单重复性的问题,如斯坦福大学和美国地质调查局合作开发的地质找矿专家系统Prospector2015年以来,受益于计算机算力水平的提升,地质学者陆续将不同的机器学习算法引入到地质矿产勘查领域中,挖掘数据中隐含的异常信息服务资源定量预测评价,但基于数据驱动的预测结果在地质可解释性、模型的泛化和可迁移方面存在不足众多学者认为人工智能技术未来发展方向是通过领域知识和数据的深度融合,兼顾数据驱动的数据挖掘性能和行业积累的领域知识,以服务于垂直领域模型训练和应用。以人工智能技术为基础的知识-数据联合驱动的综合信息智能预测已经逐渐成为资源定量预测未来发展的方向但如何将地质知识和地质数据进行深度的融合和耦合是目前急需解决的问题地质知识增强的深度学习找矿预测模型专家知识库驱动下地质资源评价的智能化是目前主要探索的两个方向其中,融合知识图谱的矿产资源定量预测就是后者的一种探索应用。一方面,知识图谱技术可以有效地整合地学领域已有的知识和数据,挖掘深层次与矿床形成密切相关的致矿地质异常信息另一方面,以知识图谱蕴含的知识和规则可以驱动矿产资源的定量预测,提高矿产资源定量预测的智能化和自动化。
1  知识图谱与地学大数据
1.1 知识图谱概念
知识图谱是一种图形化的语义网络,是领域知识网络化、图形化的重建与表达。知识图谱是在人工智能领域的语义网络、专家系统和本体模型基础上通过不断增强其语义信息表达发展成熟起来的(图1)。知识图谱在2012年由谷歌重新定义之后得到了快速发展。知识图谱广泛应用于搜索引擎增强和知识问答服务中,同时知识图谱是开放数据FAIR原则的核心内容之一,也被广泛应用到关联开放数据中。知识图谱与深度学习、自然语言处理、云计算、知识推理、数据库和可视化等技术密切相关并互相支撑知识图谱在不同的视角也具有不同的解读:在自然语言处理视角下,知识图谱用于抽取文本中的实体-语义信息在知识表示和推理视角下,知识图谱采用计算机符号对知识进行表示和推理在web视角下,建立数据之间的语义链接并提供语义关联和搜索;在数据库的视角下,知识图谱侧重于用图的方式进行知识的存储和检索;在机器学习的视角下,知识图谱研究怎么挖掘知识并且将知识作为特征融入到机器学习模型中提升机器学习模型的有效性在人工智能的视角下,利用知识图谱来组织和理解人类语言行为,形成决策的“智脑”专家系统。

图1知识图谱技术发展历史(据文献[8]修改)

          

知识图谱以图模型的方式组织知识,即每条知识都以“点-边-点”三元组的方式来组织,“节点”代表概念和实体对象,“边”代表节点之间的语义逻辑关系。地质矿产领域的复杂知识可以用知识图谱相关理念和技术进行组织和表达比如在描述矿床的位置信息(地理位置、构造位置)时,可以利用“主-谓-宾”三元组的形式对矿床所在的地理位置、大地构造位置信息进行显式表达(图2)。
图2 矿床位置信息的图表达
          
与关系数据库的表达方式相比,利用知识图谱的地质矿产知识的表达,可以实现人机可读,不需要通过数据库概念层的理解就可以对数据和知识进行语义信息的理解。利用知识图谱的表达具有更强的语义逻辑约束,可以进一步支撑知识推理和语义查询。通过知识图谱可以对结构性和非结构性知识信息进行语义和数据层面的整合,消除数据语义鸿沟
1.2 大数据和人工智能时代的地学知识图谱研究
在大数据和人工智能的时代背景下,利用知识图谱等相关技术,改善地球科学研究方式,解决复杂的地球科学问题,逐渐成为地球科学家和信息学家的共识。美国自然科学基金会于2011年启动了“地球立方体”计划,旨在通过开发新一代研究工具,转变地球科学的研究方式。在王成善、周成虎等6位院士的推动下,2019年启动了“深时数字地球IUGS大科学计划”,旨在协调全球深时地学数据,以求改变地球科学的研究方式。上述大科学项目研究内容与地学大数据的挖掘和知识图谱密切相关
地学领域知识图谱的构建,除了利用人工录入方法和已有结构性数据(如关系数据库)映射外,最主要的方法为非结构性文本数据挖掘非结构性文本数据是地学大数据的重要组成部分。截至目前,Geo Ref文献库包含450万条文章、书籍等引文数据,并以每年10万份的速度不断递增。另一个最新实例是Geo Deep Dive,它通过和多家出版机构合作获得丰富的地学文献数据,利用文本挖掘技术抽取地质文献中感兴趣的古生物、地层等高价值信息。近年来,利用地学领域非结构性文本数据进行知识图谱构建及智慧应用已成为目前地学信息领域需要解决的重大挑战和研究热点
深时数字地球大科学计划极大推动了地学领域知识图谱的发展,地学知识图谱作为一个新兴的研究方向,其研究内容主要侧重于以下5个方面
(1)地学领域本体模型的构建。地学领域具有影响力的本体模型主要有SWEET(Semantic WebforEarth and Environmental Terminology)、地质年代本体模型地质矿产本体模型石油本体模型构造地质本体模型地质图本体模型地质灾害本体模型和海洋科学本体模型
(2)结构性关系数据映射构建地学领域知识图谱
(3)非结构性文本数据挖掘
(4)知识图谱语义信息查询及数据知识服务知识图谱研究的目的就是通过各种知识获取手段构建知识图谱,以用于数据知识查询、语义推理和数据知识服务,如Macrostrat 和Geo DocA。
(5)数据挖掘和知识发现。知识图谱有助于提升地学领域数据挖掘和促进地学领域知识发现方面的研究。
知识图谱中的领域知识可以反哺数据挖掘并提高知识发现的水平,如石油领域知识图谱PetroKG提高了测井解释的准确性;从古生物学文献中提取的叠层石信息,揭示了叠层石的生长与白云岩发育成线性相关,与生物大灭绝无关基于含钴矿物的时空演化图谱,发现太古宙海洋生物的多样性与古风化壳产生的钴汇集具有密切关系,揭示了含钴矿物在早期生命演化过程中的作用和来源。目前,地学知识图谱研究在地学各分支领域陆续开展,已有的研究成果表明该研究方向具有强大的生命力地学知识图谱的进一步发展,必将促进地学研究方式的巨大变革和复杂地学问题的解决。
2  融合知识图谱的矿产资源定量预测技术方法
2.1 资源定量预测智能化发展
大数据和人工智能技术的发展极大促进了地质矿产领域的变革,在创新矿产资源预测模式、提高战略性矿产找矿效率方面具有巨大的潜力和应用价值。20世纪50年代以来,随着计算机技术的应用,尤其是GIS技术的发展,极大地促进了矿产资源预测理论和资源定量预测工作的发展按照赵鹏大院士的划分,资源定量评价工作经历了矿床统计预测、基于求异理论资源定量预测和数字找矿与资源定量预测阶段。随着大数据和云计算等技术的兴起,赵鹏大院士在2011年武汉召开的“数学地质与地学信息研讨会”中提出了云计算与定量找矿”概念“云找矿”的实现,不仅仅是现在已有的资源定量预测技术方法在服务器中实现云端化,更需要大数据和人工智能技术实现矿产预测模型-矿产预测图层变量-综合预测信息集成预测各环节的智能化和自动化。
资源定量预测的发展在技术上得益于GIS相关技术的发展与应用,其强有力的空间数据整合和空间分析功能,促进了资源定量评价发展。此阶段资源定量预测研究侧重于找矿信息提取与融合的数学模型,即依托于地质、地球物理、地球化学和遥感等GIS空间数据及其结构化的衍生变量,利用数学模型预测矿产资源潜力然而,预测模型的构建仍需要大量经验丰富专家的介入,在找矿信息提取和预测结果的可解释性方面也存在一定的不足
近年来,机器学习和深度学习方法引入资源定量预测领域,众多的研究实例不仅丰富了资源定量预测技术方法体系,同时预示着矿产资源预测和潜力评价逐步进入智能化时代张金川等提出页岩气资源智能评价需要在专家知识库、推理机和知识管理系统支撑下实现自动执行、自动决策。资源定量预测的智能化目前主要从两个角度进行研究:深层次找矿信息的智能提取与集成和资源定量预测流程的自动与智能化,本文主要针对后者开展讨论。
Reichstein等在Nature中刊文,提出以本体语义模型为指导,将地球科学领域的应用模型转换成相应的算法数据处理模型,在大数据平台上实现云操作和流程自动化。资源定量预测智能化研究可以追溯到20世纪70年代,斯坦福大学和美国地质调查局合作开发了世界上第一个地质找矿专家系统Prospector,其学术思想和理念为资源定量预测的智能化发展勾绘了基本蓝图。肖克炎等基于MRAS开发了数字矿床模型,结合专家系统和GIS,开展资源定量预测工作;Wójcik等和McGregor等提出将语义网和本体推理技术应用于矿产勘查和远景预测中周永章等提出基于地球系统-成矿系统-勘查系统-预测评价系统知识图谱,构建数据-智能矿床成因模型与找矿模型,实现关联知识图谱的矿产资源智能预测杨明莉等以矿产地质知识图谱为基础,利用图谱分析方法进行推理和总结,寻找有利的成矿属性和结点。除此之外,基于自然语言处理的描述性地质知识和地质知识的嵌入和向量化表达也被应用到成矿异常信息提取和找矿预测过程中。
2.2 知识图谱与资源定量预测智能化和自动化需求    
知识图谱技术结合了语义网络、专家系统、本体和描述逻辑等领域的特点,在数据知识的组织形式、语义逻辑推理和开放性方面具有巨大的优势。知识图谱可以通过三元组的形式整合地质矿产领域多源、异构的科学大数据,消除地质矿产领域的数据语义鸿沟地质矿产勘查领域积累的对矿床成因-勘查的知识可以通过知识图谱的形式进行组织和表达,形成一个蕴含地质矿产领域知识的知识库。知识图谱实体之间的强语义关系可以支撑地质矿产知识图谱的逻辑推理、知识推荐和知识发现,从而形成地质矿产领域的“智慧大脑”。与传统的专家相比,知识图谱构建的“智慧大脑”不仅仅具有强语义约束和自动推理补全的特点,同时可以依托自然语言处理和深度学习的方法实现实体-语义关系的抽取,实现“智慧大脑”所蕴含的知识动态迭代演化增强。
融合知识图谱的资源定量预测并非对资源定量预测已有技术方法体系的完全颠覆,而是在现有的资源定量预测技术方法体系的基础上,利用知识图谱相关技术对现有的技术方法进行改造和升级,利用知识图谱中蕴含的专家知识和逻辑推理能力,替代传统资源定量预测技术方法体系中大量的人为干预现象,实现资源定量预测业务流程的自动化和智能化。资源定量预测从业务流程上包括地物化遥空间数据库的建立、找矿预测模型的构建、找矿异常信息提取和矿产预测变量的构建、矿产预测变量的筛选与集成、找矿预测远景区/靶区的圈定等主要环节。要实现资源定量预测的智能化和自动化,首先要构建面向资源预测的成矿-勘查系统全要素知识图谱,基于知识图谱的地质矿产领域的“智慧大脑”通过逻辑推理获得矿产预测模型其次将知识图谱中的知识约束嵌入找矿异常信息提取中,代替找矿异常信息提取中的人为干预,提高异常提取的可信性和地质可解释性。在此基础上驱动机器学习算法和功能算法实现矿产预测变量的构建、矿产预测变量筛选和远景区/靶区评价。
2.2.1 面向矿产预测的成矿-勘查系统全要素知识图谱构建
地质矿产领域是一个复杂的应用地质分支学科,该领域的研究不仅借用了其他地学分支学科的术语和知识,同时具有经济和工程技术属性。构建地质矿产领域的知识图谱不仅仅是学科领域术语体系的梳理为实现知识图谱对矿产预测的驱动力,要构建面向矿产预测的成矿-勘查全要素知识图谱,其中最基础的工作是设计和构建成矿-勘查领域知识图谱的知识模式层(本体模型)。本体模型定义领域知识图谱的类、属性、关系和术语词汇。地质矿产领域本体模型的构建应以矿产预测理论为指导,兼顾领域的专家知识与数据实例。如采用用例驱动的方法,选取个旧锡矿作为研究案例,从个旧的成矿模式和相关的地质文本中遍历个旧锡矿相关的实体实例,然后根据实例归纳其所属的实体类,最后梳理实体类和实体实例之间的语义关系,构建锡矿的成矿-勘查系统的本体模型(图3)。
图3用例驱动的成矿-勘查系统本体模型构建
          
在地质矿产知识图谱构建过程中,要重视已有的结构数据、地质词典等知识信息结构化数据不仅可以直接映射为知识图谱,而且可以辅助深度学习训练数据集的快速构建。在利用自然语言处理和深度学习构建地质矿产知识图谱的过程中,由于地质矿产领域的复杂性,需要大量的实体和语义关系刻画地质矿产的知识画像,实体和语义关系标签数量的增多、样本的不均衡为利用深度学习从地质文本数据中抽取实体-语义关系构建知识图谱带来了挑战,需要注重地质矿产领域地质文本实体和语义标注体系的构建和文本特征的分析研究,用来优化深度学习模型地质研究工作是持续不断更新的,不同时期对同一地质对象和矿床模型的认识往往具有差异性和继承性地质矿产领域知识图谱的构建不仅要覆盖成矿-勘查领域相关的实体、语义关系和属性信息,同时要支撑多时序地质知识的整合,将不同时期对矿床的认知做成时间序列的知识版本,使构建的地质矿产领域的知识图谱不仅能体现矿床相关的知识信息,同时能够支持多时序矿床知识的演化认知。
2.2.2 基于知识图谱的矿产预测模型构建
根据构建的成矿-勘查领域的知识图谱,利用聚类方法对知识图谱中实体进行聚类分析,获得不同实体-关系群体。对实体群体所关联的知识进行归纳总结,获得包含深层次找矿信息的若干种矿产预测模型(P1,P2,...,Pn),并总结其核心、共性的成矿控制要素和预测要素,建立矿产预测模型和指标体系。计算勘查区实体与已知实体群的距离,距离越小代表勘查区与该矿产预测模型(实体群)越类似,用距离最近的实体群所代表的矿产预测模型作为勘查区的矿产预测模型,构建矿产预测指标体系,指导勘查区的矿产预测工作(图4)。
图4基于知识图谱矿产预测模型构建
          
聚类分析是数据挖掘中研究数据聚集性的常用算法。知识图谱由一系列节点和关系组成,并非传统的数值型数据集。在对知识图谱进行聚类分析之前,必须进行相应的节点嵌入,即将图数据转换为空间向量数值化表达,然后进行知识图谱的聚类分析。常用的知识节点嵌入方法有FastRP、GraphSAGE、Node2Vec和HashGNN在Neo2Vec图嵌入模型中,为描述共现的节点,采用随机游走的方式实现共现节点信息的提取。即从知识图谱中的起始节点出发,从它的临近节点中随意选择一个节点,并前进到该节点;重复上述过程获得一个固定长度的节点序列;然后借鉴Skip-gram算法模型实现知识的嵌入。
以包含4000多个节点、9000多条关系的金矿领域知识图谱为例,首先,利用Node2Vec图嵌入模型将金矿知识图谱中的节点信息转化为128维向量然后利用K-medoids聚类方法对知识图谱转换的向量进行聚类分析。在聚类分析过程中,采用轮廓系数来评价聚类效果的好坏和优选聚类的数量。轮廓系数的取值范围为[-1,1],越靠近1,聚类效果越好,越接近-1,聚类效果越差。根据轮廓系数与聚类数量的变化曲线(图5),轮廓系数随着聚类数量的增加而降低并逐渐趋于稳定。在聚类数量为8时,出现小幅度的增长,之后快速下降。因此,我们选取轮廓系数0.33,聚类数量8对知识图谱进行聚类分析,获取8个金矿知识图谱聚类中心其结果与全国矿产资源潜力评价中金矿的8个大类相吻合根据知识图谱聚类获得的聚类结果,总结相应的找矿预测模型;在找矿预测评价过程中,可以将工作区的情况与基于知识图谱的聚类结果进行相似度计算或者匹配分析,从而获得相近的找矿预测模型,辅助资源定量预测评价工作。
图5 不同聚类数的轮廓系数
2.2.3 知识图谱中蕴含的深层次异常信息提取
构建的成矿-勘查系统全要素知识图谱往往蕴含深层的找矿信息,基于知识图谱的矿产预测模型的构建本质上是一种“求同”的研究思路,通过社群分析和聚类分析,寻找聚集中心,总结其共性的特征来指导找矿预测模型的构建。在矿床的地质认知中,大型-超大型矿床在共性的控矿要素和找矿标志的基础上,往往具有其成矿的独特性。地质矿产领域知识图谱将矿床的各类知识进行逻辑显性表达,我们可以依托地质矿产知识图谱的逻辑推理能力,探索大型-超大型矿床与其他矿床之间的共性和独特性,如独特的构造环境、成矿母岩等条件,用于指导大型-超大型矿床的找矿预测工作。
蕴含在地质矿产领域知识图谱中的知识往往是描述性和离散型的,矿产资源定量预测往往依赖空间变量数据融合知识图谱的矿产定量预测需要基于成矿-勘查系统全要素的知识图谱构建相应的地质知识向量化表达和空间映射规则,将深层次的语义信息映射成空间变量数据。在地物化遥异常信息提取过程中,分析知识图谱中蕴含的成矿模型和找矿预测模型知识的空间映射需求,利用数学和计算机的方法将地质知识进行空间刻画、编码,并将其融入到地质异常中通过地质知识的约束,对地质异常信息去伪存真,增强与成矿密切相关的地质异常,压制和消除不符合地质认知的假异常,提高异常信息的可靠性和地质可解释性,为资源定量预测提供可靠的异常信息变量比如将研究区不同地质变量进行网格化分割,综合网格单元提取的地质变量和地质矿产知识图谱,使用节点路径计算等方法,将地质矿产知识图谱中的语义描述异常信息转化为空间化变量,获得融合知识图谱的深层次异常找矿信息;进而与地质变量图层数据进行整合,以服务于资源定量预测评价工作(图6)。
图6 知识图谱中蕴含的深层次异常信息提取和整合
3  结论
目前国内易探矿床基本都已完成勘探,深部隐伏矿床成为目前勘查工作的重点,科技赋能的重要性逐渐凸显。新一轮找矿突破战略行动对找矿理论突破、勘查技术提升、找矿信息集成等方面的创新极为重视。大数据和人工智能技术如何赋能新一轮找矿战略行动,提升矿产资源的效能是当前地质矿产领域的前沿问题。本文在前人的研究基础上,探讨、分析知识图谱在地质矿产预测智能化和自动化方面的潜力和关键技术问题,主要认识如下。
(1)目前成矿-勘查系统全要素知识图谱的构建仍然是一个正在进行的工作,多时序、全要素地质矿产领域知识图谱的不完善制约着后面工作的推进和开展。
(2)融合知识图谱的矿产资源定量预测不是对现有矿产资源定量预测技术方法体系的颠覆,是在现有的矿产资源定量预测技术方法体系基础上,将知识图谱融入矿产资源定量预测评价过程中,提高智能化和自动化水平。
(3)融合知识图谱矿产资源定量预测智能化和自动化的实现需要依托大数据、云计算、机器学习、数据存储等领域技术支撑,最终在云端实现业务流程的自动化和智能化。
(4)本文梳理了融合知识图谱的矿产资源定量预测中关键核心步骤,但很多关键技术问题还需进一步探索完善,需要地质专家和计算机专家的协同努力,推动矿产资源预测的智能化和自动化的实现和落地
感谢赵鹏大院士对于本文研究思路的指导,感谢周永章教授、左仁广教授、李楠研究员、柳炳利副教授和肖凡副教授对论文内容进行的有益讨论,感谢审稿人的意见和建议。
-------END------

原文来源:王成彬,王明果,王博,陈建国,马小刚,蒋恕.融合知识图谱的矿产资源定量预测[J].地学前缘,2024,31(4):26-36DOI:10.13745/j.esf.sf.2024.5.3 

封面标题、导读评论和排版整理等《覆盖区找矿》

发布于 2025-02-23 11:20:28
收藏
分享
海报
220
上一篇:这样找矿,陕西、河北发现了金矿! 下一篇:农业农村部耕保中心:改革完善耕地占补平衡管理制度,守牢18亿亩耕地红线
目录

    0 条评论

    本站已关闭游客评论,请登录或者注册后再评论吧~

    忘记密码?

    图形验证码

    微信号: 后台设置微信号
    添加微信好友,详细了解产品
    添加微信
    复制成功
    微信号: ziranziyuan1
    更多资料,添加微信
    我知道了
    扫一扫,支付10
    支付完成后,请等待5秒左右。手机端点此处支付!