中国地质灾害与防治学报

期刊导读

基于云计算的地质大数据挖掘内涵

来源:中国地质灾害与防治学报 【在线投稿】 栏目:期刊导读 时间:2021-05-11

0 引 言

继云计算、互联网和物联网的发展之后,大数据技术再次掀起信息技术的重大变革。面对海量的、动态的及不确定的数据,如何实现数据处理以及如何快速实时地从复杂的大数据中挖掘出有价值的信息,形成知识体系,完成产品发布实现数据共享,这些问题传统的技术已无法实现。同时,当代地质灾害、地下水污染、能源矿产的可持续发展问题严重破坏了地球系统,大数据技术的应用有利于人类与地球的平衡发展,促进地质工作的信息化建设。

云计算是大数据时代的重要支撑,云上的大数据拥有众多的功能服务层,包括跨越大量节点、层以及集群等。大数据平台融合基于全面的云数据虚拟化架构,整合地质数据的空间基准、语义、尺度,实现多源、异构地质数据的融合和挖掘,进一步加深地质信息资源内容的展示程度,是地质调查工作的重要手段。大数据的存储及挖掘技术有力促进了“数字地球”“智慧地球”等科学计划的开展。

1 地质大数据

目前现有的地质数据量非常庞大,包括地质、矿产、植被、建筑、遥感、地形、地貌、水文、灾害等地表每一点上的结构化数据以及非结构化数据。数据种类除了传统的图件、地质报告、表格外,还包括视频、图片等格式的数据。

地质数据采用的标准、规范不同;地质调查成果报告数据类型、文件类型复杂;地质数据具有海量、多源、异构等特点,数据获取的成本高,更新周期长,不同的专业有不同的数据组织形式,难以重组交叉;时间空间跨度大,具有深海、深空、深地混合性和多总体性的特点。

2 地质大数据存储

大数据的存储模式包括传统的数据存储模式以及分布式存储模式,以列或行列混合存储模式存储结构化、半结构化、非结构化数据,实现分布式存储;利用不确定数据事系管理技术及不确定数据管理系统,通过不确定关系模型,基于内存而非磁盘,严格先后次序,进而实现动态、不确定数据的直接存储[1-2]。

2.1地质大数据存储数据库

地质大数据存储数据库的选择以及地质大数据的分布式存储、并行计算是地质大数据处理流程中的核心之一,要根据地质大数据不同的应用需求选择适合的数据模型[3]及数据存储方式[4](表1)。SQL数据库功能强大,当SQL应用接近局限性边缘时,可选择NoSQL,对可扩展性及灵活性要求较高时,NoSQL是大数据的最佳选择。结构化数据可以使用关系数据库处理,非结构化数据使用NoSQL处理,对于结构化数据,采用动态分层技术,依据数据被调用频率的大小,自动将最常用的数据搬到最高层;针对非结构化数据使用内容归档平台,集成结构化数据与非结构化数据到一个单一的动态归档架构中,利用设计好的软件和元数据库规则,给数据加标签并建立不同的维度,实现模糊查询。

表1 数据模型分类Table 1 Data model classification数据库数据模型示例优点关系数据库各种关系MySQL,VoltDB,Clustrix高性能、可扩展的OLTP,支持SQL,物化视图,支持事务,编程友好图数据库节点和关系,也可处理键值对Neo4j,AllegroGraph,InfoGrid解决复杂的图问题文档数据库包含了key-value的文档集合MongoDB,CouchDB数据模型自然,编程友好,快速开发,web友好,CRUD对象数据库对象Objectivity,Gemstone复杂对象模型,快速键值访问,键功能访问,以及图数据库的优点BigTable类型数据库列簇,每一行在理论上都是不同的HBase,Hypertable,Cassandra处理大量数据,应对极高写负载,高可用,支持跨数据中心,MapReduceKey-Value数据库键值对HBase,Hypertable,Cassandra处理大量数据,应对极高写负载,高可用,支持跨数据中心,MapReduce网格数据库基于空间的架构GigaSpaces,Coherence适于事务处理的高性能和高扩展性数据结构服务字典操作,lists,sets和字符串值Redis与以前的任何数据库不同

资料来源:文献[3]

2.2地质大数据分布式文件系统技术

地质资料非结构化数据的增长较快,分布式文件存储系统可以实现海量地质资料的稳定、高效的存放与读取。采用Sqoop、Flume和Avro等大数据存取工具可以提高存储效率。HBase(Hadoop Database)是基于Hadoop HDFS和Hadoop Zookeeper的分布式存储系统,有很好的扩展性,HBase以表的形式存储数据,使用列存式数据库存储数据,可以单独针对列(族)存储、检索,列可以动态增加,空列不占用内存。HDFS采用Master/Slave架构,由提供元数据服务的NameNode结点及提供存储块的DataNode结点组成。NameNode是中心服务器,在HDFS集群中只有一个,Datanode在集群中一般是一个节点一个,负责管理节点上附带的存储。