油田地质档案中非结构化数据管理模式探索 分布式系统在油气田地质档案管理中的应用研究

作者&投稿:线鲁 (若有异议请与网页底部的电邮联系)

李燕

(中国石油化工股份有限公司西南油气分公司信息中心档案馆)

摘要 本文针对非结构化数据管理中存在的问题,分析了西南油气田地质档案非结构化数据管理特点,提出了数据采集、数据存储、数据管理与数据利用的技术架构,并对非结构化数据的管理、应用进行了深刻剖析,总结出了以技术解决方案、行政管理模式和数据服务三位一体的管理模式,为油田地质档案中非结构化数据的管理与应用探索出了一个有效的模式。

关键词 非结构化 数据存储 地质档案 应用 管理

0 引言

随着我国经济建设的不断发展,信息资源越来越成为企业或者组织的核心和命脉。对于信息密集型的石油行业来说尤其如此。在多年的生产实践中,国内的石油行业已经发展出了针对大部分信息的数据综合管理、数据应用、企业标准和行业标准等技术和成果,极大地支撑了石油勘探开发的各个过程。然而,和国外的石油公司相比,在信息资源的协同、分析、挖掘、共享、决策支持、集群计算上还存在一定的差距,这其中的核心要点就是如何对非结构化数据进行有效的存储和利用。

对于典型的石油工业企业来说,信息资源存在于各种载体中,例如纸质的书籍或者论文、PDF文档、图形图像文件、扫描件、电子书、光盘等,这些信息最终都可以转化为非结构化数据。而对非结构化信息的管理需要面对如下问题:

高容量:非结构化数据通常是一个或多个文档、图件、多媒体等,容量在百兆、千兆级的比比皆是。

异构化:非结构化数据的来源、格式、载体都各不相同,难以进行统一的管理和检索。

复杂性:非结构化数据因其高容量、异构的特点,在存储、检索、过滤、提取、分析和挖掘方面非常复杂。

再处理:非结构化数据在定制、交换、加密方面存在大量的个性化需求,格式的差异和多样性也导致了对这些数据的再处理非常困难。

本文即是对这些问题进行详细的讨论和研究,结合油气田地质档案非构化数据的存储与利用,探讨一种可行的方法和合理的解决方案。

1 非结构化数据管理的技术架构

非结构化数据与结构化数据相对,系指不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音/视频信息等。

西南油气田通过配置和集成软硬件产品,设计并实施了适合非结构化数据存储与利用的技术架构,由低到高分别是数据采集(预处理)、数据存储、数据管理、数据使用(图1)。

图1 非结构化数据存储与利用的技术架构图

数据采集是非结构化数据管理最基础的过程,是把原始的或者第一手的资料转化成可供处理的数字化信息的关键步骤。

非结构化数据存储是把勘探科研、生产、管理中产生的文档、图件、专著存放在数据库或者文件服务器上。一般采用两种方式:一是把非结构化数据转换成二进制流,存放在关系型数据库中,同时一并记录相关的辅助信息(可自定义);二是把非结构化数据保存到目录服务器上,在关系数据库中只记录目录服务器上的索引信息和辅助信息(可自定义)。图2示意了这两种方式。

图2 非结构化数据存储示意图

数据管理是对已经存储成功并且经过了结构化的信息进行再处理,包括数据的分类、检索、元数据化、标准化、统计和归并。

数据使用是非结构化数据管理的最终目的,信息如果不能交流、共享,那么一个组织产生的信息再多,也不免成为信息孤岛。采用基于.net和Web Service体系架构,为信息的共享和协同提供了技术上的保障。

2 非结构化数据管理应用解析

西南油气田按非结构化数据管理的技术架构开发并组建了西南油气田地质资料管理平台体系,对非结构化数据的管理实现了6大功能:非结构化数据的整理、元数据、基于索引服务器的全文检索、索引编制、任务管理、知识管理(表1)。

表1 中石化西南油气田非结构化数据管理功能统计表

2.1 非结构化数据管理的功能架构

西南油气田地质资料管理平台是一个完全的B/S模式资料管理系统和信息发布系统,其中,地质资料管理系统包括用户管理、机构管理、权限管理、日志管理、数据管理、资料上传、资料整理、资料审核、元数据、资料检索。信息发布系统包括资料借阅、资料上传、在线浏览、资料检索、下载。

除了能够完成资料管理和信息发布的功能外,还依据自身的工作方式,在平台中加入了本企业元素,如:资料属性的自定义、用户功能选择、借阅流程与归档著录一体化流程的植入、上传和下载的压缩与加密、用户与安全方案的自动绑定,新到资料的查询、个性化报表的查询和打印、催还信息的发布等。主要功能架构如图3。

图3 功能架构图

2.2 西南油气田地质资料非结构化数据管理的主要特点

2.2.1 地质资料及文档的包装和结构化

在数据存储方面,采用了基于Web Service数据访问层组件,通过修改设置可以分别连接Oracle 9 i数据库、SQL Server 2000数据库等多种数据库,用户可以根据需要选择。地质资料及文档的包装和结构化是指在数据采集和存储方面采用了“资料体-文件体”的二元封包方式。对所有类型的文件或者文件集合都可以定义为资料体,同时采用元数据对资料体进行描述;从逻辑上来说,资料体是一个或者多个文件实体的集合,通过这种方式,就统一了各类非结构化数据的表现形式、外观和行为,有利于将来的数据交换和协同。图4描述了这种二元关系。

图4 非结构化数据的二元封包方式

2.2.2 任务管理

文档资料被采集并提交,资料体和元数据信息就会被写入关系数据库中(目前支持Oracle),而文件体会通过任务自动上传到专门的文件服务器中,同时由索引服务自动为这个文件体创建索引。入库文档资料的默认存储方式是通过磁盘文件来存放的,如果需要把入库文档资料以二进制流的形式保存到关系数据库中,则需要部署和配置数据持久化服务。图5对文档资料采集和存储的过程进行了直观的描述。

图5 文档资料采集和存储的任务管理流程

任务管理是对上传下载过程的任务化。为了应对文档资料的采集要求,使用上传任务来管理上传过程,整个过程可以通过服务在后台依次自动完成,对用户的操作不造成任何影响,避免了传统的文件采集过程中用户需要耗费大量的时间来等待上传;为了确保数据的完整性,上传过程支持断点续传。直观的上传任务管理器把需要上传的文档存放在任务队列中,用户可以随时停止或者启动上传任务,最大程度的减少因为网络状况或者容量问题带来的不便。

2.2.3 元数据的定义和描述

在数据采集的过程中可以对文件定义元数据,文件的元数据继承自所属的案卷属性,这样一旦将文件归入某一个资料类别,那么就可以设置这个文件的扩展信息;另一方面,分类的元数据格式能够成为这一类文件的元数据模板,同类文件的元数据格式都是相同的,便于进行同类资料的数据交换。图6说明了案卷(资料类型)、文件和元数据的关系。

元数据作为非结构化数据的标签,其意义是非常重要的,系统的检索功能的查全和查准率主要是基于元数据的定义是否合理和准确,因此系统必须要提供元数据信息的修改和动态扩展功能,只有提供了上述功能,系统的信息描述才可能准确和丰富,这也是很多类似的信息系统所缺乏的。

图6 案卷、文件和元数据的关系

依据中石化企业标准《Q/SH0167—2008石油天然气勘探与开发地质资料立卷归档规则》,根据地质资料管理的特点,结合西南油气田的实际情况,需求分析,明确各种(系统管理、资料加载和在线浏览、资料查询、资料借阅和下载、资料销毁、资料压缩加密、资料审核、资料接收和分发)功能,对地质资料的文件元数据、档案元数据、企业扩展元数据进行了充分研究与定义,实现了不同类别的地质资料定义不同属性,方便查询与借阅。例如表2。

表2 地质资料元数据属性表

2.2.4 基于文件索引服务器的全文检索

对非结构化数据的检索采用了两种方式:基于属性、关键字的精确检索和基于内容的全文检索。全文检索过程采取了提交—建索引—查找—组织结果—返回的过程来完成。非结构化数据被提交到了文件服务器,索引服务程序就创建或者更新索引文件(自动过程),当用户发出检索请求时,通过搜索引擎,获取包含请求内容的结果并返回给请求者。索引服务程序能够从入库的文档资料中自动抽取文本内容(图7)。

索引服务程序的工作包括:侦测文件目录的变化,文件被上传、移动、修改或者删除,就更新对应的索引;定期对文件目录的整个范围进行索引优化,保障索引在全局上的有效性和效率,这个工作可以自动完成,也可以由用户手动完成。

西南油气田基于此提供多种逻辑查询,如模糊查询、全文查询、精确查询,以及目录浏览和全文浏览。如图8。

图7 全文检索工作过程

图8 查询检索截图

2.3 西南油气田非结构化管理应用效果

西南油气田从2005年开始全面启动地质资料非结构化数据建设,经过多年的共同努力,全面完成了地质资料的非结构化目录数据库建设,共计入库地质资料条目125万条,完成了不同类别地质资料的元素据设计并进行了全面属性提取,提取的内容包括了文件元数据、档案元数据以及企业扩展元数据三大类,为地质资料网络化管理与利用提供了强有力的搜索引擎包。

同时,按照非结构化数据建设理论,西南油气田积极开展了成果地质资料全文数据库与地质图形库的建设,通过历史文档与图形的扫描整理,共计入库电子文档24万个,总容量2.9 T。与油田气地质资料目录数据库相结合,通过地质资料管理系统,实现了地质资料非结构化数据网络完整发布与全面应用。

经统计分析,在实现非结构化数据的网络化管理与应用以后,西南油气田近5年地质资料年平均利用率高达11万件次/年,是建成前的4.5 倍,有效提高了地质档案资料的管理、使用水平,节约了成本,取得了良好的经济效益。

3 非结构化数据的管理模式探索

作为企业信息资源的表现形式,非结构化数据的管理不单单是一个技术体系或者一个系统,而应该是一个庞大的系统工程。笔者根据西南油气田地质档案多年的信息化建设经验和非结构化数据管理经验,认为“技术解决方案、行政管理模式和数据服务”三位一体的管理模式是油气田非结构化数据管理的有效模式(如图9 所示)。

图9 非结构化数据管理模式图

首先,行政管理模式是整个非结构化数据管理的组织保障,由稳定的管理团队、完备的可行性研究、明确的管理需求、充分的风险评估以及务实的组织实施组成。良好的行政管理模式能够确保一个组织上下一心,共同推进信息体系建设,可以说它决定整个体系建设的成败。

数据服务是非结构化数据信息管理的基础。是指对非结构化数据进行采集、创建、加工、传递、组织、整理与规范的过程。同时也是用户和开发者之间的润滑剂,首先它能够按照用户的需求为用户处理大量枯燥的数据整理和规范工作,其次从用户的角度,指出软件的缺陷,并敦促开发者进行修改。通过数据服务,可以有效地保障用户业务的高效运转、技术体系的不断完善,发挥信息体系建设的最大效能。

技术解决方案从产品层面为非结构化数据的管理提供了软硬件平台,是从数据采集到应用的完整的技术体系。包括:基于多种大型关系数据库的信息存储体系、基于内容的非结构化数据的文件服务器、提供全文检索、关联检索的索引服务器、基于元数据的灵活的文件交换格式和个性化定制、灵活的权限策略和强大的安全策略;技术解决方案是非结构化数据存储与利用的核心。

4 结束语

非结构化数据存储和应用是各油田分公司勘探决策支持系统的重要组成部分,这一部分研发成功后,能够为决策支持所需要的信息资源提供基础的平台。同时,基于这个平台之上的非结构化数据的应用能够直接为决策支持系统服务,通过信息协同、文件检索、数据挖掘和知识管理等技术和概念的应用,能够使油气田信息化建设上缩短甚至达到国际先进水平,向着勘探数字化、数据资产化、工作协同化和决策科学化方向迈进一大步,从而带来巨大的经济效益和社会效益。

参考文献

[1]张志刚,姚玮.海量非结构化数据存储问题初探[J].中国档案,2009(8).

[2]吴广君,王树鹏,陈明,李超.海量构化数据存储检索系统[J].计算机研究与发展,2011(7).



渤海油田地质资料信息化建设的实践与思考~

韦俊荣 张兴霞 陈青
(中海油渤海石油管理局)
摘要 随着油田信息技术应用的逐步深化,企业地质资料信息化的要求在传统地质资料信息化的基础上,进一步延伸到地质工作资料源头、业务流转过程、资料综合利用全领域的企业数据治理,实现从传统实体档案管理、地质样品管理、电子文件管理上升到企业数据管理的更高水平。本文结合渤海油田地质资料信息化实践,阐述了油田地质资料信息化建设的总体思路、发展历程及取得成果,对其他领域的地质资料信息化建设实践具有一定的借鉴意义。
关键词 地质资料 信息化 数据资源
1 概述
中海油渤海油田油气产量从21世纪初不足1000×104t 跨越到2010年的3000×104t,2015年将实现3500×104t,2020年计划上产到4000×104t。随着油气田勘探、开发数量的日渐增加,馆藏地质资料中成果地质档案已达30余万件,岩心7289m,岩屑59.8万包,原油样品6.2×104L,且每年正以数以万计的速度快速增长。同时,随着数字油田技术的不断发展,人们在地质资料利用的细粒度、结构化、服务模式方面产生了更高的需求,这给油田地质资料管理带来了前所未有的挑战。为此,渤海油田近6年来针对地质资料管理业务中存在的客观问题和应用需求,以及结合国土资源部“地质资料信息服务集群化产业化”的要求,在中海油勘探部及信息管理部的领导下,以国土资源部《地质资料管理条例》精神为指导,开展了不同层次、多种形式的信息化工作,特别是通过多个专题项目的实施,地质资料信息化建设得到了空前的快速发展。不仅在地质资料数据资源建设和应用综合管理平台建设上取得了丰硕的成果,而且在地质资料的管理方法、技术手段、体系建设上也有了很大的提高,扎实推进了地质资料信息服务集群化产业化工作,使地质资料信息的应有价值得到进一步发挥,更好地实现了地质资料信息服务于企业和社会的功能。
2 渤海油田地质资料信息化建设
2.1 总体目标
渤海油田地质资料信息化建设工作以“资料信息服务集群化产业化”为原则,全面提高地质资料数字化信息化程度,不仅满足企业和社会对各类地质资料集中目录检索、全文检索的利用需求,而且要全面提升地质档案信息化管理的整体水平,实现地质资料管理从传统实体管理上升到企业数据治理的更高水平,持续满足后续数据专业应用需求,为实现地质资料专业数据集中管理、文档一体化管理、数据资源整合挖掘和数据共享利用奠定坚实基础,从而为渤海油田科研生产、经营管理等提供更有效的服务,在真正意义上实现档案管理工作为企业经济效益最大化服务。
2.2 信息化建设情况
根据油田地质资料信息化建设的总体目标,渤海油田地质资料信息化建设主要完成了数据资源建设、应用系统平台建设以及地质资料信息化技术研究等工作。
2.2.1 地质资料资源建设
渤海油田地质资料资源建设是为地质资料管理应用平台提供非结构化数据、结构化数据以及元数据。渤海油田通过地质资料资源建设基础工作大幅度提高了地质资料数字化信息化程度。目前油田地质资料数字化程度已达到97%,为地质资料深度综合开发利用和数据共享打下了坚实的基础。同时,在地质资料资源建设过程中,渤海油田档案管理部门还开展了地质资料信息化标准规范体系研究,建立了支撑地质资料信息化建设的规范制度体系。
2.2.2 应用系统平台建设
渤海油田在开展地质资料资源建设的基础上,开发了“地质资料管理应用平台”,涉及“数字文档中心”、“地质档案综合管理系统”、“油田专业数据库系统”等子系统。通过地质资料管理和应用平台的建设,不仅实现了多源头地质资料数据标准、格式规范化管理,同时实现了地质资料数据的多层次应用和系统间的互联互通与信息共享。
2.2.3 地质资料信息化技术研究和应用
为了更好地推进地质资料资源建设和系统平台建设的工作,渤海油田还加强了地质资料信息化技术研究,内容主要包括地质档案数字化、地质样品数字化、石油地质专业数据管理三大领域的研究,在开发实体档案数字化、智能化管理的同时,研究地质资料专业数据管理、石油数据模型、库体结构、非结构化文档分类、存储及元数据管理标准等。随着这些方面信息技术的积累和提升,不仅拓宽了渤海油田地质资料深度综合开发和利用的广度,而且延伸了地质资料信息服务的深度。
2.3 信息化实施历程
2.3.1 第一阶段(2009~2011年)
自2008年底开始,在渤海油田统一部署下,开展了以“资料电子化”、“勘探成果资源建设”、“开发生产井资源建设”3个专题为核心的信息化资源建设工作。项目实施以馆藏历史资料电子化扫描、文本OCR识别、文档规范化整理为基础,开展地震、钻井、录井、测井、测试、分析实验、油气生产各专业资料的结构化数据采集、规范化整理工作。
2.3.2 第二阶段(2012~2013年)
自2011年底开始,在前期数据资源建设的基础上,渤海油田开展了以资源管理、利用为目的的“数字文档中心”、“勘探成果数据与资料数据系统”、“开发生产信息系统”等专题平台建设和后续新增资料的资源建设工作。项目实施以油田个人工作文档、公司电子文件、档案资料3 级综合管理体系建设为核心,面向油田勘探、开发、生产各业务领域,开展地质资料移交、接收、整理、著录、编目、管理、利用、汇交全过程信息化平台建设工作。
2.3.3 第三阶段(2013~2014年)
针对渤海油田实物地质资料管理的信息化工作,渤海油田档案管理部门重点开展了馆藏设施建设、数字化专用设备试制等工作,特别是岩心岩屑高分辨率岩心岩屑影像采集设备的成功研制,有力推动岩心岩屑影像高分辨率数字化采集工作的开展,满足了用户远程观样、远程取心等需求,进一步拓展了地质资料信息服务产业链。
3 取得的成果
3.1 原始与成果地质资料管理及信息化
渤海油田大规模的资源建设工作历时3年多,投入了大量的人力、物力和财力,累计处理馆藏历史资料合计923万页(折合A4大小),其中完成图件163万页、报告760万页及相关资料的结构化数据采集等工作。通过多年的信息化建设,地质资料档案管理具备了良好的基础设施、先进的技术手段,更是培养了一支业务精、素质高的专业化队伍。目前馆藏资料电子化程度已达97%以上,不仅可以满足不同层次资料细粒度、结构化利用需求,而且在项目实施过程中,渤海油田还建立了中海油地质资料数字化相关技术规范,标准延伸到了文本识别、数据校对、成果组织环节,切实填补了中海油相关企业标准的空白,并开发了自主版权的地质资料电子化加工管理系统平台,全面实现了地质资料数据加工的流程化、标准化。
3.2 实物样品地质资料管理及信息化
目前渤海油田岩心、岩屑等样品数字化已达90%的水平,通过地质资料管理和应用平台。不但实现了对地质样品基础数据、图像数据、专业报告、鉴定数据以及业务流程的综合管理,而且更实现了对地质样品全生命周期的动态跟踪,并主导编写了中海油《岩心壁心岩屑图像采集技术规范》。
3.3 实物档案数字化设备研制
围绕落实国土资源部《推进地质资料信息服务集群化产业化工作方案》(国土资发〔2010〕113号)精神,创新地质资料信息服务新模式,渤海油田研发了一套高分辨率岩心岩屑实物影像采集设备,设备集岩心、岩屑、壁心等多种样品白光、荧光高分辨率扫描和显微扫描功能于一体,很好地实现了设备系统自检、激光自动测距、自动采集控制、自动几何校正、自动图像拼接、自动切割、自动命名、自动存储的全过程自动化采集。尤其特有的定点高分辨率实时显像技术,为专业技术人员提供了远程岩心岩屑观样和相关技术研究的信息服务新模式,并整体提高了渤海油田实物档案信息化水平和档案服务能力。该技术研究获得了新型实用专利2项,软件著作权3项。
3.4 地质资料数据集成应用
渤海油田通过“数字文档中心”、“地质档案综合管理系统”、“油田专业数据库系统”形成了系统化、多层次的地质资料管理与应用,不仅拓宽了地质资料数据利用深度和广度,同时通过渤海油田“地质资料管理应用平台”与国土资源部的“石油天然气地质资料委托管理系统”、“全国地质资料汇交监管平台”、“油气钻井数据库”有效对接,实现了数据互通和共享,进一步做实做强了委托保管工作。
4 总结与思考
4.1 渤海油田地质资料信息化建设存在的问题
1)由于历史原因、技术能力限制、机构变动等众多因素,渤海油田油气地质资料保管部门掌握的资料和数据,还没有达到理想的完整和准确,特别是当前油田地质资料的生产者、管理者、保管者、利用者、监管者被分割在不同管理体系下,条块分割,给地质资料管理和协调工作带来了较大的挑战。
2)渤海油田油气地质资料信息化专业队伍建设、信息化标准建设需要进一步加强和完善,这样才能与渤海油田快速发展保持一致,从而更好地为油田勘探开发提供优质服务。
3)当前地质资料数据资源的分布式存储,多系统、多平台、多头管理部门,给地质资料的统一、规范化管理带来了巨大挑战。更为重要的是,渤海油田内部还缺乏一个长效工作机制,以确保地质资料从产生到最终归档所经历跨专业、跨部门、跨系统的漫长流程中,能够得到全面、可靠、有效的控制。
4.2 渤海油田地质资料信息化建设的思考
1)渤海油田通过地质资料信息化建设实践,深刻认识到油田地质资料信息化必须加强资料源头管理,建立健全资料产生部门、业务管理部门、档案管理部门的归档制度及规范流程体系,把现场地质资料收集与现场地质监督岗位考核相关联,并且责任落实到人,以确保地质资料归集的全、准性。同时,还要利用油田数字文档中心系统平台,以便对油气地质资料流转过程涉及的部门人员进行专业资料收集与归档培训,使他们明确资料的收集范围、归档时间及归档标准,并与年度考核指标相关联,从而推动油气地质资料文档一体化管理。
2)随着渤海油田的快速发展,需要进一步加强地质资料管理的技术研究工作,提升软实力。在专题平台建设过程中,我们深刻地认识到地质资料的多层次利用需求。我们对 POSC(Petrotechnical Open Standards Consortium)、PPDM(Public Petroleum Data Model Association)等标准石油数据模型、ISO的OAIS(开放档案信息系统)参考模型、油气勘探开发一体化计算平台进行了深入研究,为未来地质资料数据的深层应用和信息综合服务打下了基础。
3)对地质资料实物样品管理利用的再认识。实物地质资料是中海油企业巨资投入获得的宝贵财富。样品具有原始性、唯一性、不可再生性和易毁性,又具有可重复利用,并包含丰富的地质信息。因此,为其建立电子副本,利用数字化技术开展相关的样品处理、保管保护、分析利用则具有非常重要的积极意义。通过前期的科研工作,我们掌握了岩心岩屑高分辨率、高清晰的图像采集技术,实现了实物样品及其相关成果资料、原始资料的集成关联,为企业、社会科研人员提供了方便、快捷的资料利用途径,也为未来利用图像模式识别技术开展荧光面积统计、含油产状鉴定、孔洞裂缝定量统计、粒度分析等深化应用和集成服务奠定了坚实基础。
5 工作拓展及前景展望
5.1 工作拓展
为了提高勘探、开发、实验、综合研究各业务系统地质资料源头数据管理水平,围绕渤海油田地质资料信息化业务,必须建立起一套与企业发展模式相适应的规范和保障机制,以确保今后所有地质工作中形成的文档数据,能在各环节按照相应的业务流程、操作规范及时、有效地被地质资料管理者所捕获。尤其重点需要加强从各业务系统到油田电子文件系统的资料归集和自动推送研究,强化电子文件系统对地质资料归集业务的主通道作用,从而实现电子文件系统到地质档案系统的文档一体化管理,最终达到整个油田全领域地质资料完整性、及时性的管理。
5.2 前景展望
渤海油田地质资料管理将继续以数字化档案管理为核心,以信息技术为基础,以国土资源部《推进地质资料信息服务集群化产业化工作方案》(国土资发〔2010〕113号)文件为指导,坚持统一部署、分步实施的原则,最终将建设成业务系统、电子文件系统、地质档案系统3层体系架构模型,实现地质资料档案实体管理与专业数据管理高度融合,从传统的实体保护保管为主,转向数字化在线检索、自动推送为主,并且提供目录与内容、实体与电子、文档与数据多层次细粒度的信息化管理模式,最大限度地发挥地质资料在油气勘探、开发、科研、生产和决策中的重要作用,更有效地服务于企业和社会。
6 结语
当今时代,知识创新已经成为社会进步的主要推动力,信息技术的发展和计算机网络的普及也为实现油气地质档案信息资源的知识集成提供了重要的技术手段。渤海油田地质资料信息化建设工作正方兴未艾。当我们孜孜以求、卓有成效地加快地质资料信息化建设时,地质档案资料管理整体水平与综合效益这棵大树就会结出丰硕的果实,为渤海油田地质档案工作的创新发展开辟更为广阔的天地,进而为渤海油田生产和管理发挥其应有的价值和作用。
参考文献
[1]杨中营.构建档案数字化地方标准体系[J].中国档案,2014(3).
[2]蔡盈芳.企业档案信息的知识管理研究[J].档案学研究,2014(2).
[3]牛力,韩小汀.云计算环境下的档案信息资源整合与服务模式研究[J].档案学研究,2013(5).
[4]李向群,穆雷.中央企业档案信息平台一体化建设的现状分析[J].中国档案,2013(12).
[5]程妍妍,王静婷.数字档案馆采集功能的标准化研究[J].档案学研究,2013(6).

徐殿桂
(中国石油化工股份有限公司西南油气分公司信息中心档案馆)
摘要 本文通过对分布式管理技术的研究,分析了分布式管理系统的特点,结合油气田地质资料的管理模式,提出了分布式管理平台建设方案,形成了油气田分公司级地质资料分布式管理网络,并在生产科研中取得了良好应用效果。
关键词 分布式管理模式 地质资料管理系统 地质档案应用 系统架构
0 引言
由于西南油气田矿业权涉及四省一市,点多面广,为了更好地让地质档案服务于科研生产,在地质档案管理上采用了区域集中、统一管理的模式。近年来,又先后开展了地质档案的目录数据库建设、地质成果资料全文数据库建设以及地质资料管理系统建设,实现了各区域内的网络发布与利用。但各区域之间的资料查询和利用仍然较为困难,数据孤岛现象依然存在。为了解决这一问题,西南油气田决定充分利用分布式管理技术,将各区域端点的地质档案数据在中心管理平台上进行科学的组织与同步,并通过有效的手段发布分享,使之成为群体知识和共享成果,提供技术、成果互动交流的平台,实现地质档案收藏数字化、传递网络化和资源共享化。
1 西南油气田地质档案分布式管理现状
西南油气田于2006年完成地质资料管理系统节点程序开发,按区域集中方式,在四川省、云南省、贵州省及广西壮族自治区四省内按研究机构、采油气厂、测、录、钻、采、试等专业性质,部署二级站点,同时通过股份公司下达的成果地质资料涉密清理、原始和实物地质资料清理、国土资源部油气地质资料委托管理数据库建设以及西南油气田下达的成果地质资料数字化建设等工作,于2010年全面实现了油气田个单位地质档案管理的网络化发布与应用。2010年启动《西南油气田地质资料分布式管理系统》的建立与推广部署项目。在勘探开发研究院、工程设计院、广西采气厂等12个分站点建设的基础上,应用分布和协同的部署理念研发与部署分布式服务系统和二级单位地质档案管总控平台。在西南油气田范围内建成了一个庞大的跨越4个省12个单位的地质档案信息数据库,解决了西南油气田资料管理的规范化和统一性问题,实现了各单位之间资料的共享,形成一个完整的分布式环境,开创了地质资料远程管理的成功模式,提高地质档案资料的管理、使用水平,进一步完善了西南油气田地质资料发布与应用网络。在生产科研过程中,节约了成本,取得了良好的经济效益,其主要特点有如下几个方面。
1)利用网络信息资源、突破地域限制,一组相互之间在物理上距离较远的人员可以一起进行工作,有效突破地域的限制。
2)分布系统各节点的管理无须配置高性能、大容量的存储设备,可充分利用油气田各单位现有的硬件资源,分散存储,统一管理。
3)高度容错应用。分布式系统管理中的每个节点是自治的。一个单元或资源(软件或硬件)的故障不影响其他资源的正常功能。
4)扩展功能强大,通过增加节点管理的方式,能有效解决因企业发展、机构变迁所带来的影响。
5)独立管理、共享资源。各节点系统由各二级单位按照统一模式自主建设、自主管理,自主审批等方式保障了各单位的合法权益,同时通过集中发布实现资源共享。
2 西南油气田分布式系统管理应用解析
2.1 分布式系统概述
分布式系统(distributed system)是建立在网络之上的软件系统。正是因为软件的特性,所以分布式系统具有高度的内聚性、透明性、开放性及可扩展性。在一个分布式系统中,一组独立的计算机展现给用户的是一个统一的整体。系统拥有多种通用的物理和逻辑资源,可以动态地分配任务,分散的物理和逻辑资源通过计算机网络实现信息交换。系统中存在一个以全局的方式管理计算机资源的分布式应用系统。
分布式软件系统(Distributed Software Systems)是支持分布式处理的软件系统,是在由通信网络互联的多处理机体系结构上执行任务的系统。它包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。
分布式操作系统负责管理分布式处理系统资源和控制分布式程序运行。它和集中式操作系统的区别在于资源管理、进程通信和系统结构等方面。
分布式程序设计语言用于编写运行于分布式计算机系统上的分布式程序。一个分布式程序由若干个可以独立执行的程序模块组成,它们分布于一个分布式处理系统的多台计算机上被同时执行。它与集中式的程序设计语言相比有三个特点:分布性、通信性和稳健性。
分布式文件系统具有执行远程文件存取的能力,并以透明方式对分布在网络上的文件进行管理和存取。
分布式数据库系统由分布于多个计算机节点上的若干个数据库系统组成,它提供有效的存取手段来操纵这些节点上的子数据库。分布式数据库在使用上可视为一个完整的数据库,而实际上它是分布在地理分散的各个节点上。
西南油气田分布式系统管理分为两个环节进行,首先在各个二级单位部署地质资料管理独立子系统,解决局部单位的资料管理、查询、借阅、下载等基本工作,其次在各个独立子系统的基础上设立一个分布式服务系统,包含了分布管理需要操作系统、程序设计语言与文件系统,实现各个二级单位之间和油气田之间的有效整合,形成分布式环境(图1)。

图1 西南油气田分布管理系统图

利用WebService技术构建多层分布式应用系统的体系结构,该结构真正实现了应用系统逻辑上的多层架构和物理上的站点分布,实现了跨平台、资料负载平衡。使各个二级单位(四川、广西、云南…)Web站点的部署真正做到了不受地域限制,各个站点对资料均衡管理,以及网内用户资料共享。能够实现基于分布式系统的内容交互,为异构资源库之间的查询交互提供了一种良好的手段。基于分布式系统的资源描述和检索方法可以使资源的描述和用户的检索以一种更加语义化的方式进行,因此可以大大提高资源检索的查准率和查全率。
2.2 分布式系统功能架构
分布式系统功能主要为跨站点查询利用和地质资料管理系统节点配套功能两大部分。系统功能架构见图2。

图2 西南油气田分布式系统功能架构示意图

2.2.1 分布式查询利用功能
分布式查询服务模块:用户向WebService查询服务器提交查询请求,查询服务模块分析查询请求,执行数据库中数据查询和文件体查询。将查询结果组织成相应格式发给查询用户。该查询可以同时查询各个二级单位的资料,也可以查询某个单位的资料。
用户管理:该功能模块可管理加入系统的用户和用户组,系统管理员管理系统中用户的增加、修改、删除并把用户系统发送到各个二级单位,二级单位管理员根据总系统发来的用户信息进行文件授权。
借阅管理:系统可以根据用户查询资料的选择情况自动产生借阅申请单,并且自动根据资料的所属情况分为各个二级单位的借阅申请单,自动发送到各二级单位;二级单位的管理员对借阅单据审批。
数据同步接收:各个二级站点将二级单位资料的更新数据同步发送到总站点后接收同步数据,该功能是自动执行。
分布式查询服务自助管理模块:该模块工作在分布式查询服务系统中。主要是对接收的数据执行索引,释放垃圾数据,记录工作日志,对数据异常情况进行容错处理。
分布式查询服务数据备份恢复:该模块工作在分布式查询服务系统中。主要是对接收的索引数据进行备份和恢复。
2.2.2 节点系统配套功能
信息提示与发布技术:对于待审批的电子申请单或者系统异常信息,开机后提示管理员(类似MSN邮件提示)。管理员进入系统后可以执行相关的操作。
数据同步发送:各个二级站点将二级单位资料的更新数据同步发送到分布式服务中心站点中,该功能是自动执行。该服务功能需要在各个二级单位的服务器上部署。
读者留言板:读者可以对管理员提出自己的要求和意见,如读者对管理员要求放开某档资料的权限,管理员看到后可以作相关的处理。
基于文件的全文查询管理:为基于文件的全文检索建立索引服务,该功能可以设置执行时间,系统会自动在指定的时间执行。
基于文件索引服务器的文件索引及全文检索过程如下:采取了提交—建索引—查找—组织结果—返回的过程来完成全文检索。一旦非结构化数据被提交到了文件服务器。索引服务程序就创建或者更新索引文件,当用户发出检索请求时,系统会从索引文件中找到符合的内容,并且到数据库中取得相关的结构化信息,最终组合并打包成资料体返回给请求者。在建立索引时,索引服务程序能够从扫描的文件中自动抽取文本内容(前提是此文件是基于文本的,例如Word文档、Excel文档,以及由文本类型的文件转换的PDF文档),这个过程见图3。

图3 西南油气田分布式系统索引流程图

2.3 分布式系统层次架构
系统可以分为5个层次:①资料管理系统,是系统的次顶层;②系统服务支持环境,第三层,是为系统提供服务的支撑环境。如:ORACLE数据库服务、Web服务,系统使用的组件服务;③操作系统,第四层,是为系统支撑环境提供服务;④硬件和网络环境,第五层,为系统提供底层服务;⑤查询服务层,它受分公司控制,独立于各个单位系统外,为各个独立子系统的用户提供Web查询服务,其数据来源是建立在各独立子系统的资料信息的基础上的,因此它处于整个系统的最高层。
为了提高系统的工作效率以及程序与数据的安全性,我们在底层硬件方面采用了磁盘阵列和服务器双机备份。首先采用了磁盘阵列技术(RAID)可以提高了存储容量,多台磁盘驱动器可并行工作,提高了数据传输率;其次采用服务器双机备份技术,当一台服务器出现故障时,可以由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续提供服务。系统软硬件整体架构见图4。

图4 西南油气田分布式系统层次整体架构图

2.4 分布式系统网络架构
分布式系统的基本网络工作模式主要分为服务端和客户端,其中读者通过IE浏览器(客户端)访问服务器站点,发送请求,服务器接收客户端的请求,解析后再请求数据库服务器和文件服务器提供相应的资源,获取资源后在服务端组织结果信息发送到客户端。
在分布式环境下,系统的网络架构在不改变系统的网络工作模式条件下,增加了一个WebService查询服务系统使得读者资料查询方式发生了变化,当读者查询外部二级单位资料的时候,只需要登录系统总控站点,系统获取查询请求后,转换为请求WebService查询。WebService查询服务器在服务端组织结果信息发送到客户端。
采用这样的架构优势在于可以将查询功能剥离为Web服务,为其他数据管理系统使用本系统提供的查询服务提供一个公共的接口。数据同步服务为WebService查询服务系统提供同步数据。系统总控台为系统中所有的用户提供用户管理和借阅管理服务。系统网络架构见图5。

图5 西南油气田分布式系统网络架构示意图

3 结论与建议
分布式系统是新时期互联网技术、信息技术与地质档案管理相结合的产物,通过协同办公、同步操作、统一管理,有效节约资源,提升地质档案的利用效率,同时也能解决档案管理的规范化、流程化与全局资源共享等诸多问题。
分布系统管理是油田企业地质档案管理发展的重要趋势,具有较好的推广与应用价值,建议各油气田可依据自身档案管理的模式,发展分布式管理平台,同时,通过多级分布式管理程序研发,最终实现全国性的资源共享与利用。
参考文献
[1]叶幼霞.福建省分布式档案网站系统的优点与不足[J].兰台世界,2011(7):20~21.
[2]许桂清,李映天.辽宁省分布式档案异构数据库的探索与研究[J].中国档案,2010(2):58~60.
[3]时昶.基于分布式数据库的档案查询系统设计[J].水利水电快报,2009(12):36~38.

油田地质档案中非结构化数据管理模式探索
答:摘要 本文针对非结构化数据管理中存在的问题,分析了西南油气田地质档案非结构化数据管理特点,提出了数据采集、数据存储、数据管理与数据利用的技术架构,并对非结构化数据的管理、应用进行了深刻剖析,总结出了以技术解决方案、行政管理模式和数据服务三位一体的管理模式,为油田地质档案中非结构化数据的管理与应用探索出...

什么是非结构化数据管理
答:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且...

气田工程地质档案数字化管理与二次开发利用
答:摘要 本文对气田工程地质档案的数字化建设过程进行了阐述,针对气田勘探开发特点并结合生产需要,介绍了档案数字化处理方法、网络数据库建设及数字化档案管理方法,在数字化档案建设的基础上,对工程地质档案进行二次开发利用,建立了工区三维GIS地图信息系统,并在工程设计编写过程中进行了初步应用。 关键词 气田 工程地质档案...

结构化数据和非结构化数据是什么意思?半结构化数据又是什么意思_百度知 ...
答:非结构化数据,包括视频、音频、图片、图像、文档、文本等形式。具体到典型案例中,像是医疗影像系统、教育视频点播、视频监控、国土GIS、设计院、文件服务器(PDM/FTP)、媒体资源管理等具体应用,这些行业对于存储需求包括数据存储、数据备份以及数据共享等。半结构化数据,包括邮件、HTML、报表、资源库等等...

油田地质建模技术
答:三维地质统计随机建模,不是一个简单的地质数据流加载运算,而是一个计算机集成化的软件模拟过程。在一个具体油田上需要有足够多的采样点,对取得的地质、地震、测井及油藏工程试油等数据资料,按其空间分布的地质规律进行概率统计优选,建立油田三维地质模型。该模型的目的是用以指导油气田的生产动态管理或预测未动用的井...

分布式系统在油气田地质档案管理中的应用研究
答:在西南油气田范围内建成了一个庞大的跨越4个省12个单位的地质档案信息数据库,解决了西南油气田资料管理的规范化和统一性问题,实现了各单位之间资料的共享,形成一个完整的分布式环境,开创了地质资料远程管理的成功模式,提高地质档案资料的管理、使用水平,进一步完善了西南油气田地质资料发布与应用网络。在生产科研过程中,...

结构化数据和非结构化数据的区别
答:结构化数据和非结构化数据的区别:定义不同、来源不同、形式不同、模型不同、存储不同。1、定义不同 结构化数据:结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。非结构化数据:非结构化数据是数据结构不规则或不...

什么是结构化数据非结构化数据和半结构化数据
答:结构化数据也称为行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。结构化数据标记是能让网站以更好的姿态展示在搜索结果当中的方式。做了结构化数据标记,便能使网站在搜索结果中良好地展示丰富网页摘要。非结构化数据是数据结构不规则或...

结构化数据和非结构化数据的区别
答:总结起来,结构化数据具有明确的组织结构和数据模型,适用于表格化的数据,可以方便地进行存储、查询和分析;而非结构化数据没有明确的组织结构,包含丰富的内容和多样的形式,处理起来更加复杂,需要借助特定的技术和工具来提取有用的信息。结构化数据的作用 1、数据管理和存储:结构化数据能够以一种有组织...

什么是结构化数据,非结构化数据?
答:(1)结构化数据,简单来说就是数据库。结合到典型场景中更容易理解,比如企业ERP、财务系统;医疗HIS数据库;政府行政审批;其他核心数据库等。这些应用需要哪些存储方案呢?基本包括高速存储应用需求、数据备份需求、数据共享需求以及数据容灾需求。(2)非结构化数据库是指其字段长度可变,并且每个字段的...