双层PDF在地质资料数字化中的应用 浅谈数字化成果地质资料服务系统建设工作实践

作者&投稿:市胥 (若有异议请与网页底部的电邮联系)

郭慧锦 贾国锋 马飞飞 张茜

(全国地质资料馆)

摘要 本文在描述双层PDF及OCR技术特点及应用前景基础上,探讨了地质资料数字化图文数据双层PDF转换的意义;提出了转换方法的选择,并详细介绍了OCR数字加工系统,以及提高识别率的方法;最后提出了双层PDF在地质资料馆建设中的意义。

关键词 双层PDF OCR识别率

当前,地质资料馆藏机构都在加紧开展数字化工作。截至2013年底,全国已有20多个省级资料馆完成馆藏资料的数字化工作,全国地质资料馆的成果地质资料数字化工作也接近尾声,所形成的海量数据已成为地质资料信息社会化服务重要数据资源。此类数字化数据是静态的,有利于阅览使用,但无法进行全文检索,也不利于进一步分析处理。因此,在现有数据的基础上,开展OCR识别,使之转化成双PDF文件,实现静态向动态的转变,建立全文数据库,完成对地质资料的全文信息的检索,成为地质资料馆藏机构推进资料数字化工作。

1 关于双层 PDF与OCR技术

双层PDF是在扫描数据的基础上通过OCR识别生成的可检索的PDF文件,即上层是原始图像,下层是识别结果,且位置上下一一对应。双层PDF文件不仅可以100%保留原始版面效果,而且支持选择、复制、检索等功能,这样的PDF文件最后可以存储在光盘、硬盘或磁盘阵列中,并通过建立索引数据库进行科学的管理。

OCR(Optical Character Recognition),即光学字符识别,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。随着计算机网络飞速发展,信息电子化已经成为一个时代必然趋势。文字作为信息中最重要、最集中的载体,其电子化进程显得尤为重要。而OCR技术则是文字电子化过程中最重要的环节,它改变了传统的纸介质资料输入的概念。通过OCR技术,用户可以将通过摄像机、扫描仪等光学输入方式得到的报刊、书籍、文稿、表格等印刷品的图像信息转化为可以供计算机识别和处理的文本信息。因此,与传统的手工录入方式相比,OCR技术大大提高了人们进行资料存储、检索、加工的效率。

2 应用现状

PDF正在世界各国政府、金融财务、法律、工程技术、医疗等诸多部门获得广泛的应用,并已成为政府、学术部门等单位标准的现代化公文格式规范,所以PDF电子格式文档将是未来档案部门收藏的主体。而双层PDF的出现有效解决了识别成本和阅读利用的矛盾,是一种较有潜力的资源格式。国外的OCR技术应用相对成熟,包括IBM、Motorola、HP和Microsoft等世界性大公司都陆续展开了这方面的研究,在他们的产品中绑定了OCR技术。

如今,OCR技术在我国的应用也极为广泛。信息检索技术研究,即双层PDF检索技术研究,中国“863”计划在2008年以前已经开始对中文OCR、自动分词、自动摘要、自动搜索、自动定位进行了统一测试评测。在此基础上,国内逐步建立了以数字图书馆、数字档案馆、数字报刊、数字校园网等一系列数字化为基础的实施案例,例如新闻出版总署、外联部、共青团中央等机关文献全文数据库;《中国青年》75年、《新华文摘》20年等期刊全文数据库。国家图书馆早在1999年就成立了“国家图书馆文献数字化中心”,对各类馆藏文献进行数字化加工和OCR识别,在此基础上形成书目型书库、题录型数据库和全文型数据库三大类,逐渐成为我国网上信息资源的中心枢纽。

随着我国信息化建设全面普及,OCR技术的应用前景更加广阔,数字图书馆、数字档案馆、数字资料馆等概念的提出也使OCR在纸质档案数字化过程中越来越发挥其独特的作用,不仅节省了人力物力,更使档案信息资源的利用价值达到最大化,能够更好地服务于民。

3 数字化数据双层PDF转换的意义

3.1 是地质资料信息化建设的重要内容

随着社会信息化程度的提高,人们对信息资源的依赖程度也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切。数字化是信息化建设的重要内容,而信息化建设的核心是资源建设。资源建设包括三大任务:一是馆藏纸质资料的扫描数字化与目录数据库建设;二是电子文件的归档与管理;三是全文数据库和全文检索体系建设。根据各资料馆数字化工作进展,考虑到用户的利用需求,若要得到真正文本形态的电子信息,使资料数字化工作更加有效,更加彻底,最大限度拓宽用户利用面,就需要应用OCR技术进行扫描栅格文件的双层PDF转换,进而开展地质资料全文数据库建设和全文检索工作。

3.2 是地质资料实现全文检索与全文数据库建设的前提

实践证明,基于双层PDF文档的全文检索,有效地提高了查询利用效率。它通过对档案数据库的数据和双层PDF文档的Text层建立索引,查询时可以不访问数据库,有效减轻数据库和系统的压力。至少可以支持1000万级的数据,毫秒级的查询时间,每秒上千人的并发访问,从而实现大容量、高速度的目标,并且可以适应Linux和Windows平台,支持多种数据库接口。它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索,用户友好;同时能够根据客户的需求进行用户的数据挖掘,提高档案全文检索系统的价值。

3.3 是现代化数据中心标准化建设的前提

建设现代化的数据中心首先要实现电子文件存储结构标准化,即建立一个通用性强、应用广泛的电子文件信息存储和交换格式。基于PDF格式已经作为电子文件管理中电子文件长期保存格式的最新标准在国际上全面实施,且具有兼容性、原始记录性强,安全控制策略完善等优点,是电子文件长期保存的最佳选择。所以进行馆藏数字化数据PDF转换势在必行。

4 双层PDF转换方法

4.1 目前常见的双层PDF转换方法

目前国内双层PDF的转换技术已经相对成熟,从现有技术条件下来看,大体可分为以下3种:

4.1.1 软件转换

由目前市场上较流行的 Adobe Acrobat、ABBYY FineReader12(中英文识别)、Readiris Corporate 12(英文识别率高)、Foxit Phantom 5(可以单独显示文本层)、清华文通TH-OCR XP8(识别率较高)、汉王文本王5800(版面识别较好,纯中文识别率高)、尚书七号OCR等转换程序,可以经OCR识别处理后直接生成双层PDF文件,速度快,效率高。但识别率和纸质资料原件(如印刷方式、清晰度、纸张质量等)及操作人员技术水平成正比。如果纸质原件质量好,识别率相对就高;质量差,识别率就相对较低。

4.1.2 流程加工

根据相关技术要求,对图像进行全新的OCR识别流程加工处理,重新生成PDF文件,具有文字正确率高、文字定位准确等特点。这种方式相当于全流程化制作双层PDF文件,工作量大,耗时长,费用高。

4.1.3 识别重构

重新生成PDF文件,实现版面字体、字号、颜色的恢复和重构。文字正确率高,页面清晰,但和原版图差异较大,主要在图书方面应用较多。

4.2 地质资料双层PDF转换

全国馆于2011年开始在扫描数字化基础上开展双层PDF的转换试验工作,主要运用第一种方法进行软件转换,即经过软件自动OCR处理后直接形成双层PDF文件。由于地质资料不同于普通的文书档案,纸张样式和印刷方式多样,手写和老旧资料多,地层、数学等特殊符号多等特点,给OCR自动识别带来了困难,单一的软件识别并不能满足全文检索90%以上识别率的要求。

在转换试验基础上我们得到以下结论:

1)地质资料本身多种多样,实际的识别率主要受印刷质量、形成年代等因素影响,老旧资料、纸质质量差的资料识别率普遍较低;受执笔人书写习惯及书写清晰度的影响,手写文档的识别准确率一般在30%以下;油印文档识别准确率一般在50%以下;打印、铅印和胶印文档识别率较高,一般能达90%以上。无论在哪种类型的文档中,标点的识别率都很低,地层和数学符号及其他特殊符号的识别率几乎为零。

2)目前识别技术无法达到100%识别,必须根据实际需求对照纸质档案对初次识别结果进行人工校对才能满足全文检索需求。

3)地质资料扫描文件数量多、容量大,转换速度受计算机反应速度影响,大批量转换和识别需选择高配置计算机,且批量转换和人工识别耗时长,耗人工多,需专项经费支持开展工作。

4.3 OCR数字加工系统的引入与功能简介

经过对目前国内双层PDF转换方法的对比,结合地质资料情况复杂的特点,以及数据测试结果研究,建议地质资料的双层PDF转换主要采用软件识别和流程加工相结合的方法,即采用OCR数字加工系统,可以保证高效率、高质量地完成双层PDF转换。该系统主要包含以下几个主要流程:

图1 OCR数字加工系统示意图

1)图像处理。为提高识别率,对图像进行“消蓝去污”的处理,去掉图像上影响识别率的噪音,如麻点、下划线等,由图像质量控制程序自动监测图像处理质量。

2)版面分析。自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。

3)识别。把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、中英文混排文字、表格,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。

4)纵向校对。具有很强的查错纠错能力,是将一个或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。

5)横向校对。是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不离的文字。

6)版面还原。将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、SGML/XML格式的数字文档。

7)数据入库。版面还原数字文档的保存。

4.4 提立OCR识别率的方法

利用OCR数字加工系统生成的双层PDF,文本层差错率最低可到万分之一,可呈现原版底纹和色彩风貌,可进行全文检索和复制引用,且检索信息可准确定位到字符,便于快速查找目标信息。为了减轻横向校对即人工校对工作量,提高工作效率,就要从根本上提高识别率。经过试验,以下几个方法可以提高栅格文件OCR识别率。

1)图像色彩设定。虽然灰度或彩色模式可以最大限度还原纸质资料原貌,是我们扫描数字化的首选,但是这两种色彩模式会增大影响识别率的背景噪音。若仅做文字识别及一般黑白插图选取,建议可将扫描程序的图像色彩设定设置为黑白,增大识别率。不过最终图像色彩的设定还要按照各类具体工作的规范要求来设置。

2)分辨率设置。我们都知道扫描分辨率设置越低,扫描速度越快,但同时也导致图像质量差,其文字识别准确率低。反之分辨率高,扫描速度慢,但文字识别准确率高。但这又不是绝对的,因为分辨率设置得太高后,纸张上的微小瑕疵也可能被认作标点符号或汉字等,文字识别准确率反而会有所降低。经反复测试,分辨率设为300dpi,是扫描速度及文字识别准确率的最佳平衡点。

3)图像处理。这里图像处理是指扫描输出图像前的倾斜校正和去污等。倾斜校正是为了调整文字方向使之正向,这样才能对OCR识别有所帮助。

双层PDF转换完成以后,在此基础上可以实现资料管理系统与PDF文件的挂接,对资料数据内容及其元数据等相关信息建立联系并形成数据包;然后通过调用全文数据库原数据创建索引文件,最后实现全文检索。通过全文数据库及全文检索的实现,得到高查全率和查准率,大幅度提高地质资料的利用价值,促进地质资料编研工作,为地质资料信息聚合的研究和深层次服务奠定了基础。

参考文献

[1]许呈辰.档案数字化过程中OCR技术的应用[J].档案管理,2011(1).

[2]徐永芳.OCR技术在档案数字化过程中的应用[J].艺术科技,2011(2).

[3]张旋.OCR技术研究进展及前瞻[J].科学技术,2010(4).

[4]郭金光.双层PDF技术及在档案数字化中的应用[J].新观察,2013(1).

[5]刘家真.文件保存格式与PDF文档[J].档案学研究,2002(2).



基于PDF 格式的原始地质资料数字化实践~

李效广 杨 君 李 敏 周小希 林晓辉 张良军
(中国地质调查局天津地质资料馆)
摘 要 原始地质资料数字化是信息时代的必然趋势。目前数字化的主要方式是扫描数字化,即通过扫描的方法把以纸介质为载体的图文地质资料由模拟信息转变为数字信息。以何种格式的数字信息存储,是原始地质资料数字化中的关键问题之一。作者结合实际工作,试图说明便携式文档格式(PDF)是较优选择之一。
关键词 地质资料 数字化
1 概述
原始地质资料是在进行地质工作时直接形成或采集的,反映地质现象或地质体的,以各种载体类型存在的原始记录、中间性解译资料、最终地质工作成果原稿等。根据原始地质资料的形成规律、形式特征和内在联系,案卷内的原始地质资料包括成果底稿、底图、野外地质观察记录簿、采样测试鉴定表等。
原始地质资料中图文纸介质的数字化是信息时代的必然趋势。当前数字化的主要方式是扫描数字化,即通过扫描的方法把以纸介质为载体的图文地质资料由模拟信息转变为数字信息,并按一定的质量要求对电子文件进行加工和制作,然后存储在磁带、磁盘或光盘等介质上的过程。
采用何种格式存储数字信息,是原始地质资料数字化中的关键问题之一。传统的扫描数字化后的数字信息多“理所当然地”选择了某一种栅格格式,比如《图文地质资料扫描数字化规范》表述的扫描原则是:“按照原件处理的结果对原件进行完整、齐全的扫描,保证栅格文件的扫描质量,并使栅格文件具有最少的整饰工作量。”同时,“栅格文件的格式”为“黑白:使用 CCITT Tiff Group 4 fax 压缩格式(.TIF)”或“灰度或彩色:使用 8 位或 24 位 JPEG 压缩格式(.JPG)”。此二类栅格格式在存储图文扫描方面至今仍然有足够的优势。笔者认为,当前的信息技术条件下,PDF 格式,即便携式文档格式,是适用于数字化原始地质资料的理想选择。笔者在对数十档原始地质资料的数字化工作的基础上,对此问题作一简要阐述。
2 应用实践
PDF 格式文档是一种通用文件格式,用于保存由多种应用程序和平台上创建的源文档的字体、图像和布局。笔者共选择包括科学研究类、区域地质调查类等 10 种原始地质资料,共扫描 7000 余页,扫描后将其编辑为 PDF 文档。
2.1 扫描
在扫描原始地质资料之前,笔者对其进行了预处理。按照原始地质资料目录,核对资料是否齐全,并对资料进行分类,确定扫描所需设备及根据纸质的新旧程度、页码是否按顺序排列、折痕、折页、是否需要拆除装订、哪些资料需要扫描、页面修整等情况,做出相应的处理。
物理上独立的一册(张)资料扫描为一份电子文件,在扫描仪分辨率设置上纸质文本资料通常选择300dpi,图件资料不低于 200dpi,建议以 24 位彩色模式进行扫描,这样能更好地展现原始纸质地质资料的原貌;对于文本资料,建议用平板方式进行扫描。因扫描仪型号不同,应根据实际情况调整相关参数。
A3 幅面及其以下纸质原始地质资料按纸质原顺序扫描,并制作成 PDF 格式文档;A3 幅面以上,可扫描成 JPEG 等其他通用图像格式文档或 PDF 格式。对大幅面资料进行分区扫描形成的多幅图像,进行拼接处理,合并为一个完整的图像,以保证资料数字化图像的整体性。
2.2 编辑
扫描成栅格格式后,每页存储为一个独立文件。而 PDF 则不同,可方便快捷地组织制作成同纸质非常接近的“电子书”格式。
制作 PDF 基本可分为四个步骤:
1)文件的合并与编排:根据原始资料各个章节的排列顺序编制 PDF 文档,并保证空白页的添加位置与原件一致,保证文档中添加的新页码与页面上标识的页码一致。将文档中没有显示出来的插图单独制作成一个附图册,编排到文档的最后,将二者合二为一;在与其相应的位置做链接,方便查阅。
2)页面的编码:对于手稿资料,需要对其简介、目录、正文(包括参考文献和勘误表)等部分进行编码。根据实际工作,笔者采用的参数为:①简介和目录的页码使用罗马数字进行标示,字体定为 Arial 粗体,字号设为 16 号,位置居中。②正文部分严格依照原文件的页码添加对应的新页码,使用阿拉伯数字进行标示,字体为宋体,位置居中,字号为 16 号。对于页边距来说视情况而定,在不影响页面美观的前提下,可以将上边距设为 12.7mm,下边距设为 6.35mm 或 7.62mm。③文档最后的附图部分则无需编码。
3)附属资料的添加:对于插图(主要是页面中无法展示出的图片)来说,可以在页面中的对应位置添加图片的文字链接,同时在每一个插图上添加“返回”链接,链接的字体设为幼圆,字号为 18,颜色为蓝色。对于补充材料以注释附件的方式添加在正文相对的位置上,其设置参数为:外观图标选择“附件”,颜色设为红色,添加作者名称均为“天津地质调查中心”,主题为补充材料添加的位置说明,例如“第二段第一行的插入段”,最后勾选“锁定”。
4)书签的制作:可以按照目录的结构来做,对于没有目录的材料可以将其做至第 3 级标题。书签的制作参数为:页面显示比例调为 75%,字体样式为黑色规则样式。
2.3 整合
每档资料扫描后的电子文件都按其归档立卷方式命名与存储。建立相应电子文件夹,实现文档的整合。笔者根据实际工作,总结其文档命名规则。
1)建立相应的文件夹来存储扫描完成的电子文件,以档案号—项目课题名称为文件夹名字,每份资料为单独的一个文件夹。
2)根据《原始地质资料立卷归档规则》归档的原始资料,其下一级单文件命名方式为分类号 + 顺序号;如果是在《原始地质资料立卷归档规则》颁布前归档的原始资料,其下一级单文件的命名方式为 0X-00X-报告名称,0X 代表原始地质资料中的盒号,00X 代表此份资料在整份资料中的编号。

第八届全国地质档案资料学术研讨会文集

例如:

第八届全国地质档案资料学术研讨会文集

2.4 共享与发布
相比较单页资料扫描成单个栅格文件后将整份资料以文件夹存储情形而言,将整份资料扫描存储为单个的 PDF 形成一个电子书,其优势体现在:PDF 格式的文档更加美观,易于阅读,适合屏幕阅览,能够精确还原保证再现原文,可放大到 800% 而不损失清晰度;另外可高效浏览,可直接用电子化便签,随意翻阅自己想要看的东西;对于安全性,能够控制机密文件的访问权限,使得原始地质资料既能社会化服务,又能保证其安全性。
2.5 存储空间
表达同样的图文信息,PDF 电子文件远比 WORD 文件所占存储空间小,PDF 格式比之于 WORD 格式有非常大的优势;而且 PDF 格式可以另存为 JPEG 格式,转换后的 JPG 文件存储空间较之于 PDF 格式也没有变化。因此,在节省存储空间方面 PDF 格式具有较大的优势。
3 结语
实际上,PDF 格式是 JPEG、TIFF 等栅格格式在原始地质资料数字化中应用的深化。二者均为数字信息存储格式,信息技术已发展到可直接使用扫描仪和 Acrobat 软件将纸质文档扫描后创建成 PDF 文件,表象上表现为 PDF 文档与 TIFF 或 JPEG 栅格文件是一个层面上的应用。因此,作者认为二者在应用层面上是一致的,但绝不是说 PDF 文档与栅格文档在数字信息中是同一类别的文档—TIFF 或者 JPG 是数字信息中的某种光栅格式,而 PDF 则是数字信息中将字体、图像、电子邮件、工作表和布局均可打包存储的通用文件格式,包含有更多与更高层面的应用。因此,从这个角度来讲,较之于以 JPEG、TIFF 格式扫描化原始资料,自然地,PDF 格式优势当然明显,是一种优选格式。选择 PDF 文档作为纸图原始地质资料数字化,在存储、共享、分发、整合等方面具有优势。
感谢:茹湘兰、赵小平等专家对本文的帮助。

陆 浩1余运坤2
(1. 浙江省地质资料档案馆;2. 杭州瑞利声电技术公司)
摘 要 主要介绍了浙江省地质资料档案馆开展数字化成果地质资料服务系统建设工作中建设背景、建设目标、系统框架、关键技术、系统功能和应用效果等方面的建设实践。
关键词 数字化 成果地质资料 服务系统 建设
0 引言
浙江省地质资料档案馆作为省级地质资料馆藏机构,近年来从地质资料管理、图文地质资料数据库建设、社会多元化服务等多方面下工夫,在认真贯彻和加强地质资料服务体系建设、提升地质资料的现代化管理与服务能力、强化地质资料提供全社会一站式服务方面进行了一些尝试,对数字化成果地质资料服务建设工作开展了一些有益的实践。
1 背景
浙江省从 2001 年起开展地质资料图文数字化工作以来,馆藏成果地质资料图文数字化工作进展迅速,截至 2011 年年底,馆藏的 8429 种成果地质资料中,共有数字地质资料 8079 种,其中数字化地质资料4896 种,汇交有电子文档的地质资料 3183 种,馆藏地质资料的数字化率已达 95.8%;馆藏地质资料图文数字化意图基本成型,到 2012 年底,将实现全库地质资料图文数字化。届时,馆藏的成果地质资料中,图文数字化地质资料将有 5500 余种,为数字化成果地质资料服务系统的建设奠定了坚实的数据基础,也为开展此项工作提供了可能。
数字化成果地质资料服务系统建设,从管理角度看,实现了资料和档案信息的一体化管理,为地质资料管理提供了先进的技术手段,减少了工作人员繁重、重复性处理的工作量,降低了管理成本,提高了地质资料公共服务体系的信息管理水平。从利用角度看,可以直接利用网络方便查询和在线图文浏览,节约了时间和费用,大大提高了效率。从社会效益方面看,积极采用信息技术促进提升资料档案管理理念和改进资料管理手段,更有效地提高了信息资源的利用,促进了地质资料的社会化服务作用。
2 建设目标
在认真贯彻落实《国务院关于加强地质工作的决定》和国土资源部《关于建立健全地质资料网络服务体系的通知》精神,坚持“科学、高效、务实”的工作方针,遵循“统筹规划、统一标准、分步实施”的指导原则,以“资料管理法制化、馆藏管理标准化、地质资料数字化、管理现代化、服务社会化”为建设目标,以网络为基础、以内容为重点、以数据为核心、以系统为手段,建立数字化成果地质资料服务系统,实现按地质资料图文数字化规范形成和符合汇交地质资料要求的电子文本内容全文检索与定位,极大方便用户查询所需资料,解决地质资料查询不便的根本性问题,提高检索能力和服务能力,为建设“浙江省数字地质资料馆”的宏伟目标开展有益的探索和实践,逐步实现覆盖我馆业务管理、资料管理、资料利用和资源服务,实现资料汇交、整理、验收、保管、利用、销毁全过程档案生命周期管理,尤其是提高地质资料数字化、网络化、流程化一站式服务水平。
3 系统框架
数字化成果地质资料服务系统建设,采用 .net 开发平台 B/S(Brower/Server)架构,实现省厅、地质馆各部门业务信息化处理和无纸化办公,集地质资料汇交、接收、验收、入库、目录著录、检索、借阅、加工处理,以及三维虚拟库房展示体验于一体,根据需要能够形成相应的业务统计分析报表。

第八届全国地质档案资料学术研讨会文集

具体各功能模块说明,请见第 5 节描述。
4 关键技术
4.1 流程自定义
为适应业务管理和服务需求,系统提供强大的流程管理模块,采用完全符合 WFMC 工作流标准的工作流引擎,实现用户自定义各种流程表单、自定义流程步骤、流程动态干预、作业监控、流程审批。实现串行流、并行流、协作流三类复杂流程定义。
4.2 表单自定义
系统提供智能表单管理,采用 .net2.0+HTML 开发,实现“零编码”功能,轻松完成业务数据定义(表单:提供创建和管理智能表单的功能,包含表单权限、表单验证表达式、绑定流程等;表单字段:管理表单字段信息,包括字段的类型、验证信息、计算表达式、数据信息、控件类型等),满足复杂变化要求。
4.3 双层 PDF 文件技术
为了更好地利用地质资料资源,提高数据利用率,采用双层PDF技术(PDF文件的每一页都包含两层,上层是从纸质文件扫描的原始图像,下层是用 OCR 软件对扫描图像进行识别后产生的文字结果),保留资料原始版面效果(包括公章、签名),实现对下层的文字信息选择、复制、检索等功能。与普通 PDF文件相比,双层 PDF 同时兼顾视觉效果和检索方便性,极大地方便了电子资料的管理和利用。
4.4 全文检索技术
全文搜索引擎,是通过索引服务器全文管理并建立多种格式的文档(纯文本、htm 格式、office 系列文档格式,以及隐藏于文档中的不可见的属性等)和扫描文档检索机制,用户只要提供关键词或其组合,采用图文全文搜索引擎进行全文搜索,可快速查找到所需的扫描文档。
4.5 大容量文件传输技术
基于地质资料图件容量大的特点,基于 .net2.0 采用 HTTP 协议进行加密传输,无需任何客户端配置,可上传小于 1G 的文件,提供进度条显示实时上传进度。
4.6 三维虚拟现实技术(Web 3D)
Web 3D 技术是虚拟现实技术的一种实现形式,是基于 internet 的、依靠 VGS(一种基于浏览器的三维网页实现方法)实现的桌面级虚拟现实技术。它主要包括建模技术、显示技术、三维场景中的交互技术三大部分。
5 系统功能
数字化成果地质资料服务系统功能模块,包括业务管理、采集管理、资料管理、资料利用、三维库房、信息发布、运行维护等。

第八届全国地质档案资料学术研讨会文集

5.1 业务管理
接收管理,详细记录各单位汇交的地质资料明细,包括移交日期、移交内容、补交内容、移交人员、通讯方式,备注;生成资料汇交表,允许多次移交。
验收管理,安排人员对各汇交资料核对,检查汇交内容、质量、数量,对不符合要求的资料予以退回完善。
分类管理,提供馆藏资料分类,可以按工作程度、报告类别等多种分类形式管理。
收费管理,对提供各单位或个人的服务,按章收取适当的费用。系统记录每次服务对象、服务内容、数量,以及费用。支持多项组合统计,生成收费项目汇总表。
手机短信,对汇交资料审核后的结果(修改通知、补交通知、通过通知)第一时间告知单位移交人员,提高信息传递效率。
单位维护,完成资料汇交单位信息管理,具体包括单位名称、法人、通讯地址、邮编、资料员、联系电话、传真、E-mail。
5.2 数据采集
数据著录,应提供表格式操作界面,有添加、删除、修改、复制、移动和设定数据格式等功能,自动生成资料编码(允许修改),能有效地减少著录的工作量,提高录入效率。
资料审核,对用户自行录入、批量导入的临时库中的资料数据进行审核,修补。
临时库管理,用于暂存多种方式采集的各类数据,资料员逐一校对,对符合要求的数据审核入预归档库管理。
批量导入导出,提供多种方式导入导出功能,方便与其他系统交互,满足使用。
5.3 资料管理
预归档库管理,建立资料三审工作机制,临时库数据经校对后进入二审预归档库管理阶段,设定资料的密级、保管期限等信息。
资料库管理,通过审核无误的地质报告、资料等重要档案数据集中,对每份资料的封面、正文、审批、附图、附件、附表及其他资料等七大类系统的全面管理。支持关键字检索、分类检索、高级检索、全文检索、递进检索等多种查询方式,生成数据汇总报表,并以柱状图、饼状图等显示。
全文管理,由系统自动建立文件内容索引库,对汇交的电子资料(.doc、.exl、.ppt、.pdf 等格式)和按地质资料图文数字化规范制作的已经数字化地质资料文件(双层 PDF 格式)实现全文内容管理,通过全文全息搜索引擎,高速检索文件。
特殊介质管理,对光盘、软盘、磁盘、录音带、录像带等磁介质资料实施统一管理,包括名称、摘要、数量、内容、移交单位、移交时间、备注等。
授权管理,对资料库档案严格操作权限管理,按密级要求对资料的目录、封面、正文、审批、附图、附件、附表、全文等开放,内网系统各部门用户权限设定后,归档的资料自动符合工作权限查询和利用,无需逐一授权。要求系统提供缺省授权、标准授权、密审授权、临时授权四类授权管理方式。
流程监控,对用印管理,资料的工作权限申请,借阅、复印、打印办理等程序动态监控,必要时管理员可以进行干预、调整。管理员可以清楚了解每一流程的状态、当前流程步骤、操作人员、流程周期、发起人、审批人等。
关联管理,要求对有必然关系的两个或多个文件建立人工关联,查询时自动罗列所需文件的关联文件,方便用户了解有关内容。
借阅管理,为管理员提供资料的借阅申请、办理、催还、续借、归还等过程管理,记录申请人、审批人、经办人、办理时间、催还通知、续借次数、归还等总体情况,便于备查。
库房管理,主要是针对库房内硬件的资源管理,做到系统数据和库房内实物信息内容一致,记录设备的采购时间、供应单位、供应商评价、设备使用年限、责任人、年检信息、报废到期预警等重要内容。
销毁管理,对符合销毁条件的资料文件启动工作流程,经领导审批后销毁处理。系统保留销毁历史记录。
5.4 资料利用(内网)
目录检索,提供用户馆藏资料目录级检索,了解资料的基本信息,知晓有无电子原文件和扫描文件等。有权限的用户可以直接在网上全文浏览,没有操作权限者可依据工作需要提出申请。
全文检索,为用户提供资料内容全文检索,录入关键字可以找到具体的文件,快速列出符合查询要求的文件,并显示具体文件的文件编码、文件标题、责任单位、移交人、经办人、库位号、借阅信息等数据。
递进检索,对符合查询条件的结果,进行二次检索,方便用户更快获取所需文件资料信息。
借阅申请,用户因工作需要对资料启动借阅流程,支持单份资料、多个资料一次性借阅申请。系统保留包括公开的和涉密的借阅申请详细记录,对于涉密地质资料需求,要求用户递交介绍信、身份证原件及复印件、《涉密地质资料借阅复制证书》等材料扫描进入系统记录,审核通过后为用户提供服务,建立涉密地质资料利用台账。
复制管理(含电子文档复制和纸质资料复印),系统登记用户资料的复制服务,录入每次复制时间、复制内容、数量、费用、经办人、备注,对于涉密地质资料,自动建立所复制涉密地质资料的详细表单并打印后由利用人签字确认。可以查询某一时间段、某一用户、某一份资料的复制情况。
打印管理,系统登记用户资料的打印服务,录入每次打印时间、内容、数量、费用、经办人、备注。可以查询某一时间段、某一用户、某一份资料的打印情况。
订单服务,由系统登记用户单位通过电话、传真、邮件、邮寄等多种方式订购的地质资料订单信息、服务费用。对于公开的地质资料采取复制方式,采用邮寄送交用户。
专题服务,用户通过内网平台、外网向我馆提出特殊要求的地质资料利用服务需求,递交必要的材料审核后,安排与用户协商并签订服务协议。
信息统计,要求系统提供数据著录统计、分类统计、年度归档统计、历年统计、借阅统计、复制统计、打印统计、订单服务和专题服务统计等,并以图形化界面展示利用情况。
5.5 三维虚拟库房展示
采用 WEB 3D 技术将资料馆库房 1∶1 建模,提供馆内人员网上虚拟漫游,可对来访单位生动形象地介绍馆藏设备和资料库结构,其具备多感知性、沉浸感、交互性、真实性等特点,给人“身临其境”之感。与此同时,库房的温湿度数据和门禁数据直观在线显示,极大地提高了了解库房在用条件效率,避免意外发生。
5.6 信息发布
资料管理员结合工作实际,将符合社会化查询要求的资料(资料目录、资料全文)对外发布,供网络化查询、浏览。
5.7 运行维护
为保障系统运行,灵活设置系统的部门机构、用户、角色、权限,提供用户自定义资料档案的编码和工作流程,保留系统登陆和数据操作的详细日志。功能包括:部门管理、用户管理、功能设定、权限管理、流程管理、编码设置、数据备份、日志管理和系统接口。
6 应用效果
地质资料服务系统建设是一项长期、复杂的系统工程,依托信息网络技术开发软件系统,为我们的管理和服务工作带来便捷。通过近两年时间的摸索和实践,我们已初步实现成果地质资料汇交、接收、验收、入库、保管、利用、销毁等的一体化、一站式、全景化管理。特别是在借阅利用服务方面,为社会企事业单位或个人直接进行自助查询和浏览资料提供了快速通道,减少了办手续等候时间,提高了服务效率,得到了借阅单位和人员的一致好评。
6.1 目录查询检索效果
在如今资料借阅服务的过程中,外单位用户进入系统,根据需求输入关键词即可轻松找到相应资料;可以通过“递进检索”缩小查询范围,快捷获取资料信息 ,资料目录显示一目了然。通过较长时间的使用体验,用户普遍反映系统能够方便、简捷地查找资料,不会出现繁琐或重复查找、不方便查询检索等现象。
6.2 资料借阅利用效果
用户普遍认为,从完成目录检索,到提出“申请借阅”,用户可批量选择待借资料目录,审批通过后进入独立的浏览界面,报告和大图互动查看方便。系统人机界面协调,符合通用的电脑使用习惯,即使一开始不熟悉如何使用,略加熟悉,自然会用,查阅方便。按照资料管理规定,公开性资料系统提供在线浏览,并能集中提供多份资料,节约了时间,提高了查阅效率,对用户的工作具有很大的帮助及意义。
经过近两年的应用,用户对系统给予了充分肯定,认为系统运用方便,特别对刚到一个新的工作区域,需要大范围多种类查阅资料时显得尤为便利,系统较好地解决了同时查询大量资料的需求,资料目录和内容全文阅读方便,图件数据清晰,参照对比资料实用,快速查阅有效信息。
6.3 下载复制效果反馈
用户认为系统下载功能实用,对所需资料只要打勾和点击“下载”,不需要麻烦工作人员找出电子光盘,导出数据再刻盘的步骤操作,避免浪费时间,下载后导出数据即可刻盘,极大地方便了用户复制需求。
7 几点结论
(1)通过引进系统管理新手段,提高了浙江省馆的地质资料管理服务的现代化水平,工作质量提升明显。
(2)通过系统的开发利用,使地质资料图文数字化的成果得到充分利用,体现了地质资料图文数字化工作对提升地质资料服务现代化、重要且深远的意义。
(3)通过系统的开发利用,使地质资料实现优质高效的服务有了一个坚实的落脚点和平台,为国土资源部提出的地质资料要作为地质工作服务社会经济发展的有效载体提供高效服务进行了有益的实践,为今后继续推进地质资料现代化建设积累了经验,探索了路子。

双层PDF在地质资料数字化中的应用
答:摘要 本文在描述双层PDF及OCR技术特点及应用前景基础上,探讨了地质资料数字化图文数据双层PDF转换的意义;提出了转换方法的选择,并详细介绍了OCR数字加工系统,以及提高识别率的方法;最后提出了双层PDF在地质资料馆建设中的意义。 关键词 双层PDF OCR识别率 当前,地质资料馆藏机构都在加紧开展数字化工作。截至2013年底,全...

基于PDF 格式的原始地质资料数字化实践
答:当前数字化的主要方式是扫描数字化,即通过扫描的方法把以纸介质为载体的图文地质资料由模拟信息转变为数字信息,并按一定的质量要求对电子文件进行加工和制作,然后存储在磁带、磁盘或光盘等介质上的过程。 采用何种格式存储数字信息,是原始地质资料数字化中的关键问题之一。传统的扫描数字化后的数字信息多“理所当然地”...

四川省地质资料图文数字化的应用研究
答:地质资料图文数字化是通过扫描的方法把以纸介质为载体的图文地质资料由模拟信息转变为数字信息,并按一定的质量要求对电子文件进行加工和制作,然后存储在磁带、磁盘或光盘等介质上的过程。地质资料图文数字化为地质资料的利用提供了基础保障。1 地质资料数字化工作背景 地质资料广泛应用于地球科学研究、矿产资...

地质资料的扫描数字化
答:通过扫描数字化,可以为报告、表格、图件等形式的纸介质资料建立原样复制的电子 文档并存入数据库中,便于资料的保存和查询。同时,扫描数字化的电子文档还可直接用 于图件矢量数字化和编码数字化。扫描数字化的工作流程:(1)扫描资料的选取,确定扫描资料类型(报告、表格、图件),制作待扫描资料列 表...

地质资料电子文档的管理与利用
答:甘肃省地质资料馆电子阅览室的基础工程——馆藏地质资料图文数字化目前已制作近2000份。2.3 复制 这是查阅者在电子阅览过程中选取所需资料部分或全部,然后依据国家和资料馆有关规定办理资料复制手续进行复制。复制分为两种,一是直接为查阅者提供电子文档复制服务。二是根据查阅者要求,从电子文档中为其...

渤海油田地质资料信息化建设的实践与思考
答:目前油田地质资料数字化程度已达到97%,为地质资料深度综合开发利用和数据共享打下了坚实的基础。同时,在地质资料资源建设过程中,渤海油田档案管理部门还开展了地质资料信息化标准规范体系研究,建立了支撑地质资料信息化建设的规范制度体系。 2.2.2 应用系统平台建设 渤海油田在开展地质资料资源建设的基础上,开发了“地质...

基层单位地质档案资料数字化的思考
答:摘要 随着计算机信息技术的快速发展,档案数字化技术也应运而生并推广运用,它的出现对信息化档案管理工作带来新的深远影响。在这种情形下,本文主要对基层单位地质档案资料数字化工作的有关问题进行分析与讨论。 关键词 地质档案资料 数字化 管理 基层单位 地质档案资料是地质工作成果的集中体现,包括成果资料、水文资料、...

实物地质资料数字化技术要求
答:(二)相关资料数字化 相关资料数字化是指选择相应规格的扫描仪,运用扫描的方法对与实物相关的文字、图件、表格等纸介质资料以及实物接收、整理、保管工作中形成的记录文字或图表进行扫描,对扫描生成的图像进行处理,生成电子文件,归档保存。1.基本要求 (1)相关资料扫描生成的图像应完整、齐全,文字、...

当前图文地质资料数字化工作中的技术问题
答:4 当前数字化工作的对策 针对工作中出现的这类问题,只好放弃了SCANSMITH PREDITOR软件,采用Adobe Photoshop软件,无论怎么转,都没有出现上述问题。具体操作如下。4.1 测量角度 首先打开一幅图,然后选择工具栏中的“度量工具”,如下图:第八届全国地质档案资料学术研讨会文集 在图框起点处,从左往右...

馆藏地质资料档案数字化成果备份实践
答:2.3 数据备份制作要求 在进行馆藏地质资料数字化成果备份过程中,光盘制作的实质就是将数据迁移,将原数字化扫描形成的数据完整、准确、有效地迁移到光盘上。在光盘刻录倍速的选择上,对 CD/DVD 刻录最佳倍速选择应该是该光盘最高倍速的 0.6 倍左右。CD—R 的最高倍速选择,刻录应在采用 24 ~ 30...