浅谈高校数字图书馆信息数字化建设中的问题及对策
卢险峰分享
论文关键词:数字图书馆 信息数字化 存储技术 发展对策
论文摘要:数字图书馆是一个将信息资源以数字化方式存贮并通过网络提供即时服务的信息系统,因而信息资源数字化是实现数字图书馆的根本条件。从数字图书馆中信息资源数字化的涵义出发,探讨了信息数字化的关键技术,并从内容建设、知识产权、技术应用和标准与规范4个方面分析了我国数字图书馆信息数字化中存在的主要问题,同时提出了相应的对策和建议。
信息数字化作为数字图书馆的内容建设,是数字图书馆正常运转的关键步骤。但目前我国信息数字化中由于种种原因还存在许多问题,如重复建设、知识产权、技术应用和标准与规范等问题,这些都严重阻碍了我国数字图书馆的健康发展。因此,我国在实施信息数字化建设过程中,不仅需要更新观念、统筹建设,还要规范标准、加强立法、提高馆员素质,更要加强适合我国国情的技术创新。为此,我们需要不断地总结经验,探索新的开发技术和工作方式,逐步将我国宝贵的传统文化遗产加以数字化,进而开发出具有中国特色的数字化产品。
1数字图书馆中的信息数字化
1.1信息数字化的内涵
从社会信息化环境来说,数字图书馆是运用计算机技术、网络技术、通信技术等多种信息技术,对不同载体和类型的信息资源进行搜集、选择和规范化处理,使之以数字化的方式存储,建立分布式的馆藏信息资源库和虚拟信息资源库,并通过网络向世界各地用户提供无时空限制服务的信息系统。数字图书馆的主要职能是搜集、保存和传递数字化信息,可以称之为数字化信息的存储和传递中心,因而信息数字化建设无论从质量还是从数量上都是数字图书馆发展的关键环节。
1.2信息数字化的关键技术
信息数字化技术包括数字化信息的生成技术、存储技术和压缩技术等,其关键技术是数字化信息的生成技术和存储技术。
1)数字化信息的生成技术包括有键盘录入和非键盘录入两种方式,目前使用较多的数字化信息的生成技术主要是第二种方式。键盘录入是一种手工转换的文本模式;非键盘录入包括手写识别技术、印刷文稿扫描识别技术、语音识别技术。在信息数字化实际工作中,我国许多数字图书馆都采用两者相结合的方式来规避键盘录入的较高错误率和扫描方式对硬件的较高要求,也就是采用超星公司开发的数字化技术加上便携式文件格式(PDF)和超文本标记语言(HTML)格式。
2)数字化信息的存储技术包括直接存储技术和网络存储技术。直接存储技术是目前大多数数字图书馆的数据存贮技术,主要包括光盘塔技术、磁盘阵列技术和磁带库技术;网络存储技术是海量数据信息存储的实现方式,包括直接附加存储(DAS)、网络附加存储(NAS)、存储区域网络(SAN)、小型计算机系统接口(iSCSI)技术和内容寻址存储(CAS)[1]。
2信息数字化中存在的主要问题
虽然我国数字图书馆建设中的信息数字化工作取得了一定的进步,但由于观念和技术的落后,信息数字化建设整体上呈现出数字信息资源重复建设严重、版权保护立法不健全、缺乏有力的技术支撑、标准和规范化建设滞后等问题[2]。
2.1重复建设问题
由于国内各地区、各系统以及各馆之间无一个权威的协调机构,也无规划布局和分工实施计划,数字图书馆建设缺乏全局性的统一规划和政府权威部门的协调,相当多的所谓数字图书馆建设仍处于各自为政、贪大求全和相对分散的无序状态,信息资源重复现象的问题严重。近年来,我国各级政府投入数字化建设的资金总额已达36亿元,在政府资金的大力支持下,各级各类数字图书馆都在进行数字信息资源建设,甚至引进CNKI等数据库,这种现象在各大高校数字图书馆的信息数字化中也非常普遍,在相当广的范围内存在着潜在的数字信息资源重复建设问题。
2.2知识产权问题
数字图书馆中信息数字化所涉及的知识产权问题包括信息来源的著作权尊重和数字化信息建成后自身著作权的保护。随着数字图书馆的开通,数据库的利用将越来越广泛,由此产生的知识产权问题就不可避免,其中争论的焦点是关于网络作品的制作、传播和使用的版权保护问题,让一些数字图书馆在实践中遭遇法律尴尬。著作权人公开指责图书馆界滥用权利,严重损害了著作权人的利益;出版界也有人认为文献信息的数字化是复制出版界的出版物,在网上出现了成千上万的复制本、使出版界的经济利益受到损害;而图书馆界则认为信息获取的主动权完全掌握在版权人手里,这样会严重地影响知识的创造和传播。因而制定网上数字化文献的著作权法律法规已成当务之急。
2.3技术应用问题
随着电子出版物的收藏和网络数字化资源的采集,图书馆越来越多的信息一入馆就是数字化的,而对于未数字化的传统馆藏,进行数字化转化所使用的技术主要是光学字符识别(OCR)扫描录入方式。一般的OCR录入系统能够实现对各种现代书籍、简繁体书籍、报刊杂志、公文档案的录入识别,且识别率高,还能实现各种校对,然而,对于馆藏文献的数字化而言,由于汉字的复杂性,OCR对各类中文文献的识别远难于对英文和数字的识别,特别对含有繁体手写汉字的古籍文献、简繁混排的中文文献、专业性强的中文文献以及难于机检的汉字文献。OCR技术目前还存在很大的误识率和拒识率,为此,需要对OCR系统进行深入的研究和改进,提高其应用的全面性,并要引入中文校对、录入质量控制等技术,从而加强其管理功能。
2.4标准与规范问题
目前,在信息数字化标准规范方面存在的问题主要有:①缺乏对标准规范重要性的认识;②缺乏普遍接受和广泛应用的关键标准规范;③缺乏对标准规范建设的系统化把握;④缺乏对标准规范的开放描述和开放应用;⑤缺乏开放、联合、共享的标准规范建设与应用机制,例如图书馆在信息资源建设过程中所采用的软件系统差异很大,如ILAS系统、图书馆集成系统等,其标准和格式都不一致,导致开发的数据库不能兼容,检索界面不一,检索途径也不同,检索语言也无统一的规范控制,无法在网上实现资源共享。
论文摘要:数字图书馆是一个将信息资源以数字化方式存贮并通过网络提供即时服务的信息系统,因而信息资源数字化是实现数字图书馆的根本条件。从数字图书馆中信息资源数字化的涵义出发,探讨了信息数字化的关键技术,并从内容建设、知识产权、技术应用和标准与规范4个方面分析了我国数字图书馆信息数字化中存在的主要问题,同时提出了相应的对策和建议。
信息数字化作为数字图书馆的内容建设,是数字图书馆正常运转的关键步骤。但目前我国信息数字化中由于种种原因还存在许多问题,如重复建设、知识产权、技术应用和标准与规范等问题,这些都严重阻碍了我国数字图书馆的健康发展。因此,我国在实施信息数字化建设过程中,不仅需要更新观念、统筹建设,还要规范标准、加强立法、提高馆员素质,更要加强适合我国国情的技术创新。为此,我们需要不断地总结经验,探索新的开发技术和工作方式,逐步将我国宝贵的传统文化遗产加以数字化,进而开发出具有中国特色的数字化产品。
1数字图书馆中的信息数字化
1.1信息数字化的内涵
从社会信息化环境来说,数字图书馆是运用计算机技术、网络技术、通信技术等多种信息技术,对不同载体和类型的信息资源进行搜集、选择和规范化处理,使之以数字化的方式存储,建立分布式的馆藏信息资源库和虚拟信息资源库,并通过网络向世界各地用户提供无时空限制服务的信息系统。数字图书馆的主要职能是搜集、保存和传递数字化信息,可以称之为数字化信息的存储和传递中心,因而信息数字化建设无论从质量还是从数量上都是数字图书馆发展的关键环节。
1.2信息数字化的关键技术
信息数字化技术包括数字化信息的生成技术、存储技术和压缩技术等,其关键技术是数字化信息的生成技术和存储技术。
1)数字化信息的生成技术包括有键盘录入和非键盘录入两种方式,目前使用较多的数字化信息的生成技术主要是第二种方式。键盘录入是一种手工转换的文本模式;非键盘录入包括手写识别技术、印刷文稿扫描识别技术、语音识别技术。在信息数字化实际工作中,我国许多数字图书馆都采用两者相结合的方式来规避键盘录入的较高错误率和扫描方式对硬件的较高要求,也就是采用超星公司开发的数字化技术加上便携式文件格式(PDF)和超文本标记语言(HTML)格式。
2)数字化信息的存储技术包括直接存储技术和网络存储技术。直接存储技术是目前大多数数字图书馆的数据存贮技术,主要包括光盘塔技术、磁盘阵列技术和磁带库技术;网络存储技术是海量数据信息存储的实现方式,包括直接附加存储(DAS)、网络附加存储(NAS)、存储区域网络(SAN)、小型计算机系统接口(iSCSI)技术和内容寻址存储(CAS)[1]。
2信息数字化中存在的主要问题
虽然我国数字图书馆建设中的信息数字化工作取得了一定的进步,但由于观念和技术的落后,信息数字化建设整体上呈现出数字信息资源重复建设严重、版权保护立法不健全、缺乏有力的技术支撑、标准和规范化建设滞后等问题[2]。
2.1重复建设问题
由于国内各地区、各系统以及各馆之间无一个权威的协调机构,也无规划布局和分工实施计划,数字图书馆建设缺乏全局性的统一规划和政府权威部门的协调,相当多的所谓数字图书馆建设仍处于各自为政、贪大求全和相对分散的无序状态,信息资源重复现象的问题严重。近年来,我国各级政府投入数字化建设的资金总额已达36亿元,在政府资金的大力支持下,各级各类数字图书馆都在进行数字信息资源建设,甚至引进CNKI等数据库,这种现象在各大高校数字图书馆的信息数字化中也非常普遍,在相当广的范围内存在着潜在的数字信息资源重复建设问题。
2.2知识产权问题
数字图书馆中信息数字化所涉及的知识产权问题包括信息来源的著作权尊重和数字化信息建成后自身著作权的保护。随着数字图书馆的开通,数据库的利用将越来越广泛,由此产生的知识产权问题就不可避免,其中争论的焦点是关于网络作品的制作、传播和使用的版权保护问题,让一些数字图书馆在实践中遭遇法律尴尬。著作权人公开指责图书馆界滥用权利,严重损害了著作权人的利益;出版界也有人认为文献信息的数字化是复制出版界的出版物,在网上出现了成千上万的复制本、使出版界的经济利益受到损害;而图书馆界则认为信息获取的主动权完全掌握在版权人手里,这样会严重地影响知识的创造和传播。因而制定网上数字化文献的著作权法律法规已成当务之急。
2.3技术应用问题
随着电子出版物的收藏和网络数字化资源的采集,图书馆越来越多的信息一入馆就是数字化的,而对于未数字化的传统馆藏,进行数字化转化所使用的技术主要是光学字符识别(OCR)扫描录入方式。一般的OCR录入系统能够实现对各种现代书籍、简繁体书籍、报刊杂志、公文档案的录入识别,且识别率高,还能实现各种校对,然而,对于馆藏文献的数字化而言,由于汉字的复杂性,OCR对各类中文文献的识别远难于对英文和数字的识别,特别对含有繁体手写汉字的古籍文献、简繁混排的中文文献、专业性强的中文文献以及难于机检的汉字文献。OCR技术目前还存在很大的误识率和拒识率,为此,需要对OCR系统进行深入的研究和改进,提高其应用的全面性,并要引入中文校对、录入质量控制等技术,从而加强其管理功能。
2.4标准与规范问题
目前,在信息数字化标准规范方面存在的问题主要有:①缺乏对标准规范重要性的认识;②缺乏普遍接受和广泛应用的关键标准规范;③缺乏对标准规范建设的系统化把握;④缺乏对标准规范的开放描述和开放应用;⑤缺乏开放、联合、共享的标准规范建设与应用机制,例如图书馆在信息资源建设过程中所采用的软件系统差异很大,如ILAS系统、图书馆集成系统等,其标准和格式都不一致,导致开发的数据库不能兼容,检索界面不一,检索途径也不同,检索语言也无统一的规范控制,无法在网上实现资源共享。