您当前的位置:首页 > 电脑办公 > 电脑打字
| PPT | 电脑打字 | 计算机基础 | word | excel | Linux教程 |

自学教程:档案从数字化到数据化

51自学网 2020-05-28 10:07:09
  电脑打字
这篇教程档案从数字化到数据化写得很实用,希望能帮到您。

从数字化到数据化

文章摘要:人们对于档案的数字化成果可以用肉眼阅读,但希望借助于计算机做更多的事,只有转换成文本文件、数据库文件,让计算机读懂档案中的内容,才能实现。比如:让计算机帮助你检索查找到相关的信息、让计算机帮助你对内容进行分析和挖掘,等等。

纸质档案数字化完成以后,并非已是计算机可读的数据,要将数字化成果转换成计算机可读的数据,还要做大量的工作。

在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,纸质档案数字化成果也是数据。但是,从内容识读角度来讲,计算机中的数据分为两类,一类是计算机自己能够识读的,如文本文件、数据库文件等;一类是计算机自身无法识读的,如扫描图像、数码照片、音视频材料等,它们必须进行进一步的加工,将无法识读的数据转换成文本文件、数据库文件等,才能成为计算机可识读的材料。

人们对于档案的数字化成果可以用肉眼阅读,但希望借助于计算机做更多的事,只有转换成文本文件、数据库文件,让计算机读懂档案中的内容,才能实现。比如:让计算机帮助你检索查找到相关的信息、让计算机帮助你对内容进行分析和挖掘,等等。所以,纸质档案数字化仅仅完成了一半,只有将所有档案内容都数据化了,才能全面发挥数字化成果的作用。

如何加快数字化成果的数据化工作,可以从以下几方面着手:

1、深化著录工作

数字化成果必须有目录,除了做好文件级目录的录入工作外,建议在条目著录和录入中增加关键词的内容,全面提升档案全文的检索深度。尤其是对于以下两类档案,关键词著录非常有效:一是历史档案和手稿,OCR识别率非常低的文件,增加关键词著录是最为有效的数据化方式;二是手写体的各种民生档案,如干部任免名单、各种人事登记表等,将其中的人名作为关键词著录,对于提高查全率和查准率是最合适的。

2、全面推广OCR识别工作

凡是正规楷体字书写和印刷的文件,扫描以后,都应该进行OCR识别,将文件内容转换成文本文件,成为计算机可识读的数据。这要成为档案数字化中的一项硬性的规定和指标。目前,我国档案部门对于OCR识别重视还是不够的,既没有出台专门的标准和规范,在《纸质档案数字化规范》中,也没有对于OCR识别提出相应的要求。

3、采用语音识别技术

借助于语音识别技术,提升数字化成果的数据转换率。计算机语音识别技术现在已经非常成熟,它不仅可以应用于对音视频档案的数据化,而且,对于特别重要的档案手稿,OCR识别又无法辨别,就可以应用语音识别技术,开展数据化的工作。借助于语音识别技术开展数据化,实际就是通过有声朗读,将档案内容转化成文本文件。

总之,在大数据时代,若档案数据不能被计算机所识读,那是要被时代所抛弃的。


档案资源整合的发展从“数字化”到“数据化”
返回列表
51自学网,即我要自学网,自学EXCEL、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。
京ICP备13026421号-1