下面介绍一下在线OCR的实现方式。
OCR功能在一个在线的OCR服务器上来实现,这种方式的好处有:
(1)这种方式下,OCR功能是由OCR服务器来实现的,因此用户的机器上无需安装任何OCR软件,这给用户的使用带来了充分的便利,也使得OCR的功能更易于维护;
(2)成本低,用户只需购买5到10个用户的OCRSERVER就可以满足网上所有用户的OCR应用;
(3)可以通过API接口,与文件系统高效集成,为文件系统使用OCR功能提供了方法。无论是档案管理人员,还是在线用户,都可以通过使用在线OCR功能快速地从档案原文中提取到文本信息,以对档案信息进行进一步的应用。并且客户端机器无需安装任何OCR应用软件,进而减少了用户使用该功能的复杂度,使OCR的应用更加便捷、高效。
作为结构化档案信息查询的重要辅助手段,全文检索系统将成为本次档案数据存储的基础平台之一。在该平台下,除了能够满足结构化数据和非结构化数据的检索需求,也能大力提高档案信息检索的速度。本系统将全文检索作为重要的查询手段提供给用户,全文检索的应用在权限管理上也要与档案管理系统全面集成。全文检索的索引,将通过系统后台数据库与OCR功能的协调运作自动生成。常规的数据库查询方法对于本系统并不适用,一旦使用,可能存在以下三个主要问题:
(1)非结构化档案信息的检索问题。电子档案在档案管理系统中,是按照其分类和档案目录进行存储管理的,因此其检索也是按照档案的分类和目录来进行的,而不是直接对巨量的电子文件进行检索。这样有可能不能满足用户的检索需求。
(2)使用常规的查询方法,结构化的档案信息和非结构化的档案信息无法做统一检索,这样就不能满足用户随意检索的需求。
)随着系统的持续运行,系统内档案的数量将大批量增加,而在检索速度上常规的数据库查询方法却难以有所突破。全文检索技术可以完全解决上述问题,此外,这种技术还可以实现常规的数据库查询方法无法实现的各种智能检索功能,如中文同音查询、相关文件提示、英汉转换、多国语言查询、属性查询、中英文容错查询、同义词查询等等,因此这种技术的应用可以使档案信息的查询更加方便、快捷和准确。
5、多格式浏览技术 建筑工程系统应用了多格式浏览技术,这种技术目前已经有了广泛的应用,它可以用于浏览和显示200多种格式的图形图像电子数据文件,如:DWG、DXF、PDF、TXT、JPG、BMP、TIF、WPS、DOC、XLS等常见的文本、表格、各类图形图像文件和数据库文件。此外,为了提高网络数据传输过程中的数据安全性,本系统的数据传输将采用流技术实现。
6、数据转换技术 通用数据转换技术档案系统的标准模块,可以对大量标准化的数据进行转换,保证用户原有数据的延续,同时可以接收外部标准数据。数据转换技术已经应用多年,并为大量用户转换过历史数据,是一个通用的数据转换模块。
信息发布:广州名易软件有限公司 http://www.myidp.net