全国咨询热线
400-810-8816 (免长话费)
95105918 (免长话费)
或直拨 010-82825656

技术授权咨询电话
汉王手写识别技术
010-82786830 / 82786832
汉王OCR识别技术
010-82786810 / 82786815
行业应用产品咨询电话
汉王证照王
010-82786814 / 82786810
汉王税控收款机
010-82786628
汉王高速扫描仪
010-82786660
汉王视频智能监控系统
010-82786805 / 82786605
汉王“易识”全能图文识别
010-82786810
汉王数据加工
010-82786815
汉王人像识别
010-82786500-8148
     “汉王OCR录入工厂”用户使用报告二
 
用户单位:北京万方数据股份有限公司
报 告 人:曾建勋


一.公司简介:

    北京万方数据股份有限公司是由中国科技信息研究所以万方数据(集团)公司为基础,联合山西漳泽电力股份有限公司、北京知金科技投资有限公司、四川省科技情报研究所和科技文献出版社发起组建的高新技术股份有限公司。万方数据依靠中国信息技术研究所,是国内最早从事数据库建设的企业,具有几十年信息加工和服务的经验,坚持致力于自有版权数据库建设、网上资源建设以及数据加工基地的建设,并向数千家用户提供中国企业公司及产品库、中国科技成果库、万方数据资源系统等高质量的信息资源产品,成为中国第一家数据库专业公司。

    万方数据庞大的数据库群内容涉及到自然科学和社会科学各个专业领域,收录范围包括期刊、会议、文献、书目、题录、报告、论文、标准专利、连续出版物和工具书等,属国家"九五"重点科技攻关项目--科技期刊网络服务系统。整个系统以刊为单位上网,保留了刊物本身的浏览风格和习惯。期刊全文内容采用HTML和PDF两种国际通用格式上网,方便读者随时阅读和引用。所有期刊按理、工、农、医、人文等5大类划分, 共集纳了70多个类目的2000多种期刊全文内容上网(其中绝大部分是进入中国科技论文统计源的核心期刊)。

二.“汉王OCR录入工厂”系统软件具有合理的数据加工流程:

    北京万方数据股份有限公司自2001年1月开始使用“汉王OCR录入工厂”系统软件,用于进行科技期刊、会议、文献、书目、题录、报告、论文、标准专利、连续出版物和工具书等资料的数字化加工。在使用“汉王OCR录入工厂”系统软件以前,期刊内容上网要经过几十个操作员手工敲入计算机,再用其他软件进行处理,工序烦琐、效率低,操作人员很容易疲劳,每人每班次的处理量仅有2-3万字。为解决大量期刊上网的前期文字录入需求,万方数据股份有限公司广泛调研寻求一套完善的文字录入加工软件系统,经过对多家的软件进行比测及实地安装测试后,最终选用“汉王OCR录入工厂软件系统”。

    “汉王OCR录入工厂”系统软件具有合理的数据加工流程。万方数据股份有限公司现建有专门的OCR部门,专职人员32人。生产基本流程为扫描、图像处理、版面分析、识别、纵校、横校、版面还原。所加工的数据成品误差率低于万分之五。

    1. 总体操作流程及各工序操作人员分配示意:

    目前,万方数据公司运用“汉王OCR录入工厂”系统软件将各式期刊扫描识别还原保存成RTF及PDF格式,用于期刊上网,差错率在万分之五以内,每人每班次处理量可达到7万字以上。



    “汉王OCR录入工厂” 系统软件是结合强大的网络功能实现流水线方式的数据加工系统,由客户端程序和服务器端管理程序两部分组成, 客户端程序按照扫描、图像预处理、版面分析、识别、纵校、横校和版面还原保存七道工序进行操作;服务器端管理程序自动给各岗位分配任务、进行任务协调,并加入了科学的质量控制、岗位管理功能,使各客户端的任务既相互独立又形成完整、高效的生产流程。

    2. 高效的数据加工速度和高质量的产品:

    服务器给各岗位分配任务,并进行任务协调,使各客户端的任务既相互独立又形成完整的生产流程,提高工作效率,使得文字处理速度可达到每人班7万字—10万字,比手工录入的效率提高3-5倍。系统自动进行员工工作量计算、差错量监控,可将整体差错量控制在万分之五以内,从而达到了出版质量要求。对本套系统的监控、管理及日常维护。

    3. 期刊样张  (扫描分辨率 300DPI)

    期刊样张处理特点:涉及各学科领域的各种专业刊物,形式多样如:医学期刊、电子学科杂志、化学、物理学科,环境、农业等学科,版面信息复杂、多表格、图像、专业术语等信息;版面形式多为论文和引文字段,标题,索引等.要求还原结果为RTF和PDF格式。





    4.经“汉王OCR录入工厂”系统软件加工后版面还原结果:

    要求还原结果支持两种电子文档格式: RTF和PDF
    RTF格式还原结果与原图的对照:



    PDF格式还原结果与原图的对照:



三、“汉王OCR录入工厂软件系统”对期刊文献数字化方式有重大创新:

    “汉王OCR录入工厂”系统软件所采用的文字识别和编改系统,是国内中文OCR的重大创新。它巧妙使用相同汉字图形与识别结果对比的方式进行校对,较大程度地减轻了操作员视觉疲劳,可明显提高生产效率,并具有稳定保持生产质量的潜能。减轻操作员视觉疲劳,对于大规模工业化数据处理意义重大。操作员可因此增强劳动保护,延长有效工作时间,防止视力衰退。“汉王OCR录入工厂”系统软件在同等投入状态下,可提高生产效率百分之九十左右。

    本公司认为“汉王OCR录入工厂”系统软件具有普及意义,并将受到市场欢迎。“汉王OCR录入工厂”系统软件将改变我国电子出版物生产现状。“汉王OCR录入工厂”系统软件已基本实现原文版面重构,并具有很强的修改功能,使重构的版面基本保持原版风格。由于重构后的版面能够转换成PDF、HTML、RTF等多种格式。

    “汉王OCR录入工厂” 系统软件可成为电子出版物制作商重要的生产工具。


联系方式:
电话:010-82786815 82786812
邮箱:wanxiaojun@hanwang.com.cn
   znfang@hanwang.com.cn
地址:北京市海淀区中关村软件园5121信箱 汉王大厦 3F区
邮编:100193
 
Copyright © 1999 - 2008 汉王科技股份有限公司版权所有 咨询及技术服务:95105918(免区号) | 渠道专区
北京市海淀区东北旺西路8号中关村软件园5号楼汉王大厦3层 邮编:100193 总机:010-82786699 京ICP备05039526