TBS 金信桥
 
www.tbs.com.cn
| | | | | | |
金信桥网络公司
 
产品介绍
资源服务产品
资源建设产品
资源管理产品
应用管理产品
网络应用产品
基础产品
工具产品
中国城市林业政策信息网
中国林业政策信息网
中国林业信息网
水产科技信息网
北京经略信息咨询公司
中国党政信息网
中国残疾康复信息网
国家林业局科技司
中国兵工学会
中国现代国际关系研究院
国家农业科学数据共享中心
交通科学数据共享网
民航科学数据共享网
法规数据网
北京印刷学院数字图书馆
国电数字图书馆
北京农学院图书馆
煤炭数字图书馆
中国化工安全网
中国畜牧信息网
 
TBS·OCR 文字识别引擎

一 系统概述

    TBSOCR是金信桥公司主要针对有文字录入需求的用户而开发的一款能够对图像中的文字信息进行自动识别并将识别结果作为通用文本形式存储输出的文字识别工具。
    本产品目前已经能够识别、录入多种中文、英文及中英文混排的印刷字体,现已支持多国语言符号及图形符号,识别正确率均能达到98%以上,但随着训练阶段识别样本的不断扩增,识别正确率还会不断提升。在本产品的开发目标中支持的语言将还会包括中文繁体、俄文、法文、德文、韩文、日文、日英混排、韩英混排等。

二 OCR原理

    OCR是英文Optical Character Recognition的缩写,意思为光学字符识别,通称为文字识别,它的工作原理为通过扫描仪或数码相机等光学输入设备获取纸张上的问题图片信息,利用各种模式识别算法分析文字的形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中。

三 功能及特点

  • 识别器有自动记忆功能
    在程序的字符集列表文件中,可以根据需要自定义添加新的字符或者图形符号,当此字符或者符号出现的频率在库文件中达到了一定的标准时,识别器就可以记住以后遇到时即可识别出来。对经常识别的印刷体字符等,识别正确率将会不断提高。
  • OCR训练程序
    当根据需要往字符库中新加入某种字符及图形符号时,我们可以在TBSOCR的训练程序中,让TBSOCR识别器自动学习并记忆;如果识别时某种情况的效果不是很好,或出于谋种原因(比如,出现某种识别器以前接触少的字体符号等)正确率不是很理想的情况下,我们可以将这些文件提取出来放入OCR训练程序中训练,识别器的记忆功能即会让TBSOCR在以后的识别中提高正确率。
  • 附有图像处理功能
    可以直接在TBSOCR中对原图像进行纠偏/去污等操作,不论是页面很分散的小污点,还是比如像下划线等不需要的地方都可采用不同的合适的工具清楚;纠偏工具能对扫描图像不同的倾斜度进行纠正。
  • 多种图像视图查看方式
    将鼠标在图像视图中获取某一处的焦点,即可用快捷键(A)以此点为中心按比例将原图随意放大,很方便的查看原图像。用快捷键(S)则立即将原图像调整到最佳适应窗口。
    将鼠标定位于著录内容中,即在这一行文字的下方显示出原图像,且它的大小可以用快捷键随意缩放,更方便录入校对。
  • 自定义词典功能
    根据当前文字信息的语言种类,可以加入对应的词典库,即可在识别后的结果中查找与字典库中匹配的需要修改的单词并在著录内容中以正确的替换,经过这样的处理功能后,可提高当前图像的识别率。被替换的地方在图像视图中将被标出来,方便用户判断替换是否正确。

四 典型界面


英文OCR识别


中文OCR识别

五 运行环境

    软件环境:windows 98/2000/xp/2003
    硬件配置:CPU:Intel Pentium 4 1.6 GHz以上,RAM:512 MB以上,硬盘:80G,网卡:100M

六 联系方式

    地址:北京市海淀区中关村东路66号世纪科贸大厦B座2306室
    邮编:100190
    总机:(010)62670903/62670700
    传真:(010)62670877
    客户服务:(010)62670903
    邮件支持:tbsinfo@sohu.com
    公司网站:http://www.tbs.com.cn

 
  合作伙伴 | 人才招聘 | 联系我们 | 技术服务 | 客户反馈 | 案例介绍

Copyright © 1994-2008 版权所有 北京市金信桥网络技术有限责任公司  
  京ICP备05034228号