达观动态

达观愿与业内同行分享 助力各企业在大数据浪潮来临之际一起破浪前行

达观自研OCR平台再升级!近百种票据文字识别速度更快、精度更高!

640

近日,达观数据自研OCR平台再升级,通过将计算机视觉和自然语言处理深度融合技术,形成了完备的包含文字识别、动态模板、结构化识别、文字理解的技术体系。为企业客户提供速度快,精度高,应用泛、响应快、可定制的OCR平台。

640-1

达观OCR平台核心模块

达观OCR 平台由三大主要模块构成:强大的通用文档识别模块,一站式的结构化识别训练平台,以及秒级响应、开箱即用的OCR 基础功能。

强大的通用文档识别

达观OCR 基础功能可为用户提供0门槛、多场景、多语言、高精度的识别服务,支持中、英文印刷体识别,字符识别准确率超99.5%,支持泰语、法语、德语、西班牙语、意大利语、日语、韩语、俄语等多语种识别,同时支持对手写中文、英文进行检测和识别,支持对圆形章、椭圆章、矩形章等多种印章识别,并支持有框表、无框、半线表格识别与结构还原,可在识别过程中检测文档中的水印,支持去除文档中的水印。

无框表格

对无框表格使用计算机视觉技术检测表格区域,结合自然语言理解算法完善表格结构,精确定位跨行跨列、单元格合并、拆分等复杂情况,精准还原内容与版式。

640-2

印章识别

达观智能OCR可对合同文件、常用票据等用印文档进行圆形、椭圆印章检测,快速获取印章位置,抠取印章图案,准确识别印章文字信息。

640-3

印章/水印遮盖

票据、文档上的重要信息往往被印章遮盖,达观智能OCR可定位印章区域,去除遮盖印章,精准识别被遮挡文字。

640-4

文字模糊

对于图片模糊、分辨率低等情况,通过图像复原算法对低质量图像进行逆向修复,从嘈杂模糊的图像中提取清晰化文本,效果优异。

640-5

一站式结构化自学习训练平台

达观OCR结构化自学习训练平台基于图像识别和文字理解技术,适用于各类个性化证照、票据的结构化识别。用户可自主训练,高效、低成本的各类票据进行自动分类及识别。

640-6

自学习训练模板

OCR模板抽取,几分钟1个模板即可实现对同板式高精度的结构化识别:

640-7

此外,达观OCR模型抽取,可视化标注训练结构化识别模型,用户可少量的标注,自主构建训练模型,训练出准确率90%以上的高可用模型。

640-8

模型训练结果实时查看:

640-9近百种票据识别开箱即用

在票证的结构化识别中,达观OCR可对财务票据、个人卡证、不动产和车辆以及机构文档等多种结构化票证快速识别,涵盖增值税发票、火车票、机打发票、行程单、船票、国际发票、混贴发票、财务发票的混合类型、身份证、港澳居住证、港澳台居民来访内地通行证、银行卡、中国护照、车辆等级证、不动产证、车辆合格证、银行流水、开户许可、红头文件、财报识别等近百种类型。

达观OCR平台技术优势

独有的计算机视觉和自然语言处理深度融合技术

达观数据通过将CV与自然语言处理进行深度融合,内置图像矫正模型、文字检测模型、文字识别模型和语义修正模型等多种前沿技术,极大提升OCR识别准确率。
丰富的语料积累,支持复杂文档识别与抽取

除基础凭证、合同、常用报表外,达观数据在处理各种复杂表格和复杂影印件、以及各种复杂文本都有成功的实施经验,准确率均达到95%以上。
根据业务需求训练模型,保障识别准确率

达观OCR可精准识别各种实际应用中的复杂情况能力,具备非常高的复杂环境可用性。出色的文档结构的版面分析和文档图像处理能力,将各类常见文档图片或文档扫描件中的文字信息按照文档原有的格式进行文本识别和还原,实现将文档中的文字元素(单字、文字块、行、表格等)和版面格式抽离并按顺序输出。