深度学习技术及应用国家工程研究中心

百度OCR技术在国际顶级会议中“华山论剑” 业内专家为其点赞！

2017-11-15 阅读量 (10675)

近日，百度OCR（文字识别）技术团队亮相文档分析与识别国际会议（International Conference on Document Analysis and Recognition，ICDAR2017），进行了名为《RTRS: Building a Robust Text Reading System for Unconstrained Scene Images》的技术研讨会（tutorial）。研讨会上，来自百度OCR的工程师团队与全球顶尖OCR专家分享了百度OCR识别技术的近期发展状态和产品应用方面的经验及思考。据悉，在ICDAR2017会议进行研讨会（tutorial）分享的技术团队中，百度OCR技术团队是唯一一支来自企业界的技术团队。他们以独特的产学结合技术风格，和丰富工业级技术开放生态，吸引了来自全球的近百位文字识别专家的关注。

ICDAR是全球OCR领域公认最权威的学术会议之一，由其组织的Robust Reading竞赛也是当前OCR技术领域全球最具影响力的比赛，其中最具挑战的OCR竞赛任务是"Incidental Scene Text"（自然场景随拍文字识别）。在这项高难度竞赛挑战中，百度OCR技术在检测、识别和端到端三个核心技术领域，近两年来多次取得并保持了世界第一的排名，具备明显的领先优势。

在ICDAR技术细节研讨会上，百度OCR团队梳理了近些年业界技术发展的脉络，主动分享了百度OCR技术发展的经验总结，与参会的技术专家们一起探讨文字识别前沿技术发展趋势。另一方面，百度OCR团队作为工业界的代表，也详细介绍了团队在OCR工业系统研发和产品化过程中的一些成功经验，帮助业界同仁解决技术落地过程中的实际问题。最后，百度工程师介绍了应用于百度系产品生态的基于自然图像搜索/网络图像场景的通用文字识别的产品应用矩阵，和聚焦在证照识别、票据识别的场景应用解决方案。丰富的干货分享，使得整个研讨会的交流气氛异常热烈，原定3个小时会议，足足持续了4个多小时。

百度视觉技术部下属的OCR团队组建于2011年，经过多年的研发，目前已经将基于深度学习的OCR技术应用在多个应用场景下，支持中、英、日、韩、葡、德、法、意、西、俄等十国语言。同时，结合产品应用场景不断采集训练数据，再通过百度大脑优化算法，从而获得越来越好的OCR效果和产品体验。目前，百度OCR已经在百度系各个产品生态中落地，并构建起基于自然图像搜索/网络图像场景的通用文字识别的产品应用矩阵，和领先的证照识别、票据识别等场景的应用解决方案。

为了保证用户使用基于百度OCR技术的产品体验越来越好，百度OCR团队积极进行思考、创新、开放的良性发展道路，努力保持技术方案和系统效果业界领先。近两年，百度OCR的多个创新技术成果，在ICDAR 竞赛上多次取得世界第一的排名，并有多篇业界顶级会议论文发布。在最近的计算机视觉顶级国际会议ICCV2017上，百度发表的基于全卷积神经网络的文字检测论文：WordSup: Exploiting Word Annotations for Character based Text Detection，获得了业内的一致好评。

技术不断突破的同时，百度OCR技术也通过百度AI技术开放平台(ai.baidu.com) 全面开放给第三方使用，打破封闭的研发生态，为开发者和合作伙伴赋能，积极推动技术在具体产品上的落地。此前，开发者陶新乐也体验了百度OCR技术的智能便捷。他研发的白描APP通过百度OCR开放平台接入百度OCR技术，可将APP内的图片转换成文字，准确率极高，有效地满足用户的智能化需求。白描APP因为图片转文字的功能大获好评，成为Apple Store工具类付费下载榜的前几名，并被网友称为“准确率高到没朋友的文字识别OCR APP”。百度OCR技术可应用于不同场景，方便开发者探索通用文档图片录入和检索、自然场景输入和翻译、多种证照检测识别、多种票据表格检测识别等丰富的产品功能。目前，百度OCR通过AI技术开放平台已经有数千日活跃开发者，并成功与泰康人寿、太保人寿、百信银行等多家企业进行深入技术合作。

业内人士称，百度OCR再次亮相世界级学术会议，体现出百度AI技术在业内的先发优势、完整布局和深厚积累。随着基础能力的进一步开放，百度OCR技术将获得更多的业界专家和开发者的支持，从而积累更为领先的技术，探索更多的应用场景，赋能更多的合作伙伴，创造更多的价值。