百度OCR技术在国际顶级会议中“华山论剑” 业内专家为其点赞!

2017-11-15 阅读量 (4618)

来源:百家号


近日,百度OCR(文字识别)技术团队亮相文档分析与识别国际会议(International Conference on Document Analysis and Recognition,ICDAR2017),进行了名为《RTRS: Building a Robust Text Reading System for Unconstrained Scene Images》的技术研讨会(tutorial)。研讨会上,来自百度OCR的工程师团队与全球顶尖OCR专家分享了百度OCR识别技术的近期发展状态和产品应用方面的经验及思考。据悉,在ICDAR2017会议进行研讨会(tutorial)分享的技术团队中,百度OCR技术团队是唯一一支来自企业界的技术团队。他们以独特的产学结合技术风格,和丰富工业级技术开放生态,吸引了来自全球的近百位文字识别专家的关注。



ICDAR是全球OCR领域公认最权威的学术会议之一,由其组织的Robust Reading竞赛也是当前OCR技术领域全球最具影响力的比赛,其中最具挑战的OCR竞赛任务是"Incidental Scene Text"(自然场景随拍文字识别)。在这项高难度竞赛挑战中,百度OCR技术在检测、识别和端到端三个核心技术领域,近两年来多次取得并保持了世界第一的排名,具备明显的领先优势。


在ICDAR技术细节研讨会上,百度OCR团队梳理了近些年业界技术发展的脉络,主动分享了百度OCR技术发展的经验总结,与参会的技术专家们一起探讨文字识别前沿技术发展趋势。另一方面,百度OCR团队作为工业界的代表,也详细介绍了团队在OCR工业系统研发和产品化过程中的一些成功经验,帮助业界同仁解决技术落地过程中的实际问题。最后,百度工程师介绍了应用于百度系产品生态的基于自然图像搜索/网络图像场景的通用文字识别的产品应用矩阵,和聚焦在证照识别、票据识别的场景应用解决方案。丰富的干货分享,使得整个研讨会的交流气氛异常热烈,原定3个小时会议,足足持续了4个多小时。



百度视觉技术部下属的OCR团队组建于2011年,经过多年的研发,目前已经将基于深度学习的OCR技术应用在多个应用场景下,支持中、英、日、韩、葡、德、法、意、西、俄等十国语言。同时,结合产品应用场景不断采集训练数据,再通过百度大脑优化算法,从而获得越来越好的OCR效果和产品体验。目前,百度OCR已经在百度系各个产品生态中落地,并构建起基于自然图像搜索/网络图像场景的通用文字识别的产品应用矩阵,和领先的证照识别、票据识别等场景的应用解决方案。



为了保证用户使用基于百度OCR技术的产品体验越来越好,百度OCR团队积极进行思考、创新、开放的良性发展道路,努力保持技术方案和系统效果业界领先。近两年,百度OCR的多个创新技术成果,在ICDAR 竞赛上多次取得世界第一的排名,并有多篇业界顶级会议论文发布。在最近的计算机视觉顶级国际会议ICCV2017上,百度发表的基于全卷积神经网络的文字检测论文:WordSup: Exploiting Word Annotations for Character based Text Detection,获得了业内的一致好评。


技术不断突破的同时,百度OCR技术也通过百度AI技术开放平台(ai.baidu.com) 全面开放给第三方使用,打破封闭的研发生态,为开发者和合作伙伴赋能,积极推动技术在具体产品上的落地。此前,开发者陶新乐也体验了百度OCR技术的智能便捷。他研发的白描APP通过百度OCR开放平台接入百度OCR技术,可将APP内的图片转换成文字,准确率极高,有效地满足用户的智能化需求。白描APP因为图片转文字的功能大获好评,成为Apple Store工具类付费下载榜的前几名,并被网友称为“准确率高到没朋友的文字识别OCR APP”。百度OCR技术可应用于不同场景,方便开发者探索通用文档图片录入和检索、自然场景输入和翻译、多种证照检测识别、多种票据表格检测识别等丰富的产品功能。目前,百度OCR通过AI技术开放平台已经有数千日活跃开发者,并成功与泰康人寿、太保人寿、百信银行等多家企业进行深入技术合作。


业内人士称,百度OCR再次亮相世界级学术会议,体现出百度AI技术在业内的先发优势、完整布局和深厚积累。随着基础能力的进一步开放,百度OCR技术将获得更多的业界专家和开发者的支持,从而积累更为领先的技术,探索更多的应用场景,赋能更多的合作伙伴,创造更多的价值。