光学字符识别(OCR)技术初探

OCR即光学文字识别技术。经常应用在商务人士扫描名片或者学者们录入书面文字的场景中。然而现在使用OCR技术最多的竟然是小学生?这是怎么回事哪?

讲师:   龚力

光学字符识别(OCR)技术初探

课程背景:

OCR即光学文字识别技术。经常应用在商务人士扫描名片或者学者们录入书面文字的场景中。然而现在使用OCR技术最多的竟然是小学生?这是怎么回事哪?


原来是现在的学生们在做作业遇到不懂的题目的时候,经常会使用像“作业帮”和“学霸君”这样的手机APP。使用这些APP,只需要将不会做的题目拍下来,就能直接搜索到这个题目的详细解析。而在这些APP之中,将拍下的题目照片转化为文字以用于搜索的技术,正是OCR!

早期的OCR是采用“边缘检测、腐蚀膨胀、分割排序”的方法,但是这种方法只适合处理简单干净的文字图像,无法适用于现在“文图并茂”的场景。近些年来人们使用的文字识别技术,多是先采用“聚类、池化”的方法进行特征提取,再进行文字分割与识别。这正是主讲人在本课的上半部分主要向大家介绍的主题。除此之外,主讲人还讲到了在文字分割后,基于多层CNN和语言模型的单字识别方法。

然而传统的OCR技术总有这么一个瓶颈:必须将文本图像分割至单个字后,才可以进行文字识别。那么问题来了:有没有什么方法可以缩短文字识别的流程长度,以实现增加文字识别的速度与准确率哪?


有!这就需要LSTM+CTC了。你可能会想LSTM不是用在NLP领域的吗?为什么还能用来做OCR?LSTM+CTC有什么神奇之处?它凭什么能直接进行“一整行文字的识别”?

嘿,别着急,学习本节课程,上面的问题就都能迎刃而解了。


课程大纲:

本课程包含的内容有:

OCR(Optical Character Recognition)技术初探

  1.OCR的一般步骤

  2.特征提取的方法

        传统的“边缘检测、腐蚀膨胀”法

        新式“聚类池化”法

  3.文字定位的方法

        单行区域定位的方法

        单个文字的定位方法

  4.基于多层卷积神经网络的文字识别方法

  5.基于语言模型的文字识别方法

  6.最终讨论:真的有必要切割至单字吗?

         LSTM+CTC 单行文本的识别方法



讲师介绍
龚力

北京师范大学系统科学学院硕士研究生,彩云小译的开发者之一。研究兴趣:机器翻译、语音识别及其应用。