01
什么是NLP
NLP(自然语言处理-Natural language processing)就是在机器语言与人类语言之间沟通的桥梁,以实现人机交流的目的。
02
NLP的两个核心任务
NLU:自然语言理解。希望机器像人一样,具备正常人的语言理解能力。NLG:自然语言生成。为了跨越人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式,如文章、报告等。
学习链接:https://easyai.tech/ai-definition/nlp/
文字也是人类语言之一,文字识别分为两个具体步骤:文字的检测和文字的识别,两者缺一不可,尤其是文字检测,是识别的前提条件,若文字都找不到,那何谈文字识别。
03
自然场景文本检测
自然场景下的文本检测有如下几个难点:
文本存在多种分布,文本排布形式多样;
文本存在多个方向;
多种语言混合。
1、Faster RCNN
Faster RCNN做文本检测感觉问题不大,但是从效果来看,仅套用Faster RCNN来做文本检测效果并不好,原因在于,文本有自己独有的特点,这种通用的文本检测框架并不能很好地解决文本的这些特点。
2、CTPN
CTPN(基于Faster RCNN):目前比较成熟的文本检测框架,精确度较好。但是检测时间较长,有很大的优化空间。
【文献】Detecting Text in Natural Image with Connectionist Text Proposal Network
文本行一般以水平长矩形的形式存在,而且文本行中每个字都有间隔,所以仅套用Faster RCNN来做文本检测效果并不好。
而CTPN剔除一个新奇的想法,我们可以把文本检测的任务拆分,第一步我们检测文本框中的一部分,判断它是不是一个文本的一部分,当对一幅图里所有小文本框都检测之后,我们就将属于同一个文本框的小文本框合并,合并之后就可以得到一个完整的、大的文本框了,也就完成了文本的检测任务。这个想法有点像“分治法”,先检测大物体的一小部分,等所有小部分都检测出来,大物体也就可以检测出来了。