基于混合注意力机制的文档对象版面分析
在文档图像版面分析任务中,普通卷积神经网络提取图像特征信息未能重点关注有效特征信息分布的区域,弱化无关信息的表达。针对这个问题,提出了一种基于空间和通道维度的混合注意力机制的文档图像目标检测方法。从空间和通道维度上利用注意力机制增强图像特征的有效表达。在空间维度上通过提高卷积核学习空间偏移的能力来获取更多上下文信息,增强特征之间的联系。在通道维度上通过训练得到权重向量,与原有特征逐通道融合达到增强有效特征,弱化不相关特征的目的。同时,将注意力机制与多尺度特征网络结合,适应种不同尺寸的目标的检测。本文工作概括如下:
(1)提出了空间注意力模块和通道注意力模块来提高文档图像目标检测算法的精度。在空间上训练卷积核学习偏移量来提高卷积核的空间变换能力,增强网络在检测目标时的空间感知。在通道上构造权重向量实现对多个通道上关键特征的强调以及无关特征的弱化。
(2)构建了横向注意力连接。在将混合注意力模块与多尺度特征提取网络结合时,采用了残差连接的方式,既保留原来特征传播的横向路径,同时添加另一条路径将注意力模块嵌入到多尺度特征网络中,沿着空间和通道维度充分挖掘适合文档布局分析任务的关键特征。
(3)在利用混合注意力协同优化版面分析效果的同时,探究了空间和通道注意力在施加顺序上带来的影响,并且验证了空间-通道注意力顺序施加能够取得更佳的检测效果。部分实验结果如下图所示: