Oxford Robotics Institute | Robots
研究内容
PDF文档结构信息提取系统
随着移动阅读终端种类的多样化,如手机、电子阅读器、GPS等,电子文档在不同移动设备平台上的自适应显示,要求文档内容根据屏幕进行流式化重排和自适应调整,从而保证舒适的阅读体验。为满足移动阅读可读性需求,保证文档内容显示方式的重新调整,其关键在于获得原文档的物理逻辑结构和顺序信息。此外,电子文档结构化信息提取直接影响着信息检索、文本挖掘、搜索引擎、机器翻译、信息存储和管理等应用领域的发展和进步。 综上所述,研究团队研发了“PDF文档结构信息提取系统”。该系统能够提取结构化PDF文档中的文本、图片、图表、公式信息。
视网膜眼底图像血管分割
视网膜血管分割是计算机辅助诊断眼科疾病的关键任务。不同于传统方法手工设计复杂的特征,深度学习通过卷积获取了表征性更强的特征。然而,当前的方法大都忽视了多个特征之间的内在联系,这是有问题的。为了探索非局部上下文依赖关系,我们提出了一种基于图的卷积特征聚合网络(GCFAN),用于同时分割视网膜血管和增强图像非血管区域,它依靠图来传播和聚合跨层次特征的信息。最后,结合我们的算法构建物联网框架,对不同地点的各种眼底相机图像进行分析,并在PC和手机上同时显示结果,方便医生诊断。
基于视觉和文本的多模态文档图像目标检测
由于文档图像的布局复杂、目标对象尺寸分布不均匀,现有的检测算法很少考虑多模态信息和全局依赖关系,因此,提出了基于视觉和文本的多模态文档图像目标检测方法。首先探索多模态特征的融合策略,为利用文本特征,将图像中文本序列信息转换为二维表征,在文本特征和视觉特征初次融合之后,将其输入到骨干网络提取多尺度特征,并在提取过程中多次融入文本特征,实现多模态特征的深度融合;其次为保证小物体和大物体的检测精度,设计了一个金字塔网络,该网络的横向连接将上采样的特征图与自下而上生成的特征图在通道上连接,实现高层语义信息和低层特征信息的传播。
膝关节软骨分割
三维医学图像分割是计算机辅助诊断中的一个关键而又具有挑战性的任务。在医学图像分割中,组织与其周围环境的对比度较低会导致边界模糊。毫无疑问,边界先验信息对于图像分割至关重要。模糊的边界信息会造成分割结果的误差偏大,为了解决这一问题,研究团队从边界信息入手,将边界信息量化,使其参与到网络的学习中去。采用了医学图像分割领域常见的transformer架构,融入强大的特征学习能力和正向信息,使得研究团队提出的网络在不同数据集上的各项指标都要由于其他经典模型。
基于混合注意力机制的文档对象版面分析
文档图像通常包含各种页面组件和复杂的逻辑结构,这使得文档布局成为一项具有挑战性的任务。大多数基于深度学习的文档布局分析方法都采用卷积神经网络作为特征提取网络。本文提出了一种混合空间通道注意网络(HSCA-Net),通过引入注意机制来挖掘文档页面中更显著的特征,从而提高特征提取能力。HSCA-Net网络由空间注意模块(SAM)、通道注意模块(CAM)和设计好的横向注意连接组成。CAM通过强调选择性信息来自适应调整信道特征响应,这取决于每个信道特征的贡献。SAM引导卷积神经网络关注信息性内容,并在页面对象之间捕获全局上下文信息。横向注意连接将SAM和CAM合并为多尺度特征金字塔网络,从而保留原始特征信息。
基于视觉变换器的级联多阶层医学影像配准方法
由在基于深度学习的图像配准中,图像中具有复杂解剖结构的形变区域是影响网络配准精度的重要因素,然而现有方法很难关注到图像的复杂解剖区域。同时,卷积神经网络的感受野受其卷积核大小的限制,难以学习空间位置距离较远的体素之间的关系,使其难以处理较大区域形变问题。针对以上两个问题,本文提出了一种基于视觉变换器(Transformer)的级联多阶层配准网络模型,并配备了一种基于均方误差的困难形变感知机。困难形变感知机使用滑动窗口和浮动窗口技术在配准图像中进行检索,得到每个体素的困难形变系数,识别出配准效果最差的区域。
基于空间信息和视觉信息的文档目标检测器
由于布局复杂性和对象多样性,文档对象检测是一项具有挑战性的任务。大多数现有方法主要关注视觉信息,而忽略了文档对象之间具有代表性的内在空间相关关系。为了捕获结构信息和上下文依赖性,研究团队提出了一种基于空间相关关系和视觉的新型文档对象检测器。它由三部分组成:视觉特征提取网络、关系特征聚合网络和结果细化网络。视觉特征提取网络通过采用特征增强路径来增强层级特征金字塔之间的信息传播。然后,关系特征聚合网络结合了图构建模块和图学习模块。图构建模块根据区域建议的几何属性计算空间信息以编码关系信息,而图学习模块堆叠图卷积网络(GCN)层以在全局范围内聚合关系信息。
岩心图像交互式分割系统
我们通过一个交互模块对2D砂岩的图像进行人机交互式的分割。在训练过程中以点击的方式进行交互式分割,所有的点击均可自动生成。经过每次的分割结果自动模拟点击下一次的误差最大的地方,在训练过程中不需要人机交互,训练之后我们将采用交互工具来修订一些存在不合理的地方的分割图像。交互工具的其流程为加载数据,进行点击分割,最后保存mask。交互工具的作用可表现为人们参与到对分割结果的补充修正的过程中进而提升分割的精准度。
医学影像三维重建及可视化系统
当下电子计算机断层扫描(CT)因作为新冠肺炎疫情中重要的诊断手段之一,也让大家认识到AI辅助医疗影像数据分析的重要性。随着人工智能技术的发展,目前技术已可以利用深度学习模型提取图像特征,完成影像分类、自动检测、图形分割、图像重建等任务。人工智能常见的应用环节是辅助诊断(影像辅助诊断、病理诊断)等。但是,目前国产医疗影像比较前沿的技术大多数处于成长期,医疗影像系统普及率也有待提高。 研究团队基于腹腔器官病变影像的AI辅助诊断需求,研发了“医学影像处理系统”该系统可以对常见的CT图像、核磁共振图像等进行器官分割、疾病分类诊断和3D模型重建可视化工作。
基于图像多级信息的信息提取和预判系统
随着深度学习和人工智能行业的飞速发展,近年来,深度学习成为计算机视觉领域的研究热点,为满足领域内各任务对图像特征信息的需求,保证模型学习特征信息的有效性,其关键在于如何正确完整的提取原图像中的一种或多种多级信息,如图像的边缘信息、结构信息和纹理信息。此外,若图像有部分损坏,是否能够在最大程度上利用已知的未损坏部分图像的多级信息,正确完整的对图像的损坏区域的多级信息进行预判。图像的多级信息提取直接影响着语义分割、超分辨率和图像修复等研究领域的发展和进步。 综上所述,研究团队研发了“基于图像多级信息的信息提取和预判系统”。该系统能够根据图像的损坏与否,提取和预判出已知图像的边缘、结构和纹理等多级信息。