研究成果|深度学习与视觉理解团队

论文

学术主页

HSCA-Net: A Hybrid Spatial-Channel Attention Network in Multiscale Feature Pyramid for Document Layout Analysis.

Zhang, H., Xu, C., Shi, C., Bi, H., Li, Y., & Sami Mian. (2022).

Journal of Artificial Intelligence and Technology, 3(1), 10–17. https://doi.org/10.37965/jait.2022.0145

@article{article,
author = {Zhang, Honghong and Xu, Canhui and Shi, Cao and Bi, Hengyue and Li, Yuteng},
year = {2022},
month = {12},
pages = {},
title = {HSCA-Net: A Hybrid Spatial-Channel Attention Network in Multi-Scale Feature Pyramid for Document Layout Analysis},
journal = {Journal of Artificial Intelligence and Technology},
doi = {10.37965/jait.2022.0145}
}

Lateral Feature Enhancement Network for Page Object Detection[J].

Cao Shi, Canhui Xu, Hengyue Bi, Yuanzhi Cheng, Yuteng Li, Honghong Zhang.

IEEE Transactions on Instrumentation and Measurement, 2022, 71:1-10

BibTeX

@article{shi2022lateral,
                            title={Lateral feature enhancement network for page object detection},
                            author={Shi, Cao and Xu, Canhui and Bi, Hengyue and Cheng, Yuanzhi and Li, Yuteng and Zhang, Honghong},
                            journal={IEEE Transactions on Instrumentation and Measurement},
                            volume={71},
                            pages={1--10},
                            year={2022},
                            publisher={IEEE}
                            }

Graph-based convolution feature aggregation for retinal vessel segmentation[J].

Cao Shi, Canhui Xu, Jianfei He, Yinong Chen, Yuanzhi Cheng, Qi Yang, Haitao Qiu.

Simulation Modelling Practice and Theory,2022

BibTeX

@article{shi2022graph,
                            title={Graph-based convolution feature aggregation for retinal vessel segmentation},
                            author={Shi, Cao and Xu, Canhui and He, Jianfei and Chen, Yinong and Cheng, Yuanzhi and Yang, Qi and
                            Qiu,
                            Haitao},
                            journal={Simulation Modelling Practice and Theory},
                            volume={121},
                            pages={102653},
                            year={2022},
                            publisher={Elsevier}
                            }

SRRV: A Novel Document Object Detector Based on Spatial-Related Relation and Vision[J].

Hengyue Bi, Canhui Xu, Cao Shi, Guozhu Liu, Yuteng Li, Honghong Zhang, Jing Qu.

IEEE Transactions on Multimedia, 2022.

BibTeX

@article{bi2022srrv,
                            title={SRRV: A Novel Document Object Detector Based on Spatial-Related Relation and Vision},
                            author={Bi, Hengyue and Xu, Canhui and Shi, Cao and Liu, Guozhu and Li, Yuteng and Zhang, Honghong and Qu, Jing},
                            journal={IEEE Transactions on Multimedia},
                            year={2022},
                            publisher={IEEE}
                            }

基于视觉和文本的多模态文档图像目标检测[J/OL].

李玉腾,史操,许灿辉等.

计算机应用研究:1-6[2023-02-21].

BibTeX

@article{JSYJ2022111000E, 
                            author = {李玉腾,史操,许灿辉 & 程远志}, 
                            title = {基于视觉和文本的多模态文档图像目标检测}, 
                            journal = {计算机应用研究}, 
                            volume = {}, 
                            number = {}, 
                            year = {}, 
                            issn = {1001-3695}, 
                            doi ={10.19734/j.issn.1001-3695.2022.08.0425} 
                            }

基于注意力机制多任务的肺结节癌变风险判断[J].

王广涵,程远志,史操等.

计算机系统应用,2022,31(04):117-122.

BibTeX

@article{XTYY202204008,
                            author = {王广涵,程远志,史操 & 许灿辉},
                            title = {基于注意力机制多任务的肺结节癌变风险判断},
                            journal = {计算机系统应用},
                            volume = {},
                            number = {117-122},
                            year = {2022},
                            issn = {1003-3254},
                            doi ={10.15888/j.cnki.csa.008446}
                            }

多视图与注意力机制结合的肺结节检测算法[J].

刘宇博,刘国柱,史操等.

哈尔滨理工大学学报,2022,27(06):115-123.

BibTeX

@article{HLGX202206014,
                            author = {刘宇博,刘国柱,史操 & 许灿辉},
                            title = {多视图与注意力机制结合的肺结节检测算法},
                            journal = {哈尔滨理工大学学报},
                            volume = {},
                            number = {115-123},
                            year = {2022},
                            issn = {1007-2683},
                            doi ={10.15938/j.jhust.2022.06.014}
                            }

End-to-end dilated convolution network for document image semantic segmentation[J].

Canhui Xu, Cao Shi, Yinong Chen.

Journal of Central South University, 2021, 28(6): 1765-1774.

BibTeX

@article{xu2021end,
                            title={End-to-end dilated convolution network for document image semantic segmentation},
                            author={Xu, Can-hui and Shi, Cao and Chen, Yi-nong},
                            journal={Journal of Central South University},
                            volume={28},
                            number={6},
                            pages={1765--1774},
                            year={2021},
                            publisher={Springer}
                            }

A Page Object Detection Method Based on Mask R-CNN[J].

Canhui Xu, Cao Shi, Hengyue Bi, Chuanqi Liu, Yongfeng Yuan, Haoyan Guo, Yinong Chen.

IEEE Access, 2021, 9: 143448-143457.

BibTeX

@article{xu2021page,
                            title={A page object detection method based on mask R-CNN},
                            author={Xu, Canhui and Shi, Cao and Bi, Hengyue and Liu, Chuanqi and Yuan, Yongfeng and Guo, Haoyan and Chen, Yinong},
                            journal={IEEE Access},
                            volume={9},
                            pages={143448--143457},
                            year={2021},
                            publisher={IEEE}
                            }

Sentiment Analysis of Home Appliance Comment Based on Generative Probabilistic Model.

C. Shi, Y. Tao, C. Xu, X. Wang, Y. Wang and Z. Wang. (2022).

2019 IEEE Fourth International Conference on Data Science in Cyberspace (DSC), Hangzhou, China, 2019, pp. 318-321.

BibTeX

@inproceedings{shi2019sentiment,
                            title={Sentiment Analysis of Home Appliance Comment Based on Generative Probabilistic Model},
                            author={Shi, Cao and Tao, Ye and Xu, Canhui and Wang, Xiaodong and Wang, Yanzhe and Wang, Zihao},
                            booktitle={2019 IEEE Fourth International Conference on Data Science in Cyberspace (DSC)},
                            pages={318--321},
                            year={2019},
                            organization={IEEE}
                            }

Document Page Structure Learning for Fixed-layout E-books Using Conditional Random Fields.

Xin Tao, Zhi Tang, Canhui Xu.

SPIE 9021, Document Recognition and Retrieval XXI, 90210I-(1~9). 6 Feb 2014, Oral, U.S. San Francisco . (EI)

BibTeX

@inproceedings{tao2014document,
                            title={Document page structure learning for fixed-layout e-books using conditional random fields},
                            author={Tao, Xin and Tang, Zhi and Xu, Canhui},
                            booktitle={Document Recognition and Retrieval XXI},
                            volume={9021},
                            pages={158--166},
                            year={2014},
                            organization={SPIE}
                            }

Visual improvement for bad handwriting based on Monte-Carlo method.

Cao Shi, Jianguo Xiao, Canhui Xu, Wenhua Jia.

SPIE 9027, Imaging and Multimedia Analytics in a Web and Mobile World 2014, 902708-(1~7). 5 Feb 2014, Oral, U.S. San Francisco . (EI)

BibTeX

@inproceedings{shi2014visual,
                            title={Visual improvement for bad handwriting based on Monte-Carlo method},
                            author={Shi, Cao and Xiao, Jianguo and Xu, Canhui and Jia, Wenhua},
                            booktitle={Imaging and Multimedia Analytics in a Web and Mobile World 2014},
                            volume={9027},
                            pages={24--30},
                            year={2014},
                            organization={SPIE}
                            }

Nonlinear and non-Gaussian Bayesian-based handwriting beautification.

Cao Shi, Jianguo Xiao, Canhui Xu, Wenhua Jia.

SPIE 9020, Computational Imaging XII, 902012-(1~7). 5 Feb 2014, Poster, U.S. San Francisco . (EI)

BibTeX

@inproceedings{shi2014nonlinear,
                            title={Nonlinear and non-gaussian bayesian based handwriting beautification},
                            author={Shi, Cao and Xiao, Jianguo and Xu, Canhui and Jia, Wenhua},
                            booktitle={Computational Imaging XII},
                            volume={9020},
                            pages={276--282},
                            year={2014},
                            organization={SPIE}
                            }

Automatic generation of Chinese character using features fusion from calligraphy and font.

Cao Shi, Jianguo Xiao, Canhui Xu, Wenhua Jia.

SPIE 9012, The Engineering Reality of Virtual Reality 2014, 90120N-(1~7). 6 Jan 2014, Poster, U.S. San Francisco .

BibTeX

@inproceedings{shi2014automatic,
                            title={Automatic generation of Chinese character using features fusion from calligraphy and font},
                            author={Shi, Cao and Xiao, Jianguo and Xu, Canhui and Jia, Wenhua},
                            booktitle={The Engineering Reality of Virtual Reality 2014},
                            volume={9012},
                            pages={180--186},
                            year={2014},
                            organization={SPIE}
                            }

Contextual Modeling for Logical Labeling of PDF Documents.

Xin Tao, Zhi Tang, Canhui Xu.

Computers and Electrical Engineering, 2014, 40, 1363-1375. EI, SCI.

BibTeX

@article{tao2014contextual,
                            title={Contextual modeling for logical labeling of PDF documents},
                            author={Tao, Xin and Tang, Zhi and Xu, Canhui},
                            journal={Computers \& Electrical Engineering},
                            volume={40},
                            number={4},
                            pages={1363--1375},
                            year={2014},
                            publisher={Elsevier}
                            }

Ground-truth and Performance Evaluation for Page Layout Analysis of Born-digital Documents.

Xin Tao, Zhi Tang, Canhui Xu, Liangcai Gao.

2014 .11th IAPR International Workshop on Document Analysis Systems. EI.

BibTeX

@inproceedings{tao2014ground,
                            title={Ground-truth and performance evaluation for page layout analysis of born-digital documents},
                            author={Tao, Xin and Tang, Zhi and Xu, Canhui and Gao, Liangcai},
                            booktitle={2014 11th IAPR International Workshop on Document Analysis Systems},
                            pages={247--251},
                            year={2014},
                            organization={IEEE}
                            }

Graph-based layout analysis for PDF documents. Proc.

Canhui xu, zhi Tang, Xin Tao, Cao Shi.

Proc. SPIE 8664, Imaging and Printing in a Web 2.0 World IV, 866407-1~8. March 21, 2013. ( EI )

BibTeX

@inproceedings{xu2013graph,
                            title={Graph-based layout analysis for pdf documents},
                            author={Xu, Canhui and Tang, Zhi and Tao, Xin and Li, Yun and Shi, Cao},
                            booktitle={Imaging and printing in a web 2.0 world iv},
                            volume={8664},
                            pages={34--41},
                            year={2013},
                            organization={SPIE}
                            }

Character Feature Integration of Chinese Calligraphy and Font.

Cao Shi, Jianguo Xiao, Wenhua Jia, Canhui Xu.

Proc. SPIE 8658, Document Recognition and Retrieval XX, 86580M-1~8. February 4, 2013. ( EI )

BibTeX

@inproceedings{shi2013character,
                            title={Character feature integration of Chinese calligraphy and font},
                            author={Shi, Cao and Xiao, Jianguo and Jia, Wenhua and Xu, Canhui},
                            booktitle={Document Recognition and Retrieval XX},
                            volume={8658},
                            pages={207--214},
                            year={2013},
                            organization={SPIE}
                            }

Graphic Composite Segmentation for PDF Documents with Complex Layouts.

Canhui xu, zhi Tang, Xin Tao, Cao Shi.

Proc. SPIE 8658, Document Recognition and Retrieval XX, 86580E-1~10. February 4, 2013. ( EI )

BibTeX

@inproceedings{xu2013graphic,
                            title={Graphic composite segmentation for PDF documents with complex layouts},
                            author={Xu, Canhui and Tang, Zhi and Tao, Xin and Shi, Cao},
                            booktitle={Document Recognition and Retrieval XX},
                            volume={8658},
                            pages={121--130},
                            year={2013},
                            organization={SPIE}
                            }

Integration of Text Information and Graphic Composite for PDF Document Analysis.

Canhui xu, zhi Tang, Xin Tao, Cao Shi.

The 1st CCF Conference on Natural Language Processing & Chinese Computing, NLPCC 2012, Springer CCIS 333, pp.13-22. 2012. ( EI )

BibTeX

@inproceedings{xu2012integration,
                            title={Integration of Text Information and Graphic Composite for PDF Document Analysis},
                            author={Xu, Canhui and Tang, Zhi and Tao, Xin and Shi, Cao},
                            booktitle={CCF International Conference on Natural Language Processing and Chinese Computing},
                            pages={13--22},
                            year={2012},
                            organization={Springer}
                            }

Automatic Generation of Chinese Character Based on Human Vision and Prior Knowledge of Calligraphy.

Cao Shi, Jianguo Xiao, Wenhua Jia, Canhui Xu.

The 1st CCF Conference on Natural Language Processing & Chinese Computing, NLPCC 2012, Springer CCIS 333, pp.23-33. 2012. ( EI )

BibTeX

@inproceedings{shi2012automatic,
                            title={Automatic generation of Chinese character based on human vision and prior knowledge of calligraphy},
                            author={Shi, Cao and Xiao, Jianguo and Jia, Wenhua and Xu, Canhui},
                            booktitle={CCF International Conference on Natural Language Processing and Chinese Computing},
                            pages={23--33},
                            year={2012},
                            organization={Springer}
                            }

自适应异步采样运动数据压缩算法.

史操, 邹北骥, 蔡美玲, 孟志刚, 陈再良.

电子学报 , 2012,40(1):128-133. ( EI )

BibTeX

@article{史操2012自适应异步采样运动数据压缩算法,
                            title={自适应异步采样运动数据压缩算法},
                            author={史操 and 邹北骥 and 蔡美玲 and 孟志刚 and 陈再良},
                            journal={电子学报},
                            volume={40},
                            number={1},
                            pages={128},
                            year={2012}
                            }

Flotation Process Fault Detection Using Output PDF of Bubble Size Distribution.

Canhui Xu, Weihua Gui, Chunhua Yang, Hongqiu Zhu, Yiqiu Lin, Cao Shi.

Minerals Engineering. 2012, 26:5-12. ( SCI, EI )

BibTeX

@article{xu2012flotation,
                            title={Flotation process fault detection using output PDF of bubble size distribution},
                            author={Xu, Canhui and Gui, Weihua and Yang, Chunhua and Zhu, Hongqiu and Lin, Yiqiu and Shi, Cao},
                            journal={Minerals Engineering},
                            volume={26},
                            pages={5--12},
                            year={2012},
                            publisher={Elsevier}
                            }

Experimental Studies and Numerical Model Validation of Overflowing 2D Foam to Test Flotation Cell Crowder Designs.

K.E. Cole, P.R. Brito-Parada, Canhui Xu, S.J. Neethling, J.J. Cilliers.

Chemical Engineering Research and Design. 2012, 90(12), 2196-2201. EI, SCI.

BibTeX

@article{cole2012experimental,
                            title={Experimental studies and numerical model validation of overflowing 2D foam to test flotation cell crowder designs},
                            author={Cole, KE and Brito-Parada, PR and Xu, C and Neethling, SJ and Cilliers, JJ},
                            journal={Chemical Engineering Research and Design},
                            volume={90},
                            number={12},
                            pages={2196--2201},
                            year={2012},
                            publisher={Elsevier}
                            }

Enhanced Hexagonal-Based Search Using Direction-Oriented Inner Search for Motion Estimation.

Bei-Ji Zou, Cao Shi, Can-Hui Xu, Shu Chen.

IEEE Transactions on Circuits and Systems for Video Technology. 2010,20(1):156-160. ( SCI )

BibTeX

@article{zou2009enhanced,
                            title={Enhanced hexagonal-based search using direction-oriented inner search for motion estimation},
                            author={Zou, Bei-Ji and Shi, Cao and Xu, Can-Hui and Chen, Shu},
                            journal={IEEE transactions on circuits and systems for video technology},
                            volume={20},
                            number={1},
                            pages={156--160},
                            year={2009},
                            publisher={IEEE}
                            }

Automatic Reconstruction of 3D Human Motion Pose from Uncalibrated Monocular Video Sequences Based on Markerless Human Motion Tracking.

Beiji Zou, Shu Chen, Cao Shi, Umugwaneza Marie Providence.

Pattern Recognition. 2009,42(7):1559-1571.

BibTeX

@article{zou2009automatic,
                            title={Automatic reconstruction of 3D human motion pose from uncalibrated monocular video sequences based on markerless human motion tracking},
                            author={Zou, Beiji and Chen, Shu and Shi, Cao and Providence, Umugwaneza Marie},
                            journal={Pattern Recognition},
                            volume={42},
                            number={7},
                            pages={1559--1571},
                            year={2009},
                            publisher={Elsevier}
                            }

Bubble Size Estimation Using Interfacial Morphological Information for Mineral Flotation Process Monitoring.

Yang Chunhua, Xu Canhui, Mu Xueming and Zhou Kaijun.

Transactions of Nonferrous Metals Society of China, 2009, 19(3):694-699. EI, SCI.

BibTeX

@article{yang2009bubble,
                            title={Bubble size estimation using interfacial morphological information for mineral flotation process monitoring},
                            author={Yang, Chun-Hua and Xu, Can-Hui and Mu, Xue-min and Zhou, Kai-Jun},
                            journal={Transactions of Nonferrous Metals Society of China},
                            volume={19},
                            number={3},
                            pages={694--699},
                            year={2009},
                            publisher={Elsevier}
                            }

Nonparametric Density Estimation of Bubble Size Distribution for Monitoring Mineral Flotation Process.

Yang Chunhua, Xu Canhui, Weihua Gui, Du Jianjiang.

In 48th IEEE Conference on Decision and Control, Shanghai, 2009, 2941-2945. EI.

BibTeX

@inproceedings{yang2009nonparametric,
                            title={Nonparametric density estimation of bubble size distribution for monitoring mineral flotation process},
                            author={Yang, Chunhua and Xu, Canhui and Gui, Weihua and Du, Jianjiang},
                            booktitle={Proceedings of the 48h IEEE Conference on Decision and Control (CDC) held jointly with 2009 28th Chinese Control Conference},
                            pages={2941--2945},
                            year={2009},
                            organization={IEEE}
                            }

Application of Highlight Removal and Multivariate Image Analysis to Color Measurement of Flotation Bubble Images.

YChunhua Yang, Canhui Xu, Weihua Gui, Kaijun Zhou.

International Journal of Imaging Systems and Technology. 2009, 19, 316-322.EI, SCI.

BibTeX

@article{yang2009application,
                            title={Application of highlight removal and multivariate image analysis to color measurement of flotation bubble images},
                            author={Yang, Chunhua and Xu, Canhui and Gui, Weihua and Zhou, Kaijun},
                            journal={International Journal of Imaging Systems and Technology},
                            volume={19},
                            number={4},
                            pages={316--322},
                            year={2009},
                            publisher={Wiley Online Library}
                            }

适用于单目视频的无标记三维人体运动跟踪.

邹北骥, 陈姝, 彭小宁, 史操.

计算机辅助设计与图形学学报. 2008,20(8):1407-1055.

BibTeX

@article{邹北骥2008适用于单目视频的无标记三维人体运动跟踪,
                                title={适用于单目视频的无标记三维人体运动跟踪},
                                author={邹北骥 and 陈姝 and 彭小宁 and 史操},
                                journal={计算机辅助设计与图形学学报},
                                volume={20},
                                number={8},
                                pages={1047--1055},
                                year={2008}
                                }

我也是有底线的

专利

一种基于深度学习的肺结节检测方法.

许灿辉;张洪红;李玉腾;史操;程远志;刘宇博;杨琦.

CN115619706A

BibTeX

基于深度学习生成文档图像集的方法.

史操;许灿辉;刘传琦;程远志;陶冶;马兴录;刘国柱.

CN112347742A

BibTeX

一种利用先验知识构建文档图像数据集的方法.

许灿辉，史操，孙春奇，陶冶，刘国柱，程远志.

CN111783416A

BibTeX

版式文档中复合图的逻辑处理装置和逻辑处理方法.

许灿辉, 汤帜, 陶欣, 史操.

CN104142961A

BibTeX

版式文档中复合图的提取装置和提取方法.

许灿辉, 汤帜, 陶欣, 史操.

CN104346615A

BibTeX

一种列表识别方法与系统.

许灿辉, 汤帜, 徐剑波, 陶欣.

CN104517106A

BibTeX

一种表格识别方法与系统.

许灿辉, 汤帜, 徐剑波, 陶欣.

CN104517112A

BibTeX

一种浮选泡沫图像视觉监控装置.

桂卫华，阳春华，周开军，许灿辉.

CN101404722A

BibTeX

用于浮选泡沫图像分析的关键特征提取方法.

桂卫华，阳春华，周开军，许灿辉.

CN101334844A

BibTeX

TABLE RECOGNIZING METHOD AND TABLE RECOGNIZING SYSTEM.

Canhui Xu, Zhi Tang, Jianbo Xu, Xin Tao.

US20150093021A1

BibTeX

HSCA-Net: A Hybrid Spatial-Channel Attention Network in Multiscale Feature Pyramid for Document Layout Analysis.

Zhang, H., Xu, C., Shi, C., Bi, H., Li, Y., & Sami Mian. (2022).

Journal of Artificial Intelligence and Technology, 3(1), 10–17. https://doi.org/10.37965/jait.2022.0145

BibTeX

@article{article,
author = {Zhang, Honghong and Xu, Canhui and Shi, Cao and Bi, Hengyue and Li, Yuteng},
year = {2022},
month = {12},
pages = {},
title = {HSCA-Net: A Hybrid Spatial-Channel Attention Network in Multi-Scale Feature Pyramid for Document Layout Analysis},
journal = {Journal of Artificial Intelligence and Technology},
doi = {10.37965/jait.2022.0145}
}

我也是有底线的