Published
2025-11-18
Section
Articles
How to Cite
一种基于 Transformer 的多模态安全监控检测与视频摘要系统
徐 如意
广州城建职业学院
袁 冠聪
广州南方学院
柯 成德
泰莱大学
邱 丽娜
广州城建职业学院
白 卫玲
广州城建职业学院
胡 雅婷
广州城建职业学院
DOI: https://doi.org/10.59429/kxjsyy.v2i5.12038
Keywords: 多模态融合;Transformer;犯罪摘要;跨模态注意力机制;视频理解;音频分析
Abstract
本文提出了一种多模态融合架构的 Transformer 方法,该方法通过跨模态注意力机制,将视觉捕捉的图像(如 人脸、证 据)与音频线索(如尖叫声、枪声)关联起来,从而实现高效精 准的犯罪现场检测与摘要生成。系统采用 OpenL3 提取 512 维的音频特征,并结合轻量级结构的 Video Transformer 模型,提取 384 维的视频特征。通过在八头 交叉注意力模块中引入融合技术,安全监控检测的 F1 分数可达 0.917。此外,创新的摘要引擎能够生成高 质量的图 形化摘要视频(分辨率 1120x700,音频码率 256Kbps, 采用 AAC 解码,时长小于 10 秒),较纯视觉方法显著提升 了 13.19% 的 F1 分数优势。研究实验表明,多模态融合在提升对犯罪现场 态势感知能力方面发挥着关键作用,为公 共安全监控场景提供了一种切实可行的解决方案。
References
[1] E. B. Nievas, O. D. Suarez, G. B. García, and R. Sukthankar,”Violencedetection in video using computer vision techniques,” in ComputerAnalysis of Images and Patterns, 2011, pp. 332-339.
[2] T. Hassner, Y. Itcher, and O. Kliper-Gross,”Violent flows: Real-timedetection of violent crowd behavior,” in 2012 IEEE Computer SocietyConference on Computer Vision and Pattern Recognition Workshops, 2012,pp. 1-6.
[3] Z. Dong, J. Qin, and Y. Wang,”Multi-stream deep networks for personto person violence detection in videos,” in Pattern Recognition, vol. 82,2018, pp. 72-86.
[4] S. Sudhakaran and O. Lanz,”Learning to detect violent videos usingconvolutional long short-term memory,” in 2017 14th IEEE InternationalConference on Advanced Video and Signal Based Surveillance(AVSS),2017, pp. 1-6.
[5] A. Dosovitskiy et al.,”An image is worth 16x16 words: Transformersfor image recognition at scale,” arXiv preprint arXiv:2010.11929, 2020.