一种基于 Transformer 的多模态安全监控检测与视频摘要系统

徐 如意; 袁 冠聪; 柯 成德; 邱 丽娜; 白 卫玲; 胡 雅婷

doi:10.59429/kxjsyy.v2i5.12038

PDF全文下载

Published

2025-11-18

Issue

Vol 2 No 5 (2025): Published

Section

Articles

How to Cite

一种基于 Transformer 的多模态安全监控检测与视频摘要系统

徐如意

广州城建职业学院

袁冠聪

广州南方学院

柯成德

泰莱大学

邱丽娜

广州城建职业学院

白卫玲

广州城建职业学院

胡雅婷

广州城建职业学院

DOI: https://doi.org/10.59429/kxjsyy.v2i5.12038

Keywords: 多模态融合；Transformer；犯罪摘要；跨模态注意力机制；视频理解；音频分析

Abstract

本文提出了一种多模态融合架构的 Transformer 方法，该方法通过跨模态注意力机制，将视觉捕捉的图像（如人脸、证据）与音频线索（如尖叫声、枪声）关联起来，从而实现高效精准的犯罪现场检测与摘要生成。系统采用 OpenL3 提取 512 维的音频特征，并结合轻量级结构的 Video Transformer 模型，提取 384 维的视频特征。通过在八头交叉注意力模块中引入融合技术，安全监控检测的 F1 分数可达 0.917。此外，创新的摘要引擎能够生成高质量的图形化摘要视频（分辨率 1120x700，音频码率 256Kbps，采用 AAC 解码，时长小于 10 秒），较纯视觉方法显著提升了 13.19% 的 F1 分数优势。研究实验表明，多模态融合在提升对犯罪现场态势感知能力方面发挥着关键作用，为公共安全监控场景提供了一种切实可行的解决方案。

References

[1] E. B. Nievas, O. D. Suarez, G. B. García, and R. Sukthankar,”Violencedetection in video using computer vision techniques,” in ComputerAnalysis of Images and Patterns, 2011, pp. 332-339.

[2] T. Hassner, Y. Itcher, and O. Kliper-Gross,”Violent flows: Real-timedetection of violent crowd behavior,” in 2012 IEEE Computer SocietyConference on Computer Vision and Pattern Recognition Workshops, 2012,pp. 1-6.

[3] Z. Dong, J. Qin, and Y. Wang,”Multi-stream deep networks for personto person violence detection in videos,” in Pattern Recognition, vol. 82,2018, pp. 72-86.

[4] S. Sudhakaran and O. Lanz,”Learning to detect violent videos usingconvolutional long short-term memory,” in 2017 14th IEEE InternationalConference on Advanced Video and Signal Based Surveillance(AVSS),2017, pp. 1-6.

[5] A. Dosovitskiy et al.,”An image is worth 16x16 words: Transformersfor image recognition at scale,” arXiv preprint arXiv:2010.11929, 2020.

科学技术与应用

ISSN

Article Processing Charges (APCs)

Published

Issue

Section

How to Cite

一种基于 Transformer 的多模态安全监控检测与视频摘要系统

Abstract

References