科学技术与应用

  • Home
  • About
    • About the Journal
    • Contact
  • Article
    • Current
    • Archives
  • Submissions
  • Editorial Team
  • Announcements
Register Login

ISSN

3060-9453(Oline)
3060-9461(Print)

Article Processing Charges (APCs)

SGD$600

Publication Frequency

Bi-Monthly

PDF

Published

2025-11-18

Issue

Vol 2 No 5 (2025): Published

Section

Articles

How to Cite

  • ACM
  • ACS
  • APA
  • ABNT
  • Chicago
  • Harvard
  • IEEE
  • MLA
  • Turabian
  • Vancouver

  • Download Citation
  • Endnote/Zotero/Mendeley (RIS)
  • BibTeX

一种基于 Transformer 的多模态安全监控检测与视频摘要系统

徐 如意

广州城建职业学院

袁 冠聪

广州南方学院

柯 成德

泰莱大学

邱 丽娜

广州城建职业学院

白 卫玲

广州城建职业学院

胡 雅婷

广州城建职业学院


DOI: https://doi.org/10.59429/kxjsyy.v2i5.12038


Keywords: 多模态融合;Transformer;犯罪摘要;跨模态注意力机制;视频理解;音频分析


Abstract

本文提出了一种多模态融合架构的 Transformer 方法,该方法通过跨模态注意力机制,将视觉捕捉的图像(如 人脸、证 据)与音频线索(如尖叫声、枪声)关联起来,从而实现高效精 准的犯罪现场检测与摘要生成。系统采用 OpenL3 提取 512 维的音频特征,并结合轻量级结构的 Video Transformer 模型,提取 384 维的视频特征。通过在八头 交叉注意力模块中引入融合技术,安全监控检测的 F1 分数可达 0.917。此外,创新的摘要引擎能够生成高 质量的图 形化摘要视频(分辨率 1120x700,音频码率 256Kbps, 采用 AAC 解码,时长小于 10 秒),较纯视觉方法显著提升 了 13.19% 的 F1 分数优势。研究实验表明,多模态融合在提升对犯罪现场 态势感知能力方面发挥着关键作用,为公 共安全监控场景提供了一种切实可行的解决方案。


References

[1] E. B. Nievas, O. D. Suarez, G. B. García, and R. Sukthankar,”Violencedetection in video using computer vision techniques,” in ComputerAnalysis of Images and Patterns, 2011, pp. 332-339.

[2] T. Hassner, Y. Itcher, and O. Kliper-Gross,”Violent flows: Real-timedetection of violent crowd behavior,” in 2012 IEEE Computer SocietyConference on Computer Vision and Pattern Recognition Workshops, 2012,pp. 1-6.

[3] Z. Dong, J. Qin, and Y. Wang,”Multi-stream deep networks for personto person violence detection in videos,” in Pattern Recognition, vol. 82,2018, pp. 72-86.

[4] S. Sudhakaran and O. Lanz,”Learning to detect violent videos usingconvolutional long short-term memory,” in 2017 14th IEEE InternationalConference on Advanced Video and Signal Based Surveillance(AVSS),2017, pp. 1-6.

[5] A. Dosovitskiy et al.,”An image is worth 16x16 words: Transformersfor image recognition at scale,” arXiv preprint arXiv:2010.11929, 2020.



ISSN: 3060-9453
21 Woodlands Close #02-10 Primz Bizhub Singapore 737854

Email:editorial_office@as-pub.com