Published
2026-05-08
Section
Articles
How to Cite
面向高效部署的视觉大模型推理加速方法研究
左 霖泽
中车工业研究院有限公司
DOI: https://doi.org/10.59429/kxjsyy.v3i2.13865
Keywords: 视觉大模型;模型轻量化;量化;剪枝;模型部署
Abstract
尽管剪枝与量化领域已有大量研究,但二者的平衡及联合优化以提升推理性能仍是学术界和工业界关注的核心问题。本研究针对视觉大模型在计算复杂度和部署成本方面的挑战,旨在探索剪枝与量化技术的有效结合以实现推理加速,提出一种融合结构化剪枝与混合精度量化的轻量化方法。该方法先通过对(Batch Normalization, BN)[1]层通道缩放因子及卷积层、全连接层权重分布的分析,结构化裁剪冗余通道 / 核以减少计算量和模型体积,再在剪枝后结合量化策略实现性能与精度的权衡。以 YOLOv8 为实验对象,先在 90%、83%、50% 三种剪枝率下开展剪枝实验,其中 50% 剪枝率时,模型参数量从原始 11.14M 减少至 5.68M,计算量从 14.28G 降至 7.45G,经微调后 mAP保持在 0.6861,仅略低于原始模型;随后选用 50% 剪枝率剪枝后的模型,采用 FP16 与 INT8 混合精度量化策略进一步优化,使推理时间压缩至 1.4ms,准确率保持在 0.6578,为相对最优策略。实验结果表明,该方法成功压缩了模型体积、降低了计算负担,在保持精度基本稳定的前提下显著提升了推理速度,在提高模型部署效率方面展现了良好的应用前景,特别适用于边缘计算和移动端场景。
References
[1] BJORCK N, GOMES C P, SELMAN B, et al. Understanding batch normalization [J]. 2018, 31.
[2] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [J]. 2017, 30.
[3] KOONCE B. ResNet 50 [M]. Convolutional neural networks with swift for tensorflow: image recognition and dataset categorization. Springer. 2021: 63-72.
[4] 王琳,宋权润,耿世超等. 神经网络滤波器剪枝技术研究综述[J]. 2026, 62(2).
[5] 杨春,张睿尧,黄泷等. 深度神经网络模型量化方法综述[J]. 2023, 45(10): 1613-29.
[6] 卢海伟. 模式识别与人工智能袁 J. 基于层融合特征系数的动态网络结构化剪枝[J]. 2019, 32(11): 1051-9.
[7] HOEFLER T, ALISTARH D, BEN-NUN T, et al. Sparsity in deep learning: Pruning and growth for efficient inference and training in neural networks [J]. 2021, 22(241): 1-124.
[8] BASHA S S, DUBEY S R, PULABAIGARI V, et al. Impact of fully connected layers on performance of convolutional neural networks for image classification [J]. 2020, 378: 112-9.
[9] 钱源. 基于 KL 散度的 int8 量化方法研究与框架实现[D]. 中国科学院大学 ( 中国科学院人工智能学院 ),2020.
[10] SOHAN M, SAI RAM T, RAMI REDDY C V. A review on yolov8 and its advancements; proceedings of the International conference on data intelligence and cognitive informatics, F, 2024 [C]. Springer.