PHÁT HIỆN ĐỐI TƯỢNG DỰA TRÊN MÔ HÌNH HỌC SÂU YOLOv8s
Tóm tắt
Phát hiện đối tượng là bài toán cốt lõi trong thị giác máy tính với ứng dụng rộng rãi trong giám sát an ninh, xe tự hành và hệ thống giao thông thông minh. YOLOv8s đã chứng minh hiệu quả trong cân bằng độ chính xác và tốc độ, nhưng vẫn gặp hạn chế với đối tượng nhỏ (< 32 × 32 pixels), bị che khuất (> 50%) và trong môi trường phức tạp. Nghiên cứu này đề xuất YOLOv8s-CBAM, tích hợp Convolutional Block Attention Module (CBAM) vào 7 vị trí chiến lược (3 trong backbone, 4 trong neck) kết hợp với Adaptive Augmentation Strategy (AAS) và Multi-Scale Training Protocol (MSTP). Thực nghiệm toàn diện trên MS COCO 2017 (118,287 ảnh
huấn luyện, 5,000 ảnh validation, 80 lớp) cho thấy YOLOv8sCBAM đạt mAP@0.5 = 0.6389 (+5.65%), mAP@0.5:0.95 = 0.4628
(+5.91%) so với baseline, duy trì 210 FPS trên Tesla P100. Đặc biệt, mô hình cải thiện 19.9% với đối tượng nhỏ và 12.3% với đối
tượng bị che khuất. Ablation study xác nhận CBAM đóng góp 3.25%, AAS thêm 1.35% và MSTP nâng tổng cộng lên 5.91%,
chứng minh hiệu quả của từng thành phần trong kiến trúc đề xuất.