Ứng dụng học sâu trong nhận diện bảng chữ cái ASL dựa trên cử chỉ tay theo thời gian thực

Các tác giả

  • Bình Xuyên Ngô Khoa Công Nghệ Thông Tin, Trường Đại học Công nghiệp tp.HCM
  • Thanh Lê Thị Vĩnh Trường Đại học Công nghiệp Thành phố Hồ Chí Minh
  • Nguyên Phan Tôn Lộc Trường Đại học Công nghiệp Thành phố Hồ Chí Minh
  • Đạo Lê Thành Trường Đại học Công nghiệp Thành phố Hồ Chí Minh
  • Việt Nguyễn Quốc Trường Đại học Công nghiệp Thành phố Hồ Chí Minh

Tóm tắt

Trong bối cảnh các công nghệ hỗ trợ giao tiếp cho người khiếm thính ngày càng phát triển, bài toán nhận diện ngôn ngữ ký hiệu, đặc biệt là bảng chữ cái ASL, đóng vai trò nền tảng để xây dựng các hệ thống chuyển đổi cử chỉ tay sang văn bản một cách trực quan và dễ tiếp cận. Phần lớn các nghiên cứu trước đây tập trung vào phân loại ảnh tĩnh với các mô hình CNN hoặc kiến trúc thị giác truyền thống, trong khi việc đánh giá có hệ thống các mô hình học sâu hiện đại dưới điều kiện thời gian thực vẫn còn hạn chế. Trong nghiên cứu này, chúng tôi triển khai và so sánh hai hướng tiếp cận chính: (i) phân loại ảnh với CNN tùy chỉnh, EfficientNetB0, ResNet50V2, Vision Transformer và YOLO11m-classification; (ii) phát hiện đối tượng với các mô hình YOLO11m, YOLOv12x và RT-DETR, tất cả đều được huấn luyện trên cùng bộ dữ liệu ASL Alphabet kết hợp nhiều kỹ thuật tăng cường dữ liệu. Hiệu năng mô hình được đánh giá không chỉ qua các độ đo phân loại và phát hiện chuẩn hóa (Accuracy, Precision, Recall, F1, mAP) mà còn thông qua các chỉ số thời gian thực như FPS, Frame Accuracy và Temporal Stability trên tập video kiểm thử. Kết quả cho thấy các mô hình YOLO thế hệ mới đạt độ chính xác cao, tốc độ xử lý ổn định và cân bằng tốt giữa độ chính xác và hiệu năng, khẳng định tính khả thi khi ứng dụng vào các hệ thống hỗ trợ giao tiếp và học tập ngôn ngữ ký hiệu ASL trong thực tế.

Đã Xuất bản

09-12-2025

Số

Chuyên mục

Khoa học máy tính và Khoa học dữ liệu (Computer & Data Science)