Các Phương Pháp Ước Lượng Độ Sâu Ảnh Dựa Trên CNN

Các tác giả

  • Le Quang Vinh Khoa Công Nghệ Thông Tin. Trường Đại học Công Nghiệp TP.HCM
  • Dien-Nhung Nguyen Khoa Công Nghệ Thông Tin. Trường Đại học Công Nghiệp TP.HCM
  • Huỳnh Tường Nguyên Khoa Công Nghệ Thông Tin. Trường Đại học Công Nghiệp TP.HCM
  • Nguyễn Ngọc Lễ Khoa Công Nghệ Thông Tin. Trường Đại học Công Nghiệp TP.HCM
  • Giảng Thanh Trọn Khoa Công Nghệ Thông Tin. Trường Đại học Công Nghiệp TP.HCM

Từ khóa:

Depth estimation, single image-depth prediction, Autoencoder, Unet, ResNet

Tóm tắt

Ước lượng độ sâu ảnh là nhiệm vụ rất quan trọng trong nhiều ứng dụng: lái xe tự động, robot và tái tạo không gian ba chiều. Bài báo này, nhằm thay thế thiết bị đo chuyên dụng bằng các thử nghiệm huấn luyện hai mô hình mạng nơ-ron tích chập: một Convolutional
Autoencoder được điều chỉnh xương sống dựa theo kiến trúc ResNet và một Unet được điều chỉnh xương sống dựa theo kiến trúc của ResNet. Các kết quả đánh giá trên bộ dữ liệu chuẩn LineMOD cho thấy mô hình Convolutional Autoencoder học cách ánh xạ encoder–decoder để hồi quy độ sâu. Việc tăng cường bằng ResNet và kiến trúc Unet giúp cải thiện luồng tín hiệu học tập bị yếu dần trong các
lớp mạng sâu và cải thiện tính truyền đặc trưng. Các đánh giá trên bộ dữ liệu LineMOD đã kết luận rằng Unet mang lại độ chính xác cao nhất trong các số liệu đo structural similarity index measure, mean squared error, root mean squared error và mean absolute error. Bằng cách khắc phục những hạn chế ở thiết bị phần cứng, điều này mở đường cho việc thay thế các cảm biến độ sâu vật lý trong
nhiều ứng dụng thực tế khác nhau.

Tiểu sử của Tác giả

Le Quang Vinh, Khoa Công Nghệ Thông Tin. Trường Đại học Công Nghiệp TP.HCM

Sinh viên đại học, chuyên ngành khoa học máy tính.

Dien-Nhung Nguyen, Khoa Công Nghệ Thông Tin. Trường Đại học Công Nghiệp TP.HCM

Sinh viên đại học, chuyên ngành khoa học máy tính

Đã Xuất bản

29-05-2025

Số

Chuyên mục

Khoa học máy tính và Khoa học dữ liệu (Computer & Data Science)