Transformer cho tạo chú thích hình ảnh X-quang ngực và phát hiện dấu hiệu lâm sàng
Từ khóa:
Medical image captioning, Medical image tagging, Chest X-ray image, TransformerTóm tắt
Việc tạo chú thích tự động cho ảnh X-quang ngực đang trở thành một hướng nghiên cứu tiềm năng trong hỗ trợ chẩn đoán hình ảnh y tế. Tuy nhiên, các phương pháp hiện tại chủ yếu dựa vào mô hình phân loại đa nhãn và đặc trưng hình ảnh đơn thuần, nên gặp hạn chế trong việc diễn giải mối quan hệ giữa các dấu hiệu lâm sàng và ngữ nghĩa y tế. Trong nghiên cứu này, chúng tôi đề xuất một kiến trúc mới dựa trên kiến trúc Transformer, kết hợp giữa đặc trưng hình ảnh và các thẻ y tế (tags) nhằm hướng dẫn quá trình tạo chú thích. Mô hình bao gồm các thành phần mã hóa hình ảnh, nhận dạng thẻ y tế, mã hóa kết hợp hình ảnh-thẻ và giải mã thành văn bản y khoa. Thông qua cơ chế tích hợp thông tin thẻ vào tiến trình sinh chú thích, phương pháp này cho phép thể hiện rõ mối liên kết giữa các dấu hiệu lâm sàng và các vùng đặc trưng trong ảnh. Mô hình được thiết kế nhằm khắc phục các hạn chế trong việc biểu diễn ngữ nghĩa y tế và hứa hẹn mở ra hướng tiếp cận hiệu quả hơn cho bài toán tạo chú thích ảnh X-quang ngực.