Adaptive NPC Behavior with Reinforcement Learning in 2D Game
Từ khóa:
Reinforcement Learning, game, Proximal Policy Optimization, Behavior Cloning, 2D, NPC, Reward ShapingTóm tắt
Trong bài báo này chúng tôi áp dụng thuật toán Proximal Policy Optimization (PPO) trong việc huấn luyện nhân vật trong trò chơi (Non-Player Characters- NPC) có khả năng thích ứng nhập vai 2D (2D RPG). Mô hình dựa trên quá trình quyết định Markov (MDP), tối ưu chính sách hành động thông qua PPO và điều chỉnh hàm thưởng (reward shaping) nhằm nâng cao khả năng học và tính ổn định trong môi trường có phản hồi khan hiếm, trong đó hành động và trạng thái của NPC phản ánh các yếu tố sinh tồn như thức ăn, nước uống, giấc ngủ và căng thẳng. Để tăng tính tự nhiên trong hành vi của NPC, chúng tôi kết hợp thêm kỹ thuật Behavior Cloning (BC) — cho phép mô hình học theo dữ liệu hành vi của con người trước khi tiếp tục quá trình huấn luyện bằng PPO. Thực nghiệm cho thấy NPC học được hành vi chiến lược, nâng tỷ lệ thành công lên khoảng 75% so với hành vi ngẫu nhiên, đồng thời duy trì sự ổn định trong huấn luyện nhờ cơ chế clipping của PPO và sự fine-tune theo BC. Kết quả này làm cơ sở cho hướng phát triển AI game thích ứng và mở rộng sang môi trường đa tác tử (multi-agent).