Đánh giá hiệu năng xử lý dữ liệu lớn: So sánh kiến trúc Hadoop YARN MapReduce và Cloud–Native (Spark, MinIO, Kubernetes K3s) trên môi trường ảo hóa

Mỹ Duyên Phạm; Hoàng Tuấn Mai; Huy Trọng Nguyễn; Tuấn Sang Trần; Minh Duy Trần

Các tác giả

Mỹ Duyên Phạm Trường Đại học Công nghiệp TPHCM
Hoàng Tuấn Mai
Huy Trọng Nguyễn
Tuấn Sang Trần
Minh Duy Trần

Từ khóa:

Apache Spark, Big data benchmarking, Cloud–Native, Hadoop YARN MapReduce

Tóm tắt

Sự tăng trưởng nhanh chóng của dữ liệu đã thúc đẩy nhu cầu cấp thiết về các kiến trúc xử lý dữ liệu lớn có khả năng mở rộng và hiệu năng cao. Bài báo đánh giá và so sánh hiệu năng giữa Hadoop YARN MapReduce và kiến trúc Cloud–Native tích hợp Apache Spark, MinIO, Kubernetes K3s, triển khai trên môi trường Ubuntu ảo hóa chạy trên các máy chủ vật lý Windows với một node điều khiển và ba node workers. Đánh giá sử dụng dữ liệu giao dịch tiền điện tử thực tế từ sàn Binance gồm ba loại: dữ liệu nến theo chu kỳ một phút, dữ liệu giao dịch theo từng lệnh và dữ liệu thống kê tổng hợp 24 giờ, kiểm thử trên 6 mức kích thước từ 100 MB đến 4 GB, mỗi cấu hình thực thi năm lần nhằm đảm bảo độ tin cậy thống kê. Ba chỉ số được đo lường gồm: thời gian lưu trữ dữ liệu đầu vào (T1), thời gian thực thi pipeline qua năm giai đoạn từ đọc, làm sạch, biến đổi, khai phá đến lưu trữ vào PostgreSQL (T2), và tổng thời gian thực thi (T3 = T1 + T2). Kết quả cho thấy Hadoop có lợi thế về thời gian lưu trữ đầu vào, trong khi Cloud–Native vượt trội về tổng thời gian thực thi ở tất cả 6 mức kích thước trong môi trường ảo hóa.

Đánh giá hiệu năng xử lý dữ liệu lớn: So sánh kiến trúc Hadoop YARN MapReduce và Cloud–Native (Spark, MinIO, Kubernetes K3s) trên môi trường ảo hóa

Các tác giả

Từ khóa:

Tóm tắt

Đã Xuất bản

Số

Chuyên mục