Phương Pháp Khai Thác Mẫu Tuần Tự Có Trọng Số Dựa Trên Tần Suất Xuất Hiện
Từ khóa:
Khai thác mẫu tuần tự có trọng số, Trọng số dựa trên tần suất, Trọng số ngẫu nhiênTóm tắt
Bài báo đề xuất phương pháp khai thác mẫu tuần tự có trọng số với trọng số của các item trong cơ sở dữ liệu tuần tự được tính toán dựa trên tần suất xuất hiện của chúng. Trọng số của mỗi item được tính bằng tổng tỷ lệ xuất hiện của item đó trong từng chuỗi chia cho tổng số chuỗi. Phương pháp này nhằm phản ánh mức độ quan trọng của item dựa trên mức độ phổ biến tương đối trong toàn bộ cơ sở dữ liệu, khắc phục hạn chế của phương pháp khai thác mẫu tuần tự truyền thống chỉ dựa vào tần suất ngẫu nhiên. Chúng tôi đã tích hợp trọng số dựa trên tần suất vào thuật toán khai thác mẫu tuần tự có trọng số EWSPM – một thuật toán hiệu quả với các chiến lược cắt tỉa mạnh mẽ. Thực nghiệm so sánh với cách gán trọng số ngẫu nhiên (giá trị trong khoảng 0 đến 1) cho thấy phương pháp đề xuất giúp tìm được nhiều mẫu tuần tự hơn, đồng thời thời gian thực thi nhanh hơn và bộ nhớ sử dụng tương đương hoặc thấp hơn ở các mức ngưỡng hỗ trợ trọng số khác nhau. Kết quả phân tích chứng minh lợi thế của cách gán trọng số mới trong việc khai thác các mẫu tuần tự có ý nghĩa.