Abstract:
|
gày nay song song với sự bùng nổ mạnh mẽ của công nghệ thông tin và
sự phát triển của Internet toàn cầu là các nguy cơ mất an toàn thông tin đang
trở nên trầm trọng và nguy hiểm hơn, trong đó mã độc hại đang là các hiểm
họa hàng đầu bởi khả năng có thể lây lan phát tán trên các hệ thống máy tính
và thực hiện các hành vi tấn công bất hợp pháp. Mã độc đang ngày càng tiến
hóa với những biết thể đa dạng, với những cách thức che dấu ngày càng tinh
vi hơn. Có thể nói phát hiện và ngăn chặn mã độc đang là một thách thức
được đặt ra trong lĩnh vực An toàn thông tin. Các phương pháp phát hiện mã
độc thông thường chủ yếu sử dụng kỹ thuật so sánh mẫu dựa trên cơ sở dữ
liệu mã độc được xây dựng và định nghĩa từ trước, tuy nhiên phương pháp
này bộc lộ nhiều nhược điểm đó là không có khả năng phát hiện ra các mẫu
mã độc mới, số lượng dữ liệu mã độc ngày càng gia tăng làm cho cơ sở dữ
liệu mẫu trở nên ngày càng lớn. Hiện nay hướng nghiên cứu dựa vào các mô
hình học máy để phân loại và phát hiện mã độc đang tỏ ra là phương pháp
tiềm năng và hiệu quả khi có thể cải thiện được các nhược điểm đã nêu ở trên
so với phương pháp truyền thống. Tuy nhiên, một trong những vấn đề được
quan tâm là làm sao để xây dựng được mô hình học máy tốt nhất đạt hiệu quả
chính xác và hiệu suất cao. Trong đó một yếu tố quan trọng được xem là
quyết định chính là giải pháp trích chọn đặc trưng. Trong các phần nghiên
cứu của luận văn này tôi trình bày về phương pháp ứng dụng học máy vào
xây dựng các mô hình phát hiện mã độc trong đó các thực nghiệm dựa trên
phương pháp phân tích tĩnh mã độc, tiền xử lý dữ liệu bằng kỹ thuật dịch
ngược đưa các file dữ liệu mẫu về dạng mã hex và thực hiện khai phá dữ liệu
text sử dụng các mã n-gram byte là các đặc trưng ban đầu .Sau đó các dữ liệu
đặc trưng này sẽ được trích chọn ra một bộ dữ liệu đặc trưng tốt nhất để xây
dựng mô hình trên cơ sở giải pháp trích chọn đặc trưng mà trong luận văn
này tôi đã tập trung nghiên cứu và đề xuất. Các kết quả của luận văn được
thực nghiệm trên khoảng 4698 file mẫu thực thi trên nền Windows trong đó
2373 file mã thông thường và 2325 file mẫu mã độc với nhiều thể loại đa
dạng như Backdoor, Virus, Trojan, Worm... |