MÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCE

DSpace/Manakin Repository

MÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCE

Show full item record


Title: MÔ HÌNH NGÔN NGỮ SỬ DỤNG MAPREDUCE
Author: Vũ Thị, Thanh
Abstract: Ngày nay với sự phát triển của công nghệ thông tin, lượng dữ liệu trao đổi trên mạng là rất lớn. Dữ liệu về văn bản, hình ảnh, âm thanh đang trở thành những nguồn dữ liệu khổng lồ để phục vụ các nhu cầu về lưu trữ và trao đổi thông tin của con người. Đã có nhiều ứng dụng ra đời để hỗ trợ con người các công việc như: kiểm tra chính tả trên các văn bản, nhận dạng dữ liệu, nhận dạng giọng nói, dịch máy thống kê. Để phát triển các ứng dụng đó người ta đã đưa ra mô hình ngôn ngữ như là một tiền đề để ứng dụng vào các lĩnh vực trên. Mô hình ngôn ngữ là một vấn đề quan trọng của lĩnh vực xử lý ngôn ngữ tự nhiên. Mô hình ngôn ngữ là các phân bố xác suất của một đoạn văn trên một tập văn bản lớn. Vì vậy một mô hình ngôn ngữ tốt sẽ đánh giá câu đúng ngữ pháp và độ trôi chảy tốt hơn những câu có thứ tự ngẫu nhiên. Cách thông dụng nhất được dùng để mô hình hóa ngôn ngữ là thông qua các N-gram. Mô hình N- gram sử dụng các tập dữ liệu văn bản lớn để ước lượng xác suất của mô hình. Nhìn chung thì dữ liệu càng lớn thì mô hình sẽ càng tốt hơn [13]. Khi xây dựng mô hình ngôn ngữ cần phải có một lượng bộ nhớ khá lớn để có thể lưu trữ được xác suất của tất cả các chuỗi và cần cấu hình máy phải mạnh để tính toán và xử lý. Có nhiều phương pháp, kỹ thuật đã được đưa ra để tối ưu bộ nhớ và bộ xử lý. Các phương pháp làm mịn, truy hồi, đồng hóa, nén là những phương pháp trước đây dùng để tối ưu giá trị xác suất và tối ưu bit lưu trữ. Một số ứng dụng về xây dựng mô hình ngôn ngữ được sử dụng gần đây như công cụ SRILM, Random Forest Language Model Toolkit, … Mục đích chính của SRILM là để hỗ trợ ước lượng và đánh giá mô hình ngôn ngữ. Random Forest Language Model Toolkit xây dựng dựa trên công cụ SRILM,là một trong các mô hình ngôn ngữ cây quyết định cho kết quả thực nghiệm khá tốt. Tuy nhiên hạn chế của các công cụ trên là với dữ liệu rất lớn thì sẽ tốn rất nhiều thời gian để thực hiện. Với những dữ liệu cực lớn thì có thể sẽ không chạy được. Để giải quyết bài toán với dữ liệu huấn luyện lớn thì hadoop và mapreduce là một công cụ tối ưu nhất. Đó chính là lý do tại sao tôi lựa chọn đề tài “ Mô hình ngôn ngữ sử dụng MapReduce” cho nghiên cứu của mình. Đề tài này nhằm mục đích nghiên cứu sử dụng Hadoop và MapReduce vào việc xây dựng mô hình ngôn ngữ nhằm cải tiến tốc độ cho việc xây dựng mô hình ngôn ngữ và ước lượng mô hình để có thể thực hiện với lượng dữ liệu rất lớn để đưa ra mô hình ngôn ngữ chính xác hơn. Trong phần ứng dụng xây dựng mô hình ngôn ngữ với MapReduce luận văn sẽ sử dụng phương pháp làm mịn GoodTuring. Có nhiều phương pháp làm mịn có thể cho kết quả tốt hơn như Kneser-Ney nhưng do thời gian có hạn nên luận văn đã sử dụng phương pháp làm mịn GoodTuring để đơn giản cho việc xây dựng chương trình nhưng cũng đủ tốt để xây dựng mô hình ngôn ngữ.
URI: http://data.uet.vnu.edu.vn:8080/xmlui/handle/123456789/969
Date: 2017-01-11

Files in this item

Files Size Format View
K20KTPM_VuThiThanh_Noidungluanvan.pdf 1.507Mb PDF View/Open
K20KTPM_VuThiThanh_Tomtatluanvan.pdf 826.5Kb PDF View/Open

This item appears in the following Collection(s)

Show full item record

Search DSpace


Advanced Search

Browse

My Account