Abstract:
|
Về lý thuyết, luận văn tìm hiểu về các thành phần cơ bản của một hệ thống tìm kiếm
thông tin bao gồm: Thành phần Thu thập dữ liệu: thực hiện thu thập toàn bộ dữ liệu sẽ
tìm kiếm đưa về một nguồn tập trung để phục vụ quá trình phân tích và đánh chỉ mục dữ
liệu. Thành phần Đánh chỉ mục dữ liệu: thực hiện phân tích, tiền xử lý nội dung dữ liệu,
sau đó tiến hành đánh chỉ mục dữ liệu theo cách thức, cơ chế và yêu cầu của từng máy
tìm kiếm cụ thể. Thành phần Tìm kiếm dữ liệu: thực hiện phân tích câu truy vấn và tìm
kiếm tài liệu trên các file index, sau đó kết hợp với thông tin xếp hạng để trả lại kết quả
tìm kiếm cho người dùng.
Luận văn cũng tìm hiểu một cách hệ thống các tính năng và hoạt động của mã nguồn
mở Lucene như: Lucene cung cấp khả năng phân tích dữ liệu, tạo chỉ mục cho các tài liệu để
xây dựng nên hệ thống chỉ mục, cung cấp khả năng tiếp nhận các xâu truy vấn của người
dùng, thực hiện tìm kiếm dựa trên hệ thống chỉ mục đã có và trả về kết quả.
Thực nghiệm, từ cơ sở lý thuyết, luận văn đã xây dựng và cài đặt thành công ứng
dụng thực nghiệm Lucene vào trong hệ thống tìm kiếm Văn bản. Trong đó, ứng dụng thư
viện Lucene.NET để xây dựng hệ thống tìm kiếm với hai thành phần chính là: Tạo chỉ mục
và Tìm kiếm văn bản. Hệ thống được kết thừa toàn bộ thư viện mã nguồn mở Lucene.NET
nên tính hiệu quả rất lớn và không mất chi phí bản quyền sử dụng. |