Đề tài: Phát triển bộ công cụ DaNangNLP để tiền xử lý và trích xuất thông tin trong xử lý ngôn ngữ tiếng Việt
Đề tài: Phát triển bộ công cụ DaNangNLP để tiền xử lý và trích xuất thông tin trong xử lý ngôn ngữ tiếng Việt
Nhóm sinh viên thực hiện:
- Nguyễn Kết Đoàn – 20AD
- Nguyễn Trần Tiến – 20SE5
- Tôn Thất Rôn – 21GIT
- Trương Thế Quốc Dũng – 21GIT
- Phạm Văn Nam – 21GIT
Giảng viên hướng dẫn: TS. Nguyễn Hữu Nhật Minh
Thông tin chung:
Nhóm DaNangNLP đã xây dựng DaNangNLP Toolkits giúp thực hiện được các bước tiền xử lý và rút trích thông tin từ văn bản Tiếng Việt dựa trên các công nghệ mới trong xử lý ngôn ngữ Tiếng Việt. Sản phẩm được cung cấp thành thành các API Service và đồng thời được triển khai trên nền tảng Web có giao diện. Mô-đun tiền xử lý Tiếng Việt gồm các chức như phân đoạn câu, xử lý từ viết tắt, từ tính code thành về dạng nguyên mẫu, xử lý các từ viết sai băng Unikey, xử lý đánh dấu từ giúp chuyển các từ có dấu sai vị trí thành đúng vị trí chuẩn trong văn bản, chuyển đổi văn bản thành số làm sao số lượng mã thông báo. Trong quá trình tiền xử lý Tiếng Việt nhóm cũng đã chú trọng xây dựng mô-đun tách từ một cách hiệu quả dựa trên ngữ nghĩa và tần suất xuất hiện của các từ. Mô-đun này khắc phục một số vấn đề mà các mô-đun phân đoạn từ trước đó còn mắc phải đó là sự đa hình đa nghĩa trong Tiếng Việt. Sự phân tách từ hợp lý cũng tiền đề giúp các mô hình ngôn ngữ Tiếng Việt hiểu đúng hơn về ngữ nghĩa và các chức năng xử lý nâng cao khác. Bên cạnh đó, DaNangNLP cung cấp chức năng gán nhãn từ loại (POS) trong một câu và rút trích các thông tin thực thể trong một câu. Các thông tin được rút trích gồm tên, địa danh và tổ chức và có thể tiếp tục mở rộng để giúp hỗ trợ trong việc xử lý tự động các văn bản Tiếng Việt.
386 Views