Khoa học - Công nghệ

14.03.2025

Một hội thảo học thuật quốc tế với chủ đề xu hướng toàn cầu về trí tuệ nhân tạo (AI) và tài nguyên ngôn ngữ do Viện Ngôn ngữ Quốc gia Hàn Quốc (NIKL) tổ chức tại trụ sở chính của Phòng Thương mại và Công nghiệp Hàn Quốc (KCCI), quận Jung-gu, thành phố Seoul vào ngày 4/12/2024. (Ảnh: Viện Ngôn ngữ Quốc gia Hàn Quốc)

Một hội thảo học thuật quốc tế với chủ đề xu hướng toàn cầu về trí tuệ nhân tạo (AI) và tài nguyên ngôn ngữ do Viện Ngôn ngữ Quốc gia Hàn Quốc (NIKL) tổ chức tại trụ sở chính của Phòng Thương mại và Công nghiệp Hàn Quốc (KCCI), quận Jung-gu, thành phố Seoul vào ngày 4/12/2024. (Ảnh: Viện Ngôn ngữ Quốc gia Hàn Quốc)



Bài viết từ Margareth Theresia

Khi công nghệ trí tuệ nhân tạo (AI) ngày càng trở nên tinh vi, phổ biến và được ứng dụng nhiều hơn vào cuộc sống của chúng ta, nhiều quốc gia trên toàn thế giới đang tiếp tục đầu tư vốn, nguồn lực vào việc phát triển AI, và Hàn Quốc cũng là một trong số đó.

Hiện nay, Viện Ngôn ngữ Quốc gia Hàn Quốc (NIKL) thuộc Bộ Văn hóa, Thể thao và Du lịch Hàn Quốc (MCST) đang đẩy nhanh dự án tạo ra các kho ngữ liệu văn bản (corpus) tiếng Hàn chất lượng cao với mục đích phát triển công nghệ AI dựa trên tiếng Hàn.

Ngữ liệu văn bản bao gồm những dữ liệu về ngôn ngữ được sắp xếp để máy tính có thể xử lý được, chẳng hạn như: cuốn sách, bài báo, phụ đề trên YouTube, blog hay trò chuyện trên messenger. Vai trò của nó không chỉ là giúp AI sẽ hiểu và sử dụng tiếng Hàn một cách hiệu quả hơn, mà còn hỗ trợ các nghiên cứu về ngôn ngữ cũng như phát triển AI.

NIKL đang phát triển ba loại ngữ liệu văn bản: 1) ngữ liệu văn bản có tài liệu gốc được số hóa mà không phân tích; 2) ngữ liệu văn bản có các câu và cụm từ kèm theo thông tin phân tích; 3) ngữ liệu văn bản song song có những nội dung từng được biên dịch bằng hai hoặc nhiều ngôn ngữ. Cả ba đều là những yếu tố chính để phát triển phần mềm hay công cụ dịch thuật AI.

Ảnh trái: Sách hướng dẫn dịch thuật cho kho ngữ liệu văn bản song song tiếng Hàn - tiếng nước ngoài được phát hành vào năm 2023. Ảnh phải: Poster của hội thảo học thuật quốc tế với chủ đề xu hướng toàn cầu về trí tuệ nhân tạo (AI) và tài nguyên ngôn ngữ do Viện Ngôn ngữ Quốc gia Hàn Quốc (NIKL) tổ chức vào năm ngoái. (Ảnh: Viện Ngôn ngữ Quốc gia Hàn Quốc)

Ảnh trái: Sách hướng dẫn dịch thuật cho kho ngữ liệu văn bản song song tiếng Hàn - tiếng nước ngoài được phát hành vào năm 2023. Ảnh phải: Poster của hội thảo học thuật quốc tế với chủ đề xu hướng toàn cầu về trí tuệ nhân tạo (AI) và tài nguyên ngôn ngữ do Viện Ngôn ngữ Quốc gia Hàn Quốc (NIKL) tổ chức vào năm ngoái. (Ảnh: Viện Ngôn ngữ Quốc gia Hàn Quốc)



Bà Park Miyoung, nhà nghiên cứu cấp cao từ NIKL, đã cho biết: “Để đặt nền tảng cho làn sóng Hallyu dựa trên AI, chúng tôi đã bắt đầu hỗ trợ việc phát triển công nghệ phiên - biên dịch áp dụng AI, đồng thời thúc đẩy dự án phát triển kho ngữ liệu văn bản song song tiếng Hàn - tiếng nước ngoài với mục đích đảm bảo động lực tăng trưởng cho ngành ngôn ngữ và văn hóa”.

Dự án phát triển kho ngữ liệu văn bản song song tiếng Hàn - tiếng nước ngoài là một phần của kế hoạch trung dài hạn cho việc tạo ra một kho dữ liệu lớn trong ngành ngôn ngữ và văn hóa do Bộ VHTTDL Hàn Quốc công bố vào năm 2021. Dự án này đặc biệt nhắm vào các ngôn ngữ nước ngoài thiếu thông tin về bản dịch sang tiếng Hàn.

Cân nhắc những quốc gia có nhu cầu học tiếng Hàn ngày càng tăng mạnh, NIKL đã lựa chọn 8 thứ tiếng bao gồm: tiếng Việt, tiếng Indonesia, tiếng Thái, tiếng Hindi (Ấn Độ), tiếng Khmer (Campuchia), tiếng Tagalog (Philippines), tiếng Nga và tiếng Uzbek.

Kho ngữ liệu văn bản song song tiếng Hàn - tiếng nước ngoài của NIKL đã được phát triển bởi các chuyên gia biên dịch để đảm bảo chất lượng cao. Những nội dung được thu thập từ năm 2021-23 đã được công bố trên trang web Modu Corpus (https://kli.korean.go.kr), và những nội dung được thu thập vào năm ngoái sẽ được công bố vào cuối năm.

Kho ngữ liệu văn bản được sử dụng rộng rãi để nâng cao năng lực dịch thuật của AI. Các dịch vụ AI hàng đầu như HyperClovaX của cổng thông tin tìm kiếm NAVER và A. (A dot) của hãng viễn thông SK Telecom cũng áp dụng kho ngữ liệu văn bản do NIKL phát triển.

Trang web về kho ngữ liệu văn bản tiếng Hàn. (Ảnh: Chụp màn hình từ trang web về kho ngữ liệu văn bản tiếng Hàn)

Trang web về kho ngữ liệu văn bản tiếng Hàn. (Ảnh: Chụp màn hình từ trang web về kho ngữ liệu văn bản tiếng Hàn)



Nhà nghiên cứu Park nói: “Số lượng người nước ngoài sống lâu năm tại Hàn Quốc đang tăng lên, nhưng vẫn còn thiếu hỗ trợ biên dịch trong các dịch vụ hành chính và công cộng. Chúng tôi phải tiếp tục thực hiện dự án thứ hai (2026-2030) sau khi hoàn thành dự án đầu tiên (2021-2025) để phát triển hơn nữa công nghệ dịch máy”.

“Để nâng cao hiệu suất AI, chúng tôi phải thu thập thêm nhiều dữ liệu có hình thức khác nhau như hình ảnh, âm thanh, video. Chúng tôi sẽ tiếp tục phát triển nhiều loại ngữ liệu văn bản để dẫn đầu làn sóng Hallyu dựa trên AI”, theo bà.

Kho ngữ liệu văn bản tiếng Hàn được cung cấp miễn phí tại đường link này: https://kli.korean.go.kr

margareth@korea.kr