DỮ LIỆU TIẾNG VIỆT ĐÀO TẠO AI CHIẾM CHƯA TỚI 1%
Chương trình Thách thức đổi mới sáng tạo AISC 2025 (sự kiện quy tụ các hãng công nghệ, bán dẫn hàng đầu thế giới) tập trung vào dự án ViGen với nỗ lực tạo bộ dữ liệu tiếng Việt mã nguồn mở chất lượng cao để đào tạo, đánh giá và từ đó nâng cao hiệu quả của mô hình ngôn ngữ lớn (LLMs), giúp AI hiểu rõ hơn văn hóa, bối cảnh và cách diễn đạt trong tiếng Việt.
Dự án được kỳ vọng sẽ nâng cao sự hiện diện của tiếng Việt trong quá trình phát triển AI, đồng thời góp phần thúc đẩy kinh tế số.

Ông Trần Việt Hùng - CEO ViGen.
Phát biểu tại sự kiện họp báo công bố dự án ViGen tại AISC 2025, ông Trần Việt Hùng (Sáng lập mạng lưới STEAM For Vietnam, AI For Vietnam và CEO ViGen), nêu ra thực tế rằng các dữ liệu đào tạo tiếng Việt trong lĩnh vực AI chỉ chiếm 0,8% - một phần rất nhỏ về đầu vào. Việc ứng dụng AI vì vậy chưa hiệu quả.
Nhận ra thách thức này, tổ chức AI For Vietnam đã phối hợp với Tập đoàn Meta, Trung tâm đổi mới sáng tạo Quốc gia (NIC) mở ra dự án ViGen.
Sứ mệnh của dự án là làm cho các mô hình AI hỗ trợ tiếng Việt một cách tự nhiên và toàn diện ngay từ trong lõi để mở khoá tiềm năng các ứng dụng AI tại Việt nam.
ViGen sẽ xây dựng các bộ dữ liệu tiếng Việt nguồn mở với quy mô lớn và chất lượng cao để đào tạo và đánh giá khả năng của các mô hình AI.
Dự án ViGen cũng đóng góp vào việc đảm bảo sự phát triển AI ở Việt Nam phù hợp với giá trị văn hoá và tiêu chuẩn đạo đức, hướng tới việc xây dựng một hệ sinh thái AI mã nguồn mở phù hợp với bối cảnh địa phương và có trách nhiệm.
CÁCH ĐỂ VIỆT NAM ĐỨNG TRÊN VAI NGƯỜI KHỔNG LỒ, TĂNG TỐC PHÁT TRIỂN AI.
Ông Sarim Aziz, Giám đốc Chính sách công tại Meta chia sẻ, Tập đoàn Meta (sở hữu Facebook) đang hỗ trợ Việt Nam về mọi mặt trong phát triển AI. Meta sẽ đóng góp các bộ dữ liệu mã nguồn mở của mình, bao gồm những thông tin chi tiết về di chuyển và kết nối xã hội, cũng như dữ liệu đào tạo từ các bản đồ dân số có sự hỗ trợ của AI.
“Thứ nhất, chúng tôi cung cấp cho các bạn mô hình AI mã nguồn mở Meta Llama. Cái đó giống như động cơ ô tô và chúng tôi cung cấp miễn phí để các bạn xây dựng nên những chiếc ô tô của riêng mình. ViGen sẽ là nhiên liệu để chạy trên động cơ của chúng tôi”.

Đại diện Meta cho biết, tập đoàn này đang hỗ trợ Việt Nam giải quyết bài toán AI cả về công nghệ, kiến thức lẫn kinh tế. Mô hình Llama là minh chứng rõ ràng nhất. Hiện nay, tại Việt Nam, Llama đã được ứng dụng để xây dựng những trợ lý ảo tự động hóa việc truy xuất thông tin của Misa và trợ lý ảo pháp lý của Viettel. Đây là những ví dụ bước đầu cho thấy ứng dụng của AI trong đời sống người Việt, đặc biệt là ở trong khu vực công.
“Chúng tôi cũng hỗ trợ Việt Nam giúp đào tạo, nâng cao nhận thức về AI với 900.000 học sinh được đào tạo và chúng tôi đang nỗ lực mở rộng việc này”.
Tuy nhiên, Giám đốc Chính sách công của Meta cũng nhấn mạnh, Việt Nam đang đối mặt với nhiều thách thức như nhân lực giỏi, dữ liệu tiếng Việt chất lượng cao, hạ tầng số, sự ổn định của chính sách pháp lý… “Đây chính là lý do chúng tôi cần có thêm sự hợp tác của Nvidia và Viettel… trong việc giúp Việt Nam phát triển AI".
Ông Nguyễn Trường Thắng, Viện trưởng Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam chia sẻ: “AI bản chất giống như đứa bé của các tập đoàn công nghệ tạo ra và nó có khả năng học hỏi rất nhanh. Llama là do Meta tạo ra và nó cho phép chúng ta tiếp cận, dạy cho Llama kiến thức bằng tiếng Việt, và đó chính là việc mà dự án ViGen đang làm".
Theo ông Thắng, khi những dự án như ViGen được triển khai tốt, chúng ta sẽ tận dụng được AI mã nguồn mở và đây chính là cách Việt Nam đứng trên vai người khổng lồ để đi nhanh hơn.
Theo báo cáo của Deloitte, mô hình Llama đang được sử dụng phổ biến tại nhiều nước APAC như Việt Nam, Hàn Quốc, Singapore, Parkistan…
Meta mong muốn trong thời gian tới sẽ tiếp tục hợp tác sâu rộng với các công ty công nghệ Việt Nam để phát triển AI theo xu hướng mã nguồn mở. “Thông qua các chương trình hợp tác, chúng ta cùng triển khai tối đa tiềm năng công nghệ số và tạo dựng tương lai tốt đẹp hơn”, đại diện Meta nói.