Trong thời đại công nghệ số hiện nay, sự phát triển của trí tuệ nhân tạo (AI) đang tạo ra những bước tiến vượt bậc, đặc biệt là trong lĩnh vực ngôn ngữ. Một trong những ứng dụng nổi bật gần đây là trợ lý hỏi đáp Kiki Info, được phát triển từ mô hình ngôn ngữ lớn (LLM) tiếng Việt, đã thu hút hàng triệu lượt truy cập chỉ trong vòng hai tháng.
Mô hình ngôn ngữ lớn với 13 tỷ tham số, được phát triển bởi đội ngũ kỹ sư trong nước, đang được ứng dụng rộng rãi trong nhiều lĩnh vực. Trợ lý hỏi đáp Kiki Info hoạt động dưới dạng tài khoản chính thức trên nền tảng nhắn tin, cung cấp cho người dùng nhiều tính năng hữu ích. Người dùng có thể đặt câu hỏi về các chủ đề đa dạng như khoa học, lịch sử, và luật giao thông, bên cạnh đó, trợ lý còn hỗ trợ sáng tạo nội dung như viết văn, soạn thảo email và đăng bài trên mạng xã hội. Đặc biệt, Kiki Info cũng mang đến những gợi ý giải trí thú vị về địa điểm du lịch, âm nhạc và sách.
Theo thống kê từ đội ngũ phát triển, chỉ trong gần hai tháng, Kiki Info đã ghi nhận hơn 1 triệu lượt truy cập từ người dùng trên nền tảng nhắn tin. Điều này cho thấy sự quan tâm và nhu cầu cao từ phía người dùng đối với các ứng dụng AI thông minh.
Không chỉ dừng lại ở đó, một ứng dụng khác cũng rất thành công là thiệp AI, với hơn 15 triệu thiệp được người dùng tạo và gửi đi trong cùng khoảng thời gian. Ứng dụng này giúp người dùng gửi lời chúc đến bạn bè và người thân trong các dịp lễ quan trọng, thể hiện sự sáng tạo và cá tính của mỗi người.
Các ứng dụng này không chỉ giúp người dùng tiết kiệm thời gian tìm kiếm thông tin mà còn tạo ra những kết nối sáng tạo hơn trong cuộc sống hàng ngày. Mô hình LLM của đội ngũ phát triển được xây dựng từ đầu, với quy trình huấn luyện toàn diện từ khởi tạo tham số đến quyết định kiến trúc mô hình và thuật toán huấn luyện trên tập dữ liệu cụ thể.
Đến cuối năm 2024, mô hình này dự kiến sẽ đạt vị trí top 2 trong bảng xếp hạng VMLU, một nền tảng đánh giá năng lực tiếng Việt của các mô hình ngôn ngữ lớn. Mô hình này đã vượt qua nhiều tên tuổi lớn như GPT-4 và Google, cho thấy sự phát triển mạnh mẽ của công nghệ AI tại Việt Nam.
Đội ngũ phát triển cho biết đây là một thành công lớn, đặc biệt khi Việt Nam gặp nhiều khó khăn trong giai đoạn đầu phát triển. Trong khi các doanh nghiệp lớn trên thế giới có đủ hệ thống GPU hiện đại, hạ tầng máy chủ tại Việt Nam vẫn còn hạn chế. Tiếng Việt cũng được xem là một ngôn ngữ có tài nguyên dữ liệu nghèo nàn hơn so với tiếng Anh hay tiếng Trung.
Để khắc phục những khó khăn này, các doanh nghiệp trong nước đã đầu tư vào hạ tầng tính toán với 8 máy chủ DGX H100, sử dụng dòng GPU mới nhất của Nvidia với hiệu suất lên đến 256 petaFLOPS. Điều này cho phép họ thực hiện hàng triệu phép tính mỗi giây, tạo điều kiện thuận lợi cho việc huấn luyện mô hình.
Đồng thời, dữ liệu huấn luyện cũng được đầu tư phát triển để bù đắp cho sự thiếu hụt về nguồn dữ liệu tiếng Việt. Thông qua các nghiên cứu trên các GPU dân dụng nhỏ, đội ngũ kỹ sư đã tích lũy kiến thức và kinh nghiệm để sẵn sàng cho việc phát triển mô hình lớn hơn trong tương lai.
Với định hướng rõ ràng, mô hình ngôn ngữ lớn với 7 tỷ tham số đã được phát triển và ra mắt vào năm 2023, đạt 150% năng lực so với các mô hình nổi tiếng khác trên thế giới. Điều này không chỉ khẳng định vị thế của Việt Nam trong lĩnh vực AI mà còn mở ra nhiều cơ hội mới cho người dùng.
Đại diện đội ngũ phát triển cho biết, mô hình LLM sẽ tiếp tục được đầu tư và cải tiến để mang đến nhiều ứng dụng AI hơn cho người dùng. Họ hướng tới việc làm chủ công nghệ AI tiên tiến, góp phần vào sự phát triển công nghệ của đất nước với những định hướng về khoa học, công nghệ và đổi mới sáng tạo.
Hoài Phương