Mô hình AI Việt Nam đạt thành tích ấn tượng trong lĩnh vực đọc hiểu tài liệu hình ảnh

Trong bối cảnh công nghệ phát triển mạnh mẽ, một mô hình AI mang tên CATI-VLM đã ghi dấu ấn quan trọng khi được xếp hạng 12 thế giới tại cuộc thi Robust Reading Competition (RRC) 2025. Đây là một thành tựu đáng tự hào cho ngành công nghệ thông tin Việt Nam, khẳng định vị thế của đất nước trong lĩnh vực trí tuệ nhân tạo.

Cuộc thi RRC và sự tham gia của các tổ chức hàng đầu

Robust Reading Competition (RRC) là một sự kiện uy tín do Trung tâm Thị giác Máy tính thuộc Đại học Autònoma de Barcelona tổ chức. Cuộc thi thu hút sự tham gia của nhiều trường đại học, viện nghiên cứu và các tập đoàn công nghệ hàng đầu trên toàn cầu. Mục tiêu của RRC là thúc đẩy các giải pháp công nghệ trong lĩnh vực thị giác máy tính, từ đó ứng dụng vào nhiều lĩnh vực như dịch thuật, quản lý dữ liệu, và xử lý tài liệu lịch sử.

Thành tích nổi bật của CATI-VLM

Trong bảng xếp hạng công bố vào tháng 6, mô hình CATI-VLM đã xuất sắc đứng thứ 12 trong hạng mục trả lời câu hỏi từ tài liệu hình ảnh (Document Visual Question Answering – DocVQA). Điều này không chỉ thể hiện khả năng vượt trội của mô hình mà còn cho thấy sự đầu tư nghiêm túc của đội ngũ phát triển trong việc tối ưu hóa hiệu suất và độ chính xác.

Bảng xếp hạng của RRC về trả lời câu hỏi từ tài liệu hình ảnh.

Khả năng phân tích và hiểu biết vượt trội

CATI-VLM được phát triển từ một kho dữ liệu khổng lồ lên tới 5 TB, cho phép mô hình không chỉ nhận diện ký tự mà còn phân tích cấu trúc bố cục của tài liệu. Mô hình có khả năng nhận diện các thành phần phi văn bản như checkbox, biểu đồ, và công thức, đồng thời nắm bắt phong cách thể hiện như font chữ và các vùng được tô đậm. Điều này giúp CATI-VLM có thể trả lời các câu hỏi từ hình ảnh tài liệu một cách chính xác và nhanh chóng.

Đội ngũ nghiên cứu và tầm nhìn tương lai

Đại diện nhóm nghiên cứu, TS. Đặng Minh Tuấn, cho biết thành công này là minh chứng cho khả năng làm chủ công nghệ của Việt Nam trong việc giải quyết các bài toán đặc thù của ngôn ngữ và lĩnh vực chuyên ngành. Ông nhấn mạnh rằng nhóm đã tập trung vào việc tối ưu hóa hiệu suất thay vì chỉ chạy đua về số lượng tham số, giúp mô hình hoạt động hiệu quả trong điều kiện Việt Nam.

Xem thêm các nội dung khác hấp dẫn và mới nhất tại Máy Công Nghiệp

Định hướng phát triển và ứng dụng

Ông Nguyễn Trung Chính, Chủ tịch CMC, cho biết thành quả này là kết quả của hơn 10 năm đầu tư vào nghiên cứu và phát triển, thể hiện chiến lược làm chủ công nghệ và hướng tới thị trường toàn cầu. Ông tin rằng trí tuệ Việt Nam hoàn toàn có khả năng cạnh tranh với các gã khổng lồ công nghệ thế giới.

CATI-VLM sẽ được ứng dụng vào nhiều sản phẩm trong hệ sinh thái công nghệ, bao gồm trợ lý ảo hỗ trợ rà soát văn bản pháp luật, nền tảng số hóa tài liệu, và hệ thống báo cáo tự động cho văn phòng thông minh. Điều này không chỉ giúp nâng cao hiệu quả công việc mà còn mở ra nhiều cơ hội mới cho ngành công nghệ thông tin tại Việt Nam.

Trọng Đạt

  • Nền tảng AI hỗ trợ người khiếm thính giao tiếp của người Việt
  • Những điểm nhấn AI nửa đầu 2025
  • ‘Bão’ đơn xin việc AI