Nghiên cứu cho thấy ngay cả những mô hình AI tốt nhất cũng "phá sản" vì dự đoán Ngoại hạng Anh

Dù làm mưa làm gió ở các bài kiểm tra lập trình hay giải toán, các hệ thống AI tiên tiến nhất thế giới từ Google, OpenAI hay xAI đều "ngã ngựa" khi đối đầu với sự biến hóa khôn lường của quả bóng tròn tại Premier League.

Một nghiên cứu mới mang tên KellyBench từ startup General Reasoning (London) đã phơi bày một sự thật thú vị: Trí tuệ nhân tạo vẫn chưa thể khuất phục được sự "hỗn loạn" của thế giới thực. Trong bài kiểm tra giả lập toàn bộ mùa giải Ngoại hạng Anh 2023-24, các mô hình AI hàng đầu đã bộc lộ lỗ hổng lớn về khả năng suy luận dài hạn và quản lý rủi ro.

Nghiên cứu cho thấy ngay cả những mô hình AI tốt nhất cũng phá sản vì dự đoán Ngoại hạng Anh

"Sát thủ" lập trình nhưng lại là "tay mơ" cá cược

Nghiên cứu đã đưa 8 mô hình AI vào một môi trường ngắt kết nối internet, cung cấp dữ liệu lịch sử chi tiết và yêu cầu chúng xây dựng chiến lược cá cược tối ưu lợi nhuận. Kết quả thật bất ngờ khi hầu hết các "bộ não" điện tử này đều kết thúc mùa giải trong tình trạng thua lỗ, thậm chí là phá sản.

  • Claude Opus 4.6 (Anthropic): Hoạt động ổn định nhất nhưng vẫn lỗ trung bình 11%.

  • Grok 4.20 (xAI): Gây thất vọng lớn khi phá sản ngay trong lần thử đầu tiên và không thể hoàn thành các bài thi sau đó.

  • Gemini 3.1 Pro (Google): Gương mặt hiếm hoi tạo ra điểm sáng với một lần thử đạt lợi nhuận 34%, dù ở lần thử khác cũng chịu thất bại tài chính.

Nhìn chung, hiệu suất của dàn siêu AI này vẫn thua xa so với những người chơi cá cược chuyên nghiệp – những người vốn dựa vào sự nhạy bén và kinh nghiệm thực tế.

Nghiên cứu cho thấy ngay cả những mô hình AI tốt nhất cũng phá sản vì dự đoán Ngoại hạng Anh 2

Khoảng cách giữa phòng thí nghiệm và đời thực

Ross Taylor, CEO của General Reasoning và cựu chuyên gia tại Meta AI, nhận định rằng kết quả này phản ánh sự cường điệu quá mức về tự động hóa AI. Theo ông, các tiêu chuẩn đánh giá hiện nay quá tập trung vào "môi trường tĩnh" (như viết code, tóm tắt văn bản) mà bỏ qua tính thất thường, phụ thuộc hoàn cảnh của thực tế.

"Nếu bạn mang AI ứng dụng vào các nhiệm vụ thực tế có tầm nhìn dài hạn và biến số thay đổi liên tục, kết quả sẽ rất tệ," Taylor chia sẻ với Financial Times.

Bài học về khả năng suy luận thực tiễn

Thí nghiệm KellyBench chứng minh rằng khả năng tạo phần mềm hay giải quyết các vấn đề có cấu trúc không đồng nghĩa với việc AI có thể hiểu được các vòng phản hồi không chắc chắn của xã hội.

Dù các nhà phát triển đang nỗ lực thu hẹp khoảng cách giữa trí tuệ kỹ thuật số và khả năng suy luận thực tế, nhưng cho đến nay, những biến số như phong độ cầu thủ, chấn thương hay những khoảnh khắc xuất thần trên sân cỏ vẫn là một "bài toán khó" mà chưa thuật toán nào giải được trọn vẹn.

Bài viết đọc nhiều nhất

Bài viết mới trong ngày

Cú sốc từ "ông lớn" Studio KAI: Khi những chiến mã "Uma Musume" gục ngã trước bài toán tài chính

Cú sốc từ "ông lớn" Studio KAI: Khi những chiến mã "Uma Musume" gục ngã trước bài toán tài chính

hoanlagvn

Từng là niềm tự hào của giới mộ điệu với những khung hình mượt mà trong "Uma Musume", thế nhưng Studio KAI vừa chính thức tuyên bố vỡ nợ với khoản thâm hụt khổng lồ lên đến 3,5 triệu USD. Một nốt trầm buồn cho ngành công nghiệp Anime vốn đang đứng trước cơn bão phá sản.

Giải trí
Lên đầu trang