DeepSeek Gây Sóng Gió Trong Lĩnh Vực Trí Tuệ Nhân Tạo với Các Mô Hình Mới

Không chỉ có V3, ngày 20/1 DeepSeek tiếp tục công bố mô hình "có khả năng lý luận" mang tên DeepSeek R1, được đăng tải mã nguồn trên Github.

Được mệnh danh là "gã khổng lồ thầm lặng", công ty DeepSeek đang trở thành tâm điểm chú ý của Thung lũng Silicon với những đột phá gần đây trong lĩnh vực trí tuệ nhân tạo (AI). Với một chi phí phát triển thấp bất ngờ, DeepSeek đã phát triển các mô hình ngôn ngữ lớn (LLM) với hiệu suất vượt trội so với các đối thủ cạnh tranh.

DeepSeek Gây Sóng Gió Trong Lĩnh Vực Trí Tuệ Nhân Tạo với Các Mô Hình Mới

Cuối tháng 12 năm 2024, DeepSeek công bố mô hình DeepSeek V3 miễn phí, chỉ sau hai tháng phát triển với chi phí chưa tới 6 triệu USD. Điểm đặc biệt, mô hình này sử dụng GPU H800 của Nvidia, một phiên bản có sức mạnh đã được hạ cấp theo lệnh cấm của Mỹ, thay vì sử dụng các chip AI hàng đầu trên thị trường. Trong các bài kiểm tra chuẩn của bên thứ ba, V3 đã vượt qua các mô hình nổi tiếng như Llama 3.1 của Meta, GPT-4o của OpenAI và Claude Sonnet 3.5 của Anthropic, từ giải quyết các vấn đề phức tạp đến toán học và mã hóa.

Không chỉ có V3, ngày 20/1 DeepSeek tiếp tục công bố mô hình "có khả năng lý luận" mang tên DeepSeek R1, được đăng tải mã nguồn trên Github. Mô hình này được đánh giá cao hơn cả o1 mới nhất của OpenAI trong nhiều bài kiểm tra, với chi phí chỉ 2,19 USD cho mỗi triệu token đầu ra, thấp hơn đáng kể so với 60 USD của OpenAI o1.

Giám đốc sản phẩm của DeepSeek, Shubham Saboo, phát biểu trên X vào cuối tháng 1, "DeepSeek R1 là mã nguồn mở 100%, rẻ hơn 96,4% so với OpenAI o1 trong khi vẫn mang lại hiệu suất tương tự". Arnaud Bertrand, người sáng lập HouseTrip và Me & Qi, cũng nhận xét trên X, "Điều này giống như ai đó phát hành điện thoại có sức mạnh bằng với iPhone, nhưng bán với giá chỉ 30 USD".

DeepSeek Gây Sóng Gió Trong Lĩnh Vực Trí Tuệ Nhân Tạo với Các Mô Hình Mới 2

Tại Diễn đàn Kinh tế Thế giới ở Davos ngày 22/1, CEO Microsoft Satya Nadella nhận xét, "Mô hình DeepSeek mới thực sự ấn tượng. Họ đã biết cách thực hiện hiệu quả một mô hình nguồn mở có khả năng suy luận, đạt hiệu quả tính toán siêu việt".

Các chuyên gia AI cũng ca ngợi cách DeepSeek sử dụng quy trình gọi là 'chưng cất' để phát triển LLM, giúp tạo ra mô hình nhỏ thông minh từ mô hình lớn mà không tốn nhiều chi phí. Chetan Puttagunta của Benchmark nói với CNBC, "Họ đã tạo ra một LLM thực sự tốt và tiết kiệm chi phí".

Những đột phá của DeepSeek không chỉ làm dấy lên câu hỏi về việc liệu Mỹ có đang mất dần vị thế dẫn đầu toàn cầu về AI không, mà còn về hiệu quả chi tiêu của các công ty công nghệ lớn cho mô hình AI và trung tâm dữ liệu. DeepSeek, được thành lập vào tháng 5/2023 bởi Liang Wenfeng và có trụ sở ở Hàng Châu, Chiết Giang, được đầu tư toàn phần bởi quỹ đầu tư High-Flyer của Trung Quốc và không có kế hoạch huy động vốn. Họ tự chủ tài chính và sớm có lãi nhờ sự đổi mới trong kiến trúc mô hình AI.

DeepSeek Gây Sóng Gió Trong Lĩnh Vực Trí Tuệ Nhân Tạo với Các Mô Hình Mới 3

Tại Thung lũng Silicon, DeepSeek được coi là "thế lực bí ẩn từ phương Đông", thể hiện rõ ràng thông qua sự tiết kiệm và hiệu quả của các mô hình của họ. Khi các công ty khác trong lĩnh vực AI của Trung Quốc cũng đang tiến hành các bước phát triển tương tự, cuộc đua trong việc phát triển AI hiệu quả và tiết kiệm đang ngày càng trở nên quyết liệt

Bài viết đọc nhiều nhất

Bài viết mới trong ngày

Top Các Diễn Viên Hóa Trang Thành Nhân Vật Lớn Tuổi Sẽ Như Thế Nào So Với Gương Mặt Khi Già Ngoài Đời Thực (Phần 1)

Top Các Diễn Viên Hóa Trang Thành Nhân Vật Lớn Tuổi Sẽ Như Thế Nào So Với Gương Mặt Khi Già Ngoài Đời Thực (Phần 1)

Nguyễn Võ Bảo Phương

Diễn viên còn trẻ được hóa trang già hơn để đóng các nhân vật lớn tuổi. Vậy khi đến độ tuổi thật ngoài đời liệu các ngôi sao có thật sự trong giống như lớp trang điểm nghệ thuật trước đó đã thể hiện hay không? Cùng xem và đưa ra nhận định của bản thân nhé!

Phim Ảnh
Lên đầu trang