DeepSeek đã tạo nên cơn bão mạng sau khi các báo cáo cho rằng mô hình AI của họ vượt trội hơn hầu hết các mô hình AI tiên tiến nhất trên thế giới bắt đầu lan truyền trên mạng.
Đáng chú ý, DeepSeek chỉ chi chưa đến 6 triệu USD để đào tạo các mô hình AI của mình, so với 100 triệu USD mà OpenAI đầu tư cho việc tương tự.
Điều này không chỉ giúp DeepSeek trở thành ứng dụng miễn phí số một trên App Store mà còn gây ra một cuộc lao dốc lịch sử hơn 400 tỷ USD trong vốn hóa thị trường của NVIDIA tại Mỹ.
Lượng truy cập khổng lồ vào chatbot AI này đã khiến máy chủ của DeepSeek gặp sự cố ngừng hoạt động và các vấn đề về hiệu suất, và công ty cũng đổ lỗi cho các cuộc tấn công mạng.
Bất chấp những thách thức này, phòng thí nghiệm AI Trung Quốc vẫn tiến lên phía trước, công bố một mô hình AI mã nguồn mở mang tính đột phá có tên Janus-Pro.
Mô hình mới này đã gây xôn xao, bởi theo các báo cáo, mô hình tạo ảnh Janus-Pro vượt trội hơn DALL-E của OpenAI, Stable Diffusion của Stability AI và các mô hình tạo ảnh khác trong nhiều bài kiểm tra chuẩn.
Janus-Pro là bản cập nhật của Janus, được ra mắt vào cuối năm ngoái. Janus-Pro có nhiều kích cỡ khác nhau, từ phiên bản nhỏ gọn 1 tỷ tham số đến phiên bản 7 tỷ tham số, gần bằng kích thước của SD 3.5L.
Theo thông tin được DeepSeek chia sẻ, mô hình lớn nhất, Janus-Pro-7B, xuất sắc trong cả việc tạo ảnh và phân tích, vượt qua các đối thủ hàng đầu như PixArt-alpha, Emu3-Gen và SDXL trong các bài kiểm tra chuẩn công nghiệp GenEval và DPG-Bench.
Mô hình Janus-Pro-7B có thể được tải xuống miễn phí từ Huggingface, một nơi phổ biến dành cho AI và máy học.
Janus-Pro-7B dựa trên một khung tự hồi quy tách biệt các quy trình mã hóa hình ảnh trong khi vẫn giữ một kiến trúc transformer thống nhất để xử lý.
Điều này “không chỉ làm giảm bớt sự xung đột giữa vai trò của bộ mã hóa hình ảnh trong việc hiểu và tạo mà còn tăng cường tính linh hoạt của khung.”
Tuy nhiên, mặc dù Janus-Pro vượt trội hơn các đối thủ trong nhiều nhiệm vụ, nó không vượt trội hơn các mô hình chuyên biệt được xây dựng cho các quy trình đơn lẻ.
Mô hình tạo ảnh mới này xuất hiện ngay sau thành công trước đó của DeepSeek với mô hình ngôn ngữ R1, đang tạo ra sự cạnh tranh khốc liệt với khả năng của GPT-4, với chi phí chỉ bằng một phần nhỏ.
Chi phí phát triển thấp của các mô hình tiên tiến này đã gây chấn động trong ngành công nghiệp AI tại Mỹ.