Google vừa chính thức khởi động kỷ nguyên Gemini 2.0 với việc ra mắt mô hình Gemini 2.0 Flash hoàn toàn mới. Công ty tuyên bố rằng Gemini 2.0 Flash thậm chí còn vượt trội hơn Gemini 1.5 Pro trên các tiêu chuẩn đánh giá benchmark chính, và đồng thời cũng nhanh hơn gấp 2 lần so với phiên bản tiền nhiệm.
Như vậy, Gemini 2.0 Flash sẽ trở thành mô hình AI hàng đầu của Google, cạnh tranh trực tiếp với các dịch vụ đến từ OpenAI cũng như những tên tuổi lớn khác trên thị trường. Ngoài hiệu suất được cải thiện và độ trễ thấp, Gemini 2.0 Flash còn đi kèm với khả năng hỗ trợ gốc cho đầu ra đa phương thức, bao gồm hình ảnh được tạo gốc kết hợp với văn bản và âm thanh đa ngôn ngữ chuyển văn bản thành giọng nói (TTS) có thể điều khiển. Mô hình tiên tiến này cũng hỗ trợ các dữ liệu đầu vào đa phương thức như hình ảnh, video và âm thanh, đồng thời có khả năng liên kết chặt chẽ với các công cụ gốc, bao gồm Google Search, thực thi mã và nhiều công cụ khác.
Nói theo cách dễ hiểu, Gemini 2.0 Flash nổi bật với khả năng xử lý nhiều loại đầu vào (văn bản, hình ảnh, video, âm thanh) để tạo sản phẩm đầu ra đa dạng (bao gồm cả hình ảnh và giọng nói). Ở thế hệ trước, Flash 1.5 chỉ tạo được văn bản và không phù hợp với các tác vụ yêu cầu cao. Với 2.0 Flash, Google khẳng định mô hình này không chỉ nhanh mà còn cực kỳ linh hoạt nhờ khả năng sử dụng công cụ như Google Search và kết nối với API bên ngoài.
Các nhà phát triển hiện có thể dùng thử phiên bản thử nghiệm của Gemini 2.0 Flash trong AI Studio và Vertex AI ngay hôm nay. Ngoài ra, Google cũng đang triển khai thử nghiệm miễn phí Multimodal Live API mới với âm thanh theo thời gian thực, đầu vào phát trực tuyến video và khả năng sử dụng nhiều công cụ kết hợp.
Mô hình Gemini 2.0 Flash mới sẽ khả dụng cho người dùng thông qua trải nghiệm Gemini trên PC, web, và sẽ sớm có trên các ứng dụng di động. Theo kế hoạch, Google sẽ công bố tính khả dụng chung của Gemini 2.0 Flash vào tháng 1 năm 2025.
Cùng với Gemini 2.0 Flash, Google cũng công bố một số nguyên mẫu khám phá khả năng hoạt động của Gemini 2.0.
- Project Astra hiện có thể giao tiếp đa ngôn ngữ và ngôn ngữ hỗn hợp. Hiện tại, Project Astra cung cấp tới 10 phút bộ nhớ trong phiên và có thể sử dụng Google Search, Lens và Maps.
- Project Mariner là một tác nhân AI có thể hiểu và lý giải thông tin trên màn hình trình duyệt của người dùng để hoàn thành nhiệm vụ. Google tuyên bố rằng Project Mariner đạt được kết quả lên tới là 83,5% hoạt động như một tác nhân duy nhất.
- Jules là một tác nhân mã được hỗ trợ bởi AI, tích hợp trực tiếp vào quy trình làm việc của GitHub để khắc phục sự cố, lập kế hoạch và thực hiện kế hoạch đó.
Với khả năng đa phương thức và tích hợp công cụ gốc, Gemini 2.0 Flash mở ra nhiều khả năng thú vị cho cả nhà phát triển và người dùng.