Ngay sau khi phát hành mô hình Claude 3 cách đây ba tháng, Anthropic hiện đã giới thiệu mô hình Claude 3.5 Sonnet được cải tiến hơn nhiều. Đây không phải là mô hình lớn nhất trong phòng thí nghiệm của Anthropic, nhưng nó đánh bại ChatGPT 4o và Gemini 1.5 Proo, ít nhất là ở một số benchmark. Claude 3.5 Sonnet là model tầm trung và có tốc độ nhanh gấp 2 lần so với model Claude 3 Opus lớn nhất.
Anthropic đã giữ nguyên giá API cho mô hình Sonnet 3.5 với cửa sổ ngữ cảnh là 200K token. Đối với người dùng phổ thông, nó có sẵn miễn phí trên claude.ai và hỗ trợ upload cả hình ảnh và tài liệu. Hãy nhớ rằng có giới hạn tỷ lệ cho người dùng miễn phí!
Về benchmark, Claude 3.5 Sonnet đánh bại GPT-4o ở hầu hết các benchmark ngoại trừ MMLU và MATH, nhưng sự khác biệt là rất nhỏ. Trong HumanEval kiểm tra khả năng mã hóa, Claude 3.5 Sonnet đạt 92% trong khi GPT-4o đạt 90,2%. Trong GPQA Diamond đánh giá khả năng suy luận ở cấp độ sau đại học, mô hình Sonnet mới đạt được số điểm 59,4% trong khi GPT-4o đạt mức 53,6%.
Trong thử nghiệm MMLU, Claude 3.5 Sonnet đạt 88,3% và mô hình GPT-4o của OpenAI đạt 88,7%. Từ bảng, bạn có thể suy ra rằng Anthropic đã phát triển một mô hình có khả năng cao vượt trội hơn cả GPT-4o và Gemini 1.5 Pro.
Tiếp theo, Claude 3.5 Sonnet cũng là một mô hình thị giác mạnh mẽ và một lần nữa lại làm tốt hơn GPT-4o trong các bài kiểm tra lý luận trực quan khác nhau. Nó rất giỏi trong việc hiểu và sao chép văn bản từ những hình ảnh khó đọc. Nó cũng xuất sắc trong việc diễn giải các biểu đồ, đồ thị và hình minh họa.
Hơn nữa, Anthropic đã công bố một công cụ Artifacts mới dành cho Claude, hoạt động giống như công cụ Code Interpreter của OpenAI. Công cụ Artifacts tạo code và nội dung bằng AI trong một giao diện riêng. Nó không chỉ giới hạn ở Python mà còn có thể hoạt động với các ngôn ngữ lập trình khác.
Anthropic cho biết Claude 3.5 Haiku và Claude 3.5 Opus sẽ ra mắt vào cuối năm nay. Nhìn chung tôi rất ấn tượng với tốc độ và sự thông minh của Claude 3.5 Sonnet. Có vẻ như cuối cùng người dùng cũng có thể thay thế ChatGPT 4o bằng mô hình mới của Anthropic cho công việc hàng ngày của mình.