Kể từ khi ChatGPT xuất hiện vào tháng 11 năm 2022, thuật ngữ mô hình ngôn ngữ lớn (LLM) đã nhanh chóng chuyển từ một thuật ngữ dành riêng cho những người đam mê AI sang một từ thông dụng trên môi mọi người. Sức hấp dẫn lớn nhất của LLM cục bộ là khả năng tái tạo các khả năng của một chatbot như ChatGPT trên máy tính của bạn mà không cần đến phiên bản được host trên đám mây.
Có các lập luận ủng hộ và phản đối việc thiết lập LLM cục bộ trên máy tính của bạn. Vậy rốt cuộc có nên sử dụng LLM cục bộ?
Ưu điểm của việc sử dụng LLM cục bộ
Tại sao mọi người lại quá hào hứng với việc thiết lập các mô hình ngôn ngữ lớn của riêng họ trên máy tính? Ngoài mục tiêu "khiến người khác trầm trồ", có một số lợi ích thiết thực.
1. Ít kiểm duyệt hơn
Khi ChatGPT và Bing AI lần đầu tiên xuất hiện trực tuyến, những điều mà cả hai chatbot sẵn sàng nói và làm đều vừa hấp dẫn vừa đáng báo động. Vào thời điểm đó, cả hai chatbot thậm chí còn có thể giúp bạn chế tạo bom nếu bạn sử dụng đúng lời nhắc. Điều này nghe có vẻ sai trái, nhưng việc có thể làm bất cứ điều gì là biểu tượng cho khả năng không hạn chế của các mô hình ngôn ngữ đã hỗ trợ chúng.
Ngày nay, cả hai chatbot đều bị kiểm duyệt chặt chẽ đến mức chúng thậm chí sẽ không giúp bạn viết một cuốn tiểu thuyết tội phạm hư cấu có cảnh bạo lực. Một số chatbot AI thậm chí sẽ không nói về tôn giáo hay chính trị. Mặc dù LLM mà bạn có thể thiết lập cục bộ không hoàn toàn không bị kiểm duyệt, nhưng nhiều người trong số họ sẽ sẵn lòng thực hiện những điều kích thích tư duy mà các chatbot đối mặt với công chúng sẽ không làm. Vì vậy, nếu bạn không muốn một robot giảng dạy cho bạn về đạo đức khi thảo luận về các chủ đề mà cá nhân quan tâm, thì việc vận hành LLM cục bộ có thể là cách tốt nhất.
2. Bảo mật dữ liệu tốt hơn
Một trong những lý do chính khiến mọi người chọn LLM cục bộ là để đảm bảo rằng mọi điều xảy ra trên máy tính của họ vẫn ở trên thiết bị. Khi bạn sử dụng LLM cục bộ, nó giống như có một cuộc trò chuyện riêng tư trong phòng khách của bạn - không ai bên ngoài có thể nghe được. Cho dù bạn đang thử nghiệm chi tiết thẻ tín dụng của mình hay đang có các cuộc trò chuyện cá nhân nhạy cảm với LLM, tất cả dữ liệu thu được đều được lưu trữ chỉ trên máy tính của bạn. Giải pháp thay thế là sử dụng LLM công khai như GPT-4, cung cấp cho các công ty phụ trách quyền truy cập vào thông tin trò chuyện của bạn.
3. Sử dụng ngoại tuyến
Với việc Internet có giá cả phải chăng và có thể truy cập rộng rãi, việc truy cập ngoại tuyến có vẻ như là một lý do tầm thường để sử dụng LLM cục bộ. Truy cập ngoại tuyến có thể trở nên đặc biệt quan trọng ở những địa điểm xa xôi hoặc biệt lập, nơi dịch vụ Internet không đáng tin cậy hoặc không khả dụng. Trong những tình huống như vậy, LLM cục bộ hoạt động độc lập với kết nối Internet sẽ trở thành một công cụ quan trọng. Nó cho phép bạn tiếp tục làm bất cứ điều gì bạn muốn mà không bị gián đoạn.
4. Tiết kiệm chi phí
Giá trung bình để truy cập LLM có khả năng như GPT-4 hoặc Claude 2 là 20 USD mỗi tháng. Mặc dù đó có vẻ không phải là một mức giá đáng báo động nhưng bạn vẫn gặp phải một số hạn chế khó chịu đối với số tiền đó. Ví dụ, với GPT-4, được truy cập qua ChatGPT, bạn bị giới hạn 50 message mỗi 3 giờ. Bạn chỉ có thể vượt qua những giới hạn đó bằng cách chuyển sang gói ChatGPT Enterprise, gói này có thể tiêu tốn hàng nghìn đô la. Với LLM cục bộ, sau khi thiết lập phần mềm, bạn sẽ không phải trả phí đăng ký hàng tháng hoặc chi phí định kỳ $20. Nó giống như việc mua một chiếc ô tô thay vì dựa vào các dịch vụ đi chung xe. Ban đầu, nó đắt tiền, nhưng theo thời gian, bạn sẽ tiết kiệm được rất nhiều.
5. Tùy chỉnh tốt hơn
Các chatbot AI có sẵn công khai đã bị hạn chế khả năng tùy chỉnh do lo ngại về bảo mật và kiểm duyệt. Với trợ lý AI được host cục bộ, bạn hoàn toàn có thể tùy chỉnh mô hình cho nhu cầu cụ thể của mình. Bạn có thể đào tạo trợ lý về dữ liệu độc quyền phù hợp với trường hợp sử dụng của mình, cải thiện mức độ liên quan và độ chính xác. Ví dụ, một luật sư có thể tối ưu hóa AI cục bộ của mình để tạo ra những hiểu biết pháp lý chính xác hơn. Lợi ích chính là kiểm soát việc tùy chỉnh theo các yêu cầu riêng của bạn.
Nhược điểm của việc sử dụng LLM cục bộ
Trước khi thực hiện chuyển đổi, bạn nên cân nhắc một số nhược điểm khi sử dụng LLM cục bộ.
1. Sử dụng nhiều tài nguyên
Để chạy LLM cục bộ hiệu quả, bạn sẽ cần phần cứng cao cấp. Hãy nghĩ đến CPU mạnh mẽ, nhiều RAM và có thể là GPU chuyên dụng. Đừng mong đợi một chiếc máy tính xách tay giá $400 sẽ mang lại trải nghiệm tốt. Phản hồi sẽ rất chậm, đặc biệt là với các mô hình AI lớn hơn. Nó giống như chạy các video game tiên tiến - bạn cần có thông số kỹ thuật mạnh mẽ để có hiệu suất tối ưu. Bạn thậm chí có thể cần các giải pháp làm mát chuyên dụng. Điểm mấu chốt là LLM cục bộ yêu cầu đầu tư vào phần cứng hàng đầu để có được tốc độ và khả năng phản hồi mà bạn yêu thích trên LLM dựa trên web (hoặc thậm chí cải thiện điều đó). Nhu cầu tính toán của bạn sẽ rất lớn so với việc sử dụng các dịch vụ dựa trên web.
2. Phản hồi chậm hơn và hiệu suất kém hơn
Hạn chế chung của LLM cục bộ là thời gian phản hồi chậm hơn. Tốc độ chính xác phụ thuộc vào mô hình AI cụ thể và phần cứng được sử dụng, nhưng hầu hết các thiết lập đều tụt hậu so với những dịch vụ trực tuyến. Sau khi nhận được phản hồi tức thì từ ChatGPT, Bard và những công cụ khác, LLM cục bộ có thể chậm tới mức khó chịu. Người dùng trung bình phải đối mặt với tình trạng giảm sút nghiêm trọng từ trải nghiệm web linh hoạt. Vì vậy, hãy chuẩn bị cho một "cú sốc văn hóa" từ các hệ thống trực tuyến nhanh đến những hệ thống cục bộ tương đương chậm hơn.
Nói tóm lại, trừ khi bạn đang sử dụng một thiết lập hàng đầu tuyệt đối (như AMD Ryzen 5800X3D với Nvidia RTX 4090 và RAM "khủng"), hiệu suất tổng thể của LLM cục bộ sẽ không so sánh với các chatbot Generative AI trực tuyến mà bạn đã quen thuộc.
3. Thiết lập phức tạp
Việc triển khai LLM cục bộ phức tạp hơn là chỉ đăng ký dịch vụ AI dựa trên web. Với kết nối Internet, tài khoản ChatGPT, Bard hoặc Bing AI của bạn có thể sẵn sàng bắt đầu nhắc sau vài phút. Thiết lập stack LLM cục bộ đầy đủ yêu cầu tải xuống các framework, cấu hình cơ sở hạ tầng và tích hợp những thành phần khác nhau. Đối với các mô hình lớn hơn, quá trình phức tạp này có thể mất hàng giờ, ngay cả với những công cụ nhằm đơn giản hóa việc cài đặt. Một số hệ thống AI tiên tiến nhất vẫn yêu cầu kỹ thuật chuyên sâu để có thể chạy cục bộ. Vì vậy, không giống như các mô hình AI dựa trên web plug-and-play, việc quản lý AI của riêng bạn đòi hỏi phải đầu tư đáng kể về mặt kỹ thuật và thời gian.
4. Kiến thức hạn chế
Rất nhiều LLM cục bộ bị mắc kẹt trong quá khứ. Chúng có kiến thức hạn chế về các sự kiện hiện tại. Bạn có nhớ khi ChatGPT không thể truy cập Internet không? Khi đó, nó chỉ có thể đưa ra câu trả lời cho những câu hỏi về các sự kiện xảy ra trước tháng 9 năm 2021. Tương tự như các mô hình ChatGPT ban đầu, những mô hình ngôn ngữ được host cục bộ thường chỉ được đào tạo trên dữ liệu trước một ngày giới hạn nhất định. Kết quả là chúng thiếu nhận thức về những diễn biến cập nhật sau thời điểm đó.
Ngoài ra, LLM cục bộ không thể truy cập dữ liệu Internet trực tiếp. Điều này hạn chế tính hữu dụng của các truy vấn thời gian thực như giá cổ phiếu hoặc thời tiết. Để tận hưởng một dạng dữ liệu thời gian thực, các LLM cục bộ thường sẽ yêu cầu một lớp tích hợp bổ sung với những dịch vụ được kết nối Internet. Truy cập Internet là một trong những lý do khiến bạn có thể cân nhắc nâng cấp lên ChatGPT Plus!
Có nên sử dụng LLM cục bộ?
Các mô hình ngôn ngữ lớn cục bộ mang lại những lợi ích hấp dẫn nhưng cũng có những nhược điểm thực sự cần cân nhắc trước khi bắt đầu. Ít kiểm duyệt hơn, quyền riêng tư tốt hơn, truy cập ngoại tuyến, tiết kiệm chi phí và khả năng tùy chỉnh là những lý do hấp dẫn để thiết lập LLM cục bộ. Tuy nhiên, những lợi ích này phải đánh đổi. Với rất nhiều LLM có sẵn miễn phí trực tuyến, việc nhảy vào LLM cục bộ có thể giống như đập ruồi bằng búa tạ – có khả năng nhưng quá mức cần thiết. Vì vậy, không có câu trả lời đúng hay sai dứt khoát. Việc đánh giá các ưu tiên của bạn sẽ xác định liệu bây giờ có phải là thời điểm thích hợp để thực hiện chuyển đổi hay không.