Các mô hình ngôn ngữ lớn (LLM) có thể khiến nhiều người cảm thấy khó tiếp cận khi mới bắt đầu tìm hiểu. Hàng loạt khái niệm như Transformer, Attention, Scaling Laws, Pretraining, RLHF hay RAG thường xuất hiện trong các bài viết về AI, nhưng không phải lúc nào cũng được giải thích theo cách dễ hiểu. Tuy nhiên, để hiểu cách một LLM vận hành, bạn không nhất thiết phải đọc những cuốn sách chuyên ngành dày hàng trăm trang.
Một cách tiếp cận hiệu quả hơn là tìm đọc những bài nghiên cứu nền tảng đã góp phần định hình nên công nghệ AI hiện đại. Mỗi công trình nghiên cứu thường tập trung giải quyết một vấn đề quan trọng và giới thiệu một ý tưởng mới. Khi ghép những ý tưởng đó lại với nhau, chúng ta sẽ có một bức tranh khá đầy đủ về cách các mô hình như ChatGPT, Claude, Gemini hay Llama hoạt động.
Dưới đây là 5 bài nghiên cứu được xem là những cột mốc quan trọng nhất trong quá trình phát triển của LLM.
1. Attention Is All You Need
Đây là bài nghiên cứu đã giới thiệu kiến trúc Transformer vào năm 2017, đồng thời đặt nền móng cho gần như toàn bộ thế hệ mô hình AI hiện đại.
Trước thời điểm đó, các hệ thống xử lý ngôn ngữ tự nhiên chủ yếu dựa trên kiến trúc RNN hoặc CNN để xử lý dữ liệu dạng chuỗi. Những phương pháp này hoạt động tương đối tốt nhưng gặp nhiều khó khăn khi phải xử lý các đoạn văn dài hoặc ghi nhớ mối liên hệ giữa những từ nằm cách xa nhau.
Bài nghiên cứu đưa ra một ý tưởng rất khác: thay vì xử lý tuần tự từng từ, mô hình có thể sử dụng cơ chế Attention để xác định phần nào của câu là quan trọng nhất đối với ngữ cảnh hiện tại.
Khái niệm nổi bật nhất trong nghiên cứu là Self-Attention. Cơ chế này cho phép mỗi token trong câu xem xét toàn bộ các token còn lại và quyết định đâu là thông tin cần chú ý. Nhờ đó, mô hình có thể hiểu được mối liên hệ giữa các thành phần trong văn bản ngay cả khi chúng nằm cách xa nhau.
Ngoài Self-Attention, bài nghiên cứu còn giới thiệu nhiều thành phần quan trọng khác như Multi-Head Attention, Positional Encoding và cấu trúc Transformer Block. Đây đều là những thành phần vẫn xuất hiện trong phần lớn các mô hình AI hiện nay.
Tầm ảnh hưởng của công trình này là rất lớn. Hầu hết các mô hình nổi tiếng như GPT, Claude, Gemini, Llama hay Qwen đều được xây dựng dựa trên kiến trúc Transformer.
2. Language Models Are Few-Shot Learners
Nếu Attention Is All You Need giải thích cách xây dựng nền tảng cho LLM, thì Language Models Are Few-Shot Learners lại lý giải vì sao các mô hình này có thể thực hiện rất nhiều nhiệm vụ khác nhau chỉ thông qua prompt.
Đây là bài nghiên cứu giới thiệu GPT-3, mô hình 175 tỷ tham số từng tạo ra bước ngoặt lớn trong lĩnh vực AI.
Trước GPT-3, quy trình phổ biến là huấn luyện một mô hình riêng cho từng nhiệm vụ. Một mô hình dùng để dịch thuật, một mô hình khác dùng để tóm tắt văn bản và một mô hình khác nữa để trả lời câu hỏi.
GPT-3 cho thấy rằng một mô hình đủ lớn có thể thực hiện nhiều nhiệm vụ khác nhau mà không cần huấn luyện lại. Chỉ cần cung cấp một vài ví dụ hoặc hướng dẫn trong prompt, mô hình đã có thể suy luận và tiếp tục thực hiện công việc tương tự.
Ý tưởng này được gọi là In-Context Learning.
Điều thú vị là mô hình không hề thay đổi trọng số hay học thêm kiến thức mới trong quá trình đó. Nó chỉ quan sát các ví dụ được cung cấp và suy ra quy luật để tiếp tục hoàn thành nhiệm vụ.
Nghiên cứu này giúp giải thích vì sao ngày nay người dùng có thể yêu cầu AI dịch thuật, viết nội dung, lập trình, trả lời câu hỏi hoặc tóm tắt tài liệu chỉ bằng cách mô tả yêu cầu trong prompt.
3. Scaling Laws for Neural Language Models
Một trong những câu hỏi quan trọng nhất của ngành AI là liệu mô hình có thực sự trở nên tốt hơn khi được mở rộng hay không. Bài nghiên cứu Scaling Laws for Neural Language Models được thực hiện để trả lời chính câu hỏi đó.
Các nhà nghiên cứu đã tiến hành nhiều thử nghiệm với các mô hình có kích thước khác nhau, lượng dữ liệu huấn luyện khác nhau và mức tài nguyên tính toán khác nhau. Kết quả cho thấy hiệu năng của mô hình tăng lên theo những quy luật khá ổn định khi ba yếu tố này được mở rộng.
Điều quan trọng mà nghiên cứu mang lại không phải là những con số cụ thể, mà là việc chứng minh rằng khả năng của mô hình có thể được dự đoán trước khi huấn luyện. Chính phát hiện này đã tạo cơ sở cho làn sóng phát triển các mô hình ngày càng lớn hơn trong những năm sau đó. Nó cũng giải thích vì sao các công ty AI sẵn sàng đầu tư hàng tỷ USD vào trung tâm dữ liệu, GPU và các bộ dữ liệu khổng lồ.
Đây là một trong những nghiên cứu giúp người đọc hiểu được logic phía sau cuộc đua AI hiện nay, nơi dữ liệu, năng lực tính toán và quy mô mô hình đóng vai trò then chốt.
4. Training Language Models to Follow Instructions with Human Feedback
Một mô hình ngôn ngữ có thể dự đoán token tiếp theo rất tốt, nhưng điều đó không có nghĩa nó sẽ trở thành một trợ lý AI hữu ích. Đây chính là vấn đề mà bài nghiên cứu Training Language Models to Follow Instructions with Human Feedback, hay còn được biết đến với tên gọi InstructGPT, cố gắng giải quyết.
Các nhà nghiên cứu nhận ra rằng mô hình được huấn luyện theo cách truyền thống thường tạo ra những câu trả lời đúng về mặt ngôn ngữ nhưng chưa chắc đã hữu ích hoặc phù hợp với mong muốn của người dùng.
Để khắc phục điều này, họ xây dựng một quy trình huấn luyện nhiều bước. Đầu tiên, con người tạo ra những câu trả lời mẫu chất lượng cao. Sau đó, các phản hồi của mô hình được đánh giá và xếp hạng. Những đánh giá này được sử dụng để huấn luyện một Reward Model, giúp AI hiểu được kiểu phản hồi nào được con người ưu tiên.
Cuối cùng, mô hình tiếp tục được tối ưu bằng kỹ thuật Reinforcement Learning from Human Feedback (RLHF). Kết quả là một hệ thống không chỉ giỏi dự đoán văn bản mà còn có khả năng làm theo hướng dẫn, trả lời hữu ích hơn và giảm các hành vi không mong muốn.
Nếu muốn hiểu tại sao ChatGPT cư xử rất khác so với các mô hình ngôn ngữ thuần túy trước đây, đây là một trong những bài nghiên cứu quan trọng nhất cần đọc.
5. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
Bài nghiên cứu cuối cùng trong danh sách tập trung vào một kỹ thuật hiện đang xuất hiện trong rất nhiều hệ thống AI doanh nghiệp: Retrieval-Augmented Generation (RAG).
Ý tưởng cốt lõi của RAG khá đơn giản. Thay vì chỉ dựa vào kiến thức đã được học trong quá trình huấn luyện, mô hình có thể truy xuất thêm tài liệu từ các nguồn dữ liệu bên ngoài trước khi tạo câu trả lời.
Nói cách khác, AI không còn phải dựa hoàn toàn vào "trí nhớ" bên trong mô hình.
Trong nghiên cứu này, một mô hình sinh ngôn ngữ được kết hợp với hệ thống truy xuất tài liệu và kho dữ liệu bên ngoài. Khi nhận câu hỏi, hệ thống sẽ tìm kiếm các tài liệu liên quan nhất rồi đưa chúng vào ngữ cảnh để mô hình sử dụng khi tạo phản hồi.
Cách tiếp cận này đặc biệt hữu ích đối với các tác vụ cần độ chính xác cao hoặc thường xuyên cập nhật thông tin mới.
Ngày nay, rất nhiều chatbot doanh nghiệp, trợ lý nội bộ, hệ thống hỗ trợ khách hàng và công cụ tìm kiếm AI đều sử dụng một dạng RAG nào đó để đảm bảo câu trả lời dựa trên nguồn dữ liệu cụ thể thay vì chỉ dựa vào kiến thức được huấn luyện từ trước.
Nếu nhìn tổng thể, năm bài nghiên cứu trên gần như mô tả toàn bộ quá trình hình thành của một mô hình ngôn ngữ lớn hiện đại.
Transformer cung cấp nền tảng kiến trúc. GPT-3 cho thấy sức mạnh của pretraining và in-context learning. Scaling Laws giải thích vì sao các mô hình ngày càng lớn hơn. InstructGPT giới thiệu cách biến mô hình ngôn ngữ thành trợ lý AI hữu ích. Cuối cùng, RAG mở rộng khả năng của mô hình bằng cách kết nối nó với các nguồn tri thức bên ngoài.
Bạn không cần hiểu toàn bộ các công thức toán học hay chi tiết kỹ thuật ngay từ lần đọc đầu tiên. Điều quan trọng nhất là nắm được ý tưởng cốt lõi mà mỗi bài nghiên cứu mang lại và hiểu lý do chúng trở thành những cột mốc quan trọng trong lịch sử phát triển của AI.
Khi hiểu được năm mảnh ghép này, phần lớn các khái niệm phổ biến trong thế giới LLM hiện đại sẽ trở nên dễ tiếp cận hơn rất nhiều.
Hướng dẫn AI
Học IT
AI
Hàm Excel