Các mô hình ngôn ngữ lớn (LLM) là các mô hình học sâu rất lớn, được đào tạo trước dựa trên một lượng dữ liệu khổng lồ. Bộ chuyển hóa cơ bản là tập hợp các mạng nơ-ron có một bộ mã hóa và một bộ giải mã với khả năng tự tập trung. Bộ mã hóa và bộ giải mã trích xuất ý nghĩa từ một chuỗi văn bản và hiểu mối quan hệ giữa các từ và cụm từ trong đó.
Bộ chuyển hóa LLM có khả năng đào tạo không có giám sát, mặc dù lời giải thích chính xác hơn là bộ chuyển hóa thực hiện việc tự học. Thông qua quá trình này, bộ chuyển hóa học cách hiểu ngữ pháp, ngôn ngữ và kiến thức cơ bản.
Khác với các mạng nơ-ron hồi quy (RNN) trước đó thường xử lý tuần tự dữ liệu đầu vào, bộ chuyển hóa xử lý song song toàn bộ trình tự. Điều này cho phép các nhà khoa học dữ liệu sử dụng GPU để đào tạo các LLM dựa trên bộ chuyển hóa, qua đó giảm đáng kể thời gian đào tạo.
Kiến trúc mạng nơ-ron của bộ chuyển hóa cho phép việc sử dụng các mô hình rất lớn, thường có hàng trăm tỷ tham số. Các mô hình quy mô lớn như vậy có thể thu nạp một lượng dữ liệu khổng lồ, thường là từ Internet, nhưng cũng từ các nguồn, ví dụ như Common Crawl với hơn 50 tỷ trang web, và Wikipedia với khoảng 57 triệu trang.
I. Tại sao các mô hình ngôn ngữ lớn lại quan trọng?
Các mô hình ngôn ngữ lớn vô cùng linh hoạt. Một mô hình có thể thực hiện các tác vụ hoàn toàn khác nhau, ví dụ như trả lời câu hỏi, tóm tắt tài liệu, dịch ngôn ngữ và hoàn thành câu. LLM có khả năng làm gián đoạn việc sáng tạo nội dung và cách thức mọi người sử dụng công cụ tìm kiếm và trợ lý ảo.
Mặc dù không hoàn hảo, nhưng LLM đang thể hiện khả năng đáng kinh ngạc của mình trong việc đưa ra các dự đoán dựa trên một số lượng lời nhắc hoặc dữ liệu đầu vào tương đối nhỏ. LLM có thể được sử dụng cho AI (trí tuệ nhân tạo) tạo sinh để tạo ra nội dung dựa trên lời nhắc được nhập vào bằng ngôn ngữ của con người.
LLM rất lớn, vô cùng lớn. Chúng có thể xem xét hàng tỷ tham số và có nhiều cách sử dụng tiềm năng. Dưới đây là một số ví dụ:
Mô hình GPT-3 của Open AI có 175 tỷ tham số. Người anh em họ của nó là ChatGPT có thể xác định các nhiều mô hình từ dữ liệu, từ đó tạo ra kết quả tự nhiên và có thể đọc được. Mặc dù chúng tôi không biết kích thước của Claude 2, nhưng nó có thể nhận dữ liệu đầu vào lên đến 100.000 token trong mỗi lời nhắc, có nghĩa là nó có thể đọc hàng trăm trang tài liệu kỹ thuật hoặc thậm chí toàn bộ cuốn sách. Mô hình Jurassic-1 của AI21 Labs có 178 tỷ tham số và một kho từ vựng token gồm 250.000 thành phần từ cùng khả năng trò chuyện tương tự. Mô hình Command của Cohere có khả năng tương tự và có thể hoạt động trong hơn 100 ngôn ngữ khác nhau. Nền tảng Paradigm của LightOn cung cấp các mô hình nền tảng với các tính năng được công bố là vượt trội so với các tính năng của mô hình GPT-3. Tất cả các LLM này đều đi kèm với API cho phép các nhà phát triển tạo ra các ứng dụng AI tạo sinh độc đáo.
II. Mô hình ngôn ngữ lớn hoạt động như thế nào?
Một yếu tố quan trọng trong cách thức hoạt động của LLM là cách chúng biểu diễn các từ. Các hình thức máy học trước đây sử dụng một bảng số để biểu diễn từng từ. Tuy nhiên, hình thức biểu diễn này không thể nhận ra mối quan hệ giữa các từ, chẳng hạn như các từ có nghĩa tương tự. Hạn chế này đã được khắc phục bằng cách sử dụng các véc-tơ đa chiều, thường được gọi là nhúng từ, để biểu diễn các từ sao cho các từ có nghĩa theo ngữ cảnh tương tự nhau hoặc các mối quan hệ khác sẽ gần nhau trong không gian véc-tơ.
Bằng cách sử dụng nhúng từ, bộ chuyển hóa có thể xử lý trước văn bản dưới dạng phần biểu diễn bằng số thông qua bộ mã hóa và hiểu ngữ cảnh của các từ lẫn cụm từ có nghĩa tương tự, cũng như các mối quan hệ khác giữa các từ, chẳng hạn như các phần của lời nói. Sau đó, LLM có thể áp dụng kiến thức về ngôn ngữ này thông qua bộ giải mã để tạo ra một kết quả đầu ra độc đáo.
III. Các ứng dụng của mô hình ngôn ngữ lớn là gì?
LLM có rất nhiều ứng dụng thực tế.
3.1 Viết quảng cáo
Ngoài GPT-3 và ChatGPT, Claude, Llama 2, Cohere Command và Jurassic cũng có thể viết quảng cáo gốc. AI21 Wordspice đề xuất những thay đổi đối với câu gốc để cải thiện văn phong và giọng điệu.
3.2 Trả lời dựa trên cơ sở kiến thức
Thường được gọi là xử lý ngôn ngữ tự nhiên chuyên sâu về kiến thức (KI-NLP), kỹ thuật này đề cập đến các LLM có khả năng trả lời những câu hỏi cụ thể dựa trên thông tin được lưu trữ trong kho lưu trữ kỹ thuật số. Một ví dụ là khả năng trả lời câu hỏi về kiến thức tổng quát của sân chơi AI21 Studio.
3.3 Phân loại văn bản
LLM có thể phân loại văn bản có ý nghĩa hoặc quan điểm tương tự nhau bằng cách sử dụng cụm. Các trường hợp sử dụng bao gồm đo lường quan điểm khách hàng, xác định mối quan hệ giữa các văn bản và tìm kiếm tài liệu.
3.4 Tạo mã
LLM thành thạo trong việc tạo mã từ lời nhắc ngôn ngữ tự nhiên. Ví dụ: Amazon CodeWhisperer và codex của Open AI được sử dụng trong GitHub Copilot có thể viết mã bằng Python, JavaScript, Ruby và một số ngôn ngữ lập trình khác. Các ứng dụng viết mã khác bao gồm tạo truy vấn SQL, viết lệnh shell và thiết kế trang web.
3.5 Tạo văn bản
Tương tự như tạo mã, tạo văn bản có thể hoàn tất các câu không hoàn chỉnh, viết tài liệu về sản phẩm hoặc, như Alexa Create, viết một câu chuyện ngắn dành cho trẻ em.
IV. Mô hình ngôn ngữ lớn được đào tạo như thế nào?
Mạng nơ-ron dựa trên bộ chuyển hóa rất lớn. Các mạng này chứa nhiều nút và lớp. Mỗi nút trong một lớp có kết nối với tất cả các nút trong lớp tiếp theo, mỗi nút có trọng số và độ lệch. Trọng số và độ lệch cùng với phần nhúng được gọi là tham số mô hình. Mạng nơ-ron dựa trên bộ chuyển hóa lớn có thể có hàng tỷ tham số. Kích thước của mô hình thường được xác định bởi mối quan hệ thực nghiệm giữa kích thước mô hình, số lượng tham số và kích thước của dữ liệu đào tạo.
Quá trình đào tạo được thực hiện bằng cách sử dụng một tập ngữ liệu lớn gồm dữ liệu chất lượng cao. Trong quá trình đào tạo, mô hình điều chỉnh liên tục các giá trị tham số cho đến khi mô hình dự đoán chính xác mã thông báo tiếp theo từ trình tự mã thông báo đầu vào trước đó. Mô hình thực hiện điều này thông qua các kỹ thuật tự học, giúp mô hình học được cách điều chỉnh các tham số để tối đa hóa khả năng của các mã thông báo tiếp theo trong các mẫu đào tạo.
Sau khi được đào tạo, LLM có thể dễ dàng được điều chỉnh để thực hiện nhiều tác vụ bằng cách sử dụng các tập dữ liệu có giám sát tương đối nhỏ, một quy trình được gọi là tinh chỉnh.
Có ba mô hình học phổ biến:
V. Tương lai của LLM là gì?
Sự ra đời của các mô hình ngôn ngữ lớn như ChatGPT, Claude 2 và Llama 2 có khả năng trả lời các câu hỏi và tạo ra văn bản, mở ra những tiềm năng thú vị trong tương lai. Chậm nhưng chắc chắn, LLM đang dần đạt được hiệu năng giống con người. Thành công ngay lập tức của các LLM này thể hiện sự quan tâm sâu sắc đến các LLM kiểu robot giúp mô phỏng và trong một số bối cảnh, vượt trội hơn bộ não con người. Dưới đây là một số suy nghĩ về tương lai của LLM.
5.1 Nâng cao khả năng
Dù ấn tượng, nhưng cấp độ công nghệ hiện tại không hoàn hảo và LLM vẫn có thể mắc sai lầm. Tuy nhiên, các bản phát hành mới hơn sẽ cải thiện độ chính xác và nâng cao khả năng khi các nhà phát triển học cách cải thiện hiệu năng của các mô hình này, đồng thời giảm thiên kiến và loại bỏ các câu trả lời không chính xác.
5.2 Đào tạo nội dung nghe nhìn
Trong khi các nhà phát triển đào tạo hầu hết LLM bằng cách sử dụng văn bản, một số nhà phát triển đã bắt đầu đào tạo các mô hình bằng cách sử dụng đầu vào ở dạng video và âm thanh. Hình thức đào tạo này sẽ dẫn đến phát triển mô hình nhanh chóng hơn và mở ra những khả năng mới về việc sử dụng LLM cho xe tự hành.
5.3 Chuyển đổi nơi làm việc
LLM là một yếu tố đột phá sẽ thay đổi nơi làm việc. LLM có khả năng sẽ giảm các tác vụ đơn điệu và lặp đi lặp lại, tương tự như cách robot đã làm đối với các tác vụ sản xuất lặp đi lặp lại. Các khả năng bao gồm các tác vụ văn thư lặp đi lặp lại, chatbot dịch vụ khách hàng và viết quảng cáo tự động đơn giản.
5.4 AI giao tiếp
LLM chắc chắn sẽ cải thiện hiệu năng của các trợ lý ảo tự động như Alexa, Google Assistant và Siri. Các trợ lý ảo này sẽ có thể diễn giải ý định của người dùng tốt hơn và phản hồi các lệnh phức tạp.
{body}