Mô hình lớn vượt qua 400.000 token, khả năng văn bản dài dẫn đầu kỷ nguyên LLM mới.

2025-07-21 05:11:23

Đang tạo bản tóm tắt

Khả năng xử lý văn bản dài của mô hình lớn đang tăng nhanh, 400.000 token chỉ có thể là khởi đầu.

Khả năng xử lý văn bản dài của các mô hình lớn đang được cải thiện với tốc độ đáng kinh ngạc. Từ 4000 token ban đầu đến nay đã đạt 400.000 token, sự gia tăng này thực sự có thể nhìn thấy bằng mắt thường.

Khả năng xử lý văn bản dài dường như đã trở thành tiêu chuẩn mới của các nhà sản xuất mô hình lớn. Trên thế giới, OpenAI đã nâng độ dài đầu vào ngữ cảnh của GPT-3.5 và GPT-4 lên lần lượt là 16.000 và 32.000 token thông qua nhiều lần nâng cấp. Anthropic thậm chí đã nâng độ dài ngữ cảnh của mô hình Claude lên 100.000 token. LongLLaMA thậm chí đã mở rộng con số này lên tới 256.000 token.

Thị trường trong nước cũng không chịu thua kém. Theo thông tin, công ty khởi nghiệp Moon's Dark Side đã ra mắt Kimi Chat hỗ trợ nhập 200.000 ký tự Hán, tương đương khoảng 400.000 token. Công nghệ LongLoRA được phát triển hợp tác giữa Đại học Hồng Kông và MIT có thể mở rộng độ dài văn bản của mô hình 7B lên đến 100.000 token, và mô hình 70B lên đến 32.000 token.

Hiện tại, nhiều công ty mô hình lớn hàng đầu, bao gồm OpenAI, Anthropic, Meta và Mặt trăng tối, đều coi việc mở rộng độ dài ngữ cảnh là hướng cập nhật trọng tâm. Tất cả các công ty này đều là những đứa con cưng của thị trường vốn, với quy mô huy động vốn thường lên tới hàng tỷ đô la.

Đột phá công nghệ văn bản dài có ý nghĩa lớn. Nhìn bề ngoài, điều này có nghĩa là mô hình có thể xử lý văn bản đầu vào dài hơn, khả năng đọc được cải thiện một cách đáng kể. Ở mức độ sâu hơn, công nghệ này đang thúc đẩy việc ứng dụng mô hình lớn trong các lĩnh vực chuyên môn như tài chính, pháp lý, nghiên cứu khoa học.

Tuy nhiên, cần lưu ý rằng độ dài văn bản không phải lúc nào cũng tốt hơn. Nghiên cứu cho thấy, việc mô hình hỗ trợ đầu vào ngữ cảnh dài hơn không đồng nghĩa với việc cải thiện hiệu suất. Chìa khóa nằm ở cách mà mô hình sử dụng hiệu quả nội dung ngữ cảnh.

Tuy nhiên, hiện tại việc khám phá độ dài văn bản dường như vẫn chưa chạm đến giới hạn. 400.000 token có thể chỉ là một khởi đầu, các công ty mô hình lớn vẫn đang nỗ lực không ngừng để vượt qua giới hạn này.

Sự đột phá trong công nghệ văn bản dài không chỉ giải quyết một số vấn đề mà các mô hình lớn gặp phải ở giai đoạn đầu, mà còn tăng cường chức năng của chúng. Điều này đánh dấu sự chuyển mình của mô hình lớn tổng quát vào một giai đoạn phát triển mới - từ LLM đến thời đại Long LLM.

Công nghệ văn bản dài mang lại nhiều khả năng mới cho các mô hình lớn. Ví dụ, nó có thể phân tích nhanh các bài viết dài, trích xuất thông tin quan trọng từ báo cáo tài chính, thực hiện tương tác hỏi đáp cho toàn bộ cuốn sách, v.v. Về mặt mã, nó thậm chí có thể chuyển đổi trực tiếp các bài báo thành mã. Trong các tình huống đối thoại dài, nó còn có thể thực hiện các tương tác chuyên môn, cá nhân hóa và sâu sắc hơn.

Tuy nhiên, sự phát triển của công nghệ văn bản dài cũng đối mặt với tình huống "tam giác không thể": có sự ràng buộc lẫn nhau giữa độ dài văn bản, sự chú ý và sức mạnh tính toán. Khi độ dài văn bản tăng lên, mô hình khó có thể tập trung đủ sự chú ý, đồng thời cũng cần nhiều sức mạnh tính toán hơn để hỗ trợ.

Hiện tại, ngành công nghiệp chủ yếu áp dụng ba giải pháp để đối phó với thách thức này: sử dụng công cụ bên ngoài để hỗ trợ xử lý văn bản dài, tối ưu hóa tính toán cơ chế tự chú ý, và tối ưu hóa mô hình. Mỗi giải pháp đều có những ưu nhược điểm riêng, các công ty mô hình lớn đang nỗ lực tìm kiếm điểm cân bằng tốt nhất giữa độ dài văn bản, sự chú ý và sức mạnh tính toán.

Với sự tiến bộ không ngừng của công nghệ, khả năng xử lý văn bản dài dự kiến sẽ được nâng cao hơn nữa, mở đường cho việc ứng dụng của mô hình lớn trong nhiều lĩnh vực hơn.

TOKEN-4.96%

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

8 thích

Phần thưởng
8
7
Chia sẻ

Bình luận

0/400

NFTArchaeologist

· 07-24 00:05

Khả năng tính toán花多少？认钱不认人

Xem bản gốcTrả lời0

FlashLoanPrince

· 07-23 21:51

Hiệu suất được nâng cao, khả năng tính toán bơm đầy là xong.

Xem bản gốcTrả lời0

AirdropHarvester

· 07-23 10:30

Token này tăng lên thật nhanh, đúng một trăm lần.

Xem bản gốcTrả lời0

CryptoSurvivor

· 07-21 05:41

Càng tăng lên càng bình tĩnh, càng giảm càng phấn khởi.

Xem bản gốcTrả lời0

PumpStrategist

· 07-21 05:40

tăng lên như thế này dốc, rủi ro kỹ thuật +1, chú ý pullback ở vị trí cao

Xem bản gốcTrả lời0

HodlOrRegret

· 07-21 05:37

Gia tốc quá mạnh, không thể tin được.

Xem bản gốcTrả lời0

HappyToBeDumped

· 07-21 05:33

40.000 chữ cũng không hiểu rõ ai

Xem bản gốcTrả lời0

Chủ đề
1/3
1Alpha Points System Opens
4k Phổ biến
2Ethereum 10th Anniversary
7k Phổ biến
3ETF In-Kind Mechanism
3k Phổ biến
4ate ETH 10th Anniversary Investment Zone
16k Phổ biến
5Major Power Trade Talks
17k Phổ biến

Ghim

sơ đồ trang web