📢 #Gate广场征文活动第三期# 正式啓動!
🎮 本期聚焦:Yooldo Games (ESPORTS)
✍️ 分享獨特見解 + 參與互動推廣,若同步參與 Gate 第 286 期 Launchpool、CandyDrop 或 Alpha 活動,即可獲得任意獎勵資格!
💡 內容創作 + 空投參與 = 雙重加分,大獎候選人就是你!
💰總獎池:4,464 枚 $ESPORTS
🏆 一等獎(1名):964 枚
🥈 二等獎(5名):每人 400 枚
🥉 三等獎(10名):每人 150 枚
🚀 參與方式:
在 Gate廣場發布不少於 300 字的原創文章
添加標籤: #Gate广场征文活动第三期#
每篇文章需 ≥3 個互動(點讚 / 評論 / 轉發)
發布參與 Launchpool / CandyDrop / Alpha 任一活動的截圖,作爲獲獎資格憑證
同步轉發至 X(推特)可增加獲獎概率,標籤:#GateSquare 👉 https://www.gate.com/questionnaire/6907
🎯 雙倍獎勵機會:參與第 286 期 Launchpool!
質押 BTC 或 ESPORTS,瓜分 803,571 枚 $ESPORTS,每小時發放
時間:7 月 21 日 20:00 – 7 月 25 日 20:00(UTC+8)
🧠 寫作方向建議:
Yooldo
大模型突破40萬token 長文本能力引領LLM新時代
大模型長文本能力迅速提升,40萬token或僅是開始
大模型的長文本處理能力正在以驚人的速度提升。從最初的4000 token到如今的40萬token,這一能力的增長可謂是肉眼可見的。
長文本處理能力似乎已成爲大模型廠商的新標配。國際上,OpenAI通過多次升級將GPT-3.5和GPT-4的上下文輸入長度分別提升至1.6萬和3.2萬token。Anthropic更是一舉將其模型Claude的上下文長度提升至10萬token。LongLLaMA甚至將這一數字擴展到了25.6萬token。
國內市場也不甘落後。據了解,初創公司月之暗面推出的Kimi Chat支持輸入20萬漢字,約合40萬token。港中文和MIT聯合開發的LongLoRA技術則可將7B模型的文本長度擴展到10萬token,70B模型擴展到3.2萬token。
目前,包括OpenAI、Anthropic、Meta和月之暗面在內的多家頂級大模型公司都將上下文長度的擴展作爲重點更新方向。這些公司無一例外都是資本市場的寵兒,融資規模動輒數十億美元。
長文本技術的突破意義重大。從表面上看,這意味着模型可以處理更長的輸入文本,閱讀能力大幅提升。更深層次來看,這項技術正在推動大模型在金融、法律、科研等專業領域的應用落地。
然而,需要注意的是,文本長度並非越長越好。研究表明,模型支持更長的上下文輸入並不等同於性能的提升。關鍵在於模型如何有效利用上下文內容。
盡管如此,當前的文本長度探索似乎還遠未觸及上限。40萬token可能只是一個開始,大模型公司仍在不懈努力突破這一界限。
長文本技術的突破不僅解決了大模型早期面臨的一些問題,還增強了其功能。這標志着通用大模型進入了新的發展階段——從LLM到Long LLM時代。
長文本技術爲大模型帶來了諸多新的能力。例如,它可以快速分析長文章、提取財報關鍵信息、實現整本書的問答交互等。在代碼方面,甚至可以直接將論文轉化爲代碼。在長對話場景中,還可以實現更加專業化、個性化和深度化的交互。
然而,長文本技術的發展也面臨着"不可能三角"的困境:文本長度、注意力和算力之間存在相互制約。隨着文本長度增加,模型難以集中足夠的注意力,同時也需要更多的算力支持。
目前,業界主要採用三種方案來應對這一挑戰:利用外部工具輔助處理長文本、優化自注意力機制計算,以及對模型進行優化。每種方案都有其優缺點,大模型公司正在努力在文本長度、注意力和算力之間尋找最佳平衡點。
隨着技術的不斷進步,長文本處理能力有望進一步提升,爲大模型在更多領域的應用鋪平道路。