🎉 親愛的廣場小夥伴們,福利不停,精彩不斷!目前廣場上這些熱門發帖贏獎活動火熱進行中,發帖越多,獎勵越多,快來 GET 你的專屬好禮吧!🚀
1️⃣ #TokenOfLove# |廣場音樂節打 CALL
爲偶像打 CALL,Gate 廣場送你直達 Token of Love!泫雅、SUECO、DJ KAKA、CLICK#15 —— 你最想 pick 誰?現在在廣場帶上 歌手名字 + TokenOfLove 標籤發帖應援,就有機會贏取 20 張音樂節門票。
詳情 👉 https://www.gate.com/post/status/13214134
2️⃣ #GateTravel旅行分享官# |曬旅程贏好禮
廣場家人們注意啦,Gate Travel 已經上線。帶話題發帖,分享你的 Gate Travel 旅行體驗、心願清單、使用攻略或趣味見聞,就有機會獲得旅行露營套裝、速乾套裝、國際米蘭旅行小夜燈等好禮!
詳情 👉 https://www.gate.com/post/status/13172887
3️⃣ #内容挖矿# |發帖還能賺錢
廣場長期活動進行中,最高可享 10% 手續費返佣!發布優質內容,如行情解析、交易觀點等,吸引更多用戶點讚和評論。若用戶在互動後 180 分鍾內完成現貨或合約交易,你將獲得最高 10% 的手續費返佣!
詳情 👉 https://www.gate.
羊駝進化成鯨魚,Meta把對齊「自動化」,Humpback擊敗現有全部LLaMa模型
編輯:小舟、陳萍
**來源:**機器之心
這一年來,以ChatGPT 和GPT-4 為代表的大語言模型(LLM)發展迅速,緊隨其後,Meta 開源的LLaMa、Llama 2 系列模型在AI 界也引起的了不小的轟動。但隨之而來的是爭議不斷,有人認為LLM 存在一些不可控的風險,給人類生存構成一些潛在威脅。
為了應對這些挑戰,對LLM 對齊的研究變得越來越重要,有研究者提出指令跟隨(instruction following),但這種方法需要大量的人工註釋。然而,註釋如此高質量的指令跟隨數據集耗費巨大。
本文來自Meta AI 的研究者提出了一種可擴展的方法即指令回譯(instruction backtranslation),該方法通過自動註釋相應的指令來構建高質量的指令跟隨語言模型。
具體而言,該研究從一個語言模型開始,並作為種子模型,該模型在少量的種子數據以及web 語料庫上進行了微調。種子模型的作用是用來構建訓練樣本,然後這些樣本中的一些高質量樣本將會被篩選出來,接著,這些數據被用來微調一個更強大的模型。
經過兩輪迭代的數據集對LLaMa 進行微調,所產生的模型Humpback 在Alpaca 排行榜上優於其他現有的非蒸餾模型,如LIMA、Claude、Guanaco 等。
Humpback 原意為座頭鯨,又名駝背鯨,Meta 將模型命名為Humpback,也別有深意吧。
圖靈獎得主Yann LeCun 高度概括了這項研究的方法,並稱讚Meta 這項工作為對齊研究做出重要貢獻:
該論文提出了一種需要兩個步驟完成的新的數據增強範式。首先,必須擁有一組種子(指令、輸出)對和語料庫才能生成更多好的指令數據。
方法簡介
該研究提出了一種自訓練方法(self-training),該方法通常假定可以訪問基本語言模型、少量種子數據和未標記的樣本集(例如網絡語料庫)。未標記數據往往是一大堆形態各異的文檔,由人類編寫,其中包括人類感興趣的各種話題內容,但最重要的是沒有與指令進行配對。
這裡還有兩個關鍵的假設,第一個假設是這個非常大的文本集(未標記樣本集)存在一些子集,適合作為某些用戶指令的生成樣本。第二個假設是可以預測這些候選答案的指令,這些指令可以用於形成高質量樣本對,以訓練指令遵循模型。
如下圖1 所示,該研究提出指令回譯過程包含兩個核心步驟:
實驗及結果
本文的數據集主要包括種子數據和增強數據,具體信息如表2 和圖2 所示: