Победив Llama 2 и соперничая с GPT-3.5, новая модель Stability AI возглавила рейтинг больших моделей с открытым исходным кодом.

Первоисточник: Сердце машины

Источник изображения: сгенерировано Unbounded AI‌

В мгновение ока большая модель с открытым исходным кодом снова улучшилась. Действительно ли у Google и OpenAI нет рва?

«Я только что взял 30-минутный перерыв на обед, и наша область снова изменилась?» Увидев последний рейтинг крупных моделей с открытым исходным кодом, предприниматель в области ИИ спросил свою душу.

Ссылка на таблицу лидеров:

«Новички» в красной рамке выше — это две большие модели из лаборатории Stability AI и CarperAI: FreeWilly 1 и FreeWilly 2. Только что они превзошли Llama-2-70b-hf, выпущенную Meta три дня назад, и успешно достигли вершины таблицы лидеров HuggingFace Open LLM.

Что более поразительно, так это то, что FreeWilly 2 также превзошла ChatGPT (GPT-3.5) во многих тестах, став первой моделью с открытым исходным кодом, которая действительно может конкурировать с GPT-3.5, чего не удалось Llama 2.

FreeWilly 1 создан на основе оригинальной базовой модели LLaMA 65B и тщательно контролируемой тонкой настройки (SFT) с использованием новых синтетических наборов данных в стандартном формате Alpaca. FreeWilly2 основан на последней базовой модели LLaMA 2 70B.

Из блога, опубликованного Stability AI, мы можем увидеть некоторые подробности об этих двух новых моделях:

Источники данных

Метод обучения модели FreeWilly напрямую вдохновлен методом, впервые предложенным Microsoft в их статье «Orca: Progressive Learning from Complex Explanation Traces of GPT-4». Хотя процесс генерации данных FreeWilly похож, существуют различия в источнике данных.

Набор данных FreeWilly содержит 600 000 точек данных (примерно 10% от размера набора данных, использованного в исходной статье Orca), и он был создан с помощью вдохновляющих языковых моделей из следующего высококачественного набора данных инструкций, созданного Энрико Шипполом:

  • Оригинальный субмикс COT
  • Оригинал субмикса NIV2
  • Оригинал сабмикса FLAN 2021
  • Оригинал субмикс T0

Используя этот подход, исследователи создали 500 000 примеров с использованием более простой модели LLM и еще 100 000 примеров с использованием более сложной модели LLM. Чтобы обеспечить справедливое сравнение, они тщательно проверили эти наборы данных и удалили примеры, полученные из эталонного теста. Хотя количество обучающих выборок составляет всего 1/10 от исходной бумаги Orca (что значительно снижает стоимость и углеродный след обучения модели по сравнению с исходной бумагой), полученная модель FreeWilly хорошо работает на различных тестах, подтверждая эффективность их подхода с помощью синтетических наборов данных.

Данные о производительности

Для внутренней оценки этих моделей исследователи использовали тест EleutherAI lm--harness, включающий AGI.

Среди них тест lm--harness был создан некоммерческой исследовательской лабораторией искусственного интеллекта EleutherAI, которая стоит за вышеупомянутой таблицей лидеров HuggingFace Open LLM.

AGI был создан Microsoft для оценки производительности базовой модели в стандартизированных тестах, ориентированных на человека, таких как математические соревнования и экзамены на адвоката.

Обе модели FreeWilly очень хорошо работают по многим направлениям, включая сложные рассуждения, понимание языковых тонкостей и ответы на сложные вопросы, связанные со специализированными областями, такими как юридические и математические вопросы.

Результаты оценки двух моделей в тесте lm-harness следующие (эти результаты теста FreeWilly были оценены исследователями Stability AI):

Производительность двух на тесте AGI выглядит следующим образом (все 0-выстрел):

Кроме того, они протестировали две модели на тесте GPT4ALL (все 0-выстрел):

В целом производительность этих двух моделей очень высока, что еще больше сокращает разрыв с лучшими моделями ИИ, такими как ChatGPT. Студенты, которые хотят получить модель, могут нажать на ссылку ниже.

Фривилли 1:

Фривилли 2:

Судя по реакции всех сторон, появление модели FreeWilly вызвало у всех небольшой шок, так как они пришли слишком быстро, ведь Llama 2 запущена всего 3 дня, а позиции в рейтинге не горячие. Один исследователь сказал, что недавно перенес операцию на глазах и неделю не смотрел новости, но чувствовал себя так, как будто целый год находился в коме. Итак, это период «не могу моргнуть».

Однако важно отметить, что хотя обе модели находятся в открытом доступе, в отличие от Llama 2, они выпущены под некоммерческой лицензией только для исследовательских целей.

Однако такой подход вызвал сомнения у пользователей сети.

В ответ исследователи Stability AI ответили, что эта ситуация (только для исследовательских целей) носит временный характер, и в будущем ожидается, что FreeWilly разрешит коммерческое использование, такое как Llama 2.

Кроме того, некоторые люди поставили под сомнение принятый тестом эталон:

Это также более сложная проблема в настоящее время. Если раньше событие, что модель Falcon раздавила Ламу в лидерборде HuggingFace, было спорным, то позже событие было полностью обратным: оказалось, что Ламу не раздавил Falcon, и для этого HuggingFace также переписали код лидерборда. Сегодня, с появлением больших моделей, как эффективно оценивать эти модели, все еще остается проблемой, заслуживающей обсуждения. Поэтому нам необходимо сохранять более осторожное отношение к этим топовым моделям и ждать публикации дополнительных результатов оценки.

Ссылка на ссылку:

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить