Оценка надежности модели GPT выявляет потенциальные уязвимости и риски конфиденциальности

robot
Генерация тезисов в процессе

Исследование оценки надежности языковых моделей

Университет Иллинойс в Урбана-Шампейн вместе с несколькими университетами и научными учреждениями выпустил крупную языковую модель (LLMs), а также представил платформу для комплексной оценки достоверности в своей последней статье «DecodingTrust: всесторонняя оценка достоверности моделей GPT».

Исследовательская группа провела всестороннюю оценку надежности модели GPT и обнаружила несколько ранее не опубликованных уязвимостей. Например, модель GPT склонна генерировать токсичный и предвзятый вывод, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалога. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками, GPT-4 оказывается более уязвимым для атак, возможно, потому что он более строго следует вводящим в заблуждение инструкциям.

Исследование провело всестороннюю оценку модели GPT с восьми углов доверия, включая её устойчивость к текстовым атакам, адаптивность к разным заданиям и системным подсказкам и т.д. Оценка проводилась с использованием различных сценариев, задач, показателей и наборов данных.

Результаты показывают, что модель GPT демонстрирует отличные результаты в некоторых аспектах, например, не поддается заблуждающим контрфактическим примерам. Однако существуют и некоторые проблемы, такие как высокая восприимчивость к вводящим в заблуждение системным подсказкам, что приводит к созданию предвзятости в контенте, особенно модель GPT-4 более подвержена этому. Степень предвзятости модели также зависит от конкретной темы, и предвзятость по некоторым чувствительным темам меньше.

В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 более надежен в защите личной идентификационной информации по сравнению с GPT-3.5, но в некоторых случаях все равно может раскрывать конфиденциальность.

Это исследование предоставляет всесторонние критерии для оценки надежности языковых моделей, что помогает выявлять потенциальные уязвимости и содействовать разработке более надежных моделей. Исследовательская группа надеется, что эта работа будет способствовать тому, чтобы академическое сообщество продолжало углубленные исследования на этой основе, совместно стремясь создать более мощные и надежные языковые модели.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 9
  • Поделиться
комментарий
0/400
StakeTillRetirevip
· 4ч назад
gpt уйдёт?
Посмотреть ОригиналОтветить0
AirdropHuntressvip
· 07-13 17:21
Эх, посмотрев на данные, действительно выявляется множество рисков для конфиденциальности.
Посмотреть ОригиналОтветить0
MevShadowrangervip
· 07-13 14:31
Честно говоря, если не могу бежать, то не могу бежать.
Посмотреть ОригиналОтветить0
SerLiquidatedvip
· 07-13 07:21
Неужели это как-то связано с национальной безопасностью?
Посмотреть ОригиналОтветить0
DarkPoolWatchervip
· 07-13 07:20
Слишком много уязвимостей, из чего угодно можно сделать ловушку.
Посмотреть ОригиналОтветить0
MEV_Whisperervip
· 07-13 07:15
Да, модель нужно обновить.
Посмотреть ОригиналОтветить0
HappyToBeDumpedvip
· 07-13 07:07
Снова нужно обновить модель.
Посмотреть ОригиналОтветить0
CounterIndicatorvip
· 07-13 07:04
Этот GPT действительно не работает, он все еще искусственный интеллект. Сначала заряжу.
Посмотреть ОригиналОтветить0
MetaverseHermitvip
· 07-13 06:58
Нет конфиденциальности — это лучшая конфиденциальность
Посмотреть ОригиналОтветить0
Подробнее
  • Закрепить