Университет Иллинойс в Урбана-Шампейн вместе с несколькими университетами и научными учреждениями выпустил крупную языковую модель (LLMs), а также представил платформу для комплексной оценки достоверности в своей последней статье «DecodingTrust: всесторонняя оценка достоверности моделей GPT».
Исследовательская группа провела всестороннюю оценку надежности модели GPT и обнаружила несколько ранее не опубликованных уязвимостей. Например, модель GPT склонна генерировать токсичный и предвзятый вывод, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалога. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками, GPT-4 оказывается более уязвимым для атак, возможно, потому что он более строго следует вводящим в заблуждение инструкциям.
Исследование провело всестороннюю оценку модели GPT с восьми углов доверия, включая её устойчивость к текстовым атакам, адаптивность к разным заданиям и системным подсказкам и т.д. Оценка проводилась с использованием различных сценариев, задач, показателей и наборов данных.
Результаты показывают, что модель GPT демонстрирует отличные результаты в некоторых аспектах, например, не поддается заблуждающим контрфактическим примерам. Однако существуют и некоторые проблемы, такие как высокая восприимчивость к вводящим в заблуждение системным подсказкам, что приводит к созданию предвзятости в контенте, особенно модель GPT-4 более подвержена этому. Степень предвзятости модели также зависит от конкретной темы, и предвзятость по некоторым чувствительным темам меньше.
В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 более надежен в защите личной идентификационной информации по сравнению с GPT-3.5, но в некоторых случаях все равно может раскрывать конфиденциальность.
Это исследование предоставляет всесторонние критерии для оценки надежности языковых моделей, что помогает выявлять потенциальные уязвимости и содействовать разработке более надежных моделей. Исследовательская группа надеется, что эта работа будет способствовать тому, чтобы академическое сообщество продолжало углубленные исследования на этой основе, совместно стремясь создать более мощные и надежные языковые модели.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
20 Лайков
Награда
20
9
Поделиться
комментарий
0/400
StakeTillRetire
· 4ч назад
gpt уйдёт?
Посмотреть ОригиналОтветить0
AirdropHuntress
· 07-13 17:21
Эх, посмотрев на данные, действительно выявляется множество рисков для конфиденциальности.
Посмотреть ОригиналОтветить0
MevShadowranger
· 07-13 14:31
Честно говоря, если не могу бежать, то не могу бежать.
Посмотреть ОригиналОтветить0
SerLiquidated
· 07-13 07:21
Неужели это как-то связано с национальной безопасностью?
Посмотреть ОригиналОтветить0
DarkPoolWatcher
· 07-13 07:20
Слишком много уязвимостей, из чего угодно можно сделать ловушку.
Посмотреть ОригиналОтветить0
MEV_Whisperer
· 07-13 07:15
Да, модель нужно обновить.
Посмотреть ОригиналОтветить0
HappyToBeDumped
· 07-13 07:07
Снова нужно обновить модель.
Посмотреть ОригиналОтветить0
CounterIndicator
· 07-13 07:04
Этот GPT действительно не работает, он все еще искусственный интеллект. Сначала заряжу.
Посмотреть ОригиналОтветить0
MetaverseHermit
· 07-13 06:58
Нет конфиденциальности — это лучшая конфиденциальность
Оценка надежности модели GPT выявляет потенциальные уязвимости и риски конфиденциальности
Исследование оценки надежности языковых моделей
Университет Иллинойс в Урбана-Шампейн вместе с несколькими университетами и научными учреждениями выпустил крупную языковую модель (LLMs), а также представил платформу для комплексной оценки достоверности в своей последней статье «DecodingTrust: всесторонняя оценка достоверности моделей GPT».
Исследовательская группа провела всестороннюю оценку надежности модели GPT и обнаружила несколько ранее не опубликованных уязвимостей. Например, модель GPT склонна генерировать токсичный и предвзятый вывод, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалога. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками, GPT-4 оказывается более уязвимым для атак, возможно, потому что он более строго следует вводящим в заблуждение инструкциям.
Исследование провело всестороннюю оценку модели GPT с восьми углов доверия, включая её устойчивость к текстовым атакам, адаптивность к разным заданиям и системным подсказкам и т.д. Оценка проводилась с использованием различных сценариев, задач, показателей и наборов данных.
Результаты показывают, что модель GPT демонстрирует отличные результаты в некоторых аспектах, например, не поддается заблуждающим контрфактическим примерам. Однако существуют и некоторые проблемы, такие как высокая восприимчивость к вводящим в заблуждение системным подсказкам, что приводит к созданию предвзятости в контенте, особенно модель GPT-4 более подвержена этому. Степень предвзятости модели также зависит от конкретной темы, и предвзятость по некоторым чувствительным темам меньше.
В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 более надежен в защите личной идентификационной информации по сравнению с GPT-3.5, но в некоторых случаях все равно может раскрывать конфиденциальность.
Это исследование предоставляет всесторонние критерии для оценки надежности языковых моделей, что помогает выявлять потенциальные уязвимости и содействовать разработке более надежных моделей. Исследовательская группа надеется, что эта работа будет способствовать тому, чтобы академическое сообщество продолжало углубленные исследования на этой основе, совместно стремясь создать более мощные и надежные языковые модели.