Університет Іллінойс в Урбана-Шампейн спільно з кількома університетами та дослідницькими установами випустив великий мовний модельний (LLMs) інтегрований платформа для оцінки достовірності, яка була представлена в останній статті "DecodingTrust: всебічна оцінка достовірності моделей GPT".
Дослідницька команда провела всебічну оцінку надійності моделі GPT і виявила деякі раніше не оприлюднені вразливості. Наприклад, модель GPT схильна генерувати токсичні та упереджені виходи, а також може розкрити конфіденційну інформацію з навчальних даних та історії діалогів. Хоча в стандартних тестах GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у разі надання зловмисно розроблених підказок, GPT-4, навпаки, легше піддається атакам, можливо, через те, що вона суворіше дотримується оманливих інструкцій.
Дослідження провело всебічну оцінку моделі GPT з 8 кутів зору надійності, включаючи робастність до текстових атак, адаптивність до різних інструкцій завдань та системних підказок тощо. Оцінка використовувала різні сценарії, завдання, показники та набори даних.
Результати показують, що модель GPT відзначається в деяких аспектах, таких як несприйнятливість до контрфактичних прикладів. Але також існують деякі проблеми, такі як вразливість до оманливих системних підказок, що призводить до упередженого контенту, особливо модель GPT-4 більш піддатлива на це. Рівень упередженості моделі також залежить від конкретної теми, щодо деяких чутливих тем упередженість є меншою.
У питанні захисту конфіденційності дослідження показали, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації в порівнянні з GPT-3.5, але в деяких випадках все ще може розкривати конфіденційність.
Це дослідження забезпечує всебічну базу для оцінки надійності мовних моделей, що допомагає виявити потенційні вразливості та сприяти розробці більш надійних моделей. Дослідницька команда сподівається, що ця робота сприятиме подальшому поглибленню досліджень в академічному середовищі на цій основі та спільним зусиллям у створенні більш потужних і надійних мовних моделей.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
17 лайків
Нагородити
17
8
Поділіться
Прокоментувати
0/400
AirdropHuntress
· 07-13 17:21
Ой, подивившись на дані, дійсно виявляється дуже багато ризиків для приватності.
Переглянути оригіналвідповісти на0
MevShadowranger
· 07-13 14:31
Правда, якщо не можеш бігти, то не можеш бігти.
Переглянути оригіналвідповісти на0
SerLiquidated
· 07-13 07:21
Невже це пов'язано з національною безпекою?
Переглянути оригіналвідповісти на0
DarkPoolWatcher
· 07-13 07:20
Дуже багато вразливостей, все можна випасти з пастки.
Переглянути оригіналвідповісти на0
MEV_Whisperer
· 07-13 07:15
Гм, модель потрібно оновити.
Переглянути оригіналвідповісти на0
HappyToBeDumped
· 07-13 07:07
Знову потрібно оновити модель.
Переглянути оригіналвідповісти на0
CounterIndicator
· 07-13 07:04
Цей gpt справді не працює, а це ж штучний інтелект. Спочатку заряджайте.
Переглянути оригіналвідповісти на0
MetaverseHermit
· 07-13 06:58
Відсутність приватності – це найкраща приватність.
Оцінка надійності моделі GPT виявляє потенційні вразливості та ризики конфіденційності
Дослідження оцінки надійності мовних моделей
Університет Іллінойс в Урбана-Шампейн спільно з кількома університетами та дослідницькими установами випустив великий мовний модельний (LLMs) інтегрований платформа для оцінки достовірності, яка була представлена в останній статті "DecodingTrust: всебічна оцінка достовірності моделей GPT".
Дослідницька команда провела всебічну оцінку надійності моделі GPT і виявила деякі раніше не оприлюднені вразливості. Наприклад, модель GPT схильна генерувати токсичні та упереджені виходи, а також може розкрити конфіденційну інформацію з навчальних даних та історії діалогів. Хоча в стандартних тестах GPT-4 зазвичай є більш надійним, ніж GPT-3.5, у разі надання зловмисно розроблених підказок, GPT-4, навпаки, легше піддається атакам, можливо, через те, що вона суворіше дотримується оманливих інструкцій.
Дослідження провело всебічну оцінку моделі GPT з 8 кутів зору надійності, включаючи робастність до текстових атак, адаптивність до різних інструкцій завдань та системних підказок тощо. Оцінка використовувала різні сценарії, завдання, показники та набори даних.
Результати показують, що модель GPT відзначається в деяких аспектах, таких як несприйнятливість до контрфактичних прикладів. Але також існують деякі проблеми, такі як вразливість до оманливих системних підказок, що призводить до упередженого контенту, особливо модель GPT-4 більш піддатлива на це. Рівень упередженості моделі також залежить від конкретної теми, щодо деяких чутливих тем упередженість є меншою.
У питанні захисту конфіденційності дослідження показали, що моделі GPT можуть розкривати чутливу інформацію з навчальних даних, таку як адреси електронної пошти. GPT-4 є більш надійним у захисті особистої ідентифікаційної інформації в порівнянні з GPT-3.5, але в деяких випадках все ще може розкривати конфіденційність.
Це дослідження забезпечує всебічну базу для оцінки надійності мовних моделей, що допомагає виявити потенційні вразливості та сприяти розробці більш надійних моделей. Дослідницька команда сподівається, що ця робота сприятиме подальшому поглибленню досліджень в академічному середовищі на цій основі та спільним зусиллям у створенні більш потужних і надійних мовних моделей.