Можливості великих моделей у роботі з довгими текстами швидко зростають, 400 тисяч токенів можуть бути лише початком
Здатність великих моделей обробляти довгі тексти зростає вражаючими темпами. Від початкових 4000 токенів до нинішніх 400000 токенів, це зростання можна побачити неозброєним оком.
Здатність обробки довгих текстів, здається, стала новим стандартом для виробників великих моделей. На міжнародному рівні OpenAI неодноразово оновлювала GPT-3.5 і GPT-4, збільшивши довжину контекстного вводу до 16 000 і 32 000 токенів відповідно. Anthropic навіть підняла довжину контексту своєї моделі Claude до 100 000 токенів. LongLLaMA навіть розширила це число до 256 000 токенів.
Внутрішній ринок також не бажає відставати. Відомо, що стартап "Темна сторона місяця" запустив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена спільно Гонконгським китайським університетом та MIT, може розширити довжину тексту для моделі 7B до 100 тисяч токенів, а для моделі 70B — до 32 тисяч токенів.
Наразі декілька провідних компаній з великими моделями, включаючи OpenAI, Anthropic, Meta та Місяць темряви, зосереджуються на розширенні довжини контексту як важливого напрямку оновлень. Ці компанії без винятку є улюбленцями капітальних ринків, а обсяги фінансування часто сягають десятків мільярдів доларів.
Прорив у технології довгих текстів має велике значення. На поверхневому рівні це означає, що модель може обробляти довші вхідні тексти, що суттєво підвищує її здатність до читання. На глибшому рівні ця технологія сприяє впровадженню великих моделей у таких професійних сферах, як фінанси, право, наука та дослідження.
Однак слід зазначити, що довжина тексту не завжди є кращою. Дослідження показують, що підтримка моделлю довшого контекстного вводу не завжди призводить до покращення продуктивності. Ключовим є те, як модель ефективно використовує зміст контексту.
Однак, поточне дослідження довжини тексту, здається, ще далеке від досягнення межі. 400 тисяч токенів може бути лише початком, а компанії з великими моделями все ще наполегливо прагнуть подолати цю межу.
Розрив у технології довгого тексту не лише вирішив деякі проблеми, з якими стикалися великі моделі на ранніх етапах, але й покращив їхні функції. Це знаменує собою перехід загальних великих моделей до нової стадії розвитку — від LLM до ери Long LLM.
Технологія довгих текстів надає багатьом великим моделям нові можливості. Наприклад, вона може швидко аналізувати довгі статті, витягувати ключову інформацію з фінансових звітів, реалізовувати інтерактивні запитання та відповіді щодо цілого книг. Щодо коду, навіть можна безпосередньо перетворювати наукові статті на код. У сценаріях довгих діалогів також можна досягти більш професійної, персоналізованої та глибокої взаємодії.
Проте, розвиток технологій довгих текстів також стикається з труднощами "неможливого трикутника": існує взаємна обмеженість між довжиною тексту, увагою та обчислювальною потужністю. Зі збільшенням довжини тексту моделі важко зосередити достатню увагу, одночасно вимагаючи більше обчислювальної потужності.
Наразі в індустрії використовують три основні рішення для подолання цього виклику: використання зовнішніх інструментів для обробки довгих текстів, оптимізація обчислень самовіддачі, а також оптимізація моделей. Кожне з рішень має свої переваги та недоліки, компанії з великими моделями намагаються знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю.
Завдяки постійному розвитку технологій, здатність обробки довгих текстів, ймовірно, буде ще більше покращена, прокладаючи шлях для застосування великих моделей у більшій кількості сфер.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
8 лайків
Нагородити
8
7
Поділіться
Прокоментувати
0/400
NFTArchaeologist
· 07-24 00:05
Обчислювальна потужність скільки коштує? Вірю в гроші, а не в людей
Переглянути оригіналвідповісти на0
FlashLoanPrince
· 07-23 21:51
Покращення продуктивності, обчислювальна потужність памп!
Переглянути оригіналвідповісти на0
AirdropHarvester
· 07-23 10:30
Цей токен росте справді швидко, цілком на сто разів.
Переглянути оригіналвідповісти на0
CryptoSurvivor
· 07-21 05:41
Чим більше зростання, тим спокійніше. Чим більше падіння, тим більше збудження.
Переглянути оригіналвідповісти на0
PumpStrategist
· 07-21 05:40
зростання як таке стрімке, технічний ризик +1, зверніть увагу на високий відкат
Великий модельний прорив 400 тисяч токенів, здатність до довгих текстів відкриває нову еру LLM.
Можливості великих моделей у роботі з довгими текстами швидко зростають, 400 тисяч токенів можуть бути лише початком
Здатність великих моделей обробляти довгі тексти зростає вражаючими темпами. Від початкових 4000 токенів до нинішніх 400000 токенів, це зростання можна побачити неозброєним оком.
Здатність обробки довгих текстів, здається, стала новим стандартом для виробників великих моделей. На міжнародному рівні OpenAI неодноразово оновлювала GPT-3.5 і GPT-4, збільшивши довжину контекстного вводу до 16 000 і 32 000 токенів відповідно. Anthropic навіть підняла довжину контексту своєї моделі Claude до 100 000 токенів. LongLLaMA навіть розширила це число до 256 000 токенів.
Внутрішній ринок також не бажає відставати. Відомо, що стартап "Темна сторона місяця" запустив Kimi Chat, який підтримує введення 200 тисяч китайських ієрогліфів, що приблизно дорівнює 400 тисячам токенів. Технологія LongLoRA, розроблена спільно Гонконгським китайським університетом та MIT, може розширити довжину тексту для моделі 7B до 100 тисяч токенів, а для моделі 70B — до 32 тисяч токенів.
Наразі декілька провідних компаній з великими моделями, включаючи OpenAI, Anthropic, Meta та Місяць темряви, зосереджуються на розширенні довжини контексту як важливого напрямку оновлень. Ці компанії без винятку є улюбленцями капітальних ринків, а обсяги фінансування часто сягають десятків мільярдів доларів.
Прорив у технології довгих текстів має велике значення. На поверхневому рівні це означає, що модель може обробляти довші вхідні тексти, що суттєво підвищує її здатність до читання. На глибшому рівні ця технологія сприяє впровадженню великих моделей у таких професійних сферах, як фінанси, право, наука та дослідження.
Однак слід зазначити, що довжина тексту не завжди є кращою. Дослідження показують, що підтримка моделлю довшого контекстного вводу не завжди призводить до покращення продуктивності. Ключовим є те, як модель ефективно використовує зміст контексту.
Однак, поточне дослідження довжини тексту, здається, ще далеке від досягнення межі. 400 тисяч токенів може бути лише початком, а компанії з великими моделями все ще наполегливо прагнуть подолати цю межу.
Розрив у технології довгого тексту не лише вирішив деякі проблеми, з якими стикалися великі моделі на ранніх етапах, але й покращив їхні функції. Це знаменує собою перехід загальних великих моделей до нової стадії розвитку — від LLM до ери Long LLM.
Технологія довгих текстів надає багатьом великим моделям нові можливості. Наприклад, вона може швидко аналізувати довгі статті, витягувати ключову інформацію з фінансових звітів, реалізовувати інтерактивні запитання та відповіді щодо цілого книг. Щодо коду, навіть можна безпосередньо перетворювати наукові статті на код. У сценаріях довгих діалогів також можна досягти більш професійної, персоналізованої та глибокої взаємодії.
Проте, розвиток технологій довгих текстів також стикається з труднощами "неможливого трикутника": існує взаємна обмеженість між довжиною тексту, увагою та обчислювальною потужністю. Зі збільшенням довжини тексту моделі важко зосередити достатню увагу, одночасно вимагаючи більше обчислювальної потужності.
Наразі в індустрії використовують три основні рішення для подолання цього виклику: використання зовнішніх інструментів для обробки довгих текстів, оптимізація обчислень самовіддачі, а також оптимізація моделей. Кожне з рішень має свої переваги та недоліки, компанії з великими моделями намагаються знайти оптимальний баланс між довжиною тексту, увагою та обчислювальною потужністю.
Завдяки постійному розвитку технологій, здатність обробки довгих текстів, ймовірно, буде ще більше покращена, прокладаючи шлях для застосування великих моделей у більшій кількості сфер.