Сейчас самые мощные чат-боты могут воспринимать до 75 000 слов в запросах, однако увеличение входных данных ограничивается памятью графических процессоров, обучающих и запускающих модели ИИ.
Помогаем
Обновлено: Детям из Мариуполя нужно 120 ноутбуков для обучения – подари старое "железо", пусть оно работает на будущее Украины
В области ИИ эти входные данные измеряются как «токены» и «контекстные окна»: токен — это единица, которая может представлять слово, его часть, число или нечто подобное; а контекстное окно — это пространство, где вы вводите вопросы, текст или другие данные для чат-бота.
Чат-бот Anthropic Claude предлагает контекстное окно до 100 000 токенов, или около 75 000 слов. По сути это книга, которую системы может сразу проанализировать и дать определенный ответ. Модель OpenAI GPT-3.5 поддерживает контекстное окно с ограничением до 16 000 слов, а ее преемница GPT-4 — до 32 000. Согласно последнему исследованию, модель, созданная компанией MosiacML, принадлежащей Databricks, может обрабатывать 65 000 токенов.
В своей статье, аспирант Калифорнийского университета в Беркли и внештатный исследователь Google DeepMind Хао Лю предлагает способ увеличить это количество до миллионов.
Современные модели искусственного интеллекта обрабатывают данные таким образом, что требуют, чтобы графические процессоры хранили разные внутренние выходные данные, а затем повторно вычисляли их перед передачей на следующий графический процессор. Для этого нужно много памяти, которой не хватает — что в конечном счете ограничивает количество входных данных, которые может обработать модель. Независимо от того, насколько быстрым является графический процессор, есть так называемое «узкое место» памяти.
Новый подход формирует своеобразное кольцо графических процессоров, передающих части информации следующему графическому процессору, одновременно получая подобные блоки от другого соседнего графического процессора. И так далее.
«Это фактически устраняет ограничения памяти, наложенные отдельными устройствами», — пишут исследователи.
Лю говорит, что в теории много книг и даже фильмов в будущем можно добавить в контекстные окна за раз, а модели искусственного интеллекта будут анализировать их и создавать согласованные ответы:
«Чем больше у вас графических процессоров, тем длиннее может быть контекстное окно. Интересно, что смогут построить из этого крупные технологические компании».
Лю рассчитал для примера, что модель с 13 миллиардами параметров и контекстным окном в 16 000 токенов, использующая 256 графических процессоров Nvidia A100, сможет при новом «кольцевом подходе» обрабатывать контекстное окно с 4 миллионами токенов.
ПостыIELTS: міжнародна сертифікація з англійської мови для глобального успіху https://itc.ua/wp-content/uploads/2023/09/Logo_white_green-bg-1-1-150×150.png *** https://itc.ua/wp-content/uploads/2023/09/Logo_white_green-bg-1-1-150×150.png *** https://itc.ua/wp-content/uploads/2023/09/Logo_white_green-bg-1-1-150×150.png
Englishdom – свобода говорити. Будь-де, будь-коли, з будь-ким.
Эти выводы провоцируют важный вопрос: если вы сможете сделать больше с меньшим количеством графических процессоров, говорит ли это о снижении спроса на микросхемы AI от Nvidia? Лю говорит, что нет. Вместо этого разработчики и технологические компании будут пробовать большие и более смелые вещи с новой техникой.
В то же время, использование меньшего количества GPU может несколько смягчить влияние на окружающую среду и уменьшить использование электроэнергии в области ИИ, которая, по недавним подсчетам, до 2027 года будет потреблять столько же энергии, как Швеция или Нидерланды.
Источник: Insider