Работает только 11% мощностей
Компания xAI, принадлежащая Илону Маску и развивающая ИИ-модель Grok, столкнулась с серьезной проблемой масштабирования своих вычислительных мощностей. По данным The Information, у компании развернуто примерно 550 000 мощных графических ускорителей Nvidia H100 и H200 в кластерах Memphis и Colossus, но фактическая загрузка этой инфраструктуры составляет лишь 11%.

Это означает, что из огромного парка ускорителей эффективно работает лишь эквивалент примерно 60 тысяч GPU. Причина кроется не в нехватке железа, а в трудностях управления такой гигантской системой: при масштабах в сотни тысяч графических процессоров простои между этапами обучения, передачи данных и синхронизации быстро накапливаются, а узкие места в распределенной инфраструктуре становятся критическими.
Проблема, по данным источника, связана с тем, что программная и распределительная тренировочная архитектура xAI пока недостаточно зрелая. Из-за этого GPU проводят слишком много времени в ожидании данных или задач, а общая эффективность падает. При этом эксперты отмечают, что подобные сложности — не только у xAI, но и в целом одна из главных проблем индустрии: достичь высокой загрузки на очень больших кластерах крайне сложно.
Для сравнения, крупные игроки вроде Meta* и Google добиваются лучших показателей — до 43% и 46% соответственно, хотя даже это считается далеко не идеальным уровнем. У xAI же целевой ориентир — поднять загрузку до 50%, но сроки этого улучшения пока не называются.
* Компания Meta признана в России экстремистской и запрещена.











