Google Docs превращается в мультимодальную платформу, способную не только отображать текст, но и озвучивать его краткое содержание голосом, сгенерированным искусственным интеллектом. Новая функция, основанная на технологиях Gemini и NotebookLM, появится в Google Workspace в ближайшие месяцы и даст пользователям возможность прослушивать трехминутные аудиосюжеты, составленные по материалам документов.
После запуска функции «Audio overviews» в окне сервиса открывается небольшой медиаплеер, с помощью которого можно управлять воспроизведением. Gemini анализирует содержимое документа и выделяет ключевые понятия, затем на их основе генерируется краткое резюме, а после этот текст преобразуется в голос с помощью системы синтеза речи Gemini. Пользователь может выбрать один из стилей озвучивания — «диктор», «убеждающий» или «тренер».
Технология является прямым продолжением экспериментального инструмента Google NotebookLM, который использовался студентами для создания устных шпаргалок на основе загруженных материалов. Право на использование сервиса получат владельцы аккаунтов Google с премиальными подписками, а также аккаунты сферы образования и бизнеса с дополнениями Google AI. Развертывание программы стартовалало 12 февраля и займет около 15 дней, чтобы охватить всех пользователей, имеющих право на доступ.
Google не позиционирует аудиосюжеты как замену внимательному чтению. Скорее, это инструмент для быстрого ознакомления с большими объемами текста в ситуациях, когда чтение неудобно или невозможно — например, в дороге или во время выполнения параллельных задач. По сути, это превращает Google Docs в ленту персонализированных подкастов, создаваемых по запросу из рабочих документов.










