Бум ИИ поставил перед человечеством непростую задачу — теперь многочисленным организациям надо как-то отсеивать документы, резюме и прочие данные, написанные чат-ботами. Многие компании уже занялись разработкой приложений, которые должны отличать тексты живых людей от тех, что были сгенерированы машинами.
Спойлер — все эти программы не работают, если для человека английский не является его родным языком.
Это подтверждает исследование, опубликованное в журнале Patterns. В нем ученые взяли семь "широко распространенных" ИИ-детекторов и прогнали через них 99 эссе, написанных восьмиклассниками, и 91 эссе, авторами которых были иностранцы.
В случае с англоязычными восьмиклассниками все детекторы верно классифицировали свыше 90% эссе. А вот с текстами иностранцев программы в среднем ошиблись в 61.3% случаев. Один из детекторов и вовсе пометил 98% текстов как сгенерированные ИИ.
Как пояснили авторы исследования, большинство детекторов искусственного интеллекта оценивают текст по показателю, называемому "недоумение". Это показатель того, насколько неожиданным является слово в контексте текста. Если слово легко предсказать, учитывая предшествующие слова, то теоретически выше вероятность того, что за предложение отвечает ИИ, поскольку большие языковые модели используют вероятностные алгоритмы для создания убедительно организованного текста.
В то же время люди, не являющиеся носителями какого-либо языка, как правило, пишут на этом языке с относительно ограниченным словарным запасом и предсказуемым набором грамматических средств, что может привести к предсказуемым предложениям и абзацам. Исследователи обнаружили, что, сократив количество повторов слов в эссе, они смогли значительно уменьшить число ложных срабатываний, которые выдавали детекторы ИИ. И наоборот, упрощение языка в сочинениях восьмиклассников привело к тому, что большее их количество было принято за творения ИИ.
В социальных сетях детекторы GPT могут ошибочно отмечать контент неместных авторов как плагиат ИИ, что открывает путь для необоснованных притеснений конкретных сообществ неместных авторов. Поисковые системы Интернета, такие как Google, внедряющие механизмы, обесценивающие контент, созданный искусственным интеллектом, могут непреднамеренно ограничить видимость неместных сообществ, что может привести к замалчиванию различных точек зрения.
Ученые настоятельно рекомендуют не использовать подобные детекторы до тех пор, пока не будет найдено решение этой проблемы.