Боты, собирающие информацию для ИИ, начали замедлять Википедию

Автоматизированные боты, собирающие информацию для обучения моделей искусственного интеллекта, все больше нагружают ресурсы Википедии. Это приводит к резкому росту расходов на содержание всей инфраструктуры и чревато серьезными ограничениями доступа к контенту, говорится в сообщении фонда Викимедиа.
"Наш контент бесплатный, наша инфраструктура – нет", – объясняет он суть проблемы.
Масштабы автоматизированного сбора данных за последние месяцы выросли на 50%.
Это явление усилилось с января 2024 года и касается не только самой Википедии, но и таких сайтов, как Wikimedia Commons, где хранятся около 144 млн файлов под открытыми лицензиями.
Приблизительно 65% наиболее ресурсоемких запросов в центры обработки данных Википедии поступает от ботов.
Это создает проблемы для ее инфраструктуры, предназначенной для людей, а не массового автоматизированного скрапинга.
В фонде приводят пример, когда после смерти Джимми Картера в декабре 2024 года внезапный всплеск трафика, соединенный с повышенной базовой нагрузкой от ботов, привел к замедлению загрузки страниц для пользователей.
"В то время как читатели-люди обычно сосредотачиваются на конкретных – часто похожих – темах, боты-краулеры склонны к "массовому поглощению" большого количества страниц, посещая также и менее популярные материалы. Это означает, что такие запросы с большей вероятностью передаются в центральное хранилище данных, что значительно увеличивает расходы наших ресурсов".
- В прошлом году стало известно, что ведущие ИИ-компании столкнулись со сложностями при разработке новых моделей, потому что в мире заканчивается качественный текст для тренировки искусственного интеллекта.
- В январе 2025 года LinkedIn обвинили в использовании личных сообщений для обучения ИИ.