Боты, собирающие информацию для ИИ, начали замедлять Википедию
Фото: depositphotos.com

Автоматизированные боты, собирающие информацию для обучения моделей искусственного интеллекта, все больше нагружают ресурсы Википедии. Это приводит к резкому росту расходов на содержание всей инфраструктуры и чревато серьезными ограничениями доступа к контенту, говорится в сообщении фонда Викимедиа.

"Наш контент бесплатный, наша инфраструктура – нет", – объясняет он суть проблемы.

Масштабы автоматизированного сбора данных за последние месяцы выросли на 50%.

Это явление усилилось с января 2024 года и касается не только самой Википедии, но и таких сайтов, как Wikimedia Commons, где хранятся около 144 млн файлов под открытыми лицензиями.

Приблизительно 65% наиболее ресурсоемких запросов в центры обработки данных Википедии поступает от ботов.

Это создает проблемы для ее инфраструктуры, предназначенной для людей, а не массового автоматизированного скрапинга.

В фонде приводят пример, когда после смерти Джимми Картера в декабре 2024 года внезапный всплеск трафика, соединенный с повышенной базовой нагрузкой от ботов, привел к замедлению загрузки страниц для пользователей.

"В то время как читатели-люди обычно сосредотачиваются на конкретных – часто похожих – темах, боты-краулеры склонны к "массовому поглощению" большого количества страниц, посещая также и менее популярные материалы. Это означает, что такие запросы с большей вероятностью передаются в центральное хранилище данных, что значительно увеличивает расходы наших ресурсов".