Боти, які збирають інформацію для штучного інтелекту, почали сповільнювати Вікіпедію

Автоматизовані боти, які збирають інформацію для навчання моделей штучного інтелекту, дедалі більше навантажують ресурси Вікіпедії. Це призводить до різкого зростання витрат на утримання всієї інфраструктури й загрожує серйозними обмеженнями доступу до контенту, йдеться в повідомленні фонду Вікімедіа.
"Наш контент безкоштовний, наша інфраструктура – ні", – пояснює він суть проблеми.
Масштаби автоматизованого збирання даних протягом останніх місяців зросли на 50%.
Це явище посилилось з січня 2024 року і стосується не лише самої Вікіпедії, але й таких сайтів, як Wikimedia Commons, де зберігаються близько 144 млн файлів під відкритими ліцензіями.
Приблизно 65% найбільш ресурсомістких запитів до центрів обробки даних Вікіпедії надходить від ботів.
Це створює проблеми для її інфраструктури, що призначена для людей, а не масового автоматизованого скрапінгу.
У фонді наводять приклад, коли після смерті Джиммі Картера в грудні 2024 року раптовий сплеск трафіку, поєднаний з підвищеним базовим навантаженням від ботів, призвів до уповільнення завантаження сторінок для користувачів.
"У той час як читачі-люди зазвичай зосереджуються на конкретних – часто схожих – темах, боти-краулери схильні до "масового поглинання" великої кількості сторінок, відвідуючи також і менш популярні матеріали. Це означає, що такі запити з більшою ймовірністю передаються до центрального сховища даних, що значно збільшує витрати наших ресурсів", – поскаржився фонд.
- Торік стало відомо, що провідні ШІ-компанії зіткнулися зі складнощами під час розробки нових моделей, бо у світі закінчується якісний текст для тренування штучного інтелекту.
- У січні 2025 року LinkedIn звинуватили у використанні особистих повідомлень для навчання ШІ.