Боти, які збирають інформацію для штучного інтелекту, почали сповільнювати Вікіпедію

Інфраструктура найбільшої у світі безплатної онлайн-енциклопедії не справляється зі скраперами ШІ

Андрій Водяний

Cтарший редактор новин LIGA.net

5 квітня, 17:25

Боти, які збирають інформацію для штучного інтелекту, почали сповільнювати Вікіпедію — Фото: depositphotos.com

Автоматизовані боти, які збирають інформацію для навчання моделей штучного інтелекту, дедалі більше навантажують ресурси Вікіпедії. Це призводить до різкого зростання витрат на утримання всієї інфраструктури й загрожує серйозними обмеженнями доступу до контенту, йдеться в повідомленні фонду Вікімедіа.

"Наш контент безкоштовний, наша інфраструктура – ні", – пояснює він суть проблеми.

Масштаби автоматизованого збирання даних протягом останніх місяців зросли на 50%.

Це явище посилилось з січня 2024 року і стосується не лише самої Вікіпедії, але й таких сайтів, як Wikimedia Commons, де зберігаються близько 144 млн файлів під відкритими ліцензіями.

Приблизно 65% найбільш ресурсомістких запитів до центрів обробки даних Вікіпедії надходить від ботів.

Це створює проблеми для її інфраструктури, що призначена для людей, а не масового автоматизованого скрапінгу.

У фонді наводять приклад, коли після смерті Джиммі Картера в грудні 2024 року раптовий сплеск трафіку, поєднаний з підвищеним базовим навантаженням від ботів, призвів до уповільнення завантаження сторінок для користувачів.

"У той час як читачі-люди зазвичай зосереджуються на конкретних – часто схожих – темах, боти-краулери схильні до "масового поглинання" великої кількості сторінок, відвідуючи також і менш популярні матеріали. Це означає, що такі запити з більшою ймовірністю передаються до центрального сховища даних, що значно збільшує витрати наших ресурсів", – поскаржився фонд.

Торік стало відомо, що провідні ШІ-компанії зіткнулися зі складнощами під час розробки нових моделей, бо у світі закінчується якісний текст для тренування штучного інтелекту.
У січні 2025 року LinkedIn звинуватили у використанні особистих повідомлень для навчання ШІ.

Боти, які збирають інформацію для штучного інтелекту, почали сповільнювати Вікіпедію

Країни ОПЕК+ у червні суттєво збільшать видобуток нафти

Україна не допустить союзників Росії до відбудови. У "нейтральних" не буде пріоритету

Держстат анонсував припинення ЄДРПОУ: його функції інтегрують в інший реєстр

"Повністю його рішення". Трамп вирішує долю нових санкцій проти Росії – Reuters

Дніпровський завод мінеральних добрив збанкрутував

Без метушні та стресу в Києві: Boston Creative House як приклад нової урбаністичної моделі