Експерти Фостер Провост і Том Фоусетт пояснюють, як оцінити роль даних у вашому бізнесі, як їх трактувати й узагальнювати та якими принципами керуватися, щоб використати зібрану інформацію для розвитку вашого бізнесу. 

LIGA.net публікує уривок з книги "Data Science для бізнесу. Як збирати, аналізувати і використовувати дані", яку нещодавно випустило видавництво Наш Формат.

ДАТА-АНАЛІТИЧНЕ МИСЛЕННЯ

"Не мрійте маленькими мріями; вони не здатні рухати серцями мужів", - Йоганн Вольфґанґ Ґете.

За останні 15 років у інфраструктуру бізнесу прийшли величезні інвестиції, від чого можливостей збирати дані по всьому підприємству стало куди легше. Майже кожен аспект бізнесу тепер відкритий до збору даних і часто навіть під це підлаштований: операції, виробництво, управління логістикою, поведінка користувачів, ефективність маркетингової кампанії, організація робочого процесу тощо. Водночас інформація широко доступна і поза межами компаній: тренди ринку, новини галузі, дії конкурентів.

Через загальну доступність даних зросла цікавість до методів, якими із даних можна дістати корисну інформацію та знання, — царини data science.

Всюдисутність можливостей даних

Тепер, коли стала доступною безмежна кількість даних, компанії в майже кожній галузі зосереджено намагаються експлуатувати її так, щоб отримати конкурентну перевагу. У минулому фірми наймали команди статистиків, розробників моделей і аналітиків, щоб вони вручну досліджували отримані дані, але тепер обсяги й різноманіття цих даних вже вийшло далеко за межі, де їх можна опрацювати вручну. Водночас комп’ютери стали набагато потужнішими, мережева кооперація — поширеним явищем, а алгоритми розвинулися так, що можуть поєднувати бази даних між собою, і так проводити ширший і глибший аналіз, аніж той, що взагалі був раніше можливий. Збіглися два феномени, і відтак у бізнесі почали дедалі активніше використовувати техніки дата-майнингу і принципи науки про дані.

Про авторів: Фостер Провост - професор Нью-Йоркської бізнес-школи Леонарда Стерна, де він викладає програму МВА з бізнес-аналітики та Data Science. Том Фоусет - кандидат наук у галузі машинного навчання. Працював у таких компаніях, як GTE Laboratories, NYNEX/Verizon Labs і HP Labs

Найширше, мабуть, техніки дата-майнингу використовують у маркетингу — для таргетування, онлайн-реклами і рекомендацій для крос-продажу. Дата-майнинг використовують для управління стосунками з умовним клієнтом, аналізу поведінки клієнта, щоб мати змогу контролювати тертя і зробити споживчу цінність максимально високою. У фінансовій галузі дата-майнингом користуються для того, щоб створювати кредитні рейтинги й торгувати в кредит, а також щоб визначати шахраїв і управляти персоналом. Великі ритейлери, наприклад, Walmart чи Amazon, використовують дата-майнинг у своєму бізнесі всюди: і в маркетингу, і в управлінні логістикою. Багато компаній статегічно диференціювалися за допомогою data science, деякі аж так сильно, що перетворилися на компанії з дата-майнингу.

Головна мета цієї книжки — допомогти вам побачити бізнес-проблеми з погляду даних і зрозуміти, за яким принципом із даних можна видобувати корисну інформацію. У дата-аналітичного мислення є фундаментальна структура і базові принципи, які потрібно розуміти. Подекуди тут також потрібно застосовувати інтуїцію, креативність, здоровий ґлузд і знання проблемної ділянки. Якщо ви дивитиметеся на проблеми з погляду даних, у вас буде структура і принципи, а відтак ви отримаєте шаблон, за яким можна буде систематично аналізувати подібні проблеми. Коли ви краще освоїте дата-аналітичне мислення, то вже почнете інтуїтивно розуміти, де тут можна придумати креативне рішення, а де потрібні знання проблемної ділянки.

У перших двох розділах цієї книжки ми детально обговорюватимемо різноманітні теми й техніки, які стосуються data science і дата-майнингу. Терміни "data science" і "дата-майнинг" часто вважають взаємозамінними, але коли різні компанії та індивідууми почали намагатися заробляти на дата-хайпі, перший термін зажив власним життям. Якщо не вдаватися в подробиці, data science — це набір принципів, якими потрібно керуватися, щоб з даних отримати інформацію. Дата-майнинг — це вилучення інформації з даних, за допомогою технологій, які створені за цими принципами. Сам термін "data science" використовують частіше, ніж "дата-майнинг", але техніки дата-майнингу — це нерідко найкращі ілюстрації принципів data science.

Розуміти data science важливо, навіть якщо ви взагалі не збираєтеся її застосовувати. Із дата-аналітичним мисленням ви зможете оцінювати пропозиції щодо проектів із дата-майнингу. Наприклад, якщо співробітник, консультант або потенційна інвестиційна мета запропонують краще застосування для конкретного бізнесу із використанням інформації, яку можуть дати дані, ви зможете системно оцінити пропозиції і вирішити, чи розважна вона, а чи в ній є недоліки. Це не означає, що ви знатимете, чи спрацює запропоноване — в проектах із дата-майнингом для цього найчастіше потрібно спробувати — але ви зможете помітити явні недоліки, нереалістичні припущення й частини, яких не вистачатиме.

У цій книжці ми опишемо низку фундаментальних принципів data science, і проілюструємо кожен із них щонайменше однією технікою дата-майнингу, в якій буде використано цей принцип. Зазвичай кожен із принципів застосовується в багатьох техніках, тож у цій книжці ми вирішили скоріше говорити про базові принципи, аніж про конкретні техніки. А отже, ми не будемо сильно наполягати на різниці між data science і дата-майнингом, якщо тільки це не буде напряму впливати на пояснення принципів.

Розгляньмо два невеликих кейси з аналізу даних, де потрібно отримати прогнозовані сценарії.

Приклад: ураган Френсіс

Розгляньмо приклад зі статті 2004 року в New York Times.

Ураган Френсіс на повній швидкості мчав через Карибське море і загрожував ударити просто по атлантичному узбережжю Флориди. Мешканці узбережжя втекли туди, де було повище, але управління магазинів Wal-Mart у Бентонвілі вирішили, що в цій ситуації буде дуже доречно використати їхню найновішу зброю... технології передбачення.

За тиждень до того, як ураган мав дістатися землі, керівниця інформаційного управління Wal-Mart Лінда Ділман наказала своїм працівникам створити прогнози погоди на основі того, що сталося, коли за кілька тижнів до того налетів ураган Чарлі. На основі трильйонів байтів історії покупок, які були у сховищі даних Wal-Mart, вона вирішила, що компанія може "почати передбачати, що станеться, а не чекати, коли це станеться", сказала вона. (Гейс, 2004)

Подумайте, чому передбачення на основі даних в такому сценарії може бути корисним. Воно може бути корисним, тому що так можна передбачити, що люди, які тікатимуть від урагану, будуть купувати більше води у пляшках. Можливо, але це трішки очевидно, та й хіба потрібні дані, щоб це зрозуміти? Воно може бути корисним, щоб спрогнозувати, на скільки саме піднімуться продажі через ураган, щоб закупити в місцеві Wal-Mart потрібну кількість товару. Можливо, дата-майнинг покаже, що через ураган зростають продажі певних DVD — але можливо, вони того тижня розпродалися у Wal-Mart по всій країні, не тільки там, куди сунув ураган. Передбачення могло бути корисним, але, мабуть, загальнішим, аніж те, яке хотіла отримати міс Ділман.

Було би куди цінніше пошукати пов’язані з ураганом патерни, які були б не такі очевидні. Щоб це зробити, аналітики могли би оцінити величезний обсяг даних Wal-Mart із попередніх, подібних ситуацій (наприклад, коли був ураган Чарлі), та ідентифікувати незвичайні товари, на які під час урагану в цьому районі піднімається попит. Із таких патернів компанія могла би визначити, на які незвичні товари зросте попит, і наповнити ними склади до того, як налетить ураган.

Насправді, так і сталося. У The New York Times (Гейс, 2004) написали: "...експерти промайнили дані і дізналися, що магазинам знадобляться запаси конкретних товарів — і не тільки ліхтариків, як можна було подумати. "Ми раніше не знали, що полуничні "поп-тартс" перед ураганом починають продаватися набагато краще, приблизно в сім разів краще, ніж зазвичай, — сказала міс Ділман у нещодавньому інтерв’ю. ― А найкраще перед ураганом продавалося пиво"".

Приклад: передбачення плинності клієнтів

Як проводять такий аналіз даних? Уявімо на секунду більш типовий бізнес-сценарій і як із ним можна повестися, якщо дивитися на все з погляду даних. Ця проблема буде нам за приклад для багатьох питань, які порушуватимуться в цій книжці, своєрідним критерієм.

Припустімо, ви щойно отримали прекрасну роботу аналітика в MegaTelCo, одній із найбільших телекомунікаційних фірм у Сполучених Штатах. У них велика проблема: клієнти відмовляються від їхніх бездротових послуг. У середньоатлантичному регіоні 20 % клієнтів мобільних телефонів ідуть, коли у них закінчується контракт, а шукати нових стає дедалі важче. Оскільки ринок мобільних телефонів насичений, величезні темпи росту бездротового ринку впали. Комунікаційні компанії тепер борються за клієнтів одна одної і водночас намагаються втримати своїх. Коли клієнти переходять від компанії до компанії, це називається "плинністю", і це дорого, як не крути: одна компанія повинна вкладатися в засоби заохочення, щоб привабити клієнта, а інша втрачає прибуток, коли він іде.

Вас узяли на роботу, щоб ви розібралися з проблемою і допомогли придумати рішення. Приваблювати нових клієнтів набагато дорожче, ніж утримувати старих, тож велика частка маркетингового бюджету спрямована на те, щоб уникати плинності.Маркетинг-відділ уже придумав спеціальну пропозицію, щоб їх утримати. Ваше завдання — розробити конкретний покроковий план, які дата-спеціалістам використати обширні дата-ресурси MegaTelCo, щоб вирішити, яким клієнтам запропонувати особливі умови до того, як у них закінчаться контракти.

Добре подумайте, які ви можете використати дані та як саме. Зокрема, як MegaTelCo вибрати користувачів, які отримають пропозицію, щоб якомога більше скоротити плинність з урахуванням бюджету? На це питання відповісти куди складніше, ніж може здатися спочатку. У книжці ми неодноразово повертатимемося до цього завдання, і в силу того, як ми розумітимемо принципи data science, наше рішення ставатиме дедалі елегантнішим.

У реальності технології дата-майнингу переважно і використовували, коли розбиралися з відтоком клієнтів — особливо в телекомунікаційному та фінансовому бізнесах. Вони одними з найперших почали широко використовувати технології дата-майнингу, з причин, які ми обговорюватимемо пізніше.

Data science, програмування і ухвалення рішень на основі даних

Data science — це принципи, процеси й техніки, потрібні для розуміння феноменів через (автоматичний) аналіз даних. У цій книжці ми говоритимемо про прийняття рішень як про головну мету data science, оскільки зазвичай саме це напряму цікавить бізнес.

Ухвалювання рішення на основі даних — це основувати рішення на аналізі даних, а не лише на інтуїції. Наприклад, маркетолог може вибрати рекламу, засновуючись суто на своєму великому досвіді роботи в галузі та інтуїції до прийомів, які працюють. Або ж на аналізі даних про те, як споживачі реагують на різні реклами. Можна також використати обидва підходи. Ухвалення рішень на основі даних — не такий підхід, де або все, або нічого, і в різних компаніях до цього вдаються де більше, а де й менше.

Переваги ухвалення рішень на основі даних підтверджені беззаперечно. Економіст Ерік Бринолфссон та його колеги з МІТ та Ліги Плюща дослідили, як прийняття рішень на основі даних впливає на продуктивність компаній (Brynjolfsson, Hitt, & Kim, 2011). Вони розробили оцінку такого підходу, який ранжував компанії за тим, наскільки активно вони використовують дані, коли приймають рішення в компанії. Дослідження показало, що за статистикою, що більше в компанії орієнтуються на дані, то продуктивніша вона — вона навіть може контролювати велику кількість розбіжних факторів. І різниця немаленька. Одне стандартне відхилення вгору по шкалі прийняття рішень на основі даних — це зростання продуктивності на 4–6 %. Ухвалення рішень на основі даних корелюється також із вищим прибутком на активи, рентабельністю капіталу, використанням наявних ресурсів і ринковою цінністю, і схоже, що ці фактори між собою пов’язані.

Рішення, які цікавитимуть нас у цій книжці, можна поділити на два типи: 1) рішення, для яких у межах даних потрібно робити "відкриття", 2) рішення, які повторюються, особливо коли масштаб величезний, і навіть якщо прийняття рішень на основі аналізу даних стане трішечки точнішим, це може позитивно вплинути на процес прийняття рішень загалом. Наведений вище приклад із Wal-Mart — ілюстрація проблеми першого типу: Лінді Ділман потрібна була інформація, як допомогти Walmart підготуватися до неминучого урагану Френсіс.

У 2012 році магазин Target, конкурент Walmart, потрапив у новини зі своєю історією про прийняття рішень на основі даних. Це теж була проблема першого типу (Duhigg, 2012). Target, як і переважна більшість роздрібних торговців, переймається купівельними звичками людей, тим, що їх підштовхує купувати і як на них можна вплинути. Зазвичай у покупців звички досить-таки усталені й змінити їх дуже складно. Однак люди, які приймали рішення в Target, знали, що один момент, коли купівельні звички суттєво змінюються, існує. Це момент, коли в людей з’являється дитина. "Якщо ми зробимо так, що вони купуватимуть у нас підгузки — вони купуватимуть у нас і все інше". Більшість роздрібних магазинів про це знають і конкурують один з одним — намагаються продати новоявленим батькам дитячі товари. Доступ до більшості записів про народження можна отримати легко, тому магазини збирають інформацію про новонароджених дітей і надсилають батькам свої спеціальні пропозиції.

Однак Target хотів отримати перевагу в цій конкуренції. Їм стало цікаво, чи можуть вони передбачити, що люди чекають на дитину. Якби вони могли — то могли би отримати перевагу перед конкурентами, адже надсилали би свої пропозиції раніше, ніж це робили би вони. Target використали техніки data science і проаналізували історію даних про клієнтів, про яких пізніше стало відомо, що вони вагітні. І тепер вони могли отримати інформацію про те, що клієнти вагітні.

Наприклад, вагітні жінки часто міняють раціон, гардероб, починають купувати інші вітаміни тощо. Ці індикатори можна було дістати з історії даних, зібрати в моделі передбачення й використати у маркетингових кампаніях. Далі в книжці ми дуже детально обговоримо прогностичні моделі. Поки досить розуміти ось що: у прогностичній моделі більшість складнощів світу відкидається, і натомість увага зосереджується на конкретному наборі індикаторів, які певним чином корелюють із величиною інтересу (хто з клієнтів піде, хто зробить покупку, хто вагітний і т.д.). Важливо, що і в прикладі з Walmart, і в прикладі з Target аналіз даних не обмежився звичайним тестуванням простих гіпотез. Натомість дані досліджували, сподіваючись відкрити щось корисне.

Один із прикладів плинності демонструє проблему ухвалення рішень на основі даних другого типу. У MegaTelCo — сотні мільйонів клієнтів, і кожен із них — кандидат на виліт. Щомісяця в десятків мільйонів користувачів спливають терміни контрактів, тож ризик, що кожен із них у найближчому майбутньому піде, підвищений. Якби ми навчилися краще приблизно вираховувати вірогідність по кожному клієнтові — наскільки вигідно для нас зосередити зусилля саме на цій людині — то могли би надзвичайно плідно застосувати це вміння для мільйонів своїх користувачів. Ту саму логіку можна застосувати в багатьох галузях, де data science і дата-майнинг застосовуються найширше: прямий маркетинг, онлайн-реклама, рейтинги кредитоспроможності, торгівля на фінансових ринках, управління службою техпідтримки, виявлення шахраїв, пошукове ранжування, рекомендації продуктів і т.д.

Варто звернути увагу на факт, який часто з уваги випускають: бізнес-рішення дедалі частіше ухвалюють автоматично, і роблять це комп’ютерні системи.

У різних галузях автоматичне ухвалення рішень набуло різних масштабів. Галузі фінансів і телекомунікацій почали застосовувати це раніше, переважно тому, що мережі даних у них розвивалися не за роками, і вони проводили обрахування величезного масштабу. Вони могли об’єднувати дані й створювати великомасштабні моделі, а також застосовувати отримані моделі у прийнятті рішень.

У 1990-х автоматичне ухвалення рішень до невпізнаваного змінило банківські системи й споживчі кредити. Банки й телекомунікаційні компанії в 1990-х також застосовували системи великих масштабів, щоб мати змогу приймати рішення стосовно контролю за шахраями на основі даних. Роздрібні системи комп’ютеризувалися дедалі більше, рішення щодо мерчандайзингу вже були повністю автоматизовані. Відомі приклади — програми винагород у казино Harrah’s і автоматичні рекомендації Amazon і Netflix. Зараз ми з вами спостерігаємо революцію в рекламі, оскільки тепер користувачі величезну частку часу проводять в інтернеті, і в онлайні рішення щодо реклами можна ухвалювати за (буквально) долю секунди.

Обробка даних та "біґ-дата"

Зараз важливо відхилитися й обговорити ще один момент. В обробці даних є багато такого, що не стосується data science — хоча, якщо судити по медіа, то можна подумати інакше. Інженерія й обробка даних критично важливі для існування data science, але це більш загальні поняття. Наприклад, сьогодні багато вмінь, систем і технологій з обробки даних помил- ково називають data science. Але щоб розуміти data science і компанії, які ухвалюють рішення на основі даних, важливо розуміти цю відмінність.

Для data science потрібен доступ до даних, і правильна інженерія може тільки піти на користь, але ці технології — не технології власне data science. Як показано на рис. 1.1, вони підтримують data science, але можуть бути корисні ще багато для чого. Технології обробки даних дуже важливі для багатьох задач у бізнесі, для яких потрібні дані, але де не потрібно вміти діставати з даних корисну інформацію або ухвалювати на їх основі рішення. Це, наприклад, ефективна обробка транзакції, підтримування роботи сучасної веб-системи і рекламна онлайн-кампанія.

Останнім часом досить багато уваги медіа привернули технології біґ-дати (Hadoop, Hbase, і MongoDB). По суті, "біґ-дата" означає, що для традиційних технологій обробки даних ці набори даних завеликі, і потрібні нові технології. Технології біґ-дати використовують для багатьох задач, включно з інженерією даних — як і традиційні технології. Інколи технології біґ-дати застосовують, щоб імплементувати техніки майнингу даних. Однак набагато частіше так широко відомі технології біґ-дати використовують для обробки даних на підтримку технік майнингу даних та інших пов’язаних із даними задач.

Раніше ми обговорювали дослідження Бринолфссона, яке показує, чим добре ухвалювати рішення на основі даних. В іншому дослідженні, яке зробив економіст Парсанна Тамбе зі Школи Штерна, перевірили, до якої міри технології біґ-дати насправді допомагають фірмам (Tambe, 2012). Він виявив, що після того, як інші можливі фактори, які могли би завадити продуктивності, взяті під контроль, використання біґ-дати суттєво підвищує рівень продуктивності в компанії. Точніше кажучи, стандартне відхилення, пов’язане з активнішим застосуванням біґ-дати в роботі середньої компанії, — зростання продуктивності на 1–3 %. Водночас стандарте відхилення, пов’язане з меншим застосуванням біґ- дати в роботі середньої компанії — зниження продуктивності на 1–3 %. За таких умов на екстремальних точках продуктивність компаній буде різнитися дуже сильно.

Від біґ-дати 1.0 до біґ-дати 2.0

Один зі способів зрозуміти, в якому зараз статусі технології біґ-дати — згадати, як компанії починали користуватися інтернет-технологіями. У часи Web 1.0 бізнеси активно займалися тим, що закупали базові інтернет-технології: їм потрібно було створити присутність в інтернеті, вибудувати процес електронної комерції і покращити ефективність операцій. Можемо уявити, що ми зараз живемо в еру Біґ-дата 1.0. Компанії активно набираються вмінь обробляти біґ-дату, переважно для того, щоб підтримувати ті операції, що вони вже проводять — наприклад, щоб робити їх ефективнішими.

Коли компанії вже добре освоїлися з технологіями Web 1.0 (а в процесі ціни на потрібні технології сильно впали), вони почали шукати далі. Вони почали запитувати, що мережа може для них зробити, як їм почати робити те, що вони роблять, краще — і ми ввійшли в еру Web 2.0. Нові системи й компанії почали користуватися перевагами інтерактивної природи мережі. Це змінило сам підхід, і зміни ці проникли всюди. Найочевидніший із прикладів — те, яку роль почали відігравати соціальні мережі і наскільки гучнішим став "голос" користувача (і простої людини).

Найімовірніше, після фази Біґ-дата 1.0 настане фаза 2.0. Коли фірми навчаться добре обробляти дані, вони почнуть питати: "Що я тепер можу такого, чого раніше не могла, або принаймні чи можу я щось тепер робити краще?". Найімовірніше, це буде золота доба data science. Принципи і техніки, про які йдеться в цій книжці, застосовуватимуться куди ширше й активніше, ніж зараз.

Важлива примітка: в еру Web 1.0 деякі особливо добре розвинені компанії почали застосовувати ідеї Web 2.0 задовго до того, як це почали робити всі інші. Прекрасний приклад — Amazon, який раніше за інших почав підключати "голос" клієнта: рейтинги продуктів, відгуки про продукти (і навіть більше — рейтинги відгуків про продукти). І так само зараз ми вже бачимо, як деякі компанії застосовують Біґ-дату 2.0. Amazon знову попереду всіх: вони дають рекомендації на основі величезної кількості даних. Є й інші приклади. Онлайн-рекламодавці повинні обробляти неймовірно величезну кількість даних (мільярди реакцій на рекламу на день — звичайна річ), і повинні дуже швидко відробляти отримувану інформацію (системи відкритих торгів у режимі реального часу приймають рішення за десятки мілісекунд). Потрібно стежити за цими та подібними галузями і шукати натяки на те, як саме інші галузі пізніше застосовуватимуть біґ-дату і data science.

Вміння працювати з даними і data science як стратегічне надбання

З усього сказаного вище можна вивести один із фундаментальних принципів data science: дані і здатність діставати з них корисну інформацію треба вважати ключовими стратегічними надбаннями. Є аж надто багато компаній, які вважають, що дата-аналітики просто перетворюють якісь дані, що вже існують, на гроші. Часто вони небагато уваги приділяють тому, чи є взагалі у компанії компетентні дата-аналітики. Якщо вважати все це надбаннями, можна буде максимально чітко зрозуміти, скільки ви готові в ці надбання інвестувати.

Часто у нас немає правильних даних, щоб ухвалити рішення якнайкраще, і/чи правильного спеціаліста, який би якнайкраще допоміг ухвалити рішення за допомогою даних. А отже, якщо ми почнемо думати про ці надбання, то зрозуміємо, що вони доповнюють одне одного. Без потрібних даних навіть найкращі дата-спеціалісти не дадуть великих результатів; рішення не стануть набагато кращими, якщо у вас будуть ідеальні дані, але не буде людини, яка зможе з ними якнайкраще впоратися. У ці надбання часто потрібно інвестувати — як і в будь-які інші. Зібрати команду екстра-класу з data science — завданнячко не з простих, але на ухвалення рішень це може неабияк вплинути. Ми детально обговоримо стратегічні ходи щодо data science у розділі 13. У наступному кейсі розберемо, як ідея добре подумати, як інвестувати в надбання з даних, може повернутися сторицею.

Така історія сталася з маленьким банком Signet у 1990-х. До цього, у 1980-х, data science змінила бізнес споживчих кредитів. Моделювання вірогідності невиконання обов’язків змінило індустрію: від персональної оцінки вірогідності невиконання обов’язків банки перейшли до статегій великих масштабів і ринкової частки, а це повело за собою економіки масштабу. Зараз може здаватися дивним, але тоді правила виплат у всіх кредиток були однакові, з двох причин: 1) у компаній не було адекватних інформаційних систем, щоб управляти різноманітними виплатами у великих масштабах, і 2) управління банків вважали, що клієнти не потерплять дискримінації за цінами.

Близько 1990 року два прогресивних стратеги (Річард Фейрбенкс і Найджел Морріс) зрозуміли, що в інформаційних технологій вистачає потужності, щоб робити складніші прогностичні моделі — якщо використовувати техніки, які ми обговорюватимемо в цій книжці — і почали пропонувати різні умови (сьогодні це: відсоткові ставки, кредитні ліміти, відсоткові канікули, кешбеки, бали лояльності і так далі). Переконати великі банки взяти їх консультантами і дати спробувати це зробити ці два чоловіки не змогли. Нарешті, коли всі великі банки вони вже обійшли, вони змогли зацікавити один маленький регіональний банк у Вірджинії: банк Signet. Менеджмент банку Signet повірив, що моделювання рентабельності, а не тільки вірогідності невиконання обов’язків — це правильна стратегія. Вони розуміли, що маленька частка клієнтів насправді приносить більше ніж 100 % прибутку банку за операціями по кредитках (тому що решта виходить в нуль або на них вони втрачають гроші). Якщо вони зможуть моделювати рентабельність, вони зможуть робити найкращі пропозиції для найкращих клієнтів і "збирати вершки" з клієнтів великих банків.

Але в банку Signet була велика проблема, яка заважала застосувати цю стратегію. У них не було потрібних даних, щоб змоделювати рентабельність і запропонувати різним клієнтам різні умови. Їх ні в кого не було. Банки видавали кредити за конкретними умовами і за конкретною моделлю вірогідності невиконання обов’язків, і в них були тільки дані, щоб змоделювати рентабельність 1) щодо умов, які вони пропонували раніше, і 2) для тих клієнтів, яким кредит уже пропонувався (тобто тих, яким за наявною моделлю його і так можна було видати).

То що міг зробити банк Signet? Вони застосували фундаментальну стратегію data science: заплатити свою ціну за потрібні дані. Якщо ми розглядаємо дані як надбання бізнесу, потрібно подумати і про те, чи готові ми в неї інвестувати і скільки. У випадку з Signet дані можна було зібрати за рентабельністю клієнтів, яким у межах різних експериментів пропонували би різні умови. Ці різні умови пропонували випадковим клієнтам. Якби це відбувалося не в контексті дата-аналітики, це здавалося би дурістю: ви ж просто втратите гроші! Це правда. У цьому випадку втрата грошей — ціна отриманих даних. Якщо думати дата-аналітично, потрібно розуміти, чи будуть витрати на дані того варті.

То що ж сталося із банком Signet? Як і можна було очікувати, коли вони почали пропонувати людям випадково вибрані умови, кількість поганих рахунків просто злетіла. До цього Signet був лідером у галузі з кількості амортизованих боргів (не виплачувалося 2,9 % заборгованостей), тепер відсоток зріс до 6 %. Ці втрати тривали кілька років, поки дата-спеціалісти працювали над прогностичною моделлю, оцінювали її і застосовували, щоб підняти рентабельність. Компанія вважала ці втрати інвестицією в дані, тому продовжувала гнути своє, хоча акціонери були незадоволені. Зрештою операція з кредитками в Signet показала себе і стала такою прибутковою, що її навіть довелося відділити від інших банківських операцій, тому що вони опинилися в тіні успішних споживчих кредитів.

Фейрбенкс і Морріс стали головою й СЕО та президентом і СОО, і продовжили застосовувати data science у роботі компанії — вони не тільки залучали нових клієнтів, а й утримували старих. Коли людина телефонувала й просила підібрати їй кращу пропозицію, базовані на даних моделі рахували потенційну вірогідність різних дій (різні пропозиції, включно з варіантом, щоб узагалі нічого не змінювати), і на комп’ютері представника служби підтримки висвітлювалася найкраща з можливих пропозицій.

Про маленький банк Signet ви, мабуть, не чули. Але якщо ви читаєте цю книжку, то мали чути про їхню дочірню компанію: Capital One. Нова компанія Фейрбенкса і Морріса виросла в одного з найбільших емітентів кредитних карт у галузі з одним із найменших відсотків боргів, які не виплачуються. У 2000 році, за звітами банку, таких "наукових тестів", як вони їх називали, проводилося 45 000.

Дослідження із конкретними кількісними даними про цінність надбань даних знайти важко, переважно тому, що фірми не дуже полюбляють розголошувати інформацію стратегічної цінності. Є виняток — дослідження Мартенса і Провоста (2011), де оцінюється, як дані за певними транзакціями клієнтів банку можуть покращити моделі вирішення, які саме продукти запропонувати. Банк створив моделі на основі даних, щоб вирішити, кому які продукти запропонувати. У дослідженні вивчалися багато різних типів даних та їхній вплив на ефективність прогнозів. За допомогою соціодемографічних даних можна було відмінно моделювати типажі клієнтів, які куплять той чи інший продукт.

Але це все, на що здатні соціодемографічні дані; коли кількість даних доходить до певної межі, збільшення цієї кількості перестає приносити користь. Натомість деталізовані дані з індивідуальних транзакцій клієнтів (анонімно) дуже суттєво піднімали продуктивність, порівняно із соціодемографічними даними. Зв’язок тут очевидний, він просто вражає, і — що суттєво для теми, про яку тут ідеться — що більше використовується даних, то кращі результати показують прогностичні моделі. Продуктивність підвищувалася в усьому, що досліджували Мартенс і Провост, і ознак спадання ніде не було. Тут є важливий глибинний сенс: банки з з більшими надбаннями даних можуть мати важливу стратегічну перевагу над меншими конкурентами. Якщо ці тренди поширяться і банки зможуть застосовувати складну аналітику, то ті банки, у яких даних буде більше, краще визначатимуть, для якого клієнта який продукт буде ідеальним. У результаті або люди почнуть більше користуватися продуктами банку, або впаде вартість нового клієнта, або відбудеться і те, й інше.

Ідею даних як стратегічного надбання однозначно можна застосувати не тільки в Capital One, та й не тільки в банківській сфері. В Amazon досить рано з’явилася можливість збирати дані щодо онлайн-покупців, від чого з’явилися суттєві витрати на переключення: клієнтам були важливі рейтинги і рекомендації, які пропонував Amazon. Відтак, Amazon було легше втримати клієнтів, і вони навіть змогли брати платню за преміум-акаунти (Brynjolfsson & Smith, 2000).

Казино Harrah’s відомі тим, що інвестували у збір та майнинг даних про гравців і з маленького казино, яким вони були в середині 90-х, виросли до покупки Caesar’s Entertainment у 2005-му і стали найбільшою у світі компанією з азартних ігор. Величезна ціна Facebook стала такою тому, що у них є величезні та унікальні запаси даних (Sengupta, 2012) — інформація про людей та їхні вподобання, а також інформація про структуру соціальної мережі. Інформація про структуру мережі виявилася важливою для прогнозування, і відмінно допомогла моделювати, хто купуватиме певні продукти (Hill, Provost, & Volinsky, 2006). Абсолютно ясно, що надбання даних у Facebook ні з чим неможливо порівняти. Але чи є у них правильні стратегії data science, щоб використати потенціал цих даних на повну — питання відкрите.

Далі у книжці ми ще поговоримо детально про фундаментальні концепції, які стоять за цими історіями успіху, коли досліджуватимемо принципи дата-майнингу і дата-аналітичного мислення.