Дорасти до Facebook: Как использовать Data Science для бизнеса. Книга

Експерти Фостер Провост і Том Фоусетт пояснюють, як оцінити роль даних у вашому бізнесі, як їх трактувати й узагальнювати та якими принципами керуватися, щоб використати зібрану інформацію для розвитку вашого бізнесу. LIGA.net публікує уривок з книги "Data Science для бізнесу. Як збирати, аналізувати і використовувати дані", яку нещодавно випустило видавництво Наш Формат.ДАТА-АНАЛІТИЧНЕ МИСЛЕННЯ"Не мрійте маленькими мріями; вони не здатні рухати серцями мужів", - Йоганн Вольфґанґ Ґете.За останні 15 років у інфраструктуру бізнесу прийшли величезні інвестиції, від чого можливостей збирати дані по всьому підприємству стало куди легше. Майже кожен аспект бізнесу тепер відкритий до збору даних і часто навіть під це підлаштований: операції, виробництво, управління логістикою, поведінка користувачів, ефективність маркетингової кампанії, організація робочого процесу тощо. Водночас інформація широко доступна і поза межами компаній: тренди ринку, новини галузі, дії конкурентів. Через загальну доступність даних зросла цікавість до методів, якими із даних можна дістати корисну інформацію та знання, — царини data science.Всюдисутність можливостей данихТепер, коли стала доступною безмежна кількість даних, компанії в майже кожній галузі зосереджено намагаються експлуатувати її так, щоб отримати конкурентну перевагу. У минулому фірми наймали команди статистиків, розробників моделей і аналітиків, щоб вони вручну досліджували отримані дані, але тепер обсяги й різноманіття цих даних вже вийшло далеко за межі, де їх можна опрацювати вручну. Водночас комп’ютери стали набагато потужнішими, мережева кооперація — поширеним явищем, а алгоритми розвинулися так, що можуть поєднувати бази даних між собою, і так проводити ширший і глибший аналіз, аніж той, що взагалі був раніше можливий. Збіглися два феномени, і відтак у бізнесі почали дедалі активніше використовувати техніки дата-майнингу і принципи науки про дані.Про авторів: Фостер Провост - професор Нью-Йоркської бізнес-школи Леонарда Стерна, де він викладає програму МВА з бізнес-аналітики та Data Science. Том Фоусет - кандидат наук у галузі машинного навчання. Працював у таких компаніях, як GTE Laboratories, NYNEX/Verizon Labs і HP LabsНайширше, мабуть, техніки дата-майнингу використовують у маркетингу — для таргетування, онлайн-реклами і рекомендацій для крос-продажу. Дата-майнинг використовують для управління стосунками з умовним клієнтом, аналізу поведінки клієнта, щоб мати змогу контролювати тертя і зробити споживчу цінність максимально високою. У фінансовій галузі дата-майнингом користуються для того, щоб створювати кредитні рейтинги й торгувати в кредит, а також щоб визначати шахраїв і управляти персоналом. Великі ритейлери, наприклад, Walmart чи Amazon, використовують дата-майнинг у своєму бізнесі всюди: і в маркетингу, і в управлінні логістикою. Багато компаній статегічно диференціювалися за допомогою data science, деякі аж так сильно, що перетворилися на компанії з дата-майнингу.Головна мета цієї книжки — допомогти вам побачити бізнес-проблеми з погляду даних і зрозуміти, за яким принципом із даних можна видобувати корисну інформацію. У дата-аналітичного мислення є фундаментальна структура і базові принципи, які потрібно розуміти. Подекуди тут також потрібно застосовувати інтуїцію, креативність, здоровий ґлузд і знання проблемної ділянки. Якщо ви дивитиметеся на проблеми з погляду даних, у вас буде структура і принципи, а відтак ви отримаєте шаблон, за яким можна буде систематично аналізувати подібні проблеми. Коли ви краще освоїте дата-аналітичне мислення, то вже почнете інтуїтивно розуміти, де тут можна придумати креативне рішення, а де потрібні знання проблемної ділянки.У перших двох розділах цієї книжки ми детально обговорюватимемо різноманітні теми й техніки, які стосуються data science і дата-майнингу. Терміни "data science" і "дата-майнинг" часто вважають взаємозамінними, але коли різні компанії та індивідууми почали намагатися заробляти на дата-хайпі, перший термін зажив власним життям. Якщо не вдаватися в подробиці, data science — це набір принципів, якими потрібно керуватися, щоб з даних отримати інформацію. Дата-майнинг — це вилучення інформації з даних, за допомогою технологій, які створені за цими принципами. Сам термін "data science" використовують частіше, ніж "дата-майнинг", але техніки дата-майнингу — це нерідко найкращі ілюстрації принципів data science.Розуміти data science важливо, навіть якщо ви взагалі не збираєтеся її застосовувати. Із дата-аналітичним мисленням ви зможете оцінювати пропозиції щодо проектів із дата-майнингу. Наприклад, якщо співробітник, консультант або потенційна інвестиційна мета запропонують краще застосування для конкретного бізнесу із використанням інформації, яку можуть дати дані, ви зможете системно оцінити пропозиції і вирішити, чи розважна вона, а чи в ній є недоліки. Це не означає, що ви знатимете, чи спрацює запропоноване — в проектах із дата-майнингом для цього найчастіше потрібно спробувати — але ви зможете помітити явні недоліки, нереалістичні припущення й частини, яких не вистачатиме.У цій книжці ми опишемо низку фундаментальних принципів data science, і проілюструємо кожен із них щонайменше однією технікою дата-майнингу, в якій буде використано цей принцип. Зазвичай кожен із принципів застосовується в багатьох техніках, тож у цій книжці ми вирішили скоріше говорити про базові принципи, аніж про конкретні техніки. А отже, ми не будемо сильно наполягати на різниці між data science і дата-майнингом, якщо тільки це не буде напряму впливати на пояснення принципів.Розгляньмо два невеликих кейси з аналізу даних, де потрібно отримати прогнозовані сценарії.Приклад: ураган ФренсісРозгляньмо приклад зі статті 2004 року в New York Times.Ураган Френсіс на повній швидкості мчав через Карибське море і загрожував ударити просто по атлантичному узбережжю Флориди. Мешканці узбережжя втекли туди, де було повище, але управління магазинів Wal-Mart у Бентонвілі вирішили, що в цій ситуації буде дуже доречно використати їхню найновішу зброю... технології передбачення.За тиждень до того, як ураган мав дістатися землі, керівниця інформаційного управління Wal-Mart Лінда Ділман наказала своїм працівникам створити прогнози погоди на основі того, що сталося, коли за кілька тижнів до того налетів ураган Чарлі. На основі трильйонів байтів історії покупок, які були у сховищі даних Wal-Mart, вона вирішила, що компанія може "почати передбачати, що станеться, а не чекати, коли це станеться", сказала вона. (Гейс, 2004)Подумайте, чому передбачення на основі даних в такому сценарії може бути корисним. Воно може бути корисним, тому що так можна передбачити, що люди, які тікатимуть від урагану, будуть купувати більше води у пляшках. Можливо, але це трішки очевидно, та й хіба потрібні дані, щоб це зрозуміти? Воно може бути корисним, щоб спрогнозувати, на скільки саме піднімуться продажі через ураган, щоб закупити в місцеві Wal-Mart потрібну кількість товару. Можливо, дата-майнинг покаже, що через ураган зростають продажі певних DVD — але можливо, вони того тижня розпродалися у Wal-Mart по всій країні, не тільки там, куди сунув ураган. Передбачення могло бути корисним, але, мабуть, загальнішим, аніж те, яке хотіла отримати міс Ділман.Було би куди цінніше пошукати пов’язані з ураганом патерни, які були б не такі очевидні. Щоб це зробити, аналітики могли би оцінити величезний обсяг даних Wal-Mart із попередніх, подібних ситуацій (наприклад, коли був ураган Чарлі), та ідентифікувати незвичайні товари, на які під час урагану в цьому районі піднімається попит. Із таких патернів компанія могла би визначити, на які незвичні товари зросте попит, і наповнити ними склади до того, як налетить ураган.Насправді, так і сталося. У The New York Times (Гейс, 2004) написали: "...експерти промайнили дані і дізналися, що магазинам знадобляться запаси конкретних товарів — і не тільки ліхтариків, як можна було подумати. "Ми раніше не знали, що полуничні "поп-тартс" перед ураганом починають продаватися набагато краще, приблизно в сім разів краще, ніж зазвичай, — сказала міс Ділман у нещодавньому інтерв’ю. ― А найкраще перед ураганом продавалося пиво"".Приклад: передбачення плинності клієнтівЯк проводять такий аналіз даних? Уявімо на секунду більш типовий бізнес-сценарій і як із ним можна повестися, якщо дивитися на все з погляду даних. Ця проблема буде нам за приклад для багатьох питань, які порушуватимуться в цій книжці, своєрідним критерієм.Припустімо, ви щойно отримали прекрасну роботу аналітика в MegaTelCo, одній із найбільших телекомунікаційних фірм у Сполучених Штатах. У них велика проблема: клієнти відмовляються від їхніх бездротових послуг. У середньоатлантичному регіоні 20 % клієнтів мобільних телефонів ідуть, коли у них закінчується контракт, а шукати нових стає дедалі важче. Оскільки ринок мобільних телефонів насичений, величезні темпи росту бездротового ринку впали. Комунікаційні компанії тепер борються за клієнтів одна одної і водночас намагаються втримати своїх. Коли клієнти переходять від компанії до компанії, це називається "плинністю", і це дорого, як не крути: одна компанія повинна вкладатися в засоби заохочення, щоб привабити клієнта, а інша втрачає прибуток, коли він іде.Вас узяли на роботу, щоб ви розібралися з проблемою і допомогли придумати рішення. Приваблювати нових клієнтів набагато дорожче, ніж утримувати старих, тож велика частка маркетингового бюджету спрямована на те, щоб уникати плинності.Маркетинг-відділ уже придумав спеціальну пропозицію, щоб їх утримати. Ваше завдання — розробити конкретний покроковий план, які дата-спеціалістам використати обширні дата-ресурси MegaTelCo, щоб вирішити, яким клієнтам запропонувати особливі умови до того, як у них закінчаться контракти.Добре подумайте, які ви можете використати дані та як саме. Зокрема, як MegaTelCo вибрати користувачів, які отримають пропозицію, щоб якомога більше скоротити плинність з урахуванням бюджету? На це питання відповісти куди складніше, ніж може здатися спочатку. У книжці ми неодноразово повертатимемося до цього завдання, і в силу того, як ми розумітимемо принципи data science, наше рішення ставатиме дедалі елегантнішим.У реальності технології дата-майнингу переважно і використовували, коли розбиралися з відтоком клієнтів — особливо в телекомунікаційному та фінансовому бізнесах. Вони одними з найперших почали широко використовувати технології дата-майнингу, з причин, які ми обговорюватимемо пізніше.Data science, програмування і ухвалення рішень на основі данихData science — це принципи, процеси й техніки, потрібні для розуміння феноменів через (автоматичний) аналіз даних. У цій книжці ми говоритимемо про прийняття рішень як про головну мету data science, оскільки зазвичай саме це напряму цікавить бізнес.Ухвалювання рішення на основі даних — це основувати рішення на аналізі даних, а не лише на інтуїції. Наприклад, маркетолог може вибрати рекламу, засновуючись суто на своєму великому досвіді роботи в галузі та інтуїції до прийомів, які працюють. Або ж на аналізі даних про те, як споживачі реагують на різні реклами. Можна також використати обидва підходи. Ухвалення рішень на основі даних — не такий підхід, де або все, або нічого, і в різних компаніях до цього вдаються де більше, а де й менше.Переваги ухвалення рішень на основі даних підтверджені беззаперечно. Економіст Ерік Бринолфссон та його колеги з МІТ та Ліги Плюща дослідили, як прийняття рішень на основі даних впливає на продуктивність компаній (Brynjolfsson, Hitt, &amp; Kim, 2011). Вони розробили оцінку такого підходу, який ранжував компанії за тим, наскільки активно вони використовують дані, коли приймають рішення в компанії. Дослідження показало, що за статистикою, що більше в компанії орієнтуються на дані, то продуктивніша вона — вона навіть може контролювати велику кількість розбіжних факторів. І різниця немаленька. Одне стандартне відхилення вгору по шкалі прийняття рішень на основі даних — це зростання продуктивності на 4–6 %. Ухвалення рішень на основі даних корелюється також із вищим прибутком на активи, рентабельністю капіталу, використанням наявних ресурсів і ринковою цінністю, і схоже, що ці фактори між собою пов’язані.Рішення, які цікавитимуть нас у цій книжці, можна поділити на два типи: 1) рішення, для яких у межах даних потрібно робити "відкриття", 2) рішення, які повторюються, особливо коли масштаб величезний, і навіть якщо прийняття рішень на основі аналізу даних стане трішечки точнішим, це може позитивно вплинути на процес прийняття рішень загалом. Наведений вище приклад із Wal-Mart — ілюстрація проблеми першого типу: Лінді Ділман потрібна була інформація, як допомогти Walmart підготуватися до неминучого урагану Френсіс.У 2012 році магазин Target, конкурент Walmart, потрапив у новини зі своєю історією про прийняття рішень на основі даних. Це теж була проблема першого типу (Duhigg, 2012). Target, як і переважна більшість роздрібних торговців, переймається купівельними звичками людей, тим, що їх підштовхує купувати і як на них можна вплинути. Зазвичай у покупців звички досить-таки усталені й змінити їх дуже складно. Однак люди, які приймали рішення в Target, знали, що один момент, коли купівельні звички суттєво змінюються, існує. Це момент, коли в людей з’являється дитина. "Якщо ми зробимо так, що вони купуватимуть у нас підгузки — вони купуватимуть у нас і все інше". Більшість роздрібних магазинів про це знають і конкурують один з одним — намагаються продати новоявленим батькам дитячі товари. Доступ до більшості записів про народження можна отримати легко, тому магазини збирають інформацію про новонароджених дітей і надсилають батькам свої спеціальні пропозиції.Однак Target хотів отримати перевагу в цій конкуренції. Їм стало цікаво, чи можуть вони передбачити, що люди чекають на дитину. Якби вони могли — то могли би отримати перевагу перед конкурентами, адже надсилали би свої пропозиції раніше, ніж це робили би вони. Target використали техніки data science і проаналізували історію даних про клієнтів, про яких пізніше стало відомо, що вони вагітні. І тепер вони могли отримати інформацію про те, що клієнти вагітні.Наприклад, вагітні жінки часто міняють раціон, гардероб, починають купувати інші вітаміни тощо. Ці індикатори можна було дістати з історії даних, зібрати в моделі передбачення й використати у маркетингових кампаніях. Далі в книжці ми дуже детально обговоримо прогностичні моделі. Поки досить розуміти ось що: у прогностичній моделі більшість складнощів світу відкидається, і натомість увага зосереджується на конкретному наборі індикаторів, які певним чином корелюють із величиною інтересу (хто з клієнтів піде, хто зробить покупку, хто вагітний і т.д.). Важливо, що і в прикладі з Walmart, і в прикладі з Target аналіз даних не обмежився звичайним тестуванням простих гіпотез. Натомість дані досліджували, сподіваючись відкрити щось корисне.Один із прикладів плинності демонструє проблему ухвалення рішень на основі даних другого типу. У MegaTelCo — сотні мільйонів клієнтів, і кожен із них — кандидат на виліт. Щомісяця в десятків мільйонів користувачів спливають терміни контрактів, тож ризик, що кожен із них у найближчому майбутньому піде, підвищений. Якби ми навчилися краще приблизно вираховувати вірогідність по кожному клієнтові — наскільки вигідно для нас зосередити зусилля саме на цій людині — то могли би надзвичайно плідно застосувати це вміння для мільйонів своїх користувачів. Ту саму логіку можна застосувати в багатьох галузях, де data science і дата-майнинг застосовуються найширше: прямий маркетинг, онлайн-реклама, рейтинги кредитоспроможності, торгівля на фінансових ринках, управління службою техпідтримки, виявлення шахраїв, пошукове ранжування, рекомендації продуктів і т.д.Варто звернути увагу на факт, який часто з уваги випускають: бізнес-рішення дедалі частіше ухвалюють автоматично, і роблять це комп’ютерні системи.У різних галузях автоматичне ухвалення рішень набуло різних масштабів. Галузі фінансів і телекомунікацій почали застосовувати це раніше, переважно тому, що мережі даних у них розвивалися не за роками, і вони проводили обрахування величезного масштабу. Вони могли об’єднувати дані й створювати великомасштабні моделі, а також застосовувати отримані моделі у прийнятті рішень.У 1990-х автоматичне ухвалення рішень до невпізнаваного змінило банківські системи й споживчі кредити. Банки й телекомунікаційні компанії в 1990-х також застосовували системи великих масштабів, щоб мати змогу приймати рішення стосовно контролю за шахраями на основі даних. Роздрібні системи комп’ютеризувалися дедалі більше, рішення щодо мерчандайзингу вже були повністю автоматизовані. Відомі приклади — програми винагород у казино Harrah’s і автоматичні рекомендації Amazon і Netflix. Зараз ми з вами спостерігаємо революцію в рекламі, оскільки тепер користувачі величезну частку часу проводять в інтернеті, і в онлайні рішення щодо реклами можна ухвалювати за (буквально) долю секунди.Обробка даних та "біґ-дата"Зараз важливо відхилитися й обговорити ще один момент. В обробці даних є багато такого, що не стосується data science — хоча, якщо судити по медіа, то можна подумати інакше. Інженерія й обробка даних критично важливі для існування data science, але це більш загальні поняття. Наприклад, сьогодні багато вмінь, систем і технологій з обробки даних помил- ково називають data science. Але щоб розуміти data science і компанії, які ухвалюють рішення на основі даних, важливо розуміти цю відмінність. Для data science потрібен доступ до даних, і правильна інженерія може тільки піти на користь, але ці технології — не технології власне data science. Як показано на рис. 1.1, вони підтримують data science, але можуть бути корисні ще багато для чого. Технології обробки даних дуже важливі для багатьох задач у бізнесі, для яких потрібні дані, але де не потрібно вміти діставати з даних корисну інформацію або ухвалювати на їх основі рішення. Це, наприклад, ефективна обробка транзакції, підтримування роботи сучасної веб-системи і рекламна онлайн-кампанія.Останнім часом досить багато уваги медіа привернули технології біґ-дати (Hadoop, Hbase, і MongoDB). По суті, "біґ-дата" означає, що для традиційних технологій обробки даних ці набори даних завеликі, і потрібні нові технології. Технології біґ-дати використовують для багатьох задач, включно з інженерією даних — як і традиційні технології. Інколи технології біґ-дати застосовують, щоб імплементувати техніки майнингу даних. Однак набагато частіше так широко відомі технології біґ-дати використовують для обробки даних на підтримку технік майнингу даних та інших пов’язаних із даними задач.Раніше ми обговорювали дослідження Бринолфссона, яке показує, чим добре ухвалювати рішення на основі даних. В іншому дослідженні, яке зробив економіст Парсанна Тамбе зі Школи Штерна, перевірили, до якої міри технології біґ-дати насправді допомагають фірмам (Tambe, 2012). Він виявив, що після того, як інші можливі фактори, які могли би завадити продуктивності, взяті під контроль, використання біґ-дати суттєво підвищує рівень продуктивності в компанії. Точніше кажучи, стандартне відхилення, пов’язане з активнішим застосуванням біґ-дати в роботі середньої компанії, — зростання продуктивності на 1–3 %. Водночас стандарте відхилення, пов’язане з меншим застосуванням біґ- дати в роботі середньої компанії — зниження продуктивності на 1–3 %. За таких умов на екстремальних точках продуктивність компаній буде різнитися дуже сильно.Від біґ-дати 1.0 до біґ-дати 2.0Один зі способів зрозуміти, в якому зараз статусі технології біґ-дати — згадати, як компанії починали користуватися інтернет-технологіями. У часи Web 1.0 бізнеси активно займалися тим, що закупали базові інтернет-технології: їм потрібно було створити присутність в інтернеті, вибудувати процес електронної комерції і покращити ефективність операцій. Можемо уявити, що ми зараз живемо в еру Біґ-дата 1.0. Компанії активно набираються вмінь обробляти біґ-дату, переважно для того, щоб підтримувати ті операції, що вони вже проводять — наприклад, щоб робити їх ефективнішими.Коли компанії вже добре освоїлися з технологіями Web 1.0 (а в процесі ціни на потрібні технології сильно впали), вони почали шукати далі. Вони почали запитувати, що мережа може для них зробити, як їм почати робити те, що вони роблять, краще — і ми ввійшли в еру Web 2.0. Нові системи й компанії почали користуватися перевагами інтерактивної природи мережі. Це змінило сам підхід, і зміни ці проникли всюди. Найочевидніший із прикладів — те, яку роль почали відігравати соціальні мережі і наскільки гучнішим став "голос" користувача (і простої людини).Найімовірніше, після фази Біґ-дата 1.0 настане фаза 2.0. Коли фірми навчаться добре обробляти дані, вони почнуть питати: "Що я тепер можу такого, чого раніше не могла, або принаймні чи можу я щось тепер робити краще?". Найімовірніше, це буде золота доба data science. Принципи і техніки, про які йдеться в цій книжці, застосовуватимуться куди ширше й активніше, ніж зараз.Важлива примітка: в еру Web 1.0 деякі особливо добре розвинені компанії почали застосовувати ідеї Web 2.0 задовго до того, як це почали робити всі інші. Прекрасний приклад — Amazon, який раніше за інших почав підключати "голос" клієнта: рейтинги продуктів, відгуки про продукти (і навіть більше — рейтинги відгуків про продукти). І так само зараз ми вже бачимо, як деякі компанії застосовують Біґ-дату 2.0. Amazon знову попереду всіх: вони дають рекомендації на основі величезної кількості даних. Є й інші приклади. Онлайн-рекламодавці повинні обробляти неймовірно величезну кількість даних (мільярди реакцій на рекламу на день — звичайна річ), і повинні дуже швидко відробляти отримувану інформацію (системи відкритих торгів у режимі реального часу приймають рішення за десятки мілісекунд). Потрібно стежити за цими та подібними галузями і шукати натяки на те, як саме інші галузі пізніше застосовуватимуть біґ-дату і data science.Вміння працювати з даними і data science як стратегічне надбанняЗ усього сказаного вище можна вивести один із фундаментальних принципів data science: дані і здатність діставати з них корисну інформацію треба вважати ключовими стратегічними надбаннями. Є аж надто багато компаній, які вважають, що дата-аналітики просто перетворюють якісь дані, що вже існують, на гроші. Часто вони небагато уваги приділяють тому, чи є взагалі у компанії компетентні дата-аналітики. Якщо вважати все це надбаннями, можна буде максимально чітко зрозуміти, скільки ви готові в ці надбання інвестувати. Часто у нас немає правильних даних, щоб ухвалити рішення якнайкраще, і/чи правильного спеціаліста, який би якнайкраще допоміг ухвалити рішення за допомогою даних. А отже, якщо ми почнемо думати про ці надбання, то зрозуміємо, що вони доповнюють одне одного. Без потрібних даних навіть найкращі дата-спеціалісти не дадуть великих результатів; рішення не стануть набагато кращими, якщо у вас будуть ідеальні дані, але не буде людини, яка зможе з ними якнайкраще впоратися. У ці надбання часто потрібно інвестувати — як і в будь-які інші. Зібрати команду екстра-класу з data science — завданнячко не з простих, але на ухвалення рішень це може неабияк вплинути. Ми детально обговоримо стратегічні ходи щодо data science у розділі 13. У наступному кейсі розберемо, як ідея добре подумати, як інвестувати в надбання з даних, може повернутися сторицею.Така історія сталася з маленьким банком Signet у 1990-х. До цього, у 1980-х, data science змінила бізнес споживчих кредитів. Моделювання вірогідності невиконання обов’язків змінило індустрію: від персональної оцінки вірогідності невиконання обов’язків банки перейшли до статегій великих масштабів і ринкової частки, а це повело за собою економіки масштабу. Зараз може здаватися дивним, але тоді правила виплат у всіх кредиток були однакові, з двох причин: 1) у компаній не було адекватних інформаційних систем, щоб управляти різноманітними виплатами у великих масштабах, і 2) управління банків вважали, що клієнти не потерплять дискримінації за цінами. Близько 1990 року два прогресивних стратеги (Річард Фейрбенкс і Найджел Морріс) зрозуміли, що в інформаційних технологій вистачає потужності, щоб робити складніші прогностичні моделі — якщо використовувати техніки, які ми обговорюватимемо в цій книжці — і почали пропонувати різні умови (сьогодні це: відсоткові ставки, кредитні ліміти, відсоткові канікули, кешбеки, бали лояльності і так далі). Переконати великі банки взяти їх консультантами і дати спробувати це зробити ці два чоловіки не змогли. Нарешті, коли всі великі банки вони вже обійшли, вони змогли зацікавити один маленький регіональний банк у Вірджинії: банк Signet. Менеджмент банку Signet повірив, що моделювання рентабельності, а не тільки вірогідності невиконання обов’язків — це правильна стратегія. Вони розуміли, що маленька частка клієнтів насправді приносить більше ніж 100 % прибутку банку за операціями по кредитках (тому що решта виходить в нуль або на них вони втрачають гроші). Якщо вони зможуть моделювати рентабельність, вони зможуть робити найкращі пропозиції для найкращих клієнтів і "збирати вершки" з клієнтів великих банків.Але в банку Signet була велика проблема, яка заважала застосувати цю стратегію. У них не було потрібних даних, щоб змоделювати рентабельність і запропонувати різним клієнтам різні умови. Їх ні в кого не було. Банки видавали кредити за конкретними умовами і за конкретною моделлю вірогідності невиконання обов’язків, і в них були тільки дані, щоб змоделювати рентабельність 1) щодо умов, які вони пропонували раніше, і 2) для тих клієнтів, яким кредит уже пропонувався (тобто тих, яким за наявною моделлю його і так можна було видати).То що міг зробити банк Signet? Вони застосували фундаментальну стратегію data science: заплатити свою ціну за потрібні дані. Якщо ми розглядаємо дані як надбання бізнесу, потрібно подумати і про те, чи готові ми в неї інвестувати і скільки. У випадку з Signet дані можна було зібрати за рентабельністю клієнтів, яким у межах різних експериментів пропонували би різні умови. Ці різні умови пропонували випадковим клієнтам. Якби це відбувалося не в контексті дата-аналітики, це здавалося би дурістю: ви ж просто втратите гроші! Це правда. У цьому випадку втрата грошей — ціна отриманих даних. Якщо думати дата-аналітично, потрібно розуміти, чи будуть витрати на дані того варті.То що ж сталося із банком Signet? Як і можна було очікувати, коли вони почали пропонувати людям випадково вибрані умови, кількість поганих рахунків просто злетіла. До цього Signet був лідером у галузі з кількості амортизованих боргів (не виплачувалося 2,9 % заборгованостей), тепер відсоток зріс до 6 %. Ці втрати тривали кілька років, поки дата-спеціалісти працювали над прогностичною моделлю, оцінювали її і застосовували, щоб підняти рентабельність. Компанія вважала ці втрати інвестицією в дані, тому продовжувала гнути своє, хоча акціонери були незадоволені. Зрештою операція з кредитками в Signet показала себе і стала такою прибутковою, що її навіть довелося відділити від інших банківських операцій, тому що вони опинилися в тіні успішних споживчих кредитів.Фейрбенкс і Морріс стали головою й СЕО та президентом і СОО, і продовжили застосовувати data science у роботі компанії — вони не тільки залучали нових клієнтів, а й утримували старих. Коли людина телефонувала й просила підібрати їй кращу пропозицію, базовані на даних моделі рахували потенційну вірогідність різних дій (різні пропозиції, включно з варіантом, щоб узагалі нічого не змінювати), і на комп’ютері представника служби підтримки висвітлювалася найкраща з можливих пропозицій.Про маленький банк Signet ви, мабуть, не чули. Але якщо ви читаєте цю книжку, то мали чути про їхню дочірню компанію: Capital One. Нова компанія Фейрбенкса і Морріса виросла в одного з найбільших емітентів кредитних карт у галузі з одним із найменших відсотків боргів, які не виплачуються. У 2000 році, за звітами банку, таких "наукових тестів", як вони їх називали, проводилося 45 000.Дослідження із конкретними кількісними даними про цінність надбань даних знайти важко, переважно тому, що фірми не дуже полюбляють розголошувати інформацію стратегічної цінності. Є виняток — дослідження Мартенса і Провоста (2011), де оцінюється, як дані за певними транзакціями клієнтів банку можуть покращити моделі вирішення, які саме продукти запропонувати. Банк створив моделі на основі даних, щоб вирішити, кому які продукти запропонувати. У дослідженні вивчалися багато різних типів даних та їхній вплив на ефективність прогнозів. За допомогою соціодемографічних даних можна було відмінно моделювати типажі клієнтів, які куплять той чи інший продукт. Але це все, на що здатні соціодемографічні дані; коли кількість даних доходить до певної межі, збільшення цієї кількості перестає приносити користь. Натомість деталізовані дані з індивідуальних транзакцій клієнтів (анонімно) дуже суттєво піднімали продуктивність, порівняно із соціодемографічними даними. Зв’язок тут очевидний, він просто вражає, і — що суттєво для теми, про яку тут ідеться — що більше використовується даних, то кращі результати показують прогностичні моделі. Продуктивність підвищувалася в усьому, що досліджували Мартенс і Провост, і ознак спадання ніде не було. Тут є важливий глибинний сенс: банки з з більшими надбаннями даних можуть мати важливу стратегічну перевагу над меншими конкурентами. Якщо ці тренди поширяться і банки зможуть застосовувати складну аналітику, то ті банки, у яких даних буде більше, краще визначатимуть, для якого клієнта який продукт буде ідеальним. У результаті або люди почнуть більше користуватися продуктами банку, або впаде вартість нового клієнта, або відбудеться і те, й інше.Ідею даних як стратегічного надбання однозначно можна застосувати не тільки в Capital One, та й не тільки в банківській сфері. В Amazon досить рано з’явилася можливість збирати дані щодо онлайн-покупців, від чого з’явилися суттєві витрати на переключення: клієнтам були важливі рейтинги і рекомендації, які пропонував Amazon. Відтак, Amazon було легше втримати клієнтів, і вони навіть змогли брати платню за преміум-акаунти (Brynjolfsson &amp; Smith, 2000).Казино Harrah’s відомі тим, що інвестували у збір та майнинг даних про гравців і з маленького казино, яким вони були в середині 90-х, виросли до покупки Caesar’s Entertainment у 2005-му і стали найбільшою у світі компанією з азартних ігор. Величезна ціна Facebook стала такою тому, що у них є величезні та унікальні запаси даних (Sengupta, 2012) — інформація про людей та їхні вподобання, а також інформація про структуру соціальної мережі. Інформація про структуру мережі виявилася важливою для прогнозування, і відмінно допомогла моделювати, хто купуватиме певні продукти (Hill, Provost, &amp; Volinsky, 2006). Абсолютно ясно, що надбання даних у Facebook ні з чим неможливо порівняти. Але чи є у них правильні стратегії data science, щоб використати потенціал цих даних на повну — питання відкрите.Далі у книжці ми ще поговоримо детально про фундаментальні концепції, які стоять за цими історіями успіху, коли досліджуватимемо принципи дата-майнингу і дата-аналітичного мислення.