Обладатель "пулитцера" Том Торок: как покорить Big Data
Томас Торок

Томас Торок - бывший глава команды Big Data в New York Times. Команда Томаса семь раз номинировалась на Пулитцеровскую премию и три раза ее получала. На киевской лекции, организованной Свободной школой журналистики, Торок рассказывал о профессиях будущего, как работать с большими массивами данных (Big Data) и о собственных историях успеха.

Об украинских корнях

Я очень рад приехать в Украину еще и потому, что мои дедушка и бабушка родом из Мукачево и мне удалось съездить на их родину.

Big Data - сколько это информации?

Big Data - комплексное понятие. Ему тяжело дать определение, оно зависит от разных факторов. К примеру, в 1982 году у нас был большой персональный компьютер и программа - часть программы НАСА. Она обрабатывала данные, но больше трех записей туда вводить не стоило. Четыре строки данных тогда считались большими объемами информации. В 1997-м мы приобрели данные по избирателям - 714 000 записей. Тогда мне надо было найти чье-то имя в базе. Помню, я запустил поиск, подождал немного, после этого пошел в мэрию, которая находилась в нескольких кварталах от редакции, и попросил там нужную информацию. Когда я вернулся, мой компьютер все еще вел поиск.

Сегодня мы видим, что компьютерные системы прошли огромный путь. Возможности выросли настолько, что нельзя четко определить, какое количество информации относится к Big Data.

Зачем учиться работать с Big Data

Если мы умеем управлять данными, мы получаем больше. По сути, мы сами становимся экспертами. Нам не нужно ссылаться на другие агентства или людей. У нас есть статистика - факты и их подтверждение.

Так в любой сфере. Например, медицинская помощь. В США существует специальная программа для пожилых людей. На выходе мы имеем базу данных по каждому пожилому гражданину. В программе 16 типов диагнозов и 16 вариантов лечения. Любая больница может работать с ней и анализировать.

Когда у вас есть весь объем данных, вы можете говорить четко: "Это - лучше, а это - хуже". У вас есть все данные, и это - могущество.

Когда у вас есть весь объем данных, вы можете говорить четко: "Это - лучше, а это - хуже". У вас есть все данные и это - могущество.

Обработка Big Data - небыстрая работа

В The Wall Street Journal мы работали с одной из самых больших баз данных. Связано это было с политикой и здравоохранением. Мы разбирались с базой 18 месяцев, и на исследование ушло более $100 000. В результате один из журналистов написал несколько историй, которые помогли нам стать лауреатами Пулитцеровской премии.

Сегодня компьютеры быстрые, управление Big Data больше не проблема. 

Возьмем, к примеру, панамские документы - 11,5 млн файлов. Эту информацию уже назвали самой большой утечкой в истории. Как бы я искал данные по президенту Порошенко? Я бы наверняка обратился к Fast ESP - программе, которой мы пользовались в The New York Times. Она узнает имена, даты, локации, всего 29 характеристик. Вводим фамилию - около 100 имен, которые попадаются вместе с ней. Выбираем следующую фамилию из нового списка и пропускаем ее через программу еще раз. И так с каждым следующим шагом. В итоге находим список совпадающих или не совпадающих имен. После этого я бы использовал бесплатное приложение NodeXL, анализирующее социальные сети. Речь идет не о Facebook, а о том, как связаны люди между собой по данным в интернете. В результате мы получаем схему: имя интересующего нас человека и вокруг - люди, с которыми он так или иначе связан, возможно, систему его взаимодействия с людьми, которые имеют офшорные счета.

В анализе Big Data важно не только владение данными, но и контекст. Будь у меня год, я бы постарался найти и проанализировать законодательство, регулирующее офшорные инвестиции. Если вы четко понимаете, где есть нарушение, а где его нет, проще сделать адекватный отчет.

NYT.jpg

Переизбыток данных или их недостаток

Я часто сталкивался с недостаточным объемом данных. Как-то раз New York Times получил информацию о катастрофе на железной дороге. В Америке существуют две организации, куда заносятся эти данные: Национальный центр реагирования на чрезвычайные ситуации и Федеральная администрация железных дорог. 

Мой коллега-журналист обнаружил, что в одном реестре этот случай зарегистрирован, в другом - нет. Через неделю ситуация повторилась с другим событием. Он пришел ко мне с вопросом, можем ли мы найти информацию обо всех происшествиях, которые есть в одном реестре и не зарегистрированы в другом. "Легко!" - ответил я. И только через 8 месяцев получил результат. Мы написали под это исследование 99 программ. Дело в том, что процесс отчетности Национального центра реагирования был хаосом. Время западного и восточного побережья отличалось. Мы искали, есть ли регистрация всех происшествий, выстраивали маршруты. Иногда оказывалось, что одни и те же события фиксируются в разных местах. Почему для нас было важно взяться за это? Все происшествия были связаны с гибелью людей. Могло пройти 30 дней перед внесением в регистр информации о смерти человека. Даже если полиция была на месте, если не внести данные, федеральное правительство не будет знать, что произошло. Обе организации обязаны были вносить данные в течение двух часов. Если этот срок растягивается на дни и недели, появляется возможность менять улики - “чинить” шлагбаум или сигналы, поломка которых привела к трагедии.

Мы нашли 800 случаев несоответствий за шесть лет. В результате нашего исследования многих уволили, поменялись стандарты и процедуры регистрации. Мы выиграли Пулитцеровскую премию благодаря этому исследованию. Я считаю, что так, с помощью Big Data, мы сделали позитивные изменения. 400 000 данных - не так много, но результат получился очень мощным. 

Как проверить правильность выводов

Правильность решений - очень сложный вопрос. Можно допустить ошибку, и последствия будут необратимыми. Как мы работали? Сначала команда находила решение, потом отслеживала все возможные последствия и отдавала на проверку еще одному человеку.

Есть два способа работы с Big Data. Большинство журналистов, погружаясь в большие данные, ищут интересные истории. Это неправильно. Правильнее обратный процесс - искать данные, подтверждающие историю. Это часто срабатывает, когда мы ищем подтверждения предположений о связях политических деятелей через данные о финансировании их политических компаний.  

Подписывайтесь на аккаунт Самообразование на ЛІГА.net в Facebook: все самые интересные события и материалы о саморазвитии в одной ленте.