Книга
Как монетизировать данные
"Дайте мне точку опоры, и я переверну Землю"
Архимед

"Дайте мне данные, и я переверну всю вашу жизнь"
Data Scientist Архимед
Для кого эта книга

Эту книгу я посвящаю думающим читателям, которые хотят попробовать свои силы в области анализа данных (data science) и создании сервисов на их основе.

Если вы инвестор, то вам будет легче понять потенциал команды стартапа и их инфраструктуры,просящих у вас деньги.

Если вы "пилите" свой стартап, то будет легче найти подходящих партнеров и осуществлять найм команды с нуля.

Если вы начинающий специалист, то сможете расширить свой кругозор, начать применять практики, о которых вы не задумывались. И это выделит вас среди профессионалов такой непростой и изменчивой области.
Введение
Данные повсюду — начиная от алгоритмов Тиндера, который «матчит» вас с далеко не случайными людьми, и заканчивая информационными войнами, которые ведут политики. Никого уже не удивляет, что за каждым нашим шагом пристально следят: будь то история запросов в браузере телефона или ваши действия в оффлайне. Задержитесь на секунду у витрины спортивного магазина — ждите его таргетированную рекламу в соцсетях с минуты на минуту. Расскажите коллеге, что натворил ваш кот — сухие корма и наполнители тут как тут в вашей ленте.

Особо впечатлительные могут впасть в паранойю - но данные в этом не виноваты. Все зависит от того, в чьи руки они попадут. С анализом данных связано очень много мифов, а data scientist — одна из самых перспективных и "сексуальных" профессий будущего. В своей книге я намерен развенчать мифы и рассказать, как все обстоит на самом деле. Надеюсь, читатель, ты, как и я, окажешься на "светлой" стороне силы.

Я закончил МФТИ в начале нулевых и тогда же возглавил аналитический отдел интернет-магазина Ozon.ru, где создал аналитические системы с нуля. Я консультировал инвестиционные фонды, гигантов ритейла и гейм-индустрии, а восемь лет назад стал сооснователем и совладельцем маркетинговой платформы для интернет-магазинов RetailRocket.ru. Сейчас компания не просто является безусловным лидером на рынке в России, но и успешно работает на рынках Чили, Голландии, Испании и Германии. В 2016 году прочитал лекцию в концертном зале MIT в Бостоне про процессы тестирования гипотез. В 2020 году номинировался на премию CDO Award.

Считается, что нужно потратить 10000 часов для того, чтобы стать очень хорошим специалистом в свой области. Анализом данных я занимаюсь с 2002 года, когда это не было так популярно и хайпово. Так вот, чтобы получить эти заветные 10000 часов, нужно проработать 10000 часов / 4 часа в день / 200 дней в году = 12.5 лет. Я в полтора раза превысил эту цифру, поэтому надеюсь получилось написать книгу, которая будет очень полезна для вас, дорогие читатели.

Эта книга о том, как превращать данные в продукты и решения. Она основывается не на академических знаниях, а на моем личном опыте анализа данных длиной почти в двадцать лет. Сейчас существует очень много курсов по анализу данных (data science) и машинному обучению (machine learning). Как правило, они узкоспециализированы. Отличие этой книги от них в том, что она, не утомляя читателя частностями, дает цельную картину, рассказывая о том
  • как принимать решения на основе данных
  • как должна функционировать система
  • как принимать решения на ее основе
  • как тестировать ваш сервис
  • как соединить все в единое целое, чтобы на выходе получить "конвейер" для ваших данных
Оглавление
Я писал эту книгу таким образом, чтобы ее можно было читать непоследовательно. Краткое содержание каждой главы:

  1. Глава "Как мы принимаем решения" описывает общие принципы принятия решения, как данные влияют на них.

  2. Глава "Делаем анализ данных" вводит общие понятия, с какими артефактами мы имеем дело, когда анализируем данные. Кроме того, с этой главы я начинаю поднимать организационные вопросы анализа данных.

  3. Глава "Строим аналитику с нуля" об организации процесса построения аналитики: от первых задач и выбора технологии, заканчивая наймом.

  4. Глава "Делаем аналитические задачи" - все о задачах. Что такое хорошая аналитическая задача, как ее проверить. Технические атрибуты таких задач - датасеты, описательные статистики, графики, парный анализ, технический долг.

  5. Глава "Данные" - все что говорят о данных - объемы, доступы, качество и форматы.

  6. Глава "Хранилища данных" - зачем нужны хранилища, какие они бывают, затрагиваются также популярные системы для Big Data - Hadoop и Spark.

  7. Глава "Инструменты анализа данных" полностью посвящены наиболее популярным способам анализа от электронных таблиц в Excel до облачных систем.

  8. Глава 8 "Машинное обучение - алгоритмы" является базовым введением в машинное обучение.

  9. Глава 9 "Машинное обучение на практике" является продолжением предыдущей - лайфхак как изучать машинное обучение, как работать с машинным обучением, чтобы оно приносило пользу.

  10. Глава 10 "Внедрение ML в жизнь: гипотезы и эксперименты" рассказывает про три вида статистического анализа экспериментов (статистика Фишера, байесовская статистика и бустреп), и использованию А/Б тестов на практике.

  11. Глава 11 "Строим карьеру" больше предназначена для начинающих специалистов - как искать работу, развиваться и даже когда уходить дальше.

  12. Глава 12 "Этика данных" - я не смог пройти мимо этой темы, наша область начинает все больше и больше регулироваться со стороны государств. Поговорим о причинах этих ограничений.

  13. Глава 13 "Задача и стартапы" рассказывает об основных задачах, которые я решал в e-commerce, а также о моем опыте сооснователя проекта Retail Rocket.

Благодарности
Я посвящаю эту книгу своей жене, Екатерине, и моим детям - Аделле и Альберту. Катя придала мне решимость написать эту книгу и приняла большое участие в редактировании текстов. За что я очень благодарен.

Также я благодарен своим родителям, которые вырастили и воспитали меня в очень непростое время. Отдельная благодарность мою отцу, Владимиру Юрьевичу, за то, что привил у меня любовь к физике.

Я благодарен всем на моем долгом пути в аналитику данных. Илье Полежаеву, Большакову Павлу и Владимиру Боровикову за грамотное руководство, когда я только пришел в StatSoft. Бернару Люке, тогда генеральному директору Ozon.ru. А также коллегам в Ozon.ru: Александру Перчикову, Алехину Александру, Дьяченко Валерию за совместное написание рекомендательной системы. Туркиной Марине и Коткиной Ирине - с вами было замечательно сотрудничать. Основателям проекта Wikimart.ru Камилю Курмакаеву и Максиму Фалдину - те знакомства в Калифорнии очень сильно повлияли на меня. Аникину Александру - ты очень крутой был тогда, а сейчас вообще звезда. Основателям проекта Ostrovok.ru - Кириллу Махаринскому и Сержу Фаге, а также Жене Курышеву, Роману Богатову, Феликсу Шпильману - с вами очень интересно было работать, я узнал много нового о разработке.

Я благодарен сооснователям Retail Rocket - Николаю Хлебинскому и Андрею Чижу. Отдельная благодарность венчурному фонду Impulse VC - за то, что поверили в нас. Всем сотрудникам Retail Rocket, особенно моим ребятам Анохину Александру и Артему Носкову - вы лучшие.

Я благодарен психологу, Елене Клюстер, с которой уже работаю несколько лет, за осознание своих собственных границ и своих истинных желаний. Благодарен Андрею Гузю, моему тренеру по плаванию, за аналитический подход к тренировкам. Оказывается так можно и не только профессионалам, но и любителям.

Приношу благодарность всем моим виртуальным рецензентам, особенно Артему Аствацатурову, Александру Дмитриеву, Аркадию Итенбергу, Алексею Писарцову.

Благодарен всем, кто способствовал изданию этой книги. Прежде всего Алексею Кузменко, который помог мне быстро найти издательство, минуя бюрократические препоны.
Список литературы
Список литературы размещен здесь.
Подписаться на новости по книге
Альтернативный вариант - телеграм канал https://t.me/topdatalab
Нажимая на кнопку, вы даете согласие на обработку персональных данных и соглашаетесь c политикой конфиденциальности. На ваш e-mail будут отправляться только новости по книге.
Made on
Tilda