Как монетизировать большие данные
Роман с Data Science
"Дайте мне точку опоры, и я переверну Землю"
Архимед

"Дайте мне данные, и я переверну всю вашу жизнь"
Data Scientist Архимед
Для кого эта книга
Эта книга предназначена для думающих читателей, которые хотят попробовать свои силы в области анализа данных и создавать сервисы на их основе. Она будет полезна:
  • Менеджеру - будет легче ставить задачи аналитике и управлять ею.
  • Инвестору - с ней вам будет легче понять потенциал стартапа.
  • Стартаперу - найдете здесь рекомендации, как выбрать подходящие технологии и набрать команду.
  • Начинающим специалистам она поможет расширить свой кругозор и начать применять практики, о которых вы раньше не задумывались — и это выделит вас среди профессионалов такой непростой и изменчивой области.

В книге нет ни одной строчки кода, и почти нет формул.
Купить книгу!
Печатная версия вышла 27 апреля 2021.
Электронная версия вышла 12 мая 2021.
Аудио книга вышла 12 октября 2021.
Введение
Данные повсюду — начиная от алгоритмов Тиндера, который «матчит» вас с далеко не случайными людьми, и заканчивая информационными войнами, которые ведут политики. Никого уже не удивляет, что за каждым нашим шагом пристально следят: будь то история запросов в браузере телефона или ваши действия в оффлайне. Задержитесь на секунду у витрины спортивного магазина — ждите его таргетированную рекламу в соцсетях с минуты на минуту. Расскажите коллеге, что натворил ваш кот — сухие корма и наполнители тут как тут в вашей ленте.

Особо впечатлительные могут впасть в паранойю - но данные в этом не виноваты. Все зависит от того, в чьи руки они попадут. С анализом данных связано очень много мифов, а data scientist — одна из самых перспективных и "сексуальных" профессий будущего. В своей книге я намерен развенчать мифы и рассказать, как все обстоит на самом деле. Надеюсь, читатель, ты, как и я, окажешься на "светлой" стороне силы.

Я закончил МФТИ в начале нулевых и тогда же возглавил аналитический отдел интернет-магазина Ozon.ru, где создал аналитические системы с нуля. Я консультировал инвестиционные фонды, гигантов ритейла и гейм-индустрии, а восемь лет назад стал сооснователем и совладельцем маркетинговой платформы для интернет-магазинов RetailRocket.ru. Сейчас компания не просто является безусловным лидером на рынке в России, но и успешно работает на рынках Чили, Голландии, Испании и Германии. В 2016 году прочитал лекцию в концертном зале MIT в Бостоне про процессы тестирования гипотез. В 2020 году номинировался на премию CDO Award.

Считается, что нужно потратить 10000 часов для того, чтобы стать очень хорошим специалистом в свой области. Анализом данных я занимаюсь с 2002 года, когда это не было так популярно и хайпово. Так вот, чтобы получить эти заветные 10000 часов, нужно проработать 10000 часов / 4 часа в день / 200 дней в году = 12.5 лет. Я в полтора раза превысил эту цифру, поэтому надеюсь получилось написать книгу, которая будет очень полезна для вас, дорогие читатели.

Эта книга о том, как превращать данные в продукты и решения. Она основывается не на академических знаниях, а на моем личном опыте анализа данных длиной почти в двадцать лет. Сейчас существует очень много курсов по анализу данных (data science) и машинному обучению (machine learning). Как правило, они узкоспециализированы. Отличие этой книги от них в том, что она, не утомляя читателя частностями, дает цельную картину, рассказывая о том
  • как принимать решения на основе данных
  • как должна функционировать система
  • как тестировать ваш сервис
  • как соединить все в единое целое, чтобы на выходе получить "конвейер" для ваших данных
Оглавление
Глава 1. Как мы принимаем решения
  • Четыреста сравнительно честных способов
  • Чему можно научиться у Amazon?
  • Аналитический паралич
  • Погрешности — правило штангенциркуля
  • Принцип Парето
  • Можно ли принимать решения только на основе данных?
Глава 2. Делаем анализ данных
  • Артефакты анализа данных
  • Бизнес-анализ данных
  • Гипотезы и инсайты
  • Отчеты, дашборды и метрики
  • Артефакты машинного обучения
  • Артефакты инженерии
  • Кто анализирует данные
  • Идеальная кнопка
  • Продать аналитику внутри компании
  • Конфликт исследователя и бизнеса
  • Недостатки статистического подхода в аналитике
Глава 3. Строим аналитику с нуля
  • Первый шаг
  • Выбираем технологии
  • Поговорим об аутсорсе
  • Наем и увольнения
  • Кому подчиняются аналитики
  • Должен ли руководитель аналитики писать код
  • Управление задачами
  • Как управлять романтиками
Глава 4. Делаем аналитические задачи
  • Как ставить задачи аналитикам
  • Как проверять задачи
  • Как тестировать и выкладывать изменения в рабочую систему
  • Как защищать задачу перед инициатором
  • Нужно ли уметь программировать?
  • Датасет
  • Описательная статистика
  • Графики
  • Общий подход к визуализации данных
  • Парный анализ данных
  • Технический долг
Глава 5. Данные
  • Как собираются данные
  • Big Data
  • Связность данных
  • Много данных не бывает
  • Доступ к данным
  • Качество данных
  • Как проверяется и контролируется качество данных
  • Типы данных
  • Форматы хранения данных
  • Способы получения данных
Глава 6. Хранилища данных
  • Зачем нужны хранилища данных
  • Слои хранилища данных
  • Какие бывают хранилища
  • Как данные попадают в хранилища
  • Hadoop и MapReduce
  • Spark
  • Оптимизация скорости работы
  • Архивация данных и устаревание
  • Мониторинг хранилищ данных
  • Личный опыт
Глава 7. Инструменты анализа данных
  • Электронные таблицы
  • Сервисы блокнотов
  • Инструменты визуального анализа
  • Пакеты статистического анализа данных
  • Работа с данными в облаках
  • Что такое хорошая отчетная система
  • Сводные таблицы
  • OLAP-кубы
  • Корпоративные и персональные BI-системы
  • Мой опыт
Глава 8. Алгоритмы машинного обучения
  • Типы ML-задач
  • Метрики ML-задач
  • ML изнутри
  • Линейная регрессия
  • Логистическая регрессия
  • Деревья решений
  • Ошибки обучения
  • Как бороться с переобучением
  • Ансамбли
Глава 9. Машинное обучение на практике
  • Как изучать машинное обучение
  • Соревнования по ML
  • Искусственный интеллект
  • Необходимые преобразования данных
  • Точность и стоимость ML-решения
  • Простота решения
  • Трудоемкость проверки результата
  • Mechanical Turk / Yandex Toloka
  • ML и большие данные
  • Recency, Frequency и Monetary
  • Последний совет
Глава 10. Внедрение ML в жизнь: гипотезы и эксперименты
  • Гипотезы
  • Планируем тест гипотезы
  • Что такое гипотеза в статистике
  • Статистическая значимость гипотез
  • Статистические критерии для p-значений
  • Бутстрэп
  • Байесовская статистика
  • А/Б-тесты в реальности
  • А/А-тесты
  • Еще несколько слов о А/Б-тестах
  • Что делать перед A/Б-тестом
  • Конвейер экспериментов
Глава 11. Этика данных
  • Как за нами следят
  • Хорошее и плохое использование данных
  • Проблема утечки данных
  • Этика использования данных
  • Как защищают пользовательские данные
Глава 12 Задачи и стартапы
  • Веб-аналитика в рекламе
  • Внутренняя веб-аналитика
  • Маркетинг на основе баз данных
  • Стартапы
  • Личный опыт
Глава 13. Строим карьеру
  • Старт карьеры
  • Как искать работу
  • Требования к кандидатам
  • Вы приняли оффер
  • Как развиваться и работать
  • Когда менять место работы
  • Нужно ли все знать?
Благодарности
Я посвящаю эту книгу своей жене Екатерине и моим детям — Аделле и Альберту. Катя придала мне решимости написать книгу и приняла большое участие в редактировании текстов. За что я ей очень благодарен.

Также я благодарен своим родителям, которые вырастили и воспитали меня в очень непростое время. Отдельная благодарность моему отцу Владимиру Юрьевичу за то, что привил мне любовь к физике.

Я благодарен всем на моем долгом пути в аналитику данных. Илье Полежаеву, Большакову Павлу и Владимиру Боровикову за грамотное руководство, когда я только пришел в StatSoft. Бернару Люке, тогда генеральному директору Ozon.ru, а также коллегам в Ozon.ru: Александру Перчикову, Алехину Александру, Дьяченко Валерию — за совместное написание рекомендательной системы. Марине Туркиной и Ирине Коткиной — с вами было замечательно сотрудничать. Основателям проекта Wikimart.ru Камилю Курмакаеву и Максиму Фалдину — те знакомства в Калифорнии очень сильно повлияли на меня. Александру Аникину — ты очень крутой был тогда, а сейчас вообще звезда. Основателям проекта Ostrovok.ru — Кириллу Махаринскому и Сержу Фаге, а также Жене Курышеву, Роману Богатову, Феликсу Шпильману — с вами очень интересно было работать, я узнал много нового о разработке.

Я благодарен сооснователям Retail Rocket — Николаю Хлебинскому и Андрею Чижу. Отдельная благодарность венчурному фонду Impulse VC (Кириллу Белову, Григорию Фирсову, Евгению Пошибалову) — за то, что поверили в нас. Всем сотрудникам Retail Rocket, особенно моим ребятам Александру Анохину и Артему Носкову — вы лучшие.

Я благодарен психологу Елене Клюстер, с которой уже работаю несколько лет, за осознание своих собственных границ и своих истинных желаний. Благодарен Андрею Гузю, моему тренеру по плаванию, за аналитический подход к тренировкам. Оказывается, так можно, и не только профессионалам, но и любителям.

Выражаю благодарность всем моим виртуальным рецензентам, особенно Артему Аствацатурову, Александру Дмитриеву, Аркадию Итенбергу, Алексею Писарцову. Роману Нестеру — за рецензию на главу по этике данных.

Благодарен всем, кто способствовал изданию этой книги. Прежде всего Алексею Кузменко, который помог мне быстро найти издательство, минуя бюрократические препоны. Отдельная благодарность Владимиру Вышванюку за ироничные иллюстрации кота Вилли. Юлии Сергиенко и Наталье Римицан, которые делали все, чтобы эта книга вышла в свет.
Список литературы
Список литературы размещен здесь.
Подробности процесса создания книги
Подробности изложены в статье на vc.ru
Подписаться на новости по книге
Неопубликованный материал, исправления неточностей.
Альтернативный вариант - телеграм канал https://t.me/topdatalab
Нажимая на кнопку, вы даете согласие на обработку персональных данных и соглашаетесь c политикой конфиденциальности. На ваш e-mail будут отправляться только новости по книге.