Курс "Основы бизнес анализа больших данных в R"

Наш подход в обучении: 

Мы максимально дружественны к людям, привыкшим обрабатывать данные в Excel. Ставя навыки анализа больших данных, мы делаем акцент на знакомым всем типах трансформации таблиц.

Мы знаем, как перейти от электронных таблиц к кодовой строке без превращения в чистого айтишника.

Цели курса:

  • Обеспечить уверенный переход от электронных таблиц к кодовой строке
  • Сформировать навык надёжных трансформаций данных
  • Освоить грамотное программирование и написание воспроизводимых аналитических отчётов
  • Сформировать понимание потока задач и стандарта проведения ad hoc анализа

Cодержание курса

Занятие 1. Знакомство с новой средой

– Введение в R и RStudio
– R “на уровне калькулятора”
– Операторы R
– Повекторные вычисления  
– Извлечение элементов, добавление аналитик в таблицу (базовый синтаксис)
– Создание воспроизводимых отчётов Rmarkdown 
– Чтение и сохранение csv файлов

Занятие 2. От электронных таблиц к коду

– Базовые встроенные функции (математика, логика, описательная статистика)
– Проверка вхождение вектора в вектор
– Извлечение элементов из векторов; элементов, столбцов и строк, целых частей из таблиц (dplyr)
– Добавление аналитик в таблицы (dplyr)
– Сортировка векторов и таблиц (dplyr)
– Объединение таблиц
– Агрегирование таблиц (суммирование, усреднение, подсчёт)

Занятие 3. Более сложные трансформации таблиц

– Новые встроенные функции (в т.ч. для дат)
– Типы данных в R
– Датафреймы и фактор как особый тип данных
– Запись последовательности команд в dplyr pipes
– Транспонирование, составление сводных таблиц (reshape2)

Занятие 4. Чистка текста

– Текстовые функции
– Регулярные выражения
– Приёмы чистки текста (приведения к единой номенклатуре, выделения частей сроки и проч.)

Занятие 5. Визуализация в ggplot2

– Синтаксис ggplot
– Столбчатые, составные столбчатые диаграммы
– Линейные графики
– Круговые, ящичные диаграммы
– Визуализация зависимостей pairs()
– Настройка комментариев, комбинирование графиков

Занятие 6. Научные принципы работы с данными и ad hoc анализа

– Качественная постановка вопроса
– Формулировка гипотез(ы)
– Формулировка вычислительных задач
– Безопасные трансформации данных
– Воспроизводимость анализа
– Грамотное программирование
– Оптимизация нагрузки на вычислительные мощности

Решаемые кейсы

– Анализ открытых эконометрических данных регионов России 
– Анализ розничных продаж на основе массива чеков
– Анализ продаж в сетевой рознице в разрезе товаров, категорий, регионов, магазинов и т.д.