R как первый выбор в data science

  • R – специализированный язык программирования для всех видов статистического анализа и визуализации 
  • R – бесплатный и работает на всех типах устройств и операционных систем
  • R – самое трендовое решение для работы с большими данными в бизнес аналитике. Ведущие бизнес школы включают R в программы MBA. Количество пользователей R растёт экспоненциально
  • R  наиболее лёгок в освоении для не-айтишников
  • R имеет решение для веб-доступа, позволяющее разрабатывать самописные BI системы
  • Скрипты R можно интегрировать в ERP и BI системы

R - это "Excel для больших данных"

R

  • Позволяет работать с очень большими массивами данных
  • Код пишется в командной строке,  документируя все трансформации данных
  • Имеет среду для отчётов, позволяющую переплетать человеческий язык и код
  • Итоговые таблицы и диаграммы в отчёте генерируются кодом
  • Исходные данные не меняются, все трансформации происходят в объектах R
  • Таблицы из нескольких источников легко комбинируются

Excel

  • Удобен для обозримых глазами таблиц; эффективен в пределах тысяч строк и десятков столбцов
  • Манипуляции с данными не документируются никак
  • Не имеет решения для написания комментариев
  • Таблицы и диаграммы в отчёт попадают копированием – вставкой
  • Исходные данные можно незаметно испортить
  • Внешние ссылки на другие файлы – неустойчивы и непрозрачны

R не отменяет потребности в Excel – последний будет еще долго популярен для работы с небольшими таблицами.

Продвинутое владение Excel – большое преимущество при изучении R.

При очевидно более высокой производительности R, его принципиальное преимущество перед Excel – это:

  • безопасные, документированные и проверяемые трансформации объектов данных
  • среда для публикации отчётов
 
 
 

R по сравнению с системами BI

R

  • Наиболее эффективен для ad hoc (под задачу, ситуативного) анализа
  • Позволяет выявлять направления для стратегических изменений за счёт гибкости анализа и моделирования
  • Поддерживает разнообразные статистические обработки, поиск корреляций, предиктивное моделирование
  • Позволяет совмещать данные разного формата из разных источников. Эффективен для чистки текстовых данных
  • Требует изучения кодирования и приёмов работы с большими данными

Business Intelligence

  • Наиболее эффективен для стандартизированного, регулярного анализа
  • Фокусируется на максимально удобном получении данных в реальном времени
  • Статистические обработки (кроме самых простых) нужно делать далее в Excel
  • Работает на чистых данных (в частности, с одинаковой номенклатурой названий)
  • Требует минимального освоение интерфейса

Внедрение R в бизнес аналитику наиболее эффективно проходит в компаниях с поставленной работой ERP и BI систем, которые обеспечивают доступность данных для анализа. При этом сам по себе репортинг (обеспечение стандартизированных отчётов и KPI) не даёт конкурентных преимуществ, так как присутствует в деятельности всех успешных компаний на рынке.

Основную ценность представляет именно продвинутая аналитика – исследование причин выявленных репортингом изменений и скрытых взаимозависимостей. R создан для глубинной аналитики данных и он может стать основой продвинутой аналитики в компании.

R по сравнению Python

R

  • Является языком программирования чисто для статистики и работы с табличными данными
  • Разработан учёными-статистиками
  • Фокусируется на дружественном к пользователю анализе данных, статистических моделях и визуализации
  • Допускает относительно большую гибкость при написании кода
  • Типовой пользователь: статистик, аналитик, научный работник
  • Имеет удобную среду для написания отчётов, позволяющую связывать человеческий язык с кодом

Python

  • Является языком программирования широкого назначения
  • Разработан программистом
  • Фокусируется на производительности и читаемости кода
  • Требует чистоты написания кода
  • Типовой пользователь: программист, разработчик
  • Не имеет среды для написания отчётов

Бизнес аналитикам, не имеющим профессиональной подготовки по программированию, целесообразнее изучать R.