Большие данные и аналитика

Это веб-сайт курса Большие данные и аналитика, который читается в весеннем семестре 2025 года для бакалавриата Бизнес-информатика 38.03.05, «Национальный исследовательский университет ИТМО» (16ч лекций и 32ч практический занятий).

Что мы рассмотрим

Этот курс научит вас элементам работы с данными с точки зрения Data Science и их визуализации на языке программирования R, а также созданию отчетов в научно-издательской системе Quarto на основе аналитики и повествовательного текста.

В первую очередь в этом курсе вы научитесь работать с данными, их преобразованию и визуализации. К этому относится изучение их структуры данных в R, изменение формы таблиц, а также представление сводных таблиц и графиков на основе данных. Основу курса будет составлять «принцип аккуратных данных», который стал базовым для комплекса библиотек, таких как tidyverse, tidymodels и т. д. Курс охватывает ключевые аспекты анализа данных, начиная с базовых принципов работы с табличными данными, заканчивая современными техниками визуализации данных, моделирования и работы с географическими данными. Этот курс научит вас логике, лежащей в основе инструментов R и tidyverse, и даст вам возможность применять и расширять этот образ мышления при работе с вашими собственными данными и их конкретными задачами. Также, важным элементом курса станет использование научно-издательской системы Quarto для составления отчетов, создания веб-сайтов, блогов и презентаций.

Темы курса

  1. Действия с табличными данными
  2. Визуализация данных
  3. Научно-издательская система Quarto
  4. Основы моделирования
  5. Географические данные в R

Программное обеспечение

Мы будем использовать программное обеспечение, которое находится в свободном доступе на языке программирования R, а для написания кода будем использовать RStudio Desktop. R — это свободно распространяемый язык программирования, предназначенный (в первую очередь) для различных вычислений в быстро развивающемся мире «науки о данных». RStudio Desktop — это интегрированная среда разработки (IDE) для R, своего рода «центр управления», из которого вы можете управлять программируя в R. Для работы с Quarto мы будем использовать IDE Visual Studio Code. Наши инструменты:

Оценочные средства и критерии оценивания

В качестве оценочных средств текущего контроля предлагается 3 домашних задания, а в качестве промежуточной аттестации — проектное задание, выполненное в издательской системе Quarto.

Оценочные средства
наименование, тип, баллы и сроки сдачи
Наименование оценочного средств Тип оценочного средства Максимальное количество баллов Срок сдачи
Задание 1 Домашнее задание 20 24 апреля
Задание 2 Домашнее задание 20 10 мая
Задание 3 Домашнее задание 20 29 мая
Проектное задание Проект 40 29 мая
Итого - 100 -

Итоговая оценка:

  • меньше 60 баллов — «неудовлетворительно», FX;
  • от 60 до 67 баллов включительно — «удовлетворительно», E;
  • более 67 и до 74 баллов включительно — «удовлетворительно», D;
  • более 74 и до 83 баллов включительно — «хорошо», C;
  • более 83 и до 90 баллов включительно — «хорошо», B;
  • более 90 — «отлично», А.

Рекомендуемая литература

  1. Действия с табличными данными:
  2. Визуализация данных
  3. Научно-издательская система Quarto
  4. Основы моделирования
  5. Географические данные в R

🌟 Большой список различных источников (включая литературу на русском языке) можно найти на странице Rесурсы. Посмотреть примеры применения R можно на веб-странице блога Наука и данные.

Лектор

Евгений Николаевич Матеров — заведующий кафедрой физики, математики и информационных технологий, ФГБОУ ВО Сибирская пожарно-спасательная академия ГПС МЧС России.