Большие данные

Входные требования: базовые навыки программирования и веб-технологий, знание SQL и СУБД

Зачетные единицы: 6

Семестр: 3

Курс: По выбору

Язык курса: Английский

Цели

Студенты изучат существующие современные технологии высоконагруженных систем хранения и обработки данных; принципы работы высоконагруженных систем; отличительные особенности структуры больших данных; основы существующих механизмов организации их хранения и управления, а также известные механизмы обработки и анализа; основные численные и аналитические методы моделирования различных процессов и комплексов программ; существующие библиотеки, программные средства и фреймворки и существующие в современном мире источники данных.
Студенты научатся выбирать подходящую технологию хранения и обработки больших данных; анализировать применимость того или иного технологического решения под требуемые задачи над имеющимися большими данными; выполнять развертывание и запуск в базовой конфигурации подходящего программного решения под эти данные.
Студенты получат навыки работы с программным обеспечением поддержки организации хранения больших данных и механизмов их обработки; овладеют методами интеллектуального анализа данных, в т.ч. методами оценки качества моделей, алгоритмов; методами экспериментальной проверки гипотез; методами обоснования гипотез; методами получения данных из различных доступных источников.

Содержание

Основные темы занятий в рамках дисциплины:

  • Определение термина большие данные и базовая модель. Применение больших данных. Роль больших данных в национальной экономике. Требования к профессии аналитика больших данных.
  • Основные этапы жизненного цикла. Сбор, консолидация и очистка данных.
  • Коэффициент корреляции. Графическое представление. Постановка задачи регрессионного анализа. Линейная регрессия.
  • Метод наименьших квадратов. Их роль в аналитике больших данных.
  • Сбор и консолидация данных, визуализация данных, язык R для аналитики, работа с СУБД.
  • Hadoop, HDFS, Map/Reduce, YARN, Storm, Apache Spark.
  • Важность феномена больших данных для развития общества и науки. Причины возникновения тренда больших данных.
  • Проблемы и возможности, связанные с появлением больших данных.

Формат

Лекции и лабораторные занятия.

Оценка

Экзамен.