Технологии и инфраструктуры работы с большими данными

Зачетные единицы: 6

Семестр: 2

Курс: Основной

Язык курса: Английский

Цели

Студенты изучат основные механизмы и алгоритмы для анализа сложных и больших данных и извлечения из них знаний; принципы обработки, хранения и защиты данных; этические и законодательные нормы работы c большими данными; принципы построения и основы организации разработки современных программных решений для обработки больших данных; принципы обработки больших объемов данных для извлечения знаний на основе методов машинного обучения.
Студенты научатся проектировать и разрабатывать комплексные решения по обработке данных с использованием одного или нескольких алгоритмов анализа данных и извлечения информации, а также разрабатывать новые алгоритмы на основе существующих; применять знания о нормах и принципах хранения, защите данных для оценки научной деятельности с точки зрения потенциального влияния на общество; проектировать и разрабатывать базовые программные приложения для обработки данных с использованием вычислительного кластера на основе современных технологий обработки больших данных; применять методы машинного обучения для извлечения знаний с помощью современных систем обработки больших данных.
Студенты овладеют теоретическими основами работы применяемых алгоритмов обработки данных и методами комбинирования алгоритмов для достижения наилучшего результата; навыками анализа и оценки научно-исследовательской деятельности на предмет соответствия общепринятым международным нормам и этическим стандартам при испытаниях и исследованиях с участием людей; навыками работы с программными интерфейсами систем обработки больших данных для пакетной и потоковой обработки данных; навыками работы с библиотекой машинного обучения MLLib.

Содержание

Основные темы занятий в рамках дисциплины:

  • Основные этапы развития систем обработки больших данных, основные типы систем и их назначение, эволюция методов обработки данных.
  • Назначение распределенной файловой системы HDFS, основные принципы устройства HDFS, процедура репликации данных и обеспечение отказоустойчивости.
  • История возникновения технологии, принципы построения обработки данных на основе MapReduce, паттерны MapReduce.
  • Архитектура и принципы устройства Apache Zookeeper, алгоритмы консенсуса, алгоритм PAXOS.
  • Назначение и задачи менеджера инфраструктуры, архитектура и принципы устройства YARN, архитектура и принципы устройства Mesos, централизованный и двухуровневый подходы к планированию.
  • Принципы организации пакетной обработки данных, архитектура и принципы устройства Apache Spark, обработка данных с помощью Spark.
  • Принципы организации потоковой обработки данных, архитектура и принципы устройства Apache Kafka и Apache Flink, обработка потоковых данных с помощью Spark Streaming и Apache Flink.
  • Принципы организации интерактивной обработки данных, архитектуры Lambda и Kappa, интерактивная обработка данных с помощью Spark SQL.
  • Представление графовых данных для пакетной обработки, обработка графовых данных с помощью Spark GraphX.

Формат

Лекции и лабораторные занятия

Оценка

Экзамен.