Инфраструктура больших данных

Зачетные единицы: 6

Семестр: 2

Курс: Основной

Язык курса: Английский

Цели

Студенты изучат принципы построения и основы организации разработки современных программных решений для обработки больших данных, типовые ошибки, возникающие при работе с большими данными, и признаки их проявления, методы устранения типовых ошибок, возникающих при работе интеграционного решения, основные механизмы и алгоритмы для анализа сложных и больших данных и извлечения из них знаний, принципы и технологии функционирования выбранной интеграционной платформы, возможности современных и перспективных средств интеграции систем, приложений и сервисов, принципы обработки, хранения и защиты данных.
Студенты научатся применять методы и средства анализа функциональных требований к интеграционному решению, проектировать и разрабатывать базовые программные приложения для обработки данных с использованием вычислительного кластера на основе современных технологий обработки больших данных, выполнять процедуры сборки программных модулей, сервисов и компонент интеграционного решения в соответствии с техническим заданием, производить настройки параметров выбранной интеграционной платформы, производить оценку работоспособности интеграционного решения, проектировать и разрабатывать комплексные решения по обработке данных с использованием одного или нескольких алгоритмов анализа данных и извлечения информации, разрабатывать новые алгоритмы на основе существующих, выполнять процедуры развертывания и настройки интеграционных платформ.
Студенты получат навыки распределения задач по развертыванию и настройке выбранной интеграционной платформы в соответствии с техническим заданием, по сборке программных модулей, сервисов и компонент интеграционного решения на базе выбранной интеграционной платформы, навыками анализа и оценки разработки технических спецификаций интеграционного решения.

Содержание

Основные темы в рамках дисциплины:

  • Эволюция систем обработки больших данных
  • Распределенная файловая система HDFS
  • Технология MapReduce
  • Обеспечение отказоустойчивости средствами Apache ZooKeeper
  • Менеджеры ресурсов YARN и Mesos
  • Пакетная обработка больших данных
  • Потоковая обработка больших данных
  • Интерактивная обработка больших данных

Формат

Лекции и практические занятия

Оценка

Экзамен.