Рескладчина [OTUS] Pазработчик BigData

Информация о покупке
Цена: 300 РУБ
Участников: 7 из 7
Организатор: DreaMeR DreaMeR
Статус: Набор участников
Взнос: 47.1 РУБ
100%
Основной список
Резервный список

Telia

Премиум
Регистрация
26.02.18
Сообщения
61
Реакции
811

Занятие 1: Базовые инструменты анализа данных в Python.
Подготовка к курсу. Git, окружение Python. Обзор курса.
Введение в Python, Numpy, Pandas, Sklearn. API Sklearn.
Что такое DS, ML, классы решаемых задач.


Занятие 2: Вводная в математические операции.
Интеграл, производная, их свойства, вероятность, плотность вероятности, мат.ожидание, дисперсия, ковариация, матричные вычисления, определитель, обратная матрица и т.п.

Занятие 3: Визуализация
Визуализация на matplotlib, seaborn, plotly


Занятие 4: Линейная регрессия
Математика линейной регрессии. Проблема многомерных пространств и переобучения на примере регрессии. Проблема разреженных данных. Регуляризация.
Простая линейная регрессия на Python. Оценка качества регресcии. Проверка точности модели: обучающая и тестовая выборки. Обучающая и тестовая выборка, кросс-валидация.

Занятие 5: Логистическая регрессия
Математика логистической регрессии. Мультиклассовая регрессия. Оценка качества логистической регрессии.
Теория вероятностей: условные вероятности, теорема Байеса.
Обучение регрессии, градиентный спуск. Регуляризация: L1, L2.

Занятие 6: KNN, наивный байес
Метрики и расстояния между объектами: евклидова и другие.
Обучение модели kNN. Ограничения.
Метрики качества: accuracy, precision, recall, др.
Алгоритм наивного байеса. Байесовский классификатор, Принцип Maximum A-Posteriori

Занятие 7: kMeans, EM
Обучение без учителя. Алгоритмы кластеризации, области применения. k-means. Оценка качества обучения, ограничения и подбор алгоритма для задачи.
Байесов подход к вероятности. Алгоритмы с lower-bound. Em алгоритм.


Занятие 8: Иерархическая кластеризация, DB-Scan
Иерархическая кластеризация, DB-Scan. Optics. Спектральная кластеризация.
Занятие 9: Feature engineering
Feature engineering. Статистический анализ данных, выбор фич на основе корреляции.

Занятие 10: Поиск выбросов в данных

Занятие 11: Уменьшение размерности
Principle component analysis, t-sne. Поиск подмножества фич (subset selection).

Занятие 12: Методы оптимизации
SGD, модификации SGD

Занятие 13: Деревья решений
Ограничения и недостатки деревьев решений. Классификация и регрессия с помощью деревьев решений. Выбор оптимального сплита, суррогатный сплит.

Занятие 14: Ансамбли моделей
Случайный лес. Обзор методов ансамблирования: бустинг, бэггинг, стекинг, случайные подпространства.

Занятие 15: Бустинг
Xgboost, catboost, lightgbm, Стекинг, блендинг

Занятие 16: SVM, Support vector machine
Разделяющая поверхность с максимальным зазором. Формулировка задачи оптимизации для случаев линейно-разделимых и линейно-неразделимых классов. Сопряженная задача. Опорные векторы. SVM для задач классификации и регрессии. Kernel trick. Теорема Мерсера. Примеры функций ядра.
Занятие 17: Анализ текстовых данных
Сбор данных из открытых источников. Очистка данных, подготовка данных для анализа.Задача обработки текста. Введение, обзор задач, токенизация, лемматизация. Python + sklearn для обработки текстов. Понятие мешка слов, TF.IDF и когда они могут быть нужны, feature selection для NLP.

Занятие 18: Анализ текстовых данных
Выделение объектов в тексте (named entity recognition, named entity linking)
Неструктурированные данные. Структурированные данные. Сбор текстов (scraping)
Word2vec для извлечения похожих слов, sentiment analysis

Занятие 19: Рекомендательные системы
Типы рекомендательных систем. Векторное пространство (тот же TF-IDF) и content-based модели, повторение стандартных метрик корреляций: Пирсон, косинусная мера, Джаккарт. Offline метрики и метрики ранжирования. Построение простой content-based модели. Item(user)-based CF. Использование CF для implicit feedback. Построение CF модели (item-based или MF)

Занятие 20: Временные ряды
Что такое временные ряды и простые модели построения прогнозов. Разложение временного ряда на компоненты: тренд, сезонность, цикл, ошибка. Стационарность ряда. Модели класса AR, MA, ARMA, ARIMA. Построение прогноза на примере данных. Модели ARIFMA. Нелинейные модели, библиотека Prophet от Facebook. Векторные модели

Занятие 21: Latent Dirichlet Allocation

Занятие 22: Алгоритмы на графах
Социальные сети

Занятие 23: Нейронные сети, обучение нейронных сетей
Основы: перцептрон и синапсы, функция активации, примеры задач. Обучение: функция потерь, обратное распространение ошибки, стохастический градиент.

Занятие 24: Сверточный слои, каскады, визуализация признаков
Сверточный слои, каскады, визуализация признаков. Нормализация и регуляризация: batchnorm, dropout. Архитектуры нейросетей: обзор архитектур AlexNet, ResNet, GoogLenet.
Занятие 25: Процесс CRISP-DM. Выбор хранилища, запросы к базе (Реляционная, нереляционная). Большие данные и параллельные вычисления.
Кластер, hdfs, запросы к hdfs. Map Reduce, Java, Python, Необходимость в кластерных вычислениях. Парадигма MapReduce. Инструменты работы с большими данными. Hadoop, Spark, обзор других компонентов экосистемы. Развертывание кластера Hadoop локально для выполнения учебных примеров. Выполнение учебных примеров на кластере.

Занятие 26: Vowpal Wabbit для обучения линейных моделей на одной машине

Занятие 27: MapReduce на Java, Hadoop Streaming - MapReduce на Python, bash

Занятие 28: Пайплайны. Способы выстроить поток задач, обеспечить выполнение. Отказоустойчивость, мониторинг.

Занятие 29: Слои данных для оптимизации процессов использования данных. Hive.

Занятие 30: Организация хранения данных для решения задач машинного обучения

Занятие 31: Spark
Spark как инструмент быстрого доступа к данным. Spark как инструмент для машинного обучения.

Занятие 32: Обзор решений для аналитики больших данных
Vertica, Clickhouse. Основные преимущества и недостатки, для хранения и обработки данных.
Агрегация, управление, эксперименты, анализ, визуализация и BI
В рамках курса предусмотрена защита проекта. Проект представляет из себя программный комплекс, решающий задачу извлечения и использования знаний из реальных данных с использованием машинного обучения. Проект готовится в течение месяца и включает в себя следующие этапы:

- Постановка задачи. Предлагается самостоятельно найти предметную область и обосновать применение в ней машинного обучения
- Разработка данных. Одно из требований к проекту
- Использование данных из открытых источников. Необходимо разработать процесс сбора и очистки данных
- Поиск алгоритма и модели для решения задачи. Необходимо выполнить подготовку данных, выбрать алгоритм и подобрать параметры для построения модели
- Использование модели для достижения поставленной цели. Необходимо реализовать применение разработанной модели
- Построение процесса. Решение задачи необходимо оформить в единый процесс по обработке данных от источника до предсказания, не требующий участия эксперта
- Обоснование процесса
[SHOWTOGROUPS=3,5]
Нажмите кнопку Мне нравится Мне нравится и ссылка откроется
[/SHOWTOGROUPS]
 

Fannasankh

Премиум
Регистрация
27.05.18
Сообщения
3
Реакции
1
Так что, будет доступ к материалам? Вроде и тут и там 100% набралось уже.
 

Starik

Пользователь
Регистрация
16.03.18
Сообщения
1
Реакции
0
Я записывался, чо дальше то?
 

Mr. Sliv

Администратор
Регистрация
24.02.18
Сообщения
1.906
Реакции
27.562
Я премиум, а доступа нет.
Складчина не имеет отношения к премиум доступу никакого отношения. Ждем когда автор складчины объявится, если продукт на руках, начнем сборы.
 

Fannasankh

Премиум
Регистрация
27.05.18
Сообщения
3
Реакции
1
Складчина не имеет отношения к премиум доступу никакого отношения. Ждем когда автор складчины объявится, если продукт на руках, начнем сборы.
В смысле не имеет? В описание премиум доступа было указано, что не требуется платить за складчины, если премиум доступ.
 

Mr. Sliv

Администратор
Регистрация
24.02.18
Сообщения
1.906
Реакции
27.562
В смысле не имеет? В описание премиум доступа было указано, что не требуется платить за складчины, если премиум доступ.
Прочитайте еще раз мое сообщение. Если вы думаете что если создана складчина и за нее никто не будет платить, и она окупится сама, то то мнение ошибочное, Все вопросы в лс. Флуд не разводим.
 
  • Мне нравится
Реакции: Yan.Rudkovskyi

Telia

Премиум
Регистрация
26.02.18
Сообщения
61
Реакции
811
dreamer, Когда собираться будем?)
 

DreaMeR

#2
Администратор
Регистрация
22.04.18
Сообщения
37.672
Реакции
401.834
  • Мне нравится
Реакции: Telia