Меня зовут Эрик и я являюсь практикующим исследователем, призёром индивидуальных чемпионатов, победителем командных соревнований, также был членом жюри всероссийского хакатона по прогнозированию. Есть опыт проектной работы и разработки DataScience решений с чистого листа.
Обучался навыкам DataScience самостоятельно на открытых источниках, а также повышающих квалификацию курсах, и, конечно, применяю и развиваю их на практике. По необходимости расширяю стек. Имею высшее инженерное и экономическое образование.
Python, Pandas, Numpy, SQL, PostgreSQL, psycopg2, Scipy, Seaborn, Matplotlib, Scikit-Learn, LightGBM, CatBoost, XGBoost, RandomForest, Linear models, DBSCAN, K-means, регрессия, классификация, валидация, метрики, калибровка, выбросы, временные ряды, Agile, VSCode, JupiterNotebook, GoogleColab, DBeaver
Git, Flask, Json, A/B-тест, HTML, Docker, PyTorch, NLP, openpyxl, networkx, Selenium, BeautifulSoup4, Requests, PyCharm
Название проекта | Описание проекта | Стек |
---|---|---|
Решение по ТЗ. Разработка модели предсказывающей час пикового потребления электроэнергии. Анализ возможности улучшения результатов базовой модели. (github) | Решение под ключ по ТЗ, работа с бизнес-метрикой, предложение и анализ различных модельных метрик, подход к решению с точки зрения задачи регрессии и задачи классификации, временные ряды, статистика, предобработка, feature_ generation, feature_selection, простые модели, мета-модели, ансамбли, кросс-валидация, тест, анализ, презентация результатов, выводы | pandas, numpy, seaborn, matplotlib, scikit-learn, LogisticRegression, LightGBM |
Чемпионат по прогнозированию 8/150. Разработка ML-модели предсказывающий потенциальный статус студента (github) | классификация, EDA, feature selection, тюнинг гиперпараметров, дисбаланс классов, стэккинг моделей, кросс-валидация, тест, | pandas, numpy, seaborn, matplotlib, dataprep, scikit-learn, CatBoost, LightGBM, XGBoost |
Чемпионат по прогнозированию 16/152. Разработка математической модели прогнозирования заболевания населения (github) | регрессия, EDA, feature selection, тюнинг гиперпараметров, стэккинг моделей, кросс-валидация, тест, временные ряды | pandas, numpy, seaborn, matplotlib, scikit-learn, LightGBM, RandomForest, ExtraTrees |
Командный хакатон от компании Motorica 1/9. Задача классификации жестов на основе данных, полученных от оптомиографических датчиков (github) | Ведение команды, классификация, временные ряды, EDA, анализ предметной области, визуализация | pandas, numpy, scipy, seaborn, matplotlib, scikit-learn, LinearRegression, RNN, LSTM |
Kaggle-competition (отборочный этап) 34/178. Uplift-моделирование. Предсказать, кому отправить СМС, чтобы склонить к покупке. (github) | Аплифт моделирование, классификация, feature selection, тюнинг гиперпараметров, кросс-валидация | Pandas, NumPy, Matplotlib, Seaborn, Sklearn, LightGBM |
Kaggle-competition (практика) 31/324. Прогнозирование стоимости автомобиля (github) | Парсинг с сайта Auto.ru, формирование обучающей выборки, регрессия, EDA, feature selection, тюнинг гиперпараметров, стэккинг моделей, кросс-валидация, тест | Pandas, NumPy, Matplotlib, Seaborn, Sklearn, Selenium, BeautifulSoup4, Requests LightGBM, CatBoost |
Kaggle-competition (практика) 3/77. Прогнозирование вероятности дефолта заемщика (github) | классификация, EDA, feature selection, feature generation, баланс классов, устойчивость к переобучению, кросс-валидация, тест | Pandas, NumPy, Matplotlib, Seaborn, Sklearn, LogisticRegression |
Консультативное задание. Преобразование данных, прогнозирование оттока клиентов (github) | классификация, EDA, feature selection, feature generation, сбор датасета, кросс-валидация | Pandas, NumPy, Matplotlib, Seaborn, Sklearn, LightGBM |
Консультативное задание. Преобразование данных, построение скоринг модели. (github) | классификация, EDA, feature selection, feature generation, сбор датасета, кросс-валидация | Pandas, NumPy, Matplotlib, Seaborn, Sklearn, CatBoost |
Консультативное задание. Анализ данных собранных в полевых условиях с датчиков диоксида серы. Предложение прогностической модели (github) | Провести анализ данных, ответить на ряд вопросов, предложить модель, сделать выводы. Регрессия, EDA, статистика, тест | pandas, numpy, scipy, dataprep, seaborn, matplotlib, scikit-learn, RandomForestRegression, LinearRegression |
Практика SQL. Расписание авиалиний. Ответить на вопросы. Собрать датасет (github) | Схема, запросы, сбор датасета, ответы на вопросы, анализ | SQL, Pandas, Matplotlib, Seaborn |