Data Scientist (NLP)
Обработка естественного языка
20 часов в неделю
Описание компании
Страховой Дом ВСК входит в ТОП-5 компаний-лидеров на страховом рынке России. Нам уже более 30 лет, но мы не устаем создавать тренды в отрасли.ВСК обеспечивает страховую защиту более чем 500 000 различных предприятий и организаций, более 30 миллионов российских граждан пользуются услугами компании. В линейке есть более 200 видов страховых услуг по всем направлениям: авто, дом, здоровье, путешествия. мы – универсальная страховая компания. Непрерывность процессов и высокое качество сервисов поддерживает более 7000 сотрудников компании в 500 офисах по всей стране, 700 из которых IT-специалисты.
В ВСК можно работать удаленно, в офисе или по гибридному графику. У нас сеть ИТ-хабов в Москве, Волгограде и Томске. Сотрудникам предоставляем бесплатный отдых в собственном туристическом центре и работу в коворкинге в Сочи, на базе образовательного центра Сириус.
Мы используем современные гибкие методологии Agile и SAFe. Непрерывно повышаем уровень нашей зрелости, как ИТ-команды, улучшая процессы разработки (ATDD, CI/CD и др.). Заботимся о постоянном развитии компетенции наших сотрудников и используем множество современных стеков разработки (Java, C#, Phyton и другие). Мы пропагандируем культуру доверия, командной работы, постоянного развития и изменений в направлении наших высоких амбиций.
У нас есть собственная DevOps платформа с поддержкой Kafka, Camunda, PostgreSQL и других технологий, а также система автоматизированного тестирования E2E Sprut.
Все что мы делаем в ВСК сегодня, мы делаем со взглядом в будущее. Действуй с ВСК сегодня и достигай каждый день. Ты свободен создавать свое будущее!
Описание стажировки
Ты будешь:- заниматься разметкой данных
- заниматься разведочным анализом
- создавать и расширять тематические словари
- классифицировать тексты по тематикам
- заниматься кластеризацией текстов
- выявлять именованные и числовые сущности в тексте
- анализировать и визуализировать полученные результаты
Требования к стажеру
- регулярные выражения (re)
- классический ML (scikit-learn, xgboost, catboost)
- нейронные сети (torch/keras/tensorflow, transformers)
- специализированные NLP-библиотеки (yargy, natasha, pymorphy, nltk и прочее)
- решение задач клаccификации и кластеризации текстов, распознавания именованных сущностей
- не ниже 4-5 курса ВУЗа