Описание:
Реализация различных сценариев data retrieval из документов с применением генеративных моделей (RAG-архитектура, выбор и до-обучение моделей), разработка OCR-инструмента для сложных таблиц на технологиях типа TATR. Проект про применение генеративных моделей в корпоративных финансах.Нужно будет заниматься следующими задачами- Создавать различные proof of concept по бизнес-сценариям клиентов с выбором LLM моделей и интерфейсами на streamlit/gradio - Разбираться с технологиями CV в применении к OCR, включая fine tuning моделей. Нужно добиться возможности распознавания сканов нескольких типов таблиц в структурированный текстовый вид -Формулировать задачи по разметке данных для исполнителей (определять необходимые форматы и инструменты) Проверять и использовать размеченные данные. - Участвовать в разработке решений для продакшена, отвечать за интеграцию ML-модулей в общую систему.Требуется от кандидата - Знание Python и фреймворков для машинного обучения - Желательно знакомство с llamaindex и langchain- Опыт работы в командах более одного года