LegalTech стартап
Legal Tech

Кастомная NLP-модель для юридического анализа

Обучили специализированную модель для классификации и извлечения данных из юридических документов

96%
Точность классификации
50x
Быстрее ручного
10x
Меньше универсальных LLM

Вызов

LegalTech стартап нуждался в модели, которая точно классифицирует юридические документы и извлекает из них структурированные данные. Универсальные LLM были слишком медленными и дорогими.

50+ типов юридических документов для классификации
Универсальные LLM слишком медленные для real-time
Юридическая терминология требует специализации
Требования к точности — не менее 95%

Решение

Обучили специализированную модель на базе DeBERTa для классификации и извлечения сущностей из юридических документов.

Кастомная модель

  • DeBERTa-v3 base
  • LoRA fine-tuning
  • Мультизадачное обучение
  • 50+ классов документов

NER и извлечение

  • Стороны договора
  • Даты и суммы
  • Условия и обязательства
  • Юрисдикция и применимое право

Оптимизация

  • ONNX Runtime для inference
  • Quantization до INT8
  • Батч-процессинг
  • REST API

Показатели модели

Классификация документов96% F1-score
Извлечение сущностей (NER)94% F1-score
Скорость обработки200 док/мин
Размер модели350MB (vs 35GB)

Процесс работы

Анализ задачи

1 неделя
  • Формализация категорий
  • Определение метрик

Подготовка данных

2 недели
  • Разметка 15k документов
  • Аугментация

Обучение

3 недели
  • Эксперименты с архитектурами
  • Подбор гиперпараметров

Оптимизация и деплой

2 недели
  • Quantization
  • API разработка
  • Тестирование

Результаты

Точность

96% F1-score для классификации 50+ типов документов

Скорость

Обработка в 50 раз быстрее ручной классификации

Компактность

Модель в 10 раз меньше универсальных LLM

Масштабируемость

Обработка 200+ документов в минуту

Кастомная модель от QZX — это именно то, что нам было нужно. Она работает в 50 раз быстрее ChatGPT на наших задачах, при этом точнее и дешевле в эксплуатации.
— CTO, LegalTech стартап

Технологический стек

PyTorchTransformersLoRADeBERTa-v3ONNX RuntimePythonFastAPI

Заинтересовал кейс?

Обсудим как мы можем создать подобное решение для вашего бизнеса.