Библиотека предназначена для преобразования неструктурированных данных в структурированные. Основная идея библиотеки заключается в том, что работа с документами для разных задач проходит на разных уровнях (файлами, чанков, слов, строк, регионов, параграфов с разделами, коллекциях документов). Исследователь в области понимания неструктурированных документов должен сосредоточется на задачи и манипулировать с удобными для себя сущностями и иметь возможность представить свои данные на уровнях, которые не относятся к исследованию.
Библиотека состоит из
- Типов данных элементов
- Универсального формата данных
- Реализации переходов от одной модели к другой
- Реализации простейших обработок
Для работы нужно:
- выбрать базовую цепочку обработки
- выбрать исследуемый элемент
- наследоваться от него и реализовать свою логику обработки