Skip to content

YRL-AIDA/PageRLib

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

PageRLib

Библиотека предназначена для преобразования неструктурированных данных в структурированные. Основная идея библиотеки заключается в том, что работа с документами для разных задач проходит на разных уровнях (файлами, чанков, слов, строк, регионов, параграфов с разделами, коллекциях документов). Исследователь в области понимания неструктурированных документов должен сосредоточется на задачи и манипулировать с удобными для себя сущностями и иметь возможность представить свои данные на уровнях, которые не относятся к исследованию.

Библиотека состоит из

  • Типов данных элементов
  • Универсального формата данных
  • Реализации переходов от одной модели к другой
  • Реализации простейших обработок

Для работы нужно:

  1. выбрать базовую цепочку обработки
  2. выбрать исследуемый элемент
  3. наследоваться от него и реализовать свою логику обработки

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Packages

 
 
 

Contributors

Languages