Логически представляет собой токе текста и хранит следующую информацию
- токен (token)
- стартовую позицию в исходном тексте (start)
- конечную позицию в исходном тексте (end)
- класс токена (label)
Ключевой класс в проекте Document. Данный класс содержит исходный документ в поле текст, класс текста целиком (если такой присутствует), разметку на уровне токенов и отношения между размеченными сущностями (отношения пока не реализованы). Хранение разметки устроено следующим образом:
- Класс текста храниться в поле label и может быть получено обращением напрямую к данному полю:
- Разметка на уровне токенов храниться в поле _tokens, которая является списком экземпляров класса Token. Получить доступ непосредственно к токенам и их лейблам можно через атрибуты token и token_labels соответственно
- Разметка по отношения: TODO.
Документ можно разбить на предложения, после разбиения на каждое предложения создается отдельный документ.
Класс логически представляет собой набор документов и имеет следующую функциональность
- Загрузка набора данных из разных форматов в том числе: json, brat, inception, conll.
- Сохранение во всех вышеперечисленных форматах
- Итерирование по разметке на уровне токенов, целиком текста, отношений