Руководство пользователя¶
Установка из PyPI¶
Для установки используйте pip:
$ pip install rusclasp
Dependencies¶
Для работы rusclasp необходим TreeTagger (вместе с Russian parameter file) а также treetaggerwrapper, treetaggerwrapper может быть установлен следующей командой:
$ pip install treetaggerwrapper
Разбиение предикаций¶
Разбиение на предикации представляет собой разбиение текста на отрезки, содержащие один финитный предикат (возможно, нулевой) и его зависимые. При этом предикации, разорванные вложением, восстанавливаются.
Разбиение происходит следующим образом:
import rusclasp
s = rusclasp.Splitter()
sentence = u'Вы можете, введя свое предложение, проверить работу программы.'
result = s.split(sentence)
У метода split
есть необязательный аргумент mode
, значение которого по умолчанию mode='json'
. В таком режиме он возвращает в переменную result
словарь со следующей схемой:
{ 'text': "Текст, который вы разбиваете.",
'entities': [
['T1', 'Span', [[0, 2]]],
['T2', 'Span', [[4, 8]]],
['T3', 'Span', [[10, 15]]]
],
'relations': [
['R1', 'Split', [['LeftSpan', 'T1'], ['RightSpan', 'T3']]]
]
}