b-labs-models

Готовые к использованию статистические модели для русского языка
В качестве обучающего корпуса использовался словарь OpenCorpora (4,000+ документов на конец мая 2017 года, в основном - новости и художественная литература)

Установка

$ pip install b-labs-models

Определение границ предложений

Результат по F1-мере при кросс-валидации (1/3 данных использовались как тестовые): 0.99

from b_labs_models import SentenceSegmentator

text = '''
Разница цепей Маркова от сетей Маркова заключается в том, что первые генеративны (т.е. предсказывают вероятность следующего шага), а вторые — дискриминатины, т.е. рассчитывают вероятность текущего состояния.
Использовать тот или иной алгоритм зависит от решаемой задачи. А второе, и наиболее важное отличие — это то, что сети Маркова учитывают не только шаг (два и т.д.) вправо-влево по какому-либо из параметров, а по пучку взаимосвязанных параметров.
Скажем, для перевода это не только все его варианты, а и тематический контекст перевода, синтаксис и пр.
'''

segmentator = SentenceSegmentator()
sentences = segmentator.split(text)

assert len(list(sentences)) == 4

Токенизация

Результат по F1-мере при кросс-валидации (условия те же): 0.98
Здесь стоит отметить то, что у проекта OpenCorpora свой взгляд на токенизацию: например, токены могут содержать внутри себя точки (как Яндекс.Деньги) или одно слово может быть разбито на несколько токенов (например, Жан-Поль - это три токена)

from b_labs_models import Tokenizer

text = 'Плита дорожная железобетонная ПДН.м Серия 3.503.1-91, выпуск 1'
tokenizer = Tokenizer()

tokens = tokenizer.split(text)

assert list(tokens) == [
    'Плита',
    'дорожная',
    'железобетонная',
    'ПДН',
    '.м',
    'Серия',
    '3.503.1-91',
    ',',
    'выпуск',
    '1',
]

Частеречная разметка (part of speech tagging)

from b_labs_models import POSTagger

tagger = POSTagger()

tokens = ['Весело', 'стучали', 'храбрые', 'сердца']
labels = tagger.tag(tokens)

assert list(zip(tokens, labels)) == [
    ('Весело', 'ADJS'),
    ('стучали', 'VERB'),
    ('храбрые', 'ADJF'),
    ('сердца', 'NOUN'),
]

Обучение

TBD

License

Source code licensed under MIT license, but source data (OpenCorpora annotated corpus, for example) may have different license.

bureaucratic-labs / models Goto Github PK

models's Introduction

b-labs-models

Установка

Определение границ предложений

Токенизация

Частеречная разметка (part of speech tagging)

Обучение

License

models's People

Contributors

Stargazers

Watchers

Forkers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent