brown-uk / dict_uk Goto Github PK
View Code? Open in Web Editor NEWProject to generate POS tag dictionary for Ukrainian language
License: GNU General Public License v3.0
Project to generate POS tag dictionary for Ukrainian language
License: GNU General Public License v3.0
хіба не :gen
?
До +m:
штунда noun:anim:f:v_naz штунди noun:anim:f:v_rod штунді noun:anim:f:v_dav …
Після +m:
штунда noun:anim:m:v_naz штунди noun:anim:m:v_rod штунді noun:anim:m:v_dav … штунда noun:anim:f:v_naz штунди noun:anim:f:v_rod …
Таким чином втрачається інфа про те, що штундин рідний рід — жіночий.
Очікується:
штунда noun:anim:f:v_naz штунда noun:anim:m:v_naz штунди noun:anim:m:v_rod … штунди noun:anim:f:v_rod штунді noun:anim:f:v_dav …
Є прибитий adj
і прибитий adjp
, але тільки драний adjp
. Несумісність гірша за неповність трактування.
кожний adj:m:v_naz:&pron:def кожного adj:m:v_rod:&pron:def … кожен adj:m:v_naz:short кожен adj:m:v_zna:short
Подібно до :ranim, корисна інфа яку легко додати, щось типу :rprep
. Здається, знадобиться в LT.
Зараз жодного розрізнення:
їх noun:p:v_rod:&pron:pers:3 них noun:p:v_rod:&pron:pers:3
Від усіх імен (тег fname), крім незмінюваних (типу Джекі), слід утворити й ввести в словник присвійні форми.
ULIF каже стафілокок — це істота (відмінюється, як тварина)
ГС дає парадигму, що не є ані істотою, ані неістотою (власне як вони й кажуть): там подвійний знахідний множини (як у тварин: =р.в. і =н.в.) і подвійний знахідний однини (=р.в. і =н.в.).
Мені здається, що мати одну лему з такою парадигмою краще, ніж вводити омонімію двох лем anim/inanim. От лише не знаю чи тоді треба для бактерій вводити третю форму «істотності» (bacanim? :))
немає виду, як і в запрохавши advp:xp1
, запрохати verb:inf:xp2
їхать, сміяться…
Зараз один numr:m:v_naz
, але декілька numr:p:v_naz:&pron:ind
Неузгоджені складені займенники, ще наприклад сякий-такого
тощо.
https://uk.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%83%D0%BA%D1%80%D0%B0%D1%97%D0%BD%D1%81%D1%8C%D0%BA%D0%B8%D1%85_%D0%B6%D1%96%D0%BD%D0%BE%D1%87%D0%B8%D1%85_%D1%96%D0%BC%D0%B5%D0%BD
https://uk.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%83%D0%BA%D1%80%D0%B0%D1%97%D0%BD%D1%81%D1%8C%D0%BA%D0%B8%D1%85_%D1%87%D0%BE%D0%BB%D0%BE%D0%B2%D1%96%D1%87%D0%B8%D1%85_%D1%96%D0%BC%D0%B5%D0%BD
Він спеціально не займенник? В чому логіка?
… один numr:m:v_zna одного numr:m:v_zna …
… цей adj:m:v_zna:&pron:dem цього adj:m:v_zna:&pron:dem …
… жваві adj:compb:p:v_zna жвавих adj:compb:p:v_zna …
Зацініть різницю: там тобі не знати ніко́го / там тобі не знати ні́кого (всі відомі).
Це ті, що в MTE emphatic. Цінна інфа, а не просто формальність для звідності в MTE. Можна не вносити окрему категорію (бо всі emphatic є negative), а лиш додати позначку, але тут треба подумати: вони зовсім різні, у них зовсім різний синтаксис: емфатичне включає в себе й присудок, тобто ні́ким це скорочення до немає ким. Їх всього два: нікого і нічого з відмінками.
додати їм :&numr в base.lst?
Андрій сказав, що про це щось було в Синявського, але я швидко не знайшов.
Проте є в СУМі: “…8. із знах. (у давній формі, яка збігається з сучасним називним множини)” (http://sum.in.ua/s/v)
Нехай знахідний у давній формі, але солдати в словнику зараз або солдати noun:anim:p:v_naz
або солдати noun:anim:p:v_kly
, тож зробити щось треба: або додати давній знахідний, або додати :rv_naz
, або? Що скажете?
:lnamed
себе noun:m:v_rod:&pron:refl собі noun:m:v_dav:&pron:refl себе noun:m:v_zna:&pron:refl собою noun:m:v_oru:&pron:refl собі noun:m:v_mis:&pron:refl себе noun:n:v_rod:&pron:refl собі noun:n:v_dav:&pron:refl себе noun:n:v_zna:&pron:refl собою noun:n:v_oru:&pron:refl собі noun:n:v_mis:&pron:refl
жокею :v_mis
, в’їзду :v_mis
Так правильно чи глюк?
пасти verb:imperf:inf пади verb:imperf:impr:s:2 паси verb:imperf:impr:s:2 падім verb:imperf:impr:p:1 пасім verb:imperf:impr:p:1 падімо verb:imperf:impr:p:1 пасімо verb:imperf:impr:p:1 падіть verb:imperf:impr:p:2 пасіть verb:imperf:impr:p:2 ⋮
Глюк чи ще руки не дійшли до розрізнення за наголосом? Ця штука шкодитиме.
відпасти
припасти
підпасти
зади́ха́тися
коли́са́тися
заколи́са́тися
пле́ска́тися
розпле́ска́тися
струменітися ? — там лексема на 51 форму, не можу зрозуміти
о́бі́д
Наприклад, є лише відшліфуйте verb:perf:impr:p:2
, і лише подзвеніть verb:perf:impr:s:2
.
вуса noun:inanim:p:v_naz вуса noun:inanim:p:v_naz:ns вусів noun:inanim:p:v_rod:ns вусам noun:inanim:p:v_dav:ns вуса noun:inanim:p:v_zna вуса noun:inanim:p:v_zna:ns вусами noun:inanim:p:v_oru:ns вусах noun:inanim:p:v_mis:ns
(дивись #8)
помилка?
Немає позначки множини (чи двоїни) для два і подібних (типу бо є рід). І такі слова можуть додаватися ще, без позначки числа ніяк.
Для прикметників, дієприкметників, числівників, займенників.
Яку позначку завести?
Для котрих є, в дужках наводжу тип з уліфа. Чи правильний не знаю.
будь-котрий (indefinite)
будлі-який
казна-який (indefinite)
будлі-котрий
жодний (negative)
подеякий
такісінький (demonstrative)
а також
verb:imperf:futr:s:3: мне verb:imperf:futr:p:1: мнем, мнемо verb:imperf:futr:p:2: мнете
Йдеться не про заміну леми, а про додавання тегу.
Потрібна для MTE, але і просто корисна інфа. Буде треба для pymorphy.
помилка? мав би бути :int
?
@Olvija
Пам’ятаєте це з пошти? Ці два займенники є одночасно двох типів. Чи можна додати цю інфу? може через амперсанд. @Olvija
скрипт convert_from_sell_uk.sh повинен називатись convert_from_spell_uk.sh
, наскільки я зрощумів
Переробити TODO у markdown. А краще завести для цього окремий issue і відмічати пункти по ходу виконання…
присвійні прикметники від імен прапорцем
розвести омоніми/омографи тощо
додати решту населених пунктів України
переглянути групування прапорців дієслів
наблизити теги словника правил LT до тегів словника корпусу
додати скрипт сортування входових файлів словника (після ручного редагування)
наразі деяки (коротші) дублети не мають всіх форм, якщо вони перетинаються з формами довшої леми
(стягти - стягнути, відвологти - відвологнути, сп'ястися - зіпнутися…)
кличний відмінок для займенників та решти іменників
В словаре использованы два вида кавычек: парные и непарные. Оправдано ли?
Вигенерувані файли заважають при розробці. Не знаю чи їх по одному в ігнор додати, чи патерном, чи в одну папку всіх направити і її ігнорити…
adv:&pron:emph
є лемою для adv:&pron:neg
, наприклад
нізвідки adv:&pron:emph нізвідки adv:&pron:neg
Іменникові emph
йдуть окремою лемою:
нічим noun:inanim:v_oru:&pron:emphале якщо є два омоніми, то один стає лемою для іншого:
нічого noun:inanim:v_rod:&pron:emph нічого noun:inanim:v_zna:&pron:emph
We should inject vocabulary into modern operation systems like
Also we need to take care about aspell, ispell libraries and basic libs like timezone (change kiev to kyiv) and others
у згенерованому словнику:
вуса noun:inanim:p:v_naz:ns вуса noun:inanim:p:v_naz <———— вусів noun:inanim:p:v_rod:ns вусам noun:inanim:p:v_dav:ns вуса noun:inanim:p:v_zna:ns вуса noun:inanim:p:v_zna <———— вусами noun:inanim:p:v_oru:ns вусах noun:inanim:p:v_mis:ns
(може трапляється ще десь)
Є
мало adv:compb менш adv:compr менше adv:compr найменш adv:super найменше adv:super щонайменш adv:super якнайменш adv:super щонайменше adv:super
А є щонайменше adv:super
окремою лемою. Те ж з іншими.
виповза́ти/ви́повзати
орел (птах)/орел (бік монети)
...
їстоньки predic
, а питоньки verb:imperf:inf:dimin
та інші суперечності. За яким принципом слово є предиком?
Доле noun:inanim:f:v_kly моя, ти де?
‘краще’ ж взагалі немає як прислівника. Усистемнімо?
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.