zHz00 Untitled

пятница, 28 февраля 2014
19:47 Untitled [269]
Занялся тут на досуге вопросом лемматизации (приведения в начальную форму всех слов) текста. Нашёл библиотеку phpMorphy. Стал копать. Прогнал текст, смотрю, чаще всего встречается слово "мень". Думаю, что за мень такой, чёрт возьми?

Посмотрел в гугле. Отсеял товарища по имени Александр Мень. Посмотрел ещё раз. Мень -- это такая рыба! О_о

Оказалось, что слова в возвращаемом списке вариантов идут по алфавиту, а не по популярности (что логично). А я везде брал по-умолчанию первый вариант (для теста гонял, так проще, чем разбирать контекст). Итак, это была лемматизация слова "меня" -- два варианта -- "мень" и "я". Зато словарь не знает слова "университет".

@темы: Программирование

URL