Петербургские учёные научили компьютеры распознавать в старинных текстах имена и адреса

0 0

Поисковые алгоритмы плохо работают с русскоязычными текстами из-за их сложной семантики и морфологии.

В Международном центре цифровых гуманитарных исследований Университета ИТМО научили компьютерный алгоритм анализировать старые тексты. Благодаря усилиям программистов и ученых техника теперь умеет искать в текстах названия, имена и адреса, рассказали в пресс-службе самого университета.

Как отметили ученые, современные алгоритмы часто сбиваются при работе с книгами прошлого и позапрошлого веков. В целом при поиске нужной информации в большом массиве текста работают специальные алгоритмы анализа, которые позволяют распознать и просто сущности, и так называемые "именованные сущности". В числе первых – обыкновенные повседневные предметы, взаимодействующие между собой в тексте или просто упоминающиеся. В числе вторых – объекты с конкретным индивидуальным обозначением вроде имени и фамилии, названия организации и так далее. Однако для русского языка таких алгоритмов существует значительно меньше, чем для английского, поскольку русский гораздо сложнее с точки зрения морфологии и семантики. Также сложность добавляли старые имена, на которых сильно проседала точность работы.

Мы взяли более или менее все крупные существующие решения по извлечению именованных сущностей русского языка и применили для наших исторических текстов. И выяснилось, что на наших текстах, которым было 60 и более лет, результат составил в районе 70-72%. Причем чем старше текст, тем хуже результат. 

доцент факультета информационных технологий и программирования Иван Сметанников

Ученый отметил, что команда разработала дополнительный блок обработки текста, который определяет частнотность некоторых слов и решает, нет ли ошибки в работе основного алгоритма. Доработка позволила повысить точность распознавания текста до 78-79%.

Ранее мы рассказыали, что ученые из петербургского ЛЭТИ разработали источник энергии на основе водорослей.

Фото: pixabay

Теги: , ,
Категории: , ,

Обсуждение ( 0 ) Посмотреть все

Новые комментарии