В Международном центре цифровых гуманитарных исследований Университета ИТМО научили компьютерный алгоритм анализировать старые тексты. Благодаря усилиям программистов и ученых техника теперь умеет искать в текстах названия, имена и адреса, рассказали в пресс-службе самого университета.
Как отметили ученые, современные алгоритмы часто сбиваются при работе с книгами прошлого и позапрошлого веков. В целом при поиске нужной информации в большом массиве текста работают специальные алгоритмы анализа, которые позволяют распознать и просто сущности, и так называемые "именованные сущности". В числе первых – обыкновенные повседневные предметы, взаимодействующие между собой в тексте или просто упоминающиеся. В числе вторых – объекты с конкретным индивидуальным обозначением вроде имени и фамилии, названия организации и так далее. Однако для русского языка таких алгоритмов существует значительно меньше, чем для английского, поскольку русский гораздо сложнее с точки зрения морфологии и семантики. Также сложность добавляли старые имена, на которых сильно проседала точность работы.
Мы взяли более или менее все крупные существующие решения по извлечению именованных сущностей русского языка и применили для наших исторических текстов. И выяснилось, что на наших текстах, которым было 60 и более лет, результат составил в районе 70-72%. Причем чем старше текст, тем хуже результат.
доцент факультета информационных технологий и программирования Иван Сметанников
Ученый отметил, что команда разработала дополнительный блок обработки текста, который определяет частнотность некоторых слов и решает, нет ли ошибки в работе основного алгоритма. Доработка позволила повысить точность распознавания текста до 78-79%.
Ранее мы рассказыали, что ученые из петербургского ЛЭТИ разработали источник энергии на основе водорослей.
Фото: pixabay
Обсуждение ( 0 ) Посмотреть все