To the news

"Яндекс" научил свои нейросети расшифровывать архивы с дореволюционной орфографией

"Яндекс" обучил собственные нейросети расшифровывать архивные записи с дореволюционной орфографией, технология уже доступна в сервисе "Поиск по архивам". 

"Яндекс" научил нейросети расшифровывать архивные записи со сложной дореволюционной орфографией", - рассказали в пресс-службе компании.

Как уточнили в компании, попробовать новую технологию в действии можно уже сейчас в сервисе "Поиск по архивам", где есть доступ к более чем 2,5 миллиона страниц исторических документов с текстовой расшифровкой. "Новый алгоритм, построенный на основе системы оптического распознавания символов, учитывает особенности почерка, узнает утратившие актуальность буквы и понимает особую структуру архивных документов", - добавили в "Яндексе".

Как отметили в пресс-службе, специалисты компании обучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII - XIX веков и десятков миллионов сгенерированных примеров. Сами материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания. "Поиск по архивам" повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье. Первым представленным в сервисе фондом стал Главархив Москвы, именно на его материалах разработчики обучали нейросеть. <...> Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться", - сообщили в "Яндексе".


"Яндекс" научил свои нейросети расшифровывать архивы с дореволюционной орфографией