Искусственный интеллект помогает сохранить уникальные исторические материалы

С развитием технологий OCR и расширением доступных данных можно ожидать значительного улучшения качества оцифровки и более широкого применения ИИ в области исторической обработки текстов.

Нурлан Бекмуратов 496 Views
Ислам. Фото - Pexels

Об этом сообщает «КТРК» со ссылкой на HackerNoon 

Искусственный интеллект (ИИ) открывает новые горизонты для сохранения и анализа исторических материалов. Одним из ярких примеров является работа по оцифровке курдских исторических документов с помощью современных технологий распознавания текста. Курдские библиотеки содержат множество старинных изданий, многие из которых находятся в плохом состоянии, что усложняет их обработку. Использование ИИ позволяет улучшить процессы оцифровки, предоставляя уникальную возможность сохранить эти материалы для будущих поколений.

Современные системы оптического распознавания символов (OCR) сталкиваются с рядом проблем при обработке исторических документов. Курдские тексты, часто написанные нестандартными шрифтами и имеющие повреждения, требуют особого подхода. Это связано с различиями в типографике, а также с плохим качеством изображений. Для того чтобы решить эти проблемы, исследователи начали использовать открытые OCR-системы, такие как Tesseract, которые способны извлекать текст из сложных изображений. Однако даже с этим инструментом процесс оцифровки исторических материалов требует значительных усилий.

Проблемы старинных текстов и их обработка

Одной из главных трудностей при работе с историческими курдскими текстами является отсутствие единого стандарта шрифта. Большинство старинных изданий были напечатаны на устаревших типографских устройствах, что привело к разнообразию стилей и форм. Для распознавания таких текстов нужны специализированные системы, способные работать с нестандартными шрифтами и поврежденными страницами. Тексты, напечатанные до 1950 года, также страдают от физического износа, что делает их трудными для оцифровки с помощью традиционных методов.

Процесс создания OCR-системы, способной эффективно работать с курдскими историческими документами, требует значительных усилий по сбору и обработке данных. Для этого были собраны изображения исторических публикаций, что позволило создать уникальный датасет, необходимый для тренировки моделей. Применение системы Tesseract 5.0 в комбинации с моделями, настроенными для арабского языка, показало хорошие результаты, позволяя извлекать текст с довольно высокой точностью.

Результаты и перспективы использования ИИ

Результаты, полученные в ходе использования OCR-системы для распознавания старинных курдских текстов, показали, что современные технологии могут значительно улучшить процесс сохранения исторического наследия. Система смогла достичь точности в 84%, что является значительным достижением для обработки материалов с такими проблемами, как повреждения и нестандартные шрифты. Создание открытых доступных датасетов для исторических курдских документов поможет в дальнейшем улучшить эти модели и повысить их эффективность.

Применение ИИ для распознавания исторических текстов открывает новые возможности для исследований и сохранения культурного наследия. Это позволит не только сохранять уникальные документы, но и сделать их доступными для научных и образовательных целей. 

Напомним, ранее мы писали о том, почему генеративный ИИ нельзя приравнивать к калькулятору.

Поделиться