Компания объявила о своем намерении оцифровывать текстовые статьи, размещенные в печати. Эти технологии – новые, и с их помощью можно будет устроить единую компоновку разнородных в графическом смысле кусков статьи (сам текст, сопровождающие его фото, рубрики, хедлайны и заголовки). Таким образом появиться возможность для составления электронного архива – для газетчиков это немаловажно. Печатная журнальная статья являет собой материал весьма разнородного характера, в первую очередь, в силу своего графического исполнения. Она обязательно содержит заголовок с подзаголовком, в нее включены несколько текстовых колонок и ряд иллюстрации – внутри всех этих составляющих неизменно соблюден принцип жесткой логики. И из такого состояния статью надо перевести в цифровой формат…
Готовый скан «распознается» в специально предназначенных программах, со строгим соблюдением смысловой нагрузки. Это – наиболее сложный этап в работе, поскольку он подразумевает четкое невмешательство в текстовые блоки. Сами посудите, как нелепо будет выглядеть заголовок, который, например, неожиданно обнаружится в центре заверстанной на сайте статьи…
В Google есть своя технология, согласно которой распознавание ведется в два этапа. Первый – процесс сегментирования блоков, при котором происходит разбивка статьи заголовок, подзаголовки, иллюстрации и собственно сам текст. После этого следует второй этап – сегментирование статей. Тут уже работает другая специальная программа, которая обучена распознавать степень интертекстуального соотношения всех этих элементов и расставлять их необходимой последовательности.
Технология была запатентована компанией в 2008 году, и в Google ее назвали «Сегментированием страниц печатных СМИ в статьи» (по информации TG Daily). По всем признакам, ноу-хау найдет свое применение и в процессе формирования электронных библиотечных архивов Google Books; дело за малым – грамотно подготовить юридическую базу.