Оглавление блога

воскресенье, 8 мая 2011 г.

Подскажите, кто знает

Некоторые файлы pdf, НЕ защищенные паролем:



тем не менее, не позволяют снять с себя текст:





Вопрос: что с ними?

Главное, ведь не кодировка же! Разные буквы заменены на одинаковые символы и наоборот, одинаковые буквы - на разные... Бардак полный, что для цифрового мира - редкость.

4 комментария :

ivpetacc комментирует...

А если попробовать сохранить PDF как файл в текстовом формате (txt, doc или rtf) и скопировать оттуда?

Unknown комментирует...

Стопроцентно это кодировка. Просто в какой-то момент при преобразовании файла "рассыпалась". Внутренний просмотровщик pdf ее видит, а при копировании символов "огрызки" только остаются. Файнридером его, файнридером. Не поможет - сохранить как JPG и снова - файнридером.

Sergio комментирует...

У меня позволяет сохранить только в txt. При этом всегда теряются или искажаются все буквы с диакритическими знаками. Например, вместо ò - щ, вместо é - п, и т.д. А в некоторых случаях, еще и некоторые (не все, но многие!) пробелы между словами. А через копи-пейст - все сохраняется без искажений. Только несколько, буквально, файлов таких. Среди них - Мастер и Маргарита на итальянском и, недавно скачал, двуязычная англ.-нем. поваренная книга блюд дюжины народов, участвовавших в каком-то сражении во время первой мировой войны. Для длинных текстов, и ридер - это не "файн", а небольшой мне быстрее самому с клавы напечатать. Просто на будущее хотел. Наверняка ведь еще такие попадутся... "в какой-то момент при преобразовании файла" - так почему же при преобразовании других таких же pdf ничего не рассыпается, только буквально нескольких, вот как эти?

ivpetacc комментирует...

Согасен с Oleg'ом. Сохранить как JPG, а затем распознать его посредством Finereader.