Практическое занятие ведет лектор общества "Знание"
Прислали вордовский файл, распознанный из (pdf, jpg?). Одна страница бланка с жутко сложной таблицей, вот лишь мелкий ея фрагмент:
Он (почти!) не позволяет редактировать себя поверх: нужно подогнать курсор к последний букве строки и бакспейсом стереть все буквы, вбить перевод. А просто пометить сразу всю строку и вписать на ее место перевод - никак!
Послал знакомому компьютерному гуру, говорит, что там какие-то "теги" в начале и в конце каждой строки, якобы он его открыл в Офисе 2003, сохранил в формате .rtf, потом снова сохранил в .doc. После этого он у меня редактируется свободно. Но: гуру есть гуру, я не могу к нему каждый день обращаться за решением вовсе уж мелких проблем.
По словам агентства - Finereader + правка. Сами не знают, как быть...
"Теги, как раз из-за него и возникают. Сам с ними пытаюсь бороться, но пока безрезультатно".
И вот, всё просто оказывается, сам допёр, после того, как он мне про скобки сказал. Берёшь файл, нажимаешь на панели инструментов иконку "непечатаемые знаки". Найти и заменить: ">" на "ничего", даже пробел не ставить! Найти и заменить: "<" на "ничего" ("Заменить все", там по нескольку тысяч будет в каждой замене). Сохранить. Всё. Поделился изобретенной технологией с агентством.
Оно мне: Это хорошо, пока не встретится файл, в котором ">" и "<" будут встречаться в тексте. (Типа, спецификация, "более 0,1 мм", "менее 100°С", и т.д.)
Тогда я машинально (ей богу!) автоматом выдаю технологию:
Если в тексте документа есть ">" или "<", нужно:
а) найти и заменить все ">" на "х#й" (вряд ли вам попадётся документ, где встречается это слово!).
б) найти и заменить все "<" на "п#зда" (то же, см. выше).
с) После чего, нажать на "непечатаемые знаки", и ПРОЯВЯТСЯ ВСЕ ">" и "<", которых в изначальном тексте НЕ БЫЛО.
Далее, действовать по алгоритму: заменить все ">" и "<", на "ничто".
д) Потом найти и заменить все "х#й" на ">", а все "п#зда" на "<", то есть, восстановить статус-кво исходного текста. Ей-богу, это несложно, гораздо проще, чем тыркаться в каждое слово. Сам проверял!
Или вот текст, переформатированный из другой программы:
Проблема с ним: длина строки в блоге - другая, поэтому все разрывы строки знаками абзаца желательно заменить на простые пробелы, а все двойные знаки абзаца (то есть, вёрстку) - оставить. Та же технология:
а) find&replace все ^p^p на х#й.
б) find&replace все ^p на один пробел.
с) find&replace все х#й на ^p^p (или, если потом нужно "одеть" текст в таблицу, на одинарный знак абзаца - ^p).
Нужный результат:
Пояснение: взял итальянский текст из реала, конечно, с ним-то как раз проблем нет - достаточно просто взять любую русскую букву. А с русским текстом ситуация не зеркальная, в нем запросто могут быть слова латинскими буквами - названия, формулы, цитаты, и т.п.
Для дам: вместо одного из матерных слов можно взять просто по три твердых ЪЪЪ знака, а вот если нужно второе (как в первом приведенном примере), без мата обойтись сложно:
три мягких ЬЬЬ знака (или любых других буквы) - не прокатят, поскольку слова, заканчивающиеся на мягкий знак (и на любую другую букву) - ЕСТЬ!
Допустим, абзац заканчивается на "речь", или "стеречь", и т.д. Подставляем вместо двойного абзаца три мягких знака, получаем "речьььь". Когда потом мы сделаем find&replace ььь на ^p^p, он заменит ПЕРВЫЕ ТРИ мягких знака из четырех, а не последние три! У слова "речь" в конце абзаца исчезнет мягкий знак, а следующий абзац будет начинаться с мягкого! Ставить и убирать каждый раз в окне поиска флажок "различать регистр" - тоже а) занудно, б) не выход, в тексте (как в этом моем) могут быть слова и фразы (и целые абзацы - врезы!) набранные верхним регистром.
В общем, трудно, вот так сходу придумать другие буквосочетания, заведомо невозможные в тексте. А эти были самые первые наименее употребительные в документах слова, которые мне в голову пришли. Так что, ход мыслей у меня правильный!
вторник, 19 января 2010 г.
Подписаться на:
Комментарии к сообщению
(
Atom
)
8 комментариев :
генитально. в смысле - гениально
Ой, простите, а уж я-то как для вас стараюсь!
Хорошо, если в документе не будет слова «застрахуйте». Лучше брать три твердых знака :-)
Максим, как говорится, от Подстрахуя слышу!
Что-то засомневался сейчас, а знает ли современный молодой человек анекдот 20-ти летней давности:
"Лезут два альпиниста в гору.Один другому говорит:
- Эй, подстрахуй!
- От подстрахуя слышу..."
Не дай бог, обидишься еще...
Анекдот знаю. Не обижусь :-)
Нет ничего проще. ~~~ &&& ^^^ ||| $$$$ ``` - в зависимости от типа текста. А на самом деле, такие штуки хорошо редактировать в каком-нибудь текстовом редакторе, где есть нормальные регэкспы.
>>в каком-нибудь текстовом редакторе, где есть нормальные регэкспы.
Например в каком? И чем такое редактирование легче способа, описанного Сергеем?
Отправить комментарий