Оглавление блога

понедельник, 2 мая 2011 г.

Извлекаем ноутпадом недоступную информацию из файлов htm, html

Обещал поделиться премудростями извлечения скрытого или недоступного текста из файлов htm, html, doc.

Вот многоязычный сайт итальянской ассоциации производителей промышленного оборудования для литья и штамповки изделий из пластмасс:





В выпадающих окнах длиннющие перечни (336 названий!) видов оборудования на нескольких языках.

Задача: для подготовки к устной презентации нужно вытянуть из него русский и английский перечни и сделать из них алфавитные русско-английский и англо-русский словарики.

Просто пометить весь выпадающий в окне перечень сайт не позволяет, кто не верит - сходите на него, проверьте.

1. Сохраняем русскую и английскую страницы сайта:


2. Переименовываем расширение сохраненных офф-лайн файлов с htm на txt. Как я уже писал в одном из недавних постов, всплывающие предостережения:




категорически игнорируем!

3. Готово:


4. Открываем полученные файлы txt в ноутпаде. Вот что мы видим:


5. Помечаем все и переносим в новый чистый файл Ворд (в ноутпаде есть только "найти", а "найти и заменить" - нету). Находим начало перечня и его конец, все что до и после перечня - удаляем. Или прямо в ноутпаде можно мусор удалить.

6. Подмечаем своим острым орлиным взглядом, что:


МАШИНЫ ДЛЯ ПЛАСТМАСС</option><option value="2">01.01: mашины и оборудование для первичной обработки и утилизации</option><option value="3">01.01.01: Дробилки</option><option value="4">01.01.01.01: Ножевые грануляторы</option><option value="5">01.01.01.02: Измельчители</option><option value="6">01.01.01.03: Мельницы тонкого размола</option><option value="7">01.01.02: Смесители</option><option value="8">01.01.02.01: Смесители непрерывного действия</option><option value="9">01.01.02.01.01: Смесители непрерывного действия для сыпучих материалов</option><option value="10">01.01.02.01.02: Смесители непрерывного действия для материалов высокой вязкости</option><option value="11">01.01.02.01.03: Смесители непрерывного действия для материалов низкой вязкости</option><option value="12">01.01.02.02: Смесители периодического действия</option><option value="13">01.01.02.02.01: Смесители периодического действия для сыпучих материалов</option><option value="14">01.01.02.02.02: Смесители периодического действия для материалов высокой вязкости</option><option value="15">01.01.02.02.03: Смесители периодического действия для материалов низкой вязкости</option><option value="16">01.01.03: Двухвалковые смесители</option><option value="17">01.01.04: Оборудование для разделения и сортировки</option><option value="18">01.01.04.01: Магнитные сепараторы</option><option value="19">01.01.04.02: Металлообнаружители</option><option value="20">01.01.04.03: Электрические металлоотделители</option><option value="21">01.01.04.04: Машины для сортировки по цвету</option><option value="22">01.01.07: Установка для утилизации</option><option value="23">01.01.08: Бункеры, конвейеры и оснастка</option><option value="24">01.01.08.01: Бункеры</option><option value="25">01.01.08.02: Конвейеры</option><option value="26">01.01.08.02.01: Пневматические конвейеры</option><option value="27">01.01.08.02.02: Шнековые конвейеры</option><option value="28">01.01.08.02.03: Винтовые конвейеры</option><option value="29">01.01.08.02.04: Ленточные конвейеры</option><option value="30">01.01.08.02.05: Другие типы конвейеров</option><option value="31">01.01.08.03: Дозировально-измерительное оборудование</option><option value="32">01.01.08.03.01: Объемное дозировально-измерительное оборудование</option><option value="33">01.01.08.03.02: Гравиметрическое дозировально-измерительное оборудование</option><option value="34">01.01.08.04: Сушилки для сыпучих материалов</option><option value="35">01.02: Оборудование и установки по переработке</option><option value="36">01.02.01: Каландры</option><option value="37">01.02.02:

Ну и ты ды, перед каждым кодом вида (типа) оборудования вот эта стандартная фраза: </option><option value="35">, где есть номер из 1, 2 или 3-х цифр.

А в поиске Ворда среди ассортимента "специальных" значков (жмём "больше"=>"специальные") есть такой "любая цифра" (^#). Так вот, три прогона "найти и заменить" - </option><option value="^#^#^#"> (можно с клавы ввести, если помните значок, не обязательно через меню поиска Ворда). Второй прогон - две цифры, двузначное число: </option><option value="^#^#">, третий прогон - одна цифра, однозначное число: </option><option value="^#">. И всё меняем на значёк "знак абзаца", можно с клавы ввести: ^p.

7. Смотрите, минуточку, сюда, какая прелесть!:



8. Осталось одеть его в таблицу (см. мой пост "Как одеть перечень в таблицу"):



9. Аналогично делаем другой язык, несём то и другое в двухколоночную таблицу:

01: МАШИНЫ ДЛЯ ПЛАСТМАСС

01: PLASTICS MACHINERY

01.01: mашины и оборудование для первичной обработки и утилизации

01.01: machines and equipment for preprocessing, recycling

01.01.01: Дробилки

01.01.01: crushers

01.01.01.01: Ножевые грануляторы

01.01.01.01: blade granulators

01.01.01.02: Измельчители

01.01.01.02: shredders

01.01.01.03: Мельницы тонкого размола

01.01.01.03: pulverizers

01.01.02: Смесители

01.01.02: mixers

01.01.02.01: Смесители непрерывного действия

01.01.02.01: continuous mixers

01.01.02.01.01: Смесители непрерывного действия для сыпучих материалов

01.01.02.01.01: continuous mixers for bulk materials

01.01.02.01.02: Смесители непрерывного действия для материалов высокой вязкости

01.01.02.01.02: continuous mixers for high viscous materials

01.01.02.01.03: Смесители непрерывного действия для материалов низкой вязкости

01.01.02.01.03: continuous mixers for low viscous materials

01.01.02.02: Смесители периодического действия

01.01.02.02: discontinuous mixers

01.01.02.02.01: Смесители периодического действия для сыпучих материалов

01.01.02.02.01: discontinuous mixers for bulk materials

01.01.02.02.02: Смесители периодического действия для материалов высокой вязкости

01.01.02.02.02: discontinuous mixers for high viscous materials

01.01.02.02.03: Смесители периодического действия для материалов низкой вязкости

01.01.02.02.03: discontinuous mixers for low viscous materials

01.01.03: Двухвалковые смесители

01.01.03: two roll mills

01.01.04: Оборудование для разделения и сортировки

01.01.04: separating and sorting equipment

01.01.04.01: Магнитные сепараторы

01.01.04.01: magnetic separators

01.01.04.02: Металлообнаружители

01.01.04.02: metal detectors

01.01.04.03: Электрические металлоотделители

01.01.04.03: electrical metal separators

01.01.04.04: Машины для сортировки по цвету

01.01.04.04: colour sorting machines

01.01.07: Установка для утилизации

01.01.07: plant for recycling

01.01.08: Бункеры, конвейеры и оснастка

01.01.08: silos, conveyors and accessories

01.01.08.01: Бункеры

01.01.08.01: silos

01.01.08.02: Конвейеры

01.01.08.02: conveyors

01.01.08.02.01: Пневматические конвейеры

01.01.08.02.01: pneumatic conveyors

01.01.08.02.02: Шнековые конвейеры

01.01.08.02.02: screw conveyors

01.01.08.02.03: Винтовые конвейеры

01.01.08.02.03: spiral conveyors

01.01.08.02.04: Ленточные конвейеры

01.01.08.02.04: band conveyors

01.01.08.02.05: Другие типы конвейеров

01.01.08.02.05: other conveyors

01.01.08.03: Дозировально-измерительное оборудование

01.01.08.03: dosing and metering equipment



10. Осталось избавиться от цифр в начале каждой строки. Подмечаем острым взглядом, что все они заканчиваются на сочетание знаков: "любая цифра" + "двоеточие" + "пробел". Итого: файндэндриплейсим на "знак абзаца", то есть найти "^#: " заменить на "^p".


11. Получается, что цифры уходят на верхнюю строку в каждой ячейке:



12. Теперь, сначала один, затем другой столбец помечаем, и разбиваем на 2 столбца (НЕ ЗАБУДЬТЕ УБРАТЬ КРЫЖ "Объединить перед разбиением"!!!)


13. Итого, таблица "четыре столбца":


14. Удаляем "цифровые" столбцы":



15. Сущая фигня осталась: упорядочить по алфавиту либо первый, либо второй столбец: пометить столбец, таблица => сортировка:

Двухвалковые смесители

two roll mills

Дробилки

crushers

Измельчители

shredders

Магнитные сепараторы

magnetic separators

МАШИНЫ ДЛЯ ПЛАСТМАСС

PLASTICS MACHINERY

Машины для сортировки по цвету

colour sorting machines

Машины и оборудование для первичной обработки и утилизации

machines and equipment for preprocessing, recycling

Мельницы тонкого размола

pulverizers

Металлообнаружители

metal detectors

Ножевые грануляторы

blade granulators

Оборудование для разделения и сортировки

separating and sorting equipment

Смесители

mixers

Смесители непрерывного действия

continuous mixers

Смесители непрерывного действия для материалов высокой вязкости

continuous mixers for high viscous materials

Смесители непрерывного действия для материалов низкой вязкости

continuous mixers for low viscous materials

Смесители непрерывного действия для сыпучих материалов

continuous mixers for bulk materials

Смесители периодического действия

discontinuous mixers

Смесители периодического действия для материалов высокой вязкости

discontinuous mixers for high viscous materials

Смесители периодического действия для материалов низкой вязкости

discontinuous mixers for low viscous materials

Смесители периодического действия для сыпучих материалов

discontinuous mixers for bulk materials

Установка для утилизации

plant for recycling

Электрические металлоотделители

electrical metal separators


На эту же тему другие мои посты:

Полезнейшая хитрость - дарю!

Как "одеть" перечень в таблицу

Учимся С ПОЛЬЗОЙ применять матерные слова

Комментариев нет :