Разработка скрипта для "чистки" HTML из Word

Web/сайты Прочее

Был(а) онлайн: 26.04.20 14:45
Umen 26 лет

1.0 Был(а) онлайн: 26.04.20 14:45

Недавно
Требуется разработать скрипт для «чистки» и реформирования сохраненного в Word 2000-2003 в виде HTML документа. Выходом скрипта также будет модифицированный HTML-документ. Ниже будет определен порядок и правила реформирования:
1. Из документа, поданного на вход скрипта, удаляются все теги meta со специфичной для Word информацией. Скажем, <meta name=Generator content="Microsoft Word 10 (filtered)">
2. Из документа удаляются все теги <style> со своим содержимым (внутренних CSS быть не должно)
3. Далее реформирование происходит на основе файла настроек, тот, что имеет следующую сурово определенную конструкцию:
1 строка linkcss=0 либо «путь»
2 строка dropped=0 либо 1
3 строка keywords= «текст»
4 строка description= «текст»
5 и дальнейшие строки: тэг=образец замены

Если linkcss=«путь», то в итоге реформирования в выходного документа в тэге <head> будет присутствовать соответствующий тэг с указанным путем к внешнему CSS. В отвратном случае CSS применяться не будут.
Если dropped=0, то выходной документ сохраняется в виде одного файла с тем же наименованием, что и входной документ, но (в любом случае) с растяжением html. В отвратном случае входной документ разбивается на два документа, которые сохраняются (в папке скрипта – в предыдущем случае подобно): whead.php и wbody.php

В файл whead.php переносится информация из входного документа и файла настроек в дальнейшем виде:
<?php
$keywords='сюда вставляем значение keywords';
$description='сюда вставляем значение description';
$title='сюда вставляем тайтл входного документа';
$robots='index, follow';
?>
В файл wbody.php переносится все, что есть во входном документе внутри тэга <body> (без него самого).

Параметры «чистки» входного документа задаются 5-й и последующими строками файла настроек. Они имеют вид:

тэг=образец замены

Примеры:
<p>=<p align=justify> - все открывающие тэги <p …> вне зависимости от указания встроенных жанров и т.п. заменяются на правую часть шаблона
<table>=<table border=1> - все открывающие тэги <table …> …
<div>= - возможно применение пустых правых частей образцов. Это обозначает, что стоящий слева тэг с всякими жанрами и признаками легко будет удален (включая и закрывающий тэг, безусловно)


Скрипт долен быть реализован в виде php/html страницы. На странице имеется файл чузер. Позже выбора файла и отправки его н сервер на сервере выполняется реформирование и сохранение файла, по окончании выводится что-то как бы «ОК!»

Платформа: PHP5

За реализацию файла настроек в виде XML будет выплачено добавочно вознаграждение.

Для проверки работоспособности выложите скрипт на ваш хостинг и дайте ссылку – проверю работоспособность на тестовых документах.

P.S. Цель работы скрипта: выкинуть из сохраненного Word HTML-документа каждую гадина как бы внедренных жанров, xml-схем и т.п. На выходе должен получиться аскетичный HTML. Степень аскетичности задается образцами замены в файле надстроек. Стороннее ПО типа макросов «Перестройка», WYSIWYG-редакторов не предлагайте – нужно именно то, что описано выше.

Чтобы добавить заявку к этому заказу, нужно войти или зарегистрироваться

Мой блок

26.04.20 14:45
Umen 26