Word nach HTML
Geboren aus der Notwendigkeit, ein 100 Seiten langes Word-Dokument in HTML umzuwandeln, entstand mit ein wenig Hilfe aus der Word-VBA-Newsgroup dieses Makro.
Download: wordtohtml.txt
Text in ein neues Modul in der normal.dot kopieren.
Gebrauchshinweise
Das Word-Dokument muß unbedingt sauber strukturiert sein: also Überschriften mit den entsprechenden Formatvorlagen auszeichnen; Listen auch als "Listen" formatieren.
Überflüssige Leerzeichen, leere Absätze, manuelle Seitenumbrüche entfernen.
Schwierigkeiten gibt es mit verbundenen Zellen in Tabellen; hier ist dann Nacharbeit erforderlich - oder Tabellen vorher bereinigen.
Um die Bilder zu extrahieren, das Word-Dokument einmal "als HTML" abspeichern. Das Ergebnis braucht man dann nicht weiter, aber Word legt einen Ordner an, in dem es alle Bilder aus dem Dokument ablegt.
Das Makro DocToHtml fügt folgende HTML-Tags bzw. Entities ein:
- Die Sonderzeichen <, >, & und &euro werden maskiert
- Überschriften der Ebenen 1-6 (mehr gibts in HTML nicht)
- Listen und Listenelemente
- Tabellen, Tabellenzeilen, Tabellenzellen
- Fett geschriebener Text (Wörter im Fließtext) wird mit STRONG ausgezeichnet
- Kursiv geschriebener Text (Wörter im Fließtext) wird mit EM ausgezeichnet
- Manuelle Zeilenumbrüche zu <br>
- Anführungszeichen zu „ bzw. ”
- img-Tag hinter Bildern; die Bilder werden fortlaufend numeriert; Alt-Text aus den Grafik-Eigenschaften in Word
<html>, <head>, <body>
Fußnoten werden im Text durch Links zu den Fußnotentexten ersetzt, Fußnotentexte am Ende des Dokumentes eingefügt, mit Rückwärts-Verweis auf die Fußnoten.
Die img-Tags muß man dann selber nachbearbeiten: richtige Bildnamen sowie Breite und Höhe einfügen. Aus Word ist die Größe erstens nur in pt herauszubekommen und zweitens sind die Bilder einmal in der angezeigten Größe und einmal in der Originalgröße hinterlegt. Da wundert man sich dann vielleicht nicht mehr über die Größe mancher Word-Dokumente.
Das Makro DocToHtml_toc ist erweitert um ein Inhaltsverzeichnis:
Die Überschriften werden mit Ankern versehen, am Dokument-Anfang wird aus den Überschriften ein Inhaltsverzeichnis mit Links erstellt.
Makro durchlaufen lassen und das Ergebnis dann in den HTML-Editor seiner Wahl kopieren.