Name="HTML-Markups in Text umsetzen"
Stich="HTML Markup HTML_Markups Konvertierung_von_HTML_in_Text HTML-Eingine
Lynx"
Zeit="Sam Jun 16 13:09:43 MEST 2001"
Kurz="Sie haben eine Website und wollen Sie in Text umsetzen - aber an
Formatierung soll so viel wie möglich borhanden bleiben."
Lang="
Hier funktioniert ein kleines Perl-Skript, aufgerufen mit$esCodes perl -w
htmlweg.pl$esCodee oder, nach vorherigem$esCodes chmod +x
htmlweg.pl$esCodee,$esCodes ./htmlweg.pl$esCodee. Das Skript liest das
HTML-Dokument von der Standardeingabe, und gibt das Textdokument an der
Standardausgabe aus.
Download.
`exCodes htmlweg.pl`
#!/usr/bin/perl -w
# htmlweg.pl - Entfernt HTML-Code aus Textdateien, beachtet aber bestimmte
# - Formatierungen
# Copyright (C) 2001 by Ingo Blechschmidt
# Sam Jun 16 13:09:43 MEST 2001
`cat gpl.lic`
`cat add.lic`
@html = <STDIN>;
open (OUT, "|grep -v table | grep -vw tr | grep -wv td | grep -vw th") ||
die "./htmlweg.pl: Kann keine Verbindung mit grep herstellen!";
foreach \$h (@html) {
\$h =~ s/<img src=.*. \/>/---------------- Bild --------------/g;
# \$h =~ s/<br \/>/\\n/g;
\$h =~ s/<br \/>//g;
\$h =~ s/ä/ä/g;
\$h =~ s/ö/ö/g;
\$h =~ s/ü/ü/g;
\$h =~ s/Ä/Ä/g;
\$h =~ s/Ü/Ü/g;
\$h =~ s/Ö/Ö/g;
\$h =~ s/ß/ß/g;
\$h =~ s/<a href=/siehe </g;
\$h =~ s/>*<\/a>//g;
\$h =~ s/<em>//g;
\$h =~ s/<\/em>//g;
\$h =~ s/<ol>|<\/ol>|<ul>|<\/ul>|<\/li>//g;
\$h =~ s/<ol>|<\/ol>|<ul>|<\/ul>|<\/li>//g;
\$h =~ s/<li>/* /g;
\$h =~ s/<span bgcolor=.#FFFFAA.><code>//g;
\$h =~ s/<.code><.span>//g;
\$h =~ s/<pre>//g;
\$h =~ s/<\/pre>//g;
\$h =~ s/"/"/g;
\$h =~ s/<strong>//g;
\$h =~ s/<\/strong>//g;
\$h =~ s/<i>//g;
\$h =~ s/<\/i>//g;
\$h =~ s/<u>//g;
\$h =~ s/<\/u>//g;
\$h =~ s/>/>/g;
\$h =~ s/</</g;
# \$h =~ s/<.+?>/ /s;
\$h =~ s/ / /g;
\$h =~ s/&/&/g;
\$h =~ s/<.+?>/ /s;
print OUT \$h;
}
close(OUT);
`exCodee`
Wenn Sie mithelfen wollen, dieses Skript zu verbessern, sollten Sie die kursive
Zeile auskommentieren. Sie entfernt nämlich alle
übriggebliebenen HTML-Markups.
Hinweis: Mit dem Befehl ${esCodes}lynx -dump HTML-Datei${esCodee} erreichen Sie
den gleichen Effekt. Sie werden sich dann sicher fragen, warum man das Skript
dann überhaupt programmieren sollte. Antwort: Viele Distributionen liefern
Lynx nicht mehr mit :-(
"
case $1 in
Name) echo $Name; exit;;
Stich) echo $Stich; exit;;
Zeit) echo $Zeit; exit;;
Kurz) echo $Kurz; exit;;
Lang) echo $Lang; exit;;
esac
# if [ "$1" = "Name" ]; then echo $Name; fi
mself_vA=" txt/0007.txt txt/0029.txt txt/0030.txt txt/0039.txt txt/0044.txt
txt/0051.txt txt/0053.txt txt/0054.txt txt/0059.txt txt/0066.txt txt/0067.txt
txt/0077.txt txt/0084.txt txt/0085.txt txt/0092.txt"