Name="HTML-Markups in Text umsetzen" Stich="HTML Markup HTML_Markups Konvertierung_von_HTML_in_Text HTML-Eingine Lynx" Zeit="Sam Jun 16 13:09:43 MEST 2001" Kurz="Sie haben eine Website und wollen Sie in Text umsetzen - aber an Formatierung soll so viel wie möglich borhanden bleiben." Lang=" Hier funktioniert ein kleines Perl-Skript, aufgerufen mit$esCodes perl -w htmlweg.pl$esCodee oder, nach vorherigem$esCodes chmod +x htmlweg.pl$esCodee,$esCodes ./htmlweg.pl$esCodee. Das Skript liest das HTML-Dokument von der Standardeingabe, und gibt das Textdokument an der Standardausgabe aus.
Download. `exCodes htmlweg.pl` #!/usr/bin/perl -w # htmlweg.pl - Entfernt HTML-Code aus Textdateien, beachtet aber bestimmte # - Formatierungen # Copyright (C) 2001 by Ingo Blechschmidt # Sam Jun 16 13:09:43 MEST 2001 `cat gpl.lic` `cat add.lic` @html = <STDIN>; open (OUT, "|grep -v table | grep -vw tr | grep -wv td | grep -vw th") || die "./htmlweg.pl: Kann keine Verbindung mit grep herstellen!"; foreach \$h (@html) { \$h =~ s/<img src=.*. \/>/---------------- Bild --------------/g; # \$h =~ s/<br \/>/\\n/g; \$h =~ s/<br \/>//g; \$h =~ s/&auml;/ä/g; \$h =~ s/&ouml;/ö/g; \$h =~ s/&uuml;/ü/g; \$h =~ s/&Auml;/Ä/g; \$h =~ s/&Uuml;/Ü/g; \$h =~ s/&Ouml;/Ö/g; \$h =~ s/&szlig;/ß/g; \$h =~ s/<a href=/siehe </g; \$h =~ s/>*<\/a>//g; \$h =~ s/<em>//g; \$h =~ s/<\/em>//g; \$h =~ s/<ol>|<\/ol>|<ul>|<\/ul>|<\/li>//g; \$h =~ s/<ol>|<\/ol>|<ul>|<\/ul>|<\/li>//g; \$h =~ s/<li>/* /g; \$h =~ s/<span bgcolor=.#FFFFAA.><code>//g; \$h =~ s/<.code><.span>//g; \$h =~ s/<pre>//g; \$h =~ s/<\/pre>//g; \$h =~ s/&quot;/"/g; \$h =~ s/<strong>//g; \$h =~ s/<\/strong>//g; \$h =~ s/<i>//g; \$h =~ s/<\/i>//g; \$h =~ s/<u>//g; \$h =~ s/<\/u>//g; \$h =~ s/&gt;/>/g; \$h =~ s/&lt;/</g; # \$h =~ s/<.+?>/ /s; \$h =~ s/&nbsp;/ /g; \$h =~ s/&amp;/&/g; \$h =~ s/<.+?>/ /s; print OUT \$h; } close(OUT); `exCodee` Wenn Sie mithelfen wollen, dieses Skript zu verbessern, sollten Sie die kursive Zeile auskommentieren. Sie entfernt nämlich alle übriggebliebenen HTML-Markups.


Hinweis: Mit dem Befehl ${esCodes}lynx -dump HTML-Datei${esCodee} erreichen Sie den gleichen Effekt. Sie werden sich dann sicher fragen, warum man das Skript dann überhaupt programmieren sollte. Antwort: Viele Distributionen liefern Lynx nicht mehr mit :-( " case $1 in Name) echo $Name; exit;; Stich) echo $Stich; exit;; Zeit) echo $Zeit; exit;; Kurz) echo $Kurz; exit;; Lang) echo $Lang; exit;; esac # if [ "$1" = "Name" ]; then echo $Name; fi mself_vA=" txt/0007.txt txt/0029.txt txt/0030.txt txt/0039.txt txt/0044.txt txt/0051.txt txt/0053.txt txt/0054.txt txt/0059.txt txt/0066.txt txt/0067.txt txt/0077.txt txt/0084.txt txt/0085.txt txt/0092.txt"