Tux L i n u x * G u i d e

v o n * I n g o * B l e c h s c h m i d t * ( c ) * 2 0 0 1
Tux
|Home|

|Neue Artikel|

|Index|

|Liste|

|Code-Snippets|

|Links|

|Allgemeines|

|Cool Stuff|
HTML-Markups in Text umsetzen
Sam Jun 16 13:09:43 MEST 2001
HTML Markup HTML_Markups Konvertierung_von_HTML_in_Text HTML-Eingine Lynx

Sie haben eine Website und wollen Sie in Text umsetzen - aber an Formatierung soll so viel wie möglich borhanden bleiben.

LinuxGuide Druckbare Version
Man-Page
Sourcecode
Verwandte Artikel:

Bilder-Archiv
VIM als HTML-Editor
Zeitdiagramm erstellen
CSV2HTML
Der HTML-Automat
Perl-Präprozessor
Farbverlauf mit Perl
Text2HTML
Webschnapper in Shell-Skript
DynDNS.org Client
Seiten zählen und drucken
Anonym E-Mails versenden
lynx+post_data=Spam
Webschnapper (2) in Shell-Skript
Adressensuche



      .~.   
      /V\   
     // \\  
    /(   )\ 
     ^`~'^  
     


Hosted at Sorceforge.net
No ePATENTS
Viewable With Any Browser
Burn All GIFs!

H
ier funktioniert ein kleines Perl-Skript, aufgerufen mit perl -w htmlweg.pl oder, nach vorherigem chmod +x htmlweg.pl, ./htmlweg.pl. Das Skript liest das HTML-Dokument von der Standardeingabe, und gibt das Textdokument an der Standardausgabe aus.
Download.
# htmlweg.pl
 
#!/usr/bin/perl -w
# htmlweg.pl - Entfernt HTML-Code aus Textdateien, beachtet aber bestimmte
#            - Formatierungen
# Copyright (C) 2001 by Ingo Blechschmidt
# Sam Jun 16 13:09:43 MEST 2001
#
#  This program is free software; you can redistribute it and/or modify
#  it under the terms of the GNU General Public License as published by
#  the Free Software Foundation; either version 2 of the License, or
#  (at your option) any later version.
#
#  This program is distributed in the hope that it will be useful,
#  but WITHOUT ANY WARRANTY; without even the implied warranty of
#  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
#  GNU General Public License for more details.
#
#  You should have received a copy of the GNU General Public License
#  along with this program; if not, write to the Free Software
#  Foundation, Inc., 675 Mass Ave, Cambridge, MA 02139, USA.
#
# Ingo Blechschmidt
# Arberstraße 5
# 86179 Augsburg
# E-Mail: iblech@web.de, http://www.way.to/uselinux/
# Tel.: +49 / 821 882955
#
# 

@html = <STDIN>;

open (OUT, "|grep -v table | grep -vw tr | grep -wv td | grep -vw th") ||
  die "./htmlweg.pl: Kann keine Verbindung mit grep herstellen!";

foreach $h (@html) {
  $h =~ s/<img src=.*. \/>/---------------- Bild --------------/g;
  # $h =~ s/<br \/>/\n/g;
  $h =~ s/<br \/>//g;
  $h =~ s/&auml;/ä/g;
  $h =~ s/&ouml;/ö/g;
  $h =~ s/&uuml;/ü/g;
  $h =~ s/&Auml;/Ä/g;
  $h =~ s/&Uuml;/Ü/g;
  $h =~ s/&Ouml;/Ö/g;
  $h =~ s/&szlig;/ß/g;
  $h =~ s/<a href=/siehe </g;
  $h =~ s/>*<\/a>//g;
  $h =~ s/<em>//g;
  $h =~ s/<\/em>//g;
  $h =~ s/<ol>|<\/ol>|<ul>|<\/ul>|<\/li>//g;
  $h =~ s/<ol>|<\/ol>|<ul>|<\/ul>|<\/li>//g;
  $h =~ s/<li>/* /g;
  $h =~ s/<span bgcolor=.#FFFFAA.><code>//g;
  $h =~ s/<.code><.span>//g;
  $h =~ s/<pre>//g;
  $h =~ s/<\/pre>//g;
  $h =~ s/&quot;/"/g;
  $h =~ s/<strong>//g;
  $h =~ s/<\/strong>//g;
  $h =~ s/<i>//g;
  $h =~ s/<\/i>//g;
  $h =~ s/<u>//g;
  $h =~ s/<\/u>//g;
  $h =~ s/&gt;/>/g;
  $h =~ s/&lt;/</g;
#  $h =~ s/<.+?>/ /s;
  $h =~ s/&nbsp;/ /g;
  $h =~ s/&amp;/&/g;
  $h =~ s/<.+?>/ /s;
  print OUT $h;
}

close(OUT);
 
 

Wenn Sie mithelfen wollen, dieses Skript zu verbessern, sollten Sie die kursive Zeile auskommentieren. Sie entfernt nämlich alle übriggebliebenen HTML-Markups.


Hinweis: Mit dem Befehl lynx -dump HTML-Datei erreichen Sie den gleichen Effekt. Sie werden sich dann sicher fragen, warum man das Skript dann überhaupt programmieren sollte. Antwort: Viele Distributionen liefern Lynx nicht mehr mit :-(

Document Informations: Content-Type: text/html; charset=iso-8859-1
Author: Ingo Blechschmidt
Description: LinuxGuide - Sie haben eine Website und wollen Sie in Text umsetzen - aber an Formatierung soll so viel wie möglich borhanden bleiben.
Keywords: HTML, Markup, HTML_Markups, Konvertierung_von_HTML_in_Text, HTML-Eingine, Lynx, LinuxGuide
Robots: all
Copyright: Copyright (C) 2002 by Ingo Blechschmidt
Date: 2003-06-16T13:09:43+02:00

Stichwortverzeichnis | Neue Artikel | Übersicht | Codesnippets | Links | Copyright | Cool Stuff | Home | Druckbare Version | Manpage | Sourcecode |
Diesen Artikel kritisieren, kommentieren oder ergänzen
Einen Neuen Artikel schreiben

 
This website is distributed under the GNU Free Documentation License .