Tux L i n u x * G u i d e

v o n * I n g o * B l e c h s c h m i d t * ( c ) * 2 0 0 1
Tux
|Home|

|Neue Artikel|

|Index|

|Liste|

|Code-Snippets|

|Links|

|Allgemeines|

|Cool Stuff|
Webschnapper (2) in Shell-Skript
Son May 5 11:02:26 MEST 2002
Webschnapper w3m lynx grep web.de Internet Shell-Skript Skript cron crontab

Dieses Skript liefert ihnen jeden Morgen die aktuellen Nachrichten von WEB.DE brav in Ihre Mailbox.

LinuxGuide Druckbare Version
Man-Page
Sourcecode
Verwandte Artikel:

HTML-Markups in Text umsetzen
Variierender Hintergrund
Wörterbuch
Artikelsuche
Operationen mit Dateien in Perl
Automatische Errinerungen
E-Mail-Liste
Ihr Computer als öffentliches Terminal
Internet on a floppy
Text2HTML
Shell-Skript-Debugging
Ins Internet komfortabel einwählen
Webschnapper in Shell-Skript
Optical Character Recognition (OCR) mit gocr
DynDNS.org Client
Seiten zählen und drucken
Anonym E-Mails versenden
E-Mails sichern
lynx+post_data=Spam
Countdown in Shell-Skript
Adressensuche
Hitchhiker's Guide to the Internet



      .~.   
      /V\   
     // \\  
    /(   )\ 
     ^`~'^  
     


Hosted at Sorceforge.net
No ePATENTS
Viewable With Any Browser
Burn All GIFs!

W
ie im ersten Artikel über Webschnapper prüft auch dieses Skript, ob es heute schon aufgerufen worde. Somit ist es dann möglich, mit einem kleinen Crontab-Eintrag das ganze zu automatisieren:
# crontab
 
*/5 * * * * /pfad/zu/den/nachrichten/nachrichten.sh
 
 

Übrigens wird das ganze auch archiviert (in /pfad/zu/den/nachrichten/jahr/monat/tag).
Eine Beispiel-Mail sieht dann so aus:
# Beispiel
 
 Bundesliga                        Flugzeugabsturz

        Borussia Dortmund ist             Flugzeug in Nigeria
        Deutscher Meister                 abgestürzt

 Parteitag                         Tarifrunde

        Grünen-Chefin Roth                Bau-Tarifverhandlungen
        stimmt Partei auf                 in fünfter Runde
        Wahlkampf ein                     gescheitert

 Raumfahrt                         Tennis

        Ariane-Rakete bringt              Schüttler erreicht
        Beobachtungs-Satelliten           Finale in München
        ins All


 http://portale.web.de/Beruf/Tarifrunde/
 http://portale.web.de/Schlagzeilen/Flugzeugabsturz/
 http://portale.web.de/Schlagzeilen/Wahlkampf/Gruene/
 http://portale.web.de/Sport/Fussball/Bundesliga/
 http://portale.web.de/Sport/Tennis/
 http://portale.web.de/Wissenschaft/Raumfahrt/
 
 

Beim Skript müssen nur noch die Pfadangaben und die Befehle zum Verbinden und Trennen mit dem Internet geändert werden (Download):
# nachrichten.sh
 
#!/bin/bash

[ -e /pfad/zu/den/nachrichten/lock ] && exit;
echo $$ > /pfad/zu/den/nachrichten/lock;

PATH=/home/iblech/bin:/usr/local/bin:/usr/bin:/bin

[ -e /pfad/zu/den/nachrichten/l ] || > /pfad/zu/den/nachrichten/l

if [ ! "`cat /pfad/zu/den/nachrichten/l`" = "`date +%d`" ]; then

###############################################

/usr/sbin/isdnctrl dial ippp0
date >> /pfad/zu/den/nachrichten/isdnlog

sleep 4

HEUTE="/pfad/zu/den/nachrichten/`date +%Y/%m/%d`"
NAME="`date +%s`"
mkdir -p $HEUTE
cd $HEUTE
wget -O web.de.$NAME http://www.web.de/

/usr/sbin/isdnctrl hangup ippp0

###############################################

  # Sam Mai  4 09:43:11 MEST 2002: Extension ({ and lynx} from Sam Mai  4
  # 09:43:21 MEST 2002!
  {
    grep OK web.de.$NAME | w3m -T text/html | sed -e 's+\[..\]+    +g' -e 's*\[....\]*      *g' -e 's*\** *g';
    echo;
    echo;
    grep OK web.de.$NAME | lynx -force_html -dump /dev/stdin | grep http://portale | cut -d. -f 2,3,4 | sort | uniq;
  }     | mail -s Aktuelle\ Nachrichten iblech gb
  
  date +%d > /pfad/zu/den/nachrichten/l
  
fi

rm /pfad/zu/den/nachrichten/lock
 
 

Document Informations: Content-Type: text/html; charset=iso-8859-15
Author: Ingo Blechschmidt
Description: LinuxGuide - Dieses Skript liefert ihnen jeden Morgen die aktuellen Nachrichten von WEB.DE brav in Ihre Mailbox.
Keywords: Webschnapper, w3m, lynx, grep, web.de, Internet, Shell-Skript, Skript, cron, crontab, LinuxGuide
Robots: all
Copyright: Copyright (C) 2002 by Ingo Blechschmidt
Date: 2003-05-05T11:02:26+02:00

Stichwortverzeichnis | Neue Artikel | Übersicht | Codesnippets | Links | Copyright | Cool Stuff | Home | Druckbare Version | Manpage | Sourcecode |
Diesen Artikel kritisieren, kommentieren oder ergänzen
Einen Neuen Artikel schreiben

 
This website is distributed under the GNU Free Documentation License .