Web-Weaver

Des Schockwellenreiters Webworker-Seiten

Suchen in:
Suche:
In Partnerschaft mit Amazon.de
Werbung
Test und Preisvergleich
Preisvergleich und Testberichte zu Notebooks, Handys Digitalkameras
sowie MP3 Player.






Was ist RSS?

[Note 1]: Dieser Text versucht, zwei Fliegen mit einer Klappe zu schlagen. Einerseits soll er auch technisch nicht so versierten erklären, was RSS ist, zum anderen aber auch Programmierern ermöglichen, in eigenen Projekten RSS zu integrieren. Diese technischen Teile sind eingerückt zwischen zwei horizontalen Linien eingeschlossen und mit dem Truthahn markiert. Sie können, ohne daß das Verständnis des Resttextes leidet, übersprungen werden.

Einführung in XML Titelseite [Note 2]: In diesem Text kommt sehr häufig der Begriff XML vor. Ich werde hier nicht erklären, was XML ist. Für den Anfang reicht es, zu wissen, daß XML eine Textmarkierungssprache ist, die ähnlich wie HTML aussieht, aber nur die Struktur und nicht das Layout eines Dokumentes beschreibt. XML ist keine Programmiersprache, sondern eine Auszeichnungssprache, mit der XML-Anwendungen, wie z.B. XHTML oder eben RSS definiert werden können. Wer näher in XML einsteigen will, dem empfehle ich das Buch Einführung in XML, über das am Montag hier im Schockwellenreiter eine Rezension erscheinen wird.

Push versus Pull

Ein Besucher, der auf normalen Wege das Web abklappert, tippt URL für URL in seinem Browser oder läßt sich von Link zu Link, den er anklickt, auf seinen Reisen durch die Weite des WWW leiten. In anderen Worten, der Besucher holt sich aktiv (to pull) Daten und Content in seinen Rechner. Wenn dies auch (fast) immer funktioniert, ist dies nicht immer der beste Weg. Ein Weblogautor z.B. besucht immer wieder andere Weblogs, muß sich deren URL merken oder in seiner immer umfangreicher werdenden Bookmarksammlung verwalten, merkt bei seinen Besuchen, daß es auf dem Weblog noch nichts Neues gibt oder - bei selteneren Visiten, daß er wichtige Meldungen »verschlafen« hat. So entstehen diese täglich, öfter und gelegentlich Linklisten in den Weblogs, die dem Betreiber helfen sollen, die Übersicht nicht zu verlieren.

Sicher, es gibt Hilfsmittel, wie z.B. die Update-Seiten von Weblogs.com, die ein wenig helfen. Aber gerade der eben vollzogenen Cornerturn von Weblogs.com zeigt, daß dies bei steigender Weblogzahl nicht das richtige Mittel ist, dem Chaos Herr zu werden. Es hatten sich so viele Weblogs registrieren lassen, daß oft das Scannen, ob ein Weblog geändert wurde, länger als eine Stunde dauerte und so die stündlichen Update-Listen schon bei ihrer Erstellung nicht mehr aktuell waren. Außerdem litt Weblogs.com an chronischer Überlastung, so daß die Update-Seite sehr langsam lud oder manchmal bis oft sogar überhaupt nicht zu erreichen war.


Tech Notes

Der Cornerturn von Weblogs.com hat nichts mit RSS zu tun. Hier werden vielmehr die Weblogbetreiber - besser die Programmierer der Weblog-Software - aufgefordert, einen Mechanismus in ihre Software zu integrieren, der das neue Weblog.com an»pingt«, wenn das Weblog ein Update erfahren hat. Dieses Ping erfolgt via XML-RPC oder SOAP.


Ein anderer Weg, der - natürlich mit unterschiedlichen Techniken und Formaten, wie sollte es anders sein - schon vor einigen Jahren von Netscape und Microsoft beschritten wurde, ist der, daß der Anbieter selber informiert, wenn sich seine Seite geändert hat. Er stellt eine Datei ins Netz, die der Webbenutzer via http (dem Standardprotokoll der Browser) abrufen kann und die ihn informiert, ob sich die Seiten geändert haben. Als Format dafür bot sich XML an. Spezielle Webserver (Aggregatoren) sammeln diese Informationen und stellen sie dem Benutzer (konfigurierbar, d.h. aus den gesammelten Informationen stellt sich der Surfer seine Auswahl zusammen) zur Verfügung. Aus historischen und marketing-technischen Gründen fangen diese Server meist mit my an, wie z.B. myNetscape.com oder myUserLand.com. Der Benutzer bekommt die Daten gewissermaßen geliefert (to push) und muß nicht mehr selber nach den aktuellen Seiten suchen. Die einzelnen Seiten, die auf den Aggregatoren zusammengefaßt werden, nennt man channel. Und eigentlich sollten diese Channel nur die Überschriften der Nachrichten und eventuell eine kurze Zusammenfassung (Summary) und den Link auf die Original-Seite enthalten, nicht jedoch die Nachricht selber. (Der User soll schließlich - nachdem er sich überzeugt hat, daß die Information ihn interessieren könnte, auf die eigenen Seiten gelockt werden.)

RSS

Damit nun die Aggregatoren die Dateien überhaupt lesen konnten, mußte man sich auf ein gemeinsames Format einigen - und dieses Format ist RSS (Rich Site Summary).


Tech Notes

Wie sieht so ein RSS-File aus? Zur Zeit sind meines Wissens fünf verschiendene Formate im Einsatz, die sich alle geringfügig unterscheiden (aber nicht so weit, daß sie in der Regel nicht von den Aggregatoren gelesen werden können). Das älteste Format dieser Art ist wohl das 1997 von Dave Winer entwickelte ScriptingNews2XML-Format für sein eigenes Log, das heute noch - wen wundert's - Smile von allen UserLand-Aggregatoren gelesen werden kann.

1999 öffnete myNetscape.com mit dem Format RSS 0.91 (eigentlich RSS 0.9, das wurde aber schon bald von RSS 0.91 abgelöst). Dieses Format ist bis heute das gebräuchliste RSS-Format und wurde im April 2000 auch von UserLand in seine Produkte integriert.

Im Dezember 2000 führte Userland das RSS 0.92-Format ein, das aufwärtskompatibel zu RSS 0.91 ist und in der Hauptsache Erweiterungen erfahren hat, die Userland für sein Produkt Radio UserLand glaubte zu gebrauchen.

Und zur Zeit wird bei UserLand an weiteren Erweiterungen für RSS 0.93 gearbeitet.

Daneben arbeitet eine Gruppe an einem RDF-kompatibeln RSS 1.0 und nennt dies auch konsequenterweise nicht mehr Rich Site Summary, sondern RDF Site Summary.

Die größte Verbreitung hat RSS 0.91 und der Entwickler tut gut daran, diesen Standard zu implementieren, Nur wer genau weiß, was er will und tut und die zusätzlichen Features z.B. von RSS 0.92 (mehr als 15 Items und Descriptions (sprich Summaries, die länger als 500 Zeichen sind) benötigt, sollte dies implementieren.


Was steht denn nun in so einer RSS-Datei?

Die Beschreibung des RSS 0.91 Standards ist realitv schwierig, denn da Netscape seinen Validator eingestellt hat, wird in der Regel schon die DOCTYPE-Deklaration weggelassen und auch die Definition der anderen Elemente mehr oder weniger streng gehandhabt. Ich gebe daher auch nur einen groben Überblick und beschreibe eine RSS 0.91-Datei so, wie sie in der Regel von den meisten Aggregatoren gelesen werden kann.

Die notwendigen (required) Elemente eines Channels sind:

title
Das ist der Name des Channels. Bei einem Weblog ist das in der Regel der Name des Weblogs, oft noch gefolgt von einem »News«. Prinzipiell ist der Titel aber frei wählbar und darf nur nicht länger als 100 Buchstaben sein.
link
Die URL zur Website, maximale Länge: 500 Buchstaben (für die längste URL der Welt).
description
Hier kann man sich auf ebenfalls 500 Buchstaben Länge austoben und sein Weblog beschreiben.
language
Die Sprache, in der der Channel geschrieben wurde. Dies erlaubt es Aggregatoren, z.B. Channels nach Sprache zu sortieren. Eine Liste der erlaubten Werte gibt es hier. Das language-Element ist optional in RSS 0.92 und Radio UserLand läßt es auch prompt weg, was dazu fürht, daß man ein Radio-Weblog nicht bei myUserland registrieren lassen kann...
image
Ein Bild. Die meisten Aggregatoren betrachten dieses Element mittlerweile als optional. Sicherheitshalber sollte man es aber doch mitgeben. Das Image-Element des Schockwellenreiters ist sein Zeldman Icon, die Marilyn. Ein image-Element besteht aus folgenden Sub-Elementen:
title (required)
Der Titel beschreibt das Bild und wird für den alt-Tag verwendet.
url (required)
Die URL zu dem Bild
link (required)
Ein Link - in der Regel der Link zum Weblog.
width, height (optional)
Die Größe des Bildes, wenn nicht angegeben werden die Default-Werte von 88 x 31 angenommen, die maximale Größe eines Bildes ist 144 x 400.
description (optional)
Die Beschreibung kann für das title-Attribut des img-Tags verwendet werden.
item
Ein RSS 0.91-File kann bis zu 15 items enthalten. Aber auch hier sehen daß die Aggregatoren oft nicht so genau. RSS 0.92 hat daher diese Begrenzung konsequenterweise aufgegeben. Ein item-Tag enthält folgende Elemente:
title
Das ist der Titel der Story (der Weblog-Meldung). Die maximale Länge beträgt 500 Buchstaben.
link
Das ist der Link, der zu der Story gehört. Hier wird bei den Weblogs (auch beim Schockwellenreiter am häufigsten gesündigt. Der Schockwellenreiter hat oft Items mit mehr als einem Link (eine hohe Linkdichte ),Smile andere Weblogs oft gar keinen Link für ein Item. Wenn es anders nicht geht, kann hier die URL des Weblogs eingetragen werden, das ist besser, als gar keinen Link anzugeben und gegen die Definition zu verstoßen.
description
Und wieder die eigentliche Story, wieder begrenzt auf eine Länge von maximal 500 Buchstaben.

Es gibt noch eine Reihe von weiteren optionalen Attributen wie Copyright, Author etc. Wer das genau wissen will, kann sich hier informieren.


Tech Notes

[RSS und Umlaute]: Umlaute und Sonderzeichen sollten in XML keine Probleme bereiten, sie müssen dort, im Gegensatz zu HTML, nicht maskiert werden. Allerdings ist es notwendig, für die XML-Datei eine entsprechende Kodierung festzulegen, die den verwendeten Zeichensatz beschreibt. Für Westeuropa ist das ISO 8859-1. Der Kopf der XML-Datei sollte daher so beginnen:

<?xml version="1.0" encoding="ISO-8859-1"?>

Ganz Mutige können es ja schon einmal mit UTF-8 versuchen, das geht aber in der Regel daneben. Fast alle Betriebssystem-Hersteller haben zwar vollmundig die Unterstützung von UTF-8 versprochen, nur an der Impelmentierung hapert es noch gewaltig.

Dennoch gibt es einige wenige Zeichen, die auch in XML maskiert werden müssen, da sie dort eine besondere Bedeutung haben. Das sind die spitzen Klammern < >, das kaufmännische Und-Zeichen & und das Anführungszeichen ". Diese müssen mit &lt;, &gt;, &amp; und &quote; kodiert werden.


MUOTD

Wer sich nun der RSS-Channels bedienen wollte, war immer auf einem der Aggregatoren im Netz angewiesen und mußte zum Lesen der Nachrichten auch weiterhin online sein. Radio UserLand besitzt nun ein sehr wertvolles Feature, wegen dem sich alleine der Download lohnt: My UserLand On The Desktop (MUOTD) (Screenshot). Das ist ein Aggregator, der auf dem Rechner zuhause läuft, auf Wunsch des Benutzers stündlich oder auch nur auf Nachfrage die abonnierten Channels abfragt und auf den Rechner des Benutzers runterlädt. Danach kann der Benutzer wieder offline gehen und in Ruhe die Nachrichten lesen und verarbeiten. Das erspart einem nicht unbeträchtliche Online-Kosten. Zusammen mit dem Weblog-Tool von Radio UserLand (das ebenfalls offline betrieben werden kann), kann man daher aus den abonnierten Channels in Ruhe sein Weblog zusammenstellen und erst nach der Fertigstellung wieder online gehen und das Weblog auf den Server runterladen. So entstehen große Teile des Schockwellenreiters und daher drängele ich auch immer, daß es RSS-Files von Euren Weblogs gibt.

Und wer erfolgreich ein RSS-Feed installiert hat, zeigt das stolz mit diesem Icon an, daß auf das RSS-File verlinkt: RSS Icon

Links zu RSS habe ich hier gesammelt.

Clown   Danke für die Aufmerksamkeit.

Letzte Änderung: 13.02.2008; 7:15:16 Uhr | © Copyright: 2000 - 2008 by Kantel-Chaos-Team | Kontakt: der@schockwellenreiter.de

frontierLogo picture Made with a Mac Weblog Commenting and Trackback by HaloScan.com CC-Logo