Inhaltsverzeichnis
1. Einleitung
Auf germanblawgs.de sammeln wir deutschsprachige juristische Feeds (siehe auch GermanBlawgs). Die Liste umfasst aktuell über 220 Einträge. Natürlich ist das da immer Bewegung drin und es ist gar nicht so leicht, da den Überblick zu behalten. Das wollen wir ein bisschen vereinfachen.
2. Check
Um zu überprüfen, welche Feeds noch aktuell sind, habe ich ein kleines Skript geschrieben. Die verbesserte Version wirft nur noch eine Datei aus, damit man nicht so leicht den Überblick verliert.
Ein Profi wird dem Quellcode sicher anmerken, dass ich von Pyhton-Programmierung nicht so viel Ahnung habe.
In der 3. Version gibt es jetzt auch eine Titelspalte. Es wird versucht, den Titel aus dem Feed zu ermitteln und dort einzutragen. Als weitere Verbesserung könnten wir immer dann, wenn sich kein Titel ermitteln lässt, wenigstens die URL (ohne http://www.) eintragen, damit sich das schöner sortieren lässt.
Das Skript erwartet die Datei quelle_url.txt in folgendem Format:
|| title || url || feedurl || bemerkung ||
Beispiel:
|| http://ersteurl.de || || || || http://zweiteurl.de || || Bemerkungen werden einfach übernommen || || http://dritteurl.de || (!) || Im vorheringen Durchlauf keinen Feed gefunden --> noch einmal probieren || || http://dritteurl.de || (!) http://feedurl.de || Feed händisch eingegeben -> nicht überschreiben || || {X} http://vierteurl.de || || zum löschen vorgesehen -> Zeile komplett übernehmen ||
Grundlage für die quelle_url.txt ist die OPML-Datei von http://www.germanblawgs.de (Stand 30.01.09) ergänzt um die fehlenden Einträge von http://www.jurablogs.com/blogs/ (herzlichen Dank an Matthias Klappenbach!).
Das Ergebnis habe ich nach URL sorttiert und auf der Seite GermanBlawgsQuelle eingestellt.
Das schöne ist, dass man diese Datei jetzt überarbeiten und dann immer wieder durchlaufen lassen kann.
3. OPML schreiben
Die nachfolgenden Informationen beziehen sich noch auf die erste Version des Skripts. ToDo: aktualisieren
Das Skrip GermanBlawgsFeed2.py wirft auf Grundlage der ziel_feed2.txt folgende beiden Dateien aus:
GermanBlawgs_.opml - die (fast) fertige OPML-Datei
fehler.txt - Die Feeds, die nicht verarbeitet werden konnten (Fehler beim Parsen)
Auch hier schauen wir uns die Fehler noch einmal einzeln an und fügen diese händisch zur OPML-Datei hinzu (Probleme gab's nur bei den mit markierten Feeds):
http://criminologia.de/feed/ - kein Titel (händisch ergänzt)
http://rechtmedial.de/feed/rss/ - Fehler im RSS
Für die händische Nachbearbeitung habe ich jetzt FeedDemon genommen. Daraus kann ich dann die fertige GermanBlawgs.opml exportieren.
4. Ideen für die weitere Pflege
Wir pflegen die Liste der GermanBlawgs (auf Grundlage von ziel_url_feedok.txt) auf einer Wikiseite: GermanBlawgsQuellUrl. Von Zeit zu Zeit lasse ich dann die obigen Skripte drüberlaufen und schon haben wir wieder eine aktuelle OPML-Datei.
Als nächstes müssten wir die Liste dann mal mit Verstand durchgehen und nachschauen, was nach den GermanBlawgsKriterien nicht (mehr) da rein gehört.
Wir könnten das Skript auch noch so erweitern, dass nachgeschaut wird, dass die letzte Aktualisierung des Feeds nicht zu lange her ist.
Als weitere Ausbaustufe lässt sich auf der Wikiseite zu jedem Feed noch eine oder mehrere Kategorien angeben, z.B. Rechtsgebiet (Familienrecht, IT-Recht, ...) und Autor (Rechtsanwalt, Richter, Student, ...). Das Script gibt dann für jede Kategorie eine eigene OPML-Datei aus.