Datenerfassung
Unsere Methodik.
Wie die 89.140 Container-Standorte auf containerstandorte.de zustande kommen, warum wir bestimmte Quellen anderen vorziehen und wo die Grenzen unseres Verzeichnisses liegen.
Aktueller Datenstand:
Datenpipeline
Sechs Schritte von der Rohquelle zur Karte.
Der gesamte Prozess ist automatisiert und in Open-Source-Skripten dokumentiert.
- 01
Erfassung
Einmal pro Monat fragen wir die Overpass-API von OpenStreetMap nach Containern (amenity=recycling mit recycling:*-Tags) ab - aufgeteilt nach Bundesland-Bbox, mit Cache und Retry-Logik. Parallel ziehen wir Daten aus kommunalen Open-Data-Portalen - aktuell aktiv: Hamburg, München, Köln. Adapter fuer Berlin und Frankfurt sind vorbereitet, deren Datensaetze stehen aber zur Zeit nicht unter einer fuer uns nutzbaren Lizenz bereit.
- 02
Normalisierung
Jeder Datensatz wird auf ein einheitliches Schema gemappt: Container-Typen werden über eine Aliase-Tabelle vereinheitlicht (z.B. "glass_white", "glass_brown", "glass_green", "paper", "clothes", "shoes"), Adressen werden in Stadt/Stadtteil/Bundesland zerlegt, Einwurfzeiten in ein einheitliches Format gebracht.
- 03
Deduplizierung
Container im 30-Meter-Radius vergleichen wir paarweise: Distanz (50%), Container-Typ-Übereinstimmung (20%), Aktualität der letzten Verifizierung (15%) und Betreiber-Match (15%). Über einem Score von 0,85 mergen wir automatisch - dabei gewinnt die offizielle Quelle (Open Data) gegen OpenStreetMap. Zwischen 0,6 und 0,85 markieren wir als Konflikt zur manuellen Klärung.
- 04
Geocoding & Stadtteil
Für Container ohne Stadtteil oder Postleitzahl fragen wir den Reverse-Geocoder Photon (OpenStreetMap-basiert) ab. Ergebnisse landen in einem persistenten Cache - jeder Punkt wird nur einmal angefragt. Stadtteile werden anschließend auf einen URL-Slug normalisiert.
- 05
Qualitätsbewertung
Jeder Container bekommt eine Datenqualität auf einer Skala bis 5: Quality 5 = vollständige Adresse aus offizieller Open-Data-Quelle, Quality 3 = aus OpenStreetMap mit gültigen Container-Typen, Quality 1 = unvollständig. Nur Container mit Quality 5 bekommen eine eigene Detail-Seite; alle anderen sind in der Karte und im Stadtteil-Aggregat sichtbar.
- 06
Export & Build
Aus der SQLite-Datenbank wird ein JSON-Snapshot erzeugt, den Astro zur Build-Zeit liest. Die Seite ist vollständig statisch ausgeliefert: keine Datenbank im Live-Betrieb, keine Server-Logik außer dem Melde-Endpoint, keine Tracking-Skripte. Jeder Build erzeugt zusätzlich ein Diff gegen den vorherigen Stand, um neue oder entfallene Standorte zu protokollieren.
Quellen-Hierarchie
Welche Quelle gewinnt im Konflikt?
Wenn zwei Quellen denselben Standort liefern, mergen wir nach dieser Reihenfolge.
- 1.
Kommunale Open-Data-Portale
Daten der zuständigen Stadtreinigung sind autoritativ, wenn die Stadt sie publiziert - z. B. Berliner Stadtreinigung (BSR), Hamburger Stadtreinigung, Abfallwirtschaftsbetrieb München, AWB Köln. Lizenz und Attribution stehen auf der Quellen-Seite.
- 2.
OpenStreetMap
OSM ist unsere Basis-Quelle für alle Regionen ohne offizielles Open-Data-Angebot. Verlässlich für Existenz und Position, weniger verlässlich für Einwurfzeiten und Betreiber - diese Felder lassen wir leer statt sie zu raten. Lizenz: ODbL 1.0.
- 3.
Nutzer-Meldungen
Über das Meldeformular kannst du fehlende, falsche oder entfallene Standorte hinweisen. Wir prüfen jede Meldung manuell, bevor wir sie in die Datenbasis übernehmen - das dauert mitunter ein paar Tage.
Redaktioneller Workflow
Wie ein Ratgeber entsteht.
Jeder Ratgeber-Artikel startet mit einer Recherche-Phase: Wir tragen relevante Quellen zusammen (Umweltbundesamt, bvse, branchenspezifische Verbände, Originaltexte der Verordnungen) und lesen sie selbst.
Daraus formulieren wir eine Gliederung, schreiben den Text und unterlegen jede Sachaussage mit einer der eingangs gesammelten Quellen. Anschließend folgt ein Lektorat plus Quellen-Check: Stimmt jede Zahl, jedes Zitat?
Wenn sich Sachverhalte ändern (neue Gesetzeslage, geänderte Trennregeln, aktualisierte Recyclingquoten), aktualisieren wir den Artikel und tragen das sichtbar nach. Bei größeren Korrekturen siehe Korrekturpolitik.
KI-Tools setzen wir für Strukturierung, Lektorat und Code ein - nicht als Quelle. Eine Behauptung steht erst dann im Artikel, wenn sie gegen eine echte externe Quelle geprüft wurde.
Aus der Praxis
Was die taegliche Datenarbeit zeigt.
Erfahrungswerte aus der laufenden Arbeit mit dem Datensatz - kein Lehrbuchwissen, sondern was wir tatsaechlich sehen.
96 %
aus OpenStreetMap
96 Prozent unserer Standorte (85.809 von 89.140) stammen aus OSM. In Regionen ohne kommunales Open-Data-Angebot ist OSM die einzige praktikable Quelle - mit allen Staerken und Schwaechen.
3 / 16
Bundeslaender mit Open-Data-Anteil
Nur in Hamburg, Bayern (Muenchen) und Nordrhein-Westfalen (Koeln) tragen aktuell offizielle Open-Data-Quellen messbar bei. Der grosse Rest haengt komplett an OSM und an Nutzer-Meldungen.
9.071
Staedte und Gemeinden
Die Verteilung ist extrem ungleich - wenige Grossstaedte haben tausende Standorte, in vielen Kleinstaedten finden wir keine zwanzig. Wer im laendlichen Raum sucht, sollte Meldewege der lokalen Stadtreinigung mitbedenken.
Beobachtungen, die uns die Arbeit gelehrt hat
- OSM ist erstaunlich verlaesslich fuer Existenz und Position eines Containers - bei Einwurfzeiten und Betreiber tendieren die Tags allerdings dazu, leer oder veraltet zu sein.
- Reine Stadtteil-Namen aus Photon-Reverse-Geocoding stimmen meist; gefaehrlich wird es bei Hausnummern - die nahegelegene Hausnummer ist nicht zwingend die Adresse des Containers. Wir zeigen Hausnummern deshalb nur, wenn die Originalquelle sie liefert.
- Doubletten entstehen am haeufigsten dort, wo dieselbe Stadt sowohl in OSM als auch im kommunalen Open-Data-Datensatz auftaucht. Unser Dedup-Algorithmus mit 30-Meter-Radius faengt das in den allermeisten Faellen ab; manuelle Faelle landen in der Konflikt-Queue.
- Die Datenbasis veraendert sich monatlich nur in einstelliger Prozent-Groessenordnung - Container kommen und gehen langsamer, als Routenplaner-Updates suggerieren.
Was wir nicht können
Grenzen unseres Verzeichnisses.
Damit du weisst, worauf du dich nicht verlassen kannst.
- Keine Vollständigkeitsgarantie: Wir bilden ab, was die Quellen hergeben. In Regionen ohne kommunales Open-Data-Angebot und mit dünner OSM-Abdeckung fehlen Standorte zwangsläufig.
- Einwurfzeiten und Betreiber sind oft Open-Data-abhängig: Container aus OSM haben diese Felder häufig nicht. Wir zeigen sie nur, wenn die Quelle sie liefert.
- Geringe Positionsgenauigkeit bei manchen OSM-Daten: Einzelne Pins können um 10 bis 30 Meter abweichen. Der angezeigte Punkt ist immer die offizielle Koordinate aus der Quelle.
- Keine Echtzeit-Verfügbarkeit: Wir wissen nicht, ob ein Container gerade voll oder defekt ist - dafür sind die Betreiber zuständig. Bei Problemen vor Ort hilft die Hotline der jeweiligen Stadtreinigung.