Erklärung gängiger Begriffe

Hier finden Sie Erklärungen für die gängigsten Begrifflichkeiten im Zusammenhang mit unserer Plattform, open.rlp, und Open Data. Von technischen Schnittstellen bis zum Metadatenformat - mit kurzen Erläuterungen fällt das Verständnis leichter.

Sie vermissen Begriffserklärungen oder Sie haben Fragen zu open.rlp? Wir stehen Ihnen gerne zur Verfügung. Nutzen Sie unser Kontaktformular!

Glossar

Über eine API (Application Programming Interface oder Programmierschnittstelle) können Systeme oder Dienste unabhängig von ihrer Implementierung untereinander kommunizieren und Daten austauschen. Standards für APIs umfassen Sammlungen von Regeln, Protokollen und Best-Practices. Sie legen fest, wie Schnittstellen entwickelt, aufgebaut und verwendet werden sollen. Gängige Standards sind zum Beispiel REST oder SOAP.

Eine Webanwendung, die über einen API-Endpunkt verfügt, ermöglicht den automatisierten Abruf der bereitgestellten Daten und fördert insbesondere im Kontext von Offenen Daten die Nachnutzung, da Anwendungen auf Basis der bereitgestellten Daten entwickelt werden können. Auch open.rlp verfügt über verschiedene Endpunkte. Weitere Informationen finden Sie in unserer OpenAPI-Spezifikation.

Eine wichtige Komponente von open.rlp ist die Software CKAN, die von der Open Knowledge Foundation entwickelt wurde. CKAN steht für Comprehensive Knowledge Archive Network. Dabei handelt es sich um ein Open-Source-Datenmanagementsystem, das weltweit als Basis für Offene-Daten-Portale genutzt wird.

CKAN bietet Funktionen zur Speicherung, Verwaltung und Bereitstellung von Daten und den zugehörigen Metadaten. Veröffentlichte Datenbestände können von Nutzenden über eine Facettensuche auf Basis des gesamten Metadatenbestands durchsucht werden. Dabei setzt CKAN auf die Suchplattform Solr. Als Persistenzschicht – also zur dauerhaften Speicherung und Verwaltung der Daten – kommt eine PostgreSQL Datenbank zum Einsatz. Darüber hinaus verfügt CKAN standardmäßig über eine Schnittstelle, die die Daten im JSON-Format exportiert.

Über Erweiterungen, sogenannte Extensions, lassen sich weitere Funktionalitäten integrieren. Extensions umfassen beispielsweise die Festlegung von eigenen Schemata für Metadaten oder die Integration von Harvestern zum Abruf von Datenkatalogen, die dem Standard DCAT-AP.de entsprechen.

Creative Commons ist eine gemeinnützige Organisation, die ein Set von sechs standardisierten Lizenzverträgen entwickelt und pflegt. Diese Lizenzen, bekannt als Creative-Commons-Lizenzen (oder kurz CC-Lizenzen), ermöglichen es Urheberinnen und Urhebern, ihre Werke kontrolliert zur Nachnutzung freizugeben.

Viele große Plattformen und Institutionen, wie Wikipedia und Flickr, unterstützen und nutzen CC-Lizenzen. Dies hat auch im Open-Data-Kontext zu ihrer weiten Verbreitung und Akzeptanz beigetragen. Eine Übersicht der CC-Lizenzen finden Sie hier.

Bei CSV (Comma-separated values) handelt es sich um ein offenes, nicht proprietäres Dateiformat. Textdateien dieses Formats sind an der Dateiendung ".csv" erkennbar. Es dient der Speicherung und dem Austausch von einfach strukturierten Daten und ist maschinenlesbar.

Unter anderem können darin Tabellen oder Listen abgebildet werden. Die einzelnen Datensätze oder Zeilen werden dabei durch einen Zeilenumbruch getrennt. Spalten beziehungsweise Datenfelder werden in der Regel durch ein Komma getrennt, wobei auch andere Trennzeichen wie Semikolon, Doppelpunkt, Tabulatorzeichen (in diesem Fall auch als TSV oder Tab-separated values bezeichnet) oder Leerzeichen möglich sind. Das Dateiformat CSV kann von gängigen Tabellenkalkulations-Programmen geöffnet und verarbeitet werden.

Für das Dateiformat CSV existiert kein allgemeiner Standard, jedoch wird es in den RFCs (Requests for Comments) 4180 und 7111 grundlegend beschrieben.

cURL (Client for URLs) ist ein Kommandozeilen-Programm zur Übertragung von Daten in Rechnernetzen. Damit können beispielsweise Webseiten ohne Webbrowser angezeigt werden. Darüber hinaus ermöglicht das Programm das Herunter- oder Hochladen von Dateien über eine Internetadresse.

data.europa.eu ist das offizielle Portal für Offene Daten in Europa. Die Plattform wird vom Amt für Veröffentlichungen der Europäischen Union betrieben und bietet Zugang zu einer Vielzahl an Datenbeständen aus verschiedenen Mitgliedstaaten und EU-Institutionen. Das Portal fördert die Nutzung öffentlicher Daten, um Innovationen und wirtschaftliches Wachstum in Europa zu unterstützen.

Der Begriff Datenformat beschreibt, wie Daten strukturiert, dargestellt und interpretiert werden. Er kann dazu genutzt werden, das Format einzelner Datenfelder zu beschreiben. Beispiele umfassen Zeichenketten, Ganz- beziehungsweise Gleitkommazahlen und boolesche Ausdrücke.

Oft wird der Begriff Datenformat auch synonym mit dem Begriff Dateiformat verwendet. Das Dateiformat legt die – vom Inhalt abhängige – innere Struktur einer Datei fest. Das Dateiformat lässt sich anhand der Dateinamenserweiterung (zum Beispiel.pdf, .txt, .csv) erkennen. Über das Dateiformat kann ein Betriebssystem Dateien Anwendungen zuordnen, die sie interpretieren können.

Im Kontext von Open Data ist bei den verwendeten Dateiformaten wichtig zu unterscheiden, ob Sie maschinenlesbar sind.

Grundsätzlich beschreibt der Begriff "Datensatz" eine Sammlung von Daten bzw. Informationen. In der Softwareentwicklung versteht man darunter eine logisch angeordnete Sammlung von inhaltlich zusammenhängenden Datenfeldern. Die logische Struktur dieser Sammlung dient der Beschreibung von Entitäten aus der realen Welt. Die einzelnen Datenfelder beschreiben ihre Eigenschaften.

Im Rahmen von open.rlp werden beide Konzepte aufgegriffen. In CKAN setzt sich ein Datensatz aus Metadaten und Ressourcen zusammen. Bei den Metadaten handelt es sich um eine strukturierte Sammlung von Datenfeldern, die zusätzliche Informationen zu den eigentlichen Daten liefern. Die eigentlichen Daten werden durch Ressourcen repräsentiert. In der Regel verlinkt open.rlp die Ressourcen.

Datenstrukturen sind ein grundlegender Baustein der Programmierung. Sie dienen der Speicherung und Organisation von Daten. Zugehörige Operationen ermöglichen den Zugriff und die Verwaltung.

Ein einfaches Beispiel für eine Datenstruktur bildet eine Liste beziehungsweise ein Array. In einem Array werden mehrere Werte (in der Regel desselben Typs) oder Objekte gespeichert, die dann über einen Variablennamen abrufbar sind.

Über einen Index ist das Lesen und Schreiben der einzelnen Elemente möglich. Bei einem eindimensionalen Array spricht man von einem Vektor. Werden als einzelne Elemente in einem Array weitere Arrays gespeichert, bezeichnet man sie auch als Matrix.

Ein Vorteil der Verwendung von Datenstrukturen ist die Möglichkeit der Anwendung von komplexen Operationen wie das Sortieren und Durchsuchen.

DCAT-AP ist ein Anwendungsprofil des DATA Catalog Vocabulary (DCAT), das von der Europäischen Union entwickelt wurde. Es dient zur Beschreibung von Metadaten für Datenkataloge und Datensätze, um deren Interoperabilität zu verbessern und sie leichter auffindbar zu machen. DCAT-AP definiert eine Reihe von Klassen und Eigenschaften, die spezifisch auf die Bedürfnisse der EU-Anwendungen zugeschnitten sind.

DCAT-AP.de ist das deutsche Metadatenmodell für den Austausch offener Verwaltungsdaten zwischen Datenportalen in Deutschland und wird von kommunalen bis zu nationalen Plattformen wie GovData angewendet. DCAT-AP.de ermöglicht eine einheitliche Beschreibung und fördert damit die Auffindbarkeit von Daten sowie deren Transparenz und Nachnutzung.

Das Modell basiert auf dem europäischen Standard DCAT-AP (Data Catalogue Application Profile). DCAT-AP.de erweitert diesen Standard, um spezifische Anforderungen und Besonderheiten von Daten aus dem Umfeld deutscher Behörden zu berücksichtigen.

Seit Juni 2018 ist es der verbindliche Standard für den Metadatenaustausch zwischen deutschen Open Data-Portalen, festgelegt vom IT-Planungsrat. Alle Datenbereitstellenden, die Daten an das zentrale GovData-Portal liefern, müssen diesen Standard einhalten. Dies stellt sicher, dass die Metadaten konsistent und interoperabel sind. Der Metadatenkatalog auf open.rlp wendet ebenfalls DCAT-AP.de an.

DCAT-AP und DCAT-AP.de sind RDF-Vokabulare. Die Vorgaben für die Einhaltung des Standards sind in eine Spezifikation, ein Konventionshandbuch und ein URI-Konzept gegliedert.

GovData ist das Metadatenportal der deutschen Verwaltung und wird von der Föderalen IT-Kooperation (FITKO) betrieben. Es bietet einen freien und zentralen Zugang zu offenen Verwaltungsdaten aus Bund, Ländern und Kommunen sowie zu Daten von Unternehmen der Daseinsvorsorge, Hochschulen und Forschungseinrichtungen.

Die Anlieferung an GovData ist nicht verpflichtend, jedoch schreiben viele Bundesländer in ihren E-Government-, Transparenz- oder Open-Data-Gesetzen vor, dass Daten an GovData geliefert werden sollen. Daher liefern verschiedene Stellen, darunter auch open.rlp, Metadaten an das Portal. GovData wiederum übermittelt alle empfangenen Metadaten an data.europa.eu, dem Open-Data-Portal der Europäischen Union.

Ein Graph ist eine abstrakte Datenstruktur, die dazu dient, eine Menge von Objekten und deren Beziehungen untereinander abzubilden. Die Objekte werden dabei auch als Knoten, die Verbindungen als Kanten bezeichnet. Verbindungen zwischen den Knoten können gerichtet und ungerichtet sein. Zusätzlich ist es möglich, die Knoten und Kanten durch Attribute näher zu beschreiben.

Der Vorteil eines Graphen ist, dass die Beziehungen zwischen den Objekten im Fokus stehen. So lassen sich selbst komplexe Strukturen abbilden.

Ein Harvester ist eine Softwarekomponente, über die zeitgesteuert (Meta)daten aus einem anderen Katalog oder einer anderen Quelle abgerufen und in ein Metadatenportal importiert werden können. open.rlp nutzt verschiedene Harvester, um den eigenen Metadatenkatalog aus den Katalogen der verschiedenen Liefersysteme zusammenzustellen.

Die Liefersysteme stellen dafür Endpunkte (APIs) bereit, die während des Harvesting-Prozesses einzeln angesteuert werden. Im Rahmen des Harvestings kann bei Bedarf eine Transformation der Metadaten von einer Datenstruktur in DCAT-AP.de konformes RDF/XML durchgeführt werden.

Fähigkeit verschiedener Systeme und Geräte, nahtlos miteinander zu kommunizieren, Informationen auszutauschen und zusammenzuarbeiten.

Das Datenformat JSON (JavaScript Object Notation) dient dem Datenaustausch zwischen Anwendungen. Die Daten werden dabei in einer einfach lesbaren Textform abgebildet und sind programmiersprachenunabhängig. JSON wird häufig in Webanwendungen, APIs und Konfigurationsdateien eingesetzt, da es eine einfache und effiziente Methode zur Darstellung komplexer Datenstrukturen bietet. Ein typisches JSON-Objekt besteht aus Schlüssel-Wert-Paaren, Arrays und verschachtelten Objekten.

Linked Open Data beschreibt offene Daten, die über eindeutige Identifikationsschlüssel verfügen und über Standardinternetprotokolle abgerufen werden können (siehe auch 5-Sterne Open-Data-Modell von Sir Tim Berners-Lee).

Man spricht von Maschinenlesbarkeit, wenn Informationen in einem Format gespeichert werden, das von einem Computer ohne menschliches Eingreifen gelesen und wo verarbeitet werden kann, dass die semantische Bedeutung erhalten bleibt. Dabei lassen sich grob zwei Kategorien unterscheiden: Erstens menschenlesbare Daten, die mit einer Auszeichnung ("Markup") versehen sind, sodass auch eine Maschinenlesbarkeit gewährleistet ist. Zweitens Dateiformate, die primär für die Verarbeitung durch und den Austausch zwischen Maschinen vorgesehen sind.

Maschinenlesbarkeit wird häufig mit der digitalen Verfügbarkeit verwechselt. Dokumente können beispielsweise online als PDF (Portable Document Format) verfügbar sein und sind dadurch leichter auffindbar. Dies bedeutet aber nicht automatisch, dass Computer die darin enthaltenen Informationen lesen und weiterverarbeiten können.

Metadaten sind strukturierte Daten, die die eigentlichen (Offenen) Daten beschreiben, d.h. Daten, die Informationen über Daten enthalten. Sie helfen dabei, Daten zu organisieren, zu identifizieren, zu beschreiben oder leichter auffindbar zu machen. Metadaten können genauso wie die eigentlichen Daten strukturiert und in einem standardisierten Format gespeichert werden.

Kontinuierliche Überwachung eines Systems, Prozesses oder Zustands, um relevante Daten oder Informationen zu sammeln und mögliche Veränderungen, Fehler oder Abweichungen zu erkennen.

Daten, die frei zugänglich sind und ohne Einschränkung für unterschiedliche Zwecke verwendet werden können.

RDF (Resource Description Framework) ist ein vom W3C (World Wide Web Consortium) entwickeltes Standardmodell für den Datenaustausch im Netz. Es wurde ursprünglich als Vokabular zur Beschreibung von Metadaten geschaffen.

Die Struktur von RDF setzt sich aus sogenannten Triples zusammen, die aus Subjekt, Prädikat und Objekt bestehen. Triple bilden logische Aussagen über Entitäten. Indem das Objekt eines Triple das Prädikat eines anderen Triple bilden kann, entsteht ein gerichteter Graph.

Eine Repräsentation von Subjekt, Prädikat und Objekt erfolgt in der Regel durch URIs, wobei es sich bei dem Objekt auch um ein Literal (zum Beispiel eine Zeichenkette) handeln kann.

Fähigkeit eines Systems, einer Person oder einer Organisation, sich an Veränderungen anzupassen, Herausforderungen zu bewältigen und Krisen zu antizipieren.

Das Semantic Web wird auch als Web 3.0 bezeichnet. Es basiert auf dem Gedanken, dass Daten und Informationen um maschinenlesbare Metadaten angereichert werden, die Computern eine sinnvolle Interpretation ermöglichen. Darüber hinaus sollen Daten zwischen Anwendungen ausgetauscht und nachgenutzt werden können.

Das Semantic Web baut dabei zur Verwirklichung seiner Ziele auf eine Reihe von Standards auf. Für die Identifikation und den Verweis auf weitergehende Daten kommen URIs zum Einsatz. RDF dient als Modell zur Repräsentation von Aussagen und soll den Datenaustausch gewährleisten. Daneben existieren weitere Standards, die die Deklaration von Schemata und das Definieren von Ontologien ermöglichen.

Bei Solr handelt es sich um eine eigenständige Implementierung eines Suchservers, die auf Lucene basiert. Es ermöglicht die effiziente Volltextsuche, Facettierung und Indizierung großer Datenmengen. Solr unterstützt verschiedene Datenquellen und bietet erweiterte Suchfunktionen wie Autokorrektur, Synonyme und Geospatial-Suche. Dank seiner RESTful-API kann Solr leicht in bestehende Systeme integriert werden.

Eine Tabelle ist eine strukturierte Darstellung von Daten in Zeilen und Spalten. Jede Zeile stellt einen Datensatz dar, während die Spalten die verschiedenen Attribute oder Merkmale dieser Datensätze beschreiben. Eine Vorspalte und ein Tabellenkopf können zusätzliche Informationen enthalten. Tabellen erleichtern die Übersichtlichkeit und den Vergleich von Informationen.

Tabellen werden in verschiedenen Bereichen eingesetzt, wie in Datenbanken, Statistiken, Finanzberichten und wissenschaftlichen Arbeiten. Sie können in Form von Tabellenkalkulationen (z.B. Excel) oder in Textdokumenten erstellt werden. Ein maschinenlesbares Format für Tabellen ist CSV.

Die Abkürzung URI steht für „Unifrom Resource Identifier“. Dabei handelt es sich um einen eindeutigen Bezeichner, der Ressourcen im Internet identifiziert und lokalisieren kann. Eine URI kann gleichzeitig eine URL sein. Die Abkürzung URL steht für "Uniform Resource Locator" und ist somit eine Unterart der Uniform Resource Identifiers (URIs). Eine URL identifiziert eine Ressource im Internet und beschreibt gleichzeitig, wo sie im Internet verortet ist.

Über ein Netzwerkprotokoll wie zum Beispiel HTTPS kann auf die Ressource über eine URL zugegriffen werden. Im allgemeinen Sprachgebrauch werden URLs auch als Internetadressen oder Webadressen bezeichnet.

XML (eXtensible Markup Language) ist eine Auszeichnungssprache zur Speicherung und dem Austausch von Informationen zwischen Maschinen. Der Vorteil von XML liegt dabei darin, dass es für Mensch und Maschine lesbar und softwareunabhängig ist. Ihre Syntax ähnelt der Syntax von HTML, jedoch liefert XML keine Funktionalität zur Darstellung der Inhalte, sondern dient lediglich der deskriptiven Auszeichnung.

Durch die Verwendung von Namensräumen (Namespaces) lassen sich Namenskonflikte bei der Zusammenführung verschiedener Datenbestände verhindern. Ein Namensraum wird durch eine URI (Uniform Resource Identifier) definiert, die eindeutig ist und somit sicherstellt, dass Namen innerhalb dieses Namensraums nicht mit Namen aus anderen Namensräumen kollidieren. Dieses Konzept ist besonders bei der Darstellung von RDF als XML-Dokument relevant, weil die RDF-Vokabulare durch Namensräume angegeben werden. Diese Form der Serialisierung von RDF wird auch RDF/XML genannt und wird beispielsweise für die Bereitstellung von Metadaten im Rahmen von DCAT-AP.de verwendet.

Erklärung gängiger Begriffe

Glossar

API

CKAN

Creative Commons

CSV

cURL

data.europa.eu

Datenformat

Datensatz (& CKAN-Datensatz)

Datenstruktur

DCAT-AP

DCAT-AP.de

GovData

Graph

Harvester

Interoperabilität

JSON

Linked Open Data

Maschinenlesbarkeit

Metadaten

Monitoring

Open Data

RDF

Resilienz

Semantic Web

Solr

Tabelle

URI

XML