Glossar
Über eine API (Application Programming Interface oder Programmierschnittstelle) können Systeme oder Dienste unabhängig von ihrer Implementierung untereinander kommunizieren und Daten austauschen. Standards für APIs umfassen Sammlungen von Regeln, Protokollen und Best-Practices. Sie legen fest, wie Schnittstellen entwickelt, aufgebaut und verwendet werden sollen. Gängige Standards sind zum Beispiel REST oder SOAP.
Eine Webanwendung, die über einen API-Endpunkt verfügt, ermöglicht den automatisierten Abruf der bereitgestellten Daten und fördert insbesondere im Kontext von Offenen Daten die Nachnutzung, da Anwendungen auf Basis der bereitgestellten Daten entwickelt werden können. Auch open.rlp verfügt über verschiedene Endpunkte. Weitere Informationen finden Sie in unserer OpenAPI-Spezifikation.
Eine wichtige Komponente von open.rlp ist die Software CKAN, die von der Open Knowledge Foundation entwickelt wurde. CKAN steht für Comprehensive Knowledge Archive Network. Dabei handelt es sich um ein Open-Source-Datenmanagementsystem, das weltweit als Basis für Offene-Daten-Portale genutzt wird.
CKAN bietet Funktionen zur Speicherung, Verwaltung und Bereitstellung von Daten und den zugehörigen Metadaten. Veröffentlichte Datenbestände können von Nutzenden über eine Facettensuche auf Basis des gesamten Metadatenbestands durchsucht werden. Dabei setzt CKAN auf die Suchplattform Solr. Als Persistenzschicht – also zur dauerhaften Speicherung und Verwaltung der Daten – kommt eine PostgreSQL Datenbank zum Einsatz. Darüber hinaus verfügt CKAN standardmäßig über eine Schnittstelle, die die Daten im JSON-Format exportiert.
Über Erweiterungen, sogenannte Extensions, lassen sich weitere Funktionalitäten integrieren. Extensions umfassen beispielsweise die Festlegung von eigenen Schemata für Metadaten oder die Integration von Harvestern zum Abruf von Datenkatalogen, die dem Standard DCAT-AP.de entsprechen.
Creative Commons ist eine gemeinnützige Organisation, die ein Set von sechs standardisierten Lizenzverträgen entwickelt und pflegt. Diese Lizenzen, bekannt als Creative-Commons-Lizenzen (oder kurz CC-Lizenzen), ermöglichen es Urheberinnen und Urhebern, ihre Werke kontrolliert zur Nachnutzung freizugeben.
Viele große Plattformen und Institutionen, wie Wikipedia und Flickr, unterstützen und nutzen CC-Lizenzen. Dies hat auch im Open-Data-Kontext zu ihrer weiten Verbreitung und Akzeptanz beigetragen. Eine Übersicht der CC-Lizenzen finden Sie hier.
Bei CSV (Comma-separated values) handelt es sich um ein offenes, nicht proprietäres Dateiformat. Textdateien dieses Formats sind an der Dateiendung ".csv" erkennbar. Es dient der Speicherung und dem Austausch von einfach strukturierten Daten und ist maschinenlesbar.
Unter anderem können darin Tabellen oder Listen abgebildet werden. Die einzelnen Datensätze oder Zeilen werden dabei durch einen Zeilenumbruch getrennt. Spalten beziehungsweise Datenfelder werden in der Regel durch ein Komma getrennt, wobei auch andere Trennzeichen wie Semikolon, Doppelpunkt, Tabulatorzeichen (in diesem Fall auch als TSV oder Tab-separated values bezeichnet) oder Leerzeichen möglich sind. Das Dateiformat CSV kann von gängigen Tabellenkalkulations-Programmen geöffnet und verarbeitet werden.
Für das Dateiformat CSV existiert kein allgemeiner Standard, jedoch wird es in den RFCs (Requests for Comments) 4180 und 7111 grundlegend beschrieben.
Der Begriff Datenformat beschreibt, wie Daten strukturiert, dargestellt und interpretiert werden. Er kann dazu genutzt werden, das Format einzelner Datenfelder zu beschreiben. Beispiele umfassen Zeichenketten, Ganz- beziehungsweise Gleitkommazahlen und boolesche Ausdrücke.
Oft wird der Begriff Datenformat auch synonym mit dem Begriff Dateiformat verwendet. Das Dateiformat legt die, vom Inhalt abhängige innere Struktur einer Datei fest. Das Dateiformat lässt sich anhand der Dateinamenserweiterung (zum Beispiel.pdf, .txt, .csv) erkennen. Über das Dateiformat kann ein Betriebssystem Dateien Anwendungen zuordnen, die sie interpretieren können.
Im Kontext von Open Data ist bei den verwendeten Dateiformaten wichtig zu unterscheiden, ob Sie maschinenlesbar sind.
Dateninventur bezeichnet den systematischen Prozess, um Datenbestände innerhalb einer Organisation zu überprüfen und zu dokumentieren. Dabei werden nicht die Datensätze selbst gesammelt, sondern die Metadaten beziehungsweise Informationen zu den Datensätzen. Ziel ist es, einen vollständigen Überblick über die vorhandenen Datensätze, ihre Qualitäten und Eigenschaften zu erhalten. Auf der Basis einer Dateninventur kann beispielsweise entschieden werden, welche Daten als offene Daten bereitgestellt werden sollten.
Fähigkeit, Daten kritisch zu bewerten, ihre Zuverlässigkeit zu beurteilen und fundierte Entscheidungen auf ihrer Basis zu treffen.
Teil eines Daten-Ökosystems für die sichere und reibungslose Datenbereitstellung und -nutzung. Der Europäische Datenraum zielt auf den Aufbau eines Binnenmarkts für Daten ab, um Innovation, Wirtschaftswachstum und die Umsetzung datenbasierter Lösungen auf europäischer Ebene zu fördern.
Grundsätzlich beschreibt der Begriff "Datensatz" eine Sammlung von Daten bzw. Informationen. In der Softwareentwicklung versteht man darunter eine logisch angeordnete Sammlung von inhaltlich zusammenhängenden Datenfeldern. Die logische Struktur dieser Sammlung dient der Beschreibung von Entitäten aus der realen Welt. Die einzelnen Datenfelder beschreiben ihre Eigenschaften.
Im Rahmen von open.rlp werden beide Konzepte aufgegriffen. In CKAN setzt sich ein Datensatz aus Metadaten und Ressourcen zusammen. Bei den Metadaten handelt es sich um eine strukturierte Sammlung von Datenfeldern, die zusätzliche Informationen zu den eigentlichen Daten liefern. Die eigentlichen Daten werden durch Ressourcen repräsentiert. In der Regel verlinkt open.rlp die Ressourcen.
Datenstrukturen sind ein grundlegender Baustein der Programmierung. Sie dienen der Speicherung und Organisation von Daten. Zugehörige Operationen ermöglichen den Zugriff und die Verwaltung.
Ein einfaches Beispiel für eine Datenstruktur bildet eine Liste beziehungsweise ein Array. In einem Array werden mehrere Werte (in der Regel desselben Typs) oder Objekte gespeichert, die dann über einen Variablennamen abrufbar sind.
Über einen Index ist das Lesen und Schreiben der einzelnen Elemente möglich. Bei einem eindimensionalen Array spricht man von einem Vektor. Werden als einzelne Elemente in einem Array weitere Arrays gespeichert, nutzt man auch die Bezeichnung als Matrix.
Ein Vorteil der Verwendung von Datenstrukturen ist die Möglichkeit der Anwendung von komplexen Operationen wie das Sortieren und Durchsuchen.
Zusammenspiel von verschiedenen Akteuren, Ressourcen und Technologien, die an der Erzeugung, Erfassung, Speicherung, Analyse und Nutzung von Daten beteiligt sind.
DCAT-AP.de ist das deutsche Metadatenmodell für den Austausch offener Verwaltungsdaten zwischen Datenportalen in Deutschland und wird von kommunalen bis zu nationalen Plattformen wie GovData angewendet. DCAT-AP.de ermöglicht eine einheitliche Beschreibung und fördert damit die Auffindbarkeit von Daten sowie deren Transparenz und Nachnutzung.
Das Modell basiert auf dem europäischen Standard DCAT-AP (Data Catalogue Application Profile). DCAT-AP.de erweitert diesen Standard, um spezifische Anforderungen und Besonderheiten von Daten aus dem Umfeld deutscher Behörden zu berücksichtigen.
Seit Juni 2018 ist es der verbindliche Standard für den Metadatenaustausch zwischen deutschen Open Data-Portalen, festgelegt vom IT-Planungsrat. Alle Datenbereitstellenden, die Daten an das zentrale GovData-Portal liefern, müssen diesen Standard einhalten. Dies stellt sicher, dass die Metadaten konsistent und interoperabel sind. Der Metadatenkatalog auf open.rlp wendet ebenfalls DCAT-AP.de an.
DCAT-AP und DCAT-AP.de sind RDF-Vokabulare. Die Vorgaben für die Einhaltung des Standards sind in eine Spezifikation, ein Konventionshandbuch und ein URI-Konzept gegliedert.
Eine Internet-Plattform des Landes Rheinland-Pfalz, die die landeseigene Transparenz-Plattform und das Open-Government-Data-Portal des Landes zusammenführt.
Prozess, bei dem Gesellschaften digitale Technologien in ihre Geschäftsmodelle und Prozesse integrieren, um Innovation, Effektivität und Effizienz zu fördern.
Prozess der Umwandlung analoger Informationen, Prozesse oder Systeme in digitale Formate oder Integration digitaler Technologien.
Das Akronym FAIR steht für Findable (Auffindbar), Accessible (Zugänglich), Interoperable (Interoperabel) und Reusable (Wiederverwendbar).
Unzureichende Datenerfassung und -analyse in Bezug auf das Geschlecht, die die Identifikation von geschlechtsspezifischen Unterschieden – in der Regel zuungunsten von Frauen – erschwert (zum Beispiel in der Medizin, bei der Produktgestaltung oder bei der Gestaltung des öffentlichen Raumes).
GovData ist das Metadatenportal der deutschen Verwaltung und wird von der Föderalen IT-Kooperation (FITKO) betrieben. Es bietet einen freien und zentralen Zugang zu offenen Verwaltungsdaten aus Bund, Ländern und Kommunen sowie zu Daten von Unternehmen der Daseinsvorsorge, Hochschulen und Forschungseinrichtungen.
Die Anlieferung an GovData ist nicht verpflichtend, jedoch schreiben viele Bundesländer in ihren E-Government-, Transparenz- oder Open-Data-Gesetzen vor, dass Daten an GovData geliefert werden sollen. Daher liefern verschiedene Stellen, darunter auch open.rlp, Metadaten an das Portal. GovData wiederum übermittelt alle empfangenen Metadaten an data.europa.eu, dem Open-Data-Portal der EU.
Gesamtheit von Regeln und Mechanismen zur Steuerung, Überwachung und Entscheidungsfindung, um Verantwortlichkeit, Transparenz und effektive Entscheidungsprozesse sicherzustellen.
Ein Graph ist eine abstrakte Datenstruktur, die dazu dient, eine Menge von Objekten und deren Beziehungen untereinander abzubilden. Die Objekte werden dabei auch als Knoten, die Verbindungen als Kanten bezeichnet. Verbindungen zwischen den Knoten können gerichtet und ungerichtet sein. Zusätzlich ist es möglich, die Knoten und Kanten durch Attribute näher zu beschreiben.
Der Vorteil eines Graphen ist, dass die Beziehungen zwischen den Objekten im Fokus stehen. So lassen sich selbst komplexe Strukturen abbilden.
Ein Harvester ist eine Softwarekomponente, über die zeitgesteuert (Meta)daten aus einem anderen Katalog oder einer anderen Quelle abgerufen und in ein Metadatenportal importiert werden können. open.rlp nutzt verschiedene Harvester, um den eigenen Metadatenkatalog aus den Katalogen der verschiedenen Liefersysteme zusammenzustellen.
Die Liefersysteme stellen dafür Endpunkte (APIs) bereit, die während des Harvesting-Prozesses einzeln angesteuert werden. Im Rahmen des Harvestings kann bei Bedarf eine Transformation der Metadaten von einer Datenstruktur in DCAT-AP.de konformes RDF/XML durchgeführt werden.
Hochwertige Datensätze (High Value Datasets), kurz HVD, sind ausgewählte Daten des öffentlichen Sektors, die die Europäische Kommission aufgrund ihres hohen sozioökonomischen Potenzials als besonders wertvoll für Gesellschaft, Umwelt und Wirtschaft einstuft.
Hochwertige Datensätze werden aktuell in sechs Kategorien unterteilt:
- Geodaten,
- Erdbeobachtung und Umwelt,
- Meteorologie,
- Statistik,
- Unternehmen und
- Mobilität
Die Bereitstellung solcher Daten soll beispielsweise als Grundlage für Forschung oder Softwareentwicklung Innovationen fördern, die Effizienz öffentlicher Dienstleistungen verbessern und die Transparenz gegenüber der Zivilgesellschaft erhöhen. Seit dem 9. Juni 2024 ist die öffentliche Verwaltung verpflichtet, ihre hochwertigen Datensätze auf eine bestimmte Art und Weise zu veröffentlichen. Mehr zum Thema hochwertige Datensätze in Rheinland-Pfalz und darüber hinaus erfahren Sie hier.
Fähigkeit verschiedener Systeme und Geräte, nahtlos miteinander zu kommunizieren, Informationen auszutauschen und zusammenzuarbeiten.
Teilgebiet der Informatik und Überbegriff für Anwendungen, bei denen Maschinen menschenähnliche Intelligenzleistungen erbringen. Darunter fallen unter anderem Algorithmen des regelbasierten Lernens, das maschinelle Lernen (Machine Learning) und das Verarbeiten natürlicher Sprache (Natural Language Processing). Die Grundidee besteht darin, durch Maschinen eine Annäherung an wichtige Funktionen des menschlichen Gehirns zu schaffen. Diese betreffen das Lernen, Urteilen und Problemlösen.
Linked Open Data beschreibt offene Daten, welche über eindeutige Identifikationsschlüssel verfügen und über Standardinternetprotokolle abgerufen werden können (siehe auch 5-Sterne Open-Data-Modell von Sir Tim Berners-Lee).
Man spricht von Maschinenlesbarkeit, wenn Informationen in einem Format gespeichert werden, das von einem Computer ohne menschliches Eingreifen gelesen und verarbeitet werden kann, ohne dass die semantische Bedeutung verloren geht. Dabei lassen sich grob zwei Kategorien unterscheiden: Erstens menschenlesbare Daten, die mit einer Auszeichnung ("Markup") versehen sind, sodass auch eine Maschinenlesbarkeit gewährleistet ist. Zweitens Dateiformate, die primär für die Verarbeitung durch und den Austausch zwischen Maschinen vorgesehen sind.
Maschinenlesbarkeit wird häufig mit der digitalen Verfügbarkeit verwechselt. Dokumente können beispielsweise online als PDF (Portable Document Format) verfügbar sein und sind dadurch leichter auffindbar. Dies bedeutet aber nicht automatisch, dass Computer die darin enthaltenen Informationen lesen und weiterverarbeiten können.
Informationen aus verschiedenen Quellen des Mobilitätssektors, die Einblicke in das vorhandene Mobilitätsangebot und das Verhalten, die Bewegungsmuster und die Nutzung von Verkehrsmitteln liefern, um beispielsweise Verkehrsplanung, Verkehrssicherheit oder individuelle Reiseentscheidungen zu verbessern.
Kontinuierliche Überwachung eines Systems, Prozesses oder Zustands, um relevante Daten oder Informationen zu sammeln und mögliche Veränderungen, Fehler oder Abweichungen zu erkennen.
Das Open-by-Default-Prinzip besagt, dass Daten standardmäßig als Open Data bereitgestellt werden sollen, sofern diese nicht personenbezogen oder aus anderen Gründen schützenswert sind.
Das Open-by-Design-Prinzip bedeutet, dass offene Daten weitgehend automatisiert als Nebenprodukt von Verwaltungshandlungen erzeugt und bereitgestellt werden. Das impliziert, dass Anforderungen zur Bereitstellung und Erzeugung von offenen Daten bereits in der Planungsphase eines Projekts oder Produkts, zum Beispiel zur Neubeschaffung von IT-Lösungen, berücksichtigt werden.
Daten, die frei zugänglich sind und ohne Einschränkung für unterschiedliche Zwecke verwendet werden können. In diesem Dokument wird die Bezeichnung Open Data gleichbedeutend mit Open Government Data verwendet.
Verwaltungsdaten, die frei zugänglich sind und ohne Einschränkung für unterschiedliche Zwecke verwendet werden können. In diesem Dokument wird die Bezeichnung Open Data gleichbedeutend mit Open Government Data verwendet.
Ansatz, bei dem Regierungen Transparenz, Partizipation und Zusammenarbeit fördern, indem sie den Bürgerinnen und Bürgern den Zugang zu Informationen über politische Entscheidungsprozesse erleichtern und sie zur aktiven Beteiligung an der Gestaltung von Politik und Verwaltung ermutigen.
Eine Open-Data-Community ist eine Gruppe von Menschen und Organisationen aus der Zivilgesellschaft, Wirtschaft, Wissenschaft oder Verwaltung, die offene Daten nutzt und bereitstellt. Die Community ist Teil des größeren Open-Data-Ökosystems.
Zusammenspiel von verschiedenen Akteuren, Ressourcen und Technologien, die an der Erzeugung, Erfassung, Speicherung, Analyse und Nutzung von offenen Daten beteiligt sind mit dem Ziel, daraus gesellschaftlichen Mehrwert und Innovation zu generieren.
Das Open-Government-Data-Portal Rheinland-Pfalz bietet einen zentralen Zugang zu offenen Daten und Informationen aus den rheinland-pfälzischen Verwaltungen.
RDF (Resource Description Framework) ist ein vom W3C (World Wide Web Consortium) entwickeltes Standardmodell für den Datenaustausch im Netz. Es wurde ursprünglich als Vokabular zur Beschreibung von Metadaten geschaffen.
Die Struktur von RDF setzt sich aus sogenannten Triples zusammen, die aus Subjekt, Prädikat und Objekt bestehen. Triple bilden logische Aussagen über Entitäten. Indem das Objekt eines Triple das Prädikat eines anderen Triple bilden kann, entsteht ein gerichteter Graph.
Eine Repräsentation von Subjekt, Prädikat und Objekt erfolgt in der Regel durch URIs, wobei es sich bei dem Objekt auch um ein Literal (zum Beispiel eine Zeichenkette) handeln kann.
Zur Darstellung von RDF existieren verschiedene Formate zur Serialisierung. Gängige Formate sind zum Beispiel RDF/XML und Turtle. Die Daten von open.rlp werden über einen Endpunkt als RDF/XML an das übergeordnete Portal GovData ausgeleitet.
Fähigkeit eines Systems, einer Person oder einer Organisation, sich an Veränderungen anzupassen, Herausforderungen zu bewältigen und Krisen zu antizipieren.
Das Semantic Web wird auch als Web 3.0 bezeichnet. Es basiert auf dem Gedanken, dass Daten und Informationen um maschinenlesbare Metadaten angereichert werden, die es Computern ermöglichen, eine sinnvolle Interpretation durchzuführen. Darüber hinaus sollen Daten über einzelne Anwendungen hinaus ausgetauscht und nachgenutzt werden können.
Das Semantic Web baut dabei zur Verwirklichung seiner Ziele auf eine Reihe von Standards auf. Für die Identifikation und den Verweis auf weitergehende Daten kommen URIs zum Einsatz. RDF dient als Modell zur Repräsentation von Aussagen und soll den Datenaustausch gewährleisten. Daneben existieren weitere Standards, die die Deklaration von Schemata und das Definieren von Ontologien ermöglichen.
Sammelbegriff für Entwicklungskonzepte von Städten und Regionen, in denen fortschrittliche Technologien der Datenerhebung und -verarbeitung eingesetzt werden, um die Lebensqualität für ihre Bewohnerinnen und Bewohner zu verbessern.
Einsatz digitaler Technologien wie zum Beispiel digitaler Farm-Management-Werkzeuge, Künstlicher Intelligenz, Sensorik, Drohnen oder Robotik in der Landwirtschaft, um die ökonomische, ökologische und soziale Nachhaltigkeit zu verbessern sowie präzisere Entscheidungen bei der Bewirtschaftung von Feldern oder der Tierhaltung zu ermöglichen.
Eine Tabelle ist eine strukturierte Darstellung von Daten in Zeilen und Spalten. Jede Zeile stellt einen Datensatz dar, während die Spalten die verschiedenen Attribute oder Merkmale dieser Datensätze beschreiben. Eine Vorspalte und ein Tabellenkopf können zusätzliche Informationen enthalten. Tabellen erleichtern die Übersichtlichkeit und den Vergleich von Informationen.
Sie werden in verschiedenen Bereichen eingesetzt, wie in Datenbanken, Statistiken, Finanzberichten und wissenschaftlichen Arbeiten. Sie können in Form von Tabellenkalkulationen (z.B. Excel) oder in Textdokumenten erstellt werden. Ein maschinenlesbares Format für Tabellen ist CSV.
Die Abkürzung URL steht für "Uniform Resource Locator" und ist eine Unterart der Uniform Resource Identifiers (URIs). Eine URL identifiziert eine Ressource im Internet und beschreibt gleichzeitig, wo sie im Internet verortet ist.
Ein Beispiel dafür ist die URL https://open.rlp.de, die die Transparenz- und Offene-Daten-Plattform des Landes Rheinland-Pfalz aufruft. Diese Plattform wird kurz als "open.rlp" bezeichnet. Dies kann als Triple in RDF ausgedrückt werden:
<https://open.rlp.de> <http://purl.org/dc/terms/title> "open.rlp".
Die URI http://purl.org/dc/terms/title definiert, dass "open.rlp" der Titel der Ressource nach dem Dublin Core Metadatenschema ist. Eine URI kann gleichzeitig eine URL sein.
Über ein Netzwerkprotokoll wie HTTPS kann auf die Ressource über eine URL zugegriffen werden. Im allgemeinen Sprachgebrauch werden URLs auch als Internetadressen oder Webadressen bezeichnet.
XML (eXtensible Markup Language) ist eine Auszeichnungssprache zur Speicherung und dem Austausch von Informationen zwischen Maschinen. Der Vorteil von XML liegt dabei darin, dass es für Mensch und Maschine lesbar und softwareunabhängig ist. Ihre Syntax ähnelt der Syntax von HTML, jedoch liefert XML keine Funktionalität zur Darstellung der Inhalte, sondern dient lediglich der deskriptiven Auszeichnung.
Durch die Verwendung von Namensräumen (Namespaces) lassen sich Namenskonflikte bei der Zusammenführung verschiedener Datenbestände verhindern. Ein Namensraum wird durch eine URI (Uniform Resource Identifier) definiert, die eindeutig ist und somit sicherstellt, dass Namen innerhalb dieses Namensraums nicht mit Namen aus anderen Namensräumen kollidieren. Dieses Konzept ist besonders bei der Darstellung von RDF als XML-Dokument relevant, weil die RDF-Vokabulare durch Namensräume angegeben werden. Diese Form der Serialisierung von RDF wird auch RDF/XML genannt und wird beispielsweise für die Bereitstellung von Metadaten im Rahmen von DCAT-AP.de verwendet.