2  Grundlagen

2.1 Projektverzeichnisse auf den FDZ-Servern

Jedes Forschungsprojekt erhält pro FDZ-Datenprodukt ein eigenes Verzeichnis (fdzXXXX). Verschiedene FDZ-Datenprodukte können nicht gemeinsam verwendet oder auf Einzelbeobachtungsebene zusammengeführt werden, auch wenn sie im gleichen Projekt genutzt werden. Falls Sie mehr als ein FDZ-Datenprodukt nutzen, können Sie selbst herausfinden, welches FDZ-Datenprodukt in welchem Projektverzeichnis abgelegt ist. Erstellen Sie sich dafür im Rahmen der Datenfernverarbeitung Übersichtslisten zu den vorliegenden Dateien je Projektverzeichnis. Ein Beispiel finden Sie in den FDZ-Templates (master.do).

Jedes Projektverzeichnis enthält die in Tabelle 1 aufgelisteten Unterverzeichnisse. Das Anlegen weiterer Verzeichnisse oder Unterverzeichnisse ist nicht erlaubt.

Tabelle 1: Unterverzeichnisse im Projektverzeichnis

Tabelle 2.1: Subdirectories in the project directory
Name Beschreibung Zugriff
orig In diesem Verzeichnis werden alle beantragten Originaldaten bereitgestellt. Auch ggf. eingesendete Aggregatdaten (siehe Kapitel 2.2.3) befinden sich hier. Für dieses Verzeichnis erhalten Sie nur Leserechte. Auf Daten in den Verzeichnissen orig und data können Programme auch über JoSuA zugreifen.
data Hier werden alle generierten Datensätze abgelegt. Pro Verzeichnis sind maximal 30 GB erlaubt. Sollte das Maximum überschritten werden, muss der Speicherbedarf reduziert werden. Ein Beispiel dazu finden Sie in den FDZ-Templates. Auf Daten in den Verzeichnissen orig und data können Programme auch über JoSuA zugreifen.
prog In diesem Ordner befinden sich alle Skripte (z.B. Stata-Do-Files, R-Skripte, .m-Files) für den Gastaufenthalt sowie ggf. weitere Dateien (z. B. ado-Dateien, R-Packages). Skripte und Ergebnisdateien werden nicht automatisch zwischen JoSuA und dem Projektverzeichnis abgeglichen.
log Dieser Ordner enthält alle Ergebnisdateien des Gastaufenthalts, inklusive Grafiken. Skripte und Ergebnisdateien werden nicht automatisch zwischen JoSuA und dem Projektverzeichnis abgeglichen.
doc Dieser Ordner dient zur Erstellung von Notizen während des Gastaufenthalts. Diese Dokumente stehen nur im Gastaufenthalt zur Verfügung und können nicht herausgegeben werden.

Wenn Sie in Ihrem Projekt die Datenfernverarbeitung per Remote-Desktop nutzen, dann enthält Ihr Projektverzeichnis weitere Unterverzeichnisse. Diese werden in Kapitel 6 beschrieben.

2.2 Weitere Ressourcen

2.2.1 Ado-Files (Stata)

  • Ado-files können nicht aus dem Internet heruntergeladen werden. Das FDZ stellt die Pakete des Statistical Software Components (SSC) Archive (im Original gehostet am Boston College Department of Economics (BOCODE) und bereitgestellt von RePEc) in seinem Netzwerk zur Verfügung (siehe Liste unter https://doku.iab.de/fdz/access/stata_ado.pdf).

  • Die Pakete können in der FDZ-Infrastruktur genutzt werden. Verwenden Sie zur Installation der Pakete folgenden Befehl, der alle zugehörigen Dateien in Ihr prog-Verzeichnis kopiert:

fdzinstall packagename

Dieser Befehl kopiert alle relevanten Dateien in das prog-Verzeichnis des jeweiligen Projekts. Der Befehl sollte pro Projektverzeichnis nur einmal verwendet werden, da wiederholte Ausführungen zu unfreiwilligen Updates der ados führen können. Die Pakete stehen anschließend im prog-Verzeichnis bereit und sind automatisch in Stata eingebunden. Die Installation und Verwendung der Ado-Files im Ordner prog stehen im Gastaufenthalt und via JoSuA gleichermaßen zur Verfügung.

  • Die im FDZ-Gästenetz bereitgestellte Ado-File-Sammlung wird regelmäßig aktualisiert. Dabei werden die von Nutzenden in prog-Verzeichnisse kopierten Dateien vom FDZ nicht aktualisiert. Um eine etwaige neuere Version eines ado-Pakets ins prog-Verzeichnis zu kopieren, muss der Befehl

fdzinstall packagename

erneut ausgeführt werden. Die vorherige Version des Ado-Files wird dann ersetzt.

Um bei etwaigen Problemen durch Updates auf die vorherige Version zurückzukehren, bietet fdzinstall die repo()-Option, mit welcher ein vorheriger Stand der Ado-File-Sammlung aufgerufen werden kann. Eine Liste verfügbaren Versionen findet sich hier (https://doku.iab.de/fdz/access/stata_ado.pdf).

  • Wenn Sie Ado-Files verwenden möchten, die nicht Teil des SSC-Archives sind bzw. zu denen eine neue Version noch nicht am FDZ zur Verfügung steht, laden Sie diese bitte in JoSuA hoch (nur Textdateien wie bspw. .ado, .do, …). Ado-Files werden im Reiter Projects (siehe Kapitel 10.4), unter Resources, einmalig hochgeladen. Sie stehen dann für die Datenfernverarbeitung in JoSuA zur Verfügung. Hier hochgeladene Ado-Files können danach auch in die Gastaufenthalts- und Remote-Desktop-Umgebungen heruntergeladen und verwendet werden.

  • Wenn Sie Ado-Files verwenden möchten, die nicht per Resources hochgeladen werden können (z.B. weil sie .mlib oder .plugin Dateien enthalten), schicken Sie diese mindestens drei Arbeitstage vor Beginn des Gastaufenthalts per E-Mail an das FDZ-Postfach. Auch diese Ado-Files werden im Ordner prog gespeichert.

  • .mo-Dateien können leider nicht geprüft werden. Bitte erzeugen Sie derartige Dateien im Gästenetz des FDZ neu. Bei Ado-Files gibt es dazu i.d.R. Do-Files, die die Objekte definieren und "function" oder "fun" im Namen tragen. Folgendermaßen können .mo-Dateien via JoSuA (unabhängig vom Modus) in Ihrem Projektverzeichnis erzeugt werden:

    • Erstellen/Anpassen des Do-Files, das die .mo-Datei erzeugt; dabei ist zu beachten:

      • Speichern des erstellten Objekts mit einem Befehl wie diesem:
        mata mosave xyz(),replace dir($localprog/x)`
      • Dabei steht xyz für den Namen des erstellten Objekts. Der Buchstabe hinter "$localprog/" steht für einen etwaigen Unterordner in dem prog-Ordner in Ihrem Projektverzeichnis, in dem das Ado-File die .mo-Datei ggf. erwartet (also z.B. "$localprog/x" für eine Datei xyz.mo).
      • Erzeugen Sie den ggf. nötigen Unterordner in Ihrem prog-Ordner vor dem Speichern der .mo-Datei mit einem solchen Befehl:
        capture mkdir $localprog/x
    • Ausführen des relevanten Do-files z.B. durch Aufruf in einem master.do via JoSuA

    • Falls Sie die .mo-Dateien während eines Gastaufenthalts erstellen wollen, nutzen Sie bitte $prog/x statt $localprog/x.

2.2.2 R-Packages

R-Packages können nicht aus dem Internet heruntergeladen oder über JoSuA hochgeladen werden. Bitte wenden Sie sich per E-Mail an das FDZ, wenn Sie R-Packages benötigen, die nicht im Gästenetz verfügbar sind.

2.2.3 Zuspielen externer aggregierter Datensätze

  • Externe Daten ohne jeden Personen- oder Betriebsbezug (z.B. Anteil landwirtschaftlicher Fläche an Gesamtfläche eines Kreises, Distanz zwischen Hauptstadt eines Herkunftslandes und Berlin, tagesgenauer Mondkalender) sind unbedenklich und können immer zugespielt werden.

  • Das Zusammenspielen von personen-/betriebsbezogenen Einzelbeobachtungen ist nicht möglich bzw. nicht erlaubt!

  • Externe Kenngrößen auf aggregiertem Niveau (z. B. Arbeitslosenquoten nach Kreisen) dürfen den Daten zugespielt werden, wenn sie den Datenschutzrichtlinien des FDZ entsprechen. Jeder aggregierte Wert muss auf mindestens 3 Einzelbeobachtungen beruhen (im Beispiel also mindestens 3 Arbeitslose und 3 Nicht-Arbeitslose). Bei Aggregatgrößen aus Quellen der amtlichen Statistik ist dies in der Regel der Fall. Der Datensatz muss Variablen enthalten, die die Anzahl der zugrundeliegenden Beobachtungen angeben. Bitte geben Sie ausschließlich absolute Häufigkeiten an (z.B. Anzahl Männer und Anzahl Frauen anstatt des Frauenanteils). Relative Häufigkeiten lassen eine Überprüfung der Einhaltung des Datenschutzes nicht ohne Weiteres zu. Die Berechnung von Anteilswerten sollte erst in der FDZ-Umgebung erfolgen.

  • Die Kenngrößen müssen dem FDZ mit einer Beschreibung des Datensatzes (inkl. der Merkmale, der Aggregationsebene und der Quellenangabe) als Stata-Datensatz übermittelt werden (). Bitte komprimieren Sie den aggregierten Datensatz vor der Übermittlung an das FDZ mit dem Befehl compress. Eingeschickte Datensätze im Excel-Format können nicht zur Verfügung gestellt werden. Die Übermittlung aggregierter Kennzahlen innerhalb von Skripten ist nicht zulässig.

  • Nach Prüfung und Freigabe durch das FDZ werden die externen Datensätze im Verzeichnis orig zur Verfügung gestellt. Bitte stimmen Sie die Zuspielung von Aggregatdaten frühzeitig mit dem FDZ ab. Die Bereitstellung externer aggregierter Daten in Ihrem Projektverzeichnis kann nach erfolgreicher Prüfung bis zu 3 Arbeitstage dauern.

  • Sollten Sie Datensätze aus den zentralen Arbeitshilfen des FDZ benötigen, dann schreiben Sie bitte eine E-Mail mit den Bezeichnungen der gewünschten Datensätze an das FDZ-Postfach. Wir stellen Ihnen die Datensätze dann innerhalb von drei Arbeitstagen in Ihrem orig Ordner zur Verfügung. Die verfügbaren Arbeitshilfen des FDZ sind auf unserer Website unter „Zentrale Arbeitshilfen” einzusehen.

2.3 Einrichtung einer Testumgebung am eigenen Arbeitsplatz

Zur Entwicklung und zum Testen von Skripten empfehlen wir, eine Testumgebung am eigenen Arbeitsplatz aufzubauen, um die Datenfernverarbeitung mit JoSuA oder Ihren Gastaufenthalt bestmöglich vorzubereiten. Im Folgenden erfahren Sie, wie Sie sich außerhalb der FDZ-Infrastruktur eine Testumgebung einrichten, die dem Projektverzeichnis auf den FDZ-Servern entspricht. Wenn Sie auch den Remote-Desktop-Zugang nutzen, können Sie diesen Abschnitt evtl. überspringen.

2.3.1 Einrichtung eines Projektverzeichnisses

  • Richten Sie auf Ihrem PC ein Verzeichnis „fdz[Ihre Projektnummer]” ein.

  • Erstellen Sie in diesem Verzeichnis die Ordner orig, prog, data und log.

  • Erstellen Sie keine Unterordner.

  • In JoSuA und im Gastaufenthalt sind die Globals für Pfadangaben automatisch definiert. Für Ihre eigene Testumgebung müssen Sie die Globals $orig, $data, $prog, $log und ggf. den adopath definieren, bevor Sie die Datei master.do starten. Schreiben Sie diese Global-Definitionen nicht in master.do, sondern in eine Datei profile.do (siehe FDZ-Templates). Diese wird von Stata automatisch ausgeführt und muss nicht durch master.do angesprochen werden. Sie kann beispielsweise im aktuellen Arbeitsverzeichnis abgelegt werden (siehe auch http://www.stata.com/help.cgi?profile). Die Datei profile.do darf nicht in JoSuA hochgeladen werden.

  • Sollten Sie für Ihr Projekt mehr als ein Datenprodukt nutzen, erstellen Sie für jeden Datensatz wie oben beschrieben ein eigenes Projektverzeichnis. Bitte beachten Sie, dass am FDZ kein Datentransfer (d.h. Kopieren oder Verschieben) zwischen diesen Projektverzeichnissen durch die Nutzenden möglich ist.

2.3.2 Download und Vorbereitung der Testdaten

  • Für die meisten durch das FDZ angebotenen Datensätze stellen wir Testdaten zur Verfügung. Diese haben die gleiche Datenstruktur wie die Originaldaten, können aber nicht für Analysen verwendet werden. Bitte beachten Sie die Hinweise zu den jeweiligen Testdaten auf unserer Website.

  • Speichern Sie die Testdaten im Ordner orig.

  • Viele FDZ-Datenprodukte enthalten sensible Merkmale, die gesondert beantragt werden müssen. In den Testdaten sind grundsätzlich alle sensiblen Merkmale enthalten. Sie müssen die Testdaten daher vorab anpassen, je nachdem welche sensiblen Merkmale Sie beantragt haben (siehe FDZ-Template prepare_test_environment.do).

  • Für Erweiterungsmodule werden keine Testdaten zur Verfügung gestellt. Sie können diese ergänzenden Datensätze anhand der Datensatzbeschreibung im Datenreport selbst erstellen. Hierzu müssen Sie beispielsweise Variablen mit Zufallszahlen füllen (siehe FDZ-Template prepare_test_environment.do).

2.3.3 Verwendung der FDZ-Templates

  • Die FDZ-Templates können von der FDZ-Website heruntergeladen werden. Diese sind ausschließlich im Stata-Format verfügbar. Sollten einzelne Berechnungen nicht mit Stata durchführbar sein, halten Sie sich bitte dennoch im Rahmen der anderen Software (z.B. R) an die Grundstruktur dieser Templates.

  • Speichern Sie die Skripte im Ordner prog.

  • Die FDZ-Templates wurden mit dem SIAB-Testdatensatz entwickelt. Sie können die Einrichtung der Testumgebung und die FDZ-Templates testen, indem Sie die SIAB-Testdaten von unserer Website herunterladen. Für andere Datensätze müssen Sie die einzelnen Skripte selbst anpassen.

  • Weitere Informationen zur Nutzung der FDZ-Templates zur Vorbereitung des Arbeitens mit den Testdaten am eigenen Arbeitsplatz und als Basis für die Gestaltung eigener Skripte finden Sie im Zip-Archiv der FDZ-Templates.

2.3.4 Programmpakete und externe Aggregatdaten

  • Um die Zuspielung und Analyse externer Aggregatdaten zu testen, speichern Sie diese Dateien in Ihrer Testumgebung im Ordner orig.

  • Wenn Sie Programmpakete nutzen möchten, müssen diese im Ordner prog gespeichert werden. Siehe hierzu Kapitel 2.2.1.1

2.3.5 Testen der Skripte vor Gastaufenthalt und Datenfernverarbeitung mit JoSuA

  • Überprüfen Sie Ihre Auswertungsprogramme vor Gastaufenthalt und Datenfernverarbeitung mit JoSuA mit Hilfe der auf der FDZ-Website zur Verfügung gestellten Testdaten.

  • Führen Sie die Datei master.do in Ihrer Testumgebung aus.

  • Bitte beachten Sie, dass die Dateigrößen der Testdaten nur einem Teil der Originaldaten entsprechen. Die Originaldaten und aufbereiteten Datensätze sind deutlich größer und Programme laufen dementsprechend länger.

  • Nach erfolgreichem Test laden Sie Ihre Programme unverändert in JoSuA im Internal Use Modus hoch.


  1. Stata sucht standardmäßig in verschiedenen Verzeichnissen nach Ado-Files. Um zu vermeiden, dass beim Testen der Programme Ado-Files eingebunden sind, die im Gastaufenthalt oder bei der Datenfernverarbeitung nicht zur Verfügung stehen, sollte der Suchpfad für die Testumgebung auf $prog eingeschränkt werden (siehe FDZ-Template profile.do).↩︎