Definition des Arbeitsverzeichnisses und Einlesen von CSV-Dateien

In der Datenanalyse mit R ist es wichtig, das Arbeitsverzeichnis richtig zu setzen und zu verstehen, wie man Daten aus CSV-Dateien einliest. Hier wird erklärt, wie Sie Ihr Arbeitsverzeichnis definieren und anschließend CSV-Dateien einlesen.

Festlegen des Arbeitsverzeichnisses

Das Arbeitsverzeichnis in R ist der Ordner, in dem R nach Dateien sucht und in den es Dateien schreibt, wenn kein anderer Pfad angegeben wird. Sie können Ihr Arbeitsverzeichnis mit der Funktion setwd() festlegen. Hier ist ein Beispiel:

setwd("C:/Benutzer/IhrName/Dokumente/MeinProjekt")

Dieser Befehl setzt das Arbeitsverzeichnis auf den angegebenen Pfad. Sie können das aktuelle Arbeitsverzeichnis mit getwd() überprüfen:

getwd()

Definition des Dateipfads

Nachdem Sie das Arbeitsverzeichnis festgelegt haben, ist es einfacher, Dateipfade zu definieren, da Sie relative Pfade in Bezug auf dieses Verzeichnis verwenden können. Ein Dateipfad ist der Ort, an dem Ihre Datei gespeichert ist. Sie können absolute oder relative Pfade verwenden:

  • Absoluter Pfad: Der vollständige Pfad von der Wurzel des Dateisystems (z.B. C:/Benutzer/Name/Dokumente/MeinProjekt/ihre_datei.csv).
  • Relativer Pfad: Der Pfad relativ zum aktuellen Arbeitsverzeichnis in R (z.B. ./ihre_datei.csv).

Ein relativer Pfad ist oft einfacher zu verwenden, besonders wenn Sie Ihr Projekt auf verschiedenen Computern oder mit anderen teilen.

Einlesen von Daten mit read.csv

CSV-Dateien sind einfache Textdateien, in denen Daten durch Kommas oder andere Zeichen getrennt sind. Zum Einlesen einer CSV-Datei verwenden Sie:

daten <- read.csv("pfad/zu/ihrer_datei.csv")
head(daten)

Wichtige Argumente der read.csv()-Funktion

Der sep-Parameter

Der sep-Parameter definiert das Trennzeichen zwischen den Spalten in der Datei. Standardmäßig ist dieser auf ein Komma gesetzt (sep = ","), aber Sie können ihn an das Format Ihrer Daten anpassen. Wenn Ihre Daten beispielsweise durch Semikolons getrennt sind, sollten Sie sep = ";" verwenden:

daten <- read.csv("pfad/zur/ihrer_datei.csv", sep = ";")

Der header-Parameter

Der header-Parameter gibt an, ob die erste Zeile der Datei Spaltenüberschriften enthält (header = TRUE) oder nicht (header = FALSE). Standardmäßig nimmt R an, dass die erste Zeile Überschriften enthält:

daten <- read.csv("pfad/zur/ihre_datei.csv", header = TRUE)

Falls Ihre CSV-Datei keine Kopfzeile hat, sollten Sie header = FALSE setzen.

Einlesen von Daten mit read.table

Neben read.csv gibt es in R auch die read.table-Funktion, die eine größere Flexibilität beim Einlesen von Datentabellen bietet. Diese Funktion ist besonders nützlich, wenn Sie mit Dateiformaten arbeiten, die nicht standardmäßig durch Kommas getrennt sind oder komplexere Formatierungen haben.

Wichtige Argumente der read.table()-Funktion

  • file: Der Pfad zur Datei, die eingelesen werden soll.
  • header: Gibt an, ob die erste Zeile Spaltenüberschriften enthält (TRUE oder FALSE).
  • sep: Das Trennzeichen zwischen den Datenfeldern (z.B. ",", ";", "\t" für Tabulator).
  • quote: Zeichensatz zum Kennzeichnen von Textfeldern (standardmäßig \").
  • dec: Das Zeichen für Dezimaltrennung (z.B. "," in vielen europäischen Ländern).

Beispiel: Einlesen einer Tabelle

Stellen Sie sich vor, Sie haben eine Tab (Leerzeichen) -getrennte Datei (tab_separated_data.txt), die Sie in R einlesen möchten. Der folgende Befehl demonstriert, wie Sie read.table dafür nutzen können:

daten <- read.table("pfad/zur/tab_separated_data.txt", header = TRUE, sep = "\t")
head(daten)

In diesem Beispiel wird angenommen, dass die erste Zeile der Datei Überschriften enthält (header = TRUE) und dass die Felder durch Tabs (Leerzeichen) getrennt sind (sep = "\t").