1.3 Klassifikation von Daten

  1. Aufgabe im EDV-Prozess
    • Nutzdaten (passive Daten):
      • Stammdaten
      • Änderungsdaten
      • Bestandsdaten
      • Bewegungsdaten
    • Steuerdaten (aktive Daten)

  2. Struktur ("Aggregatzustand")
    • formatierte Daten
    • Text
    • Bild (Grafik)
    • Sprache

  3. Datentyp
    • digitale Daten:
      • alphabetisch
      • numerisch
      • alphanumerisch
    • analoge Daten

  4. Organisationseinheiten ("Hierarchie")
    • Bit
    • Zeichen
    • Feld
    • Segment
    • Satz
    • Datei
    • Datenbank

  5. Datenquelle, Speicherung
    • Primärdaten
    • Sekundärdaten
    • externe Daten
    • interne Daten

  6. Stellung im EDV-Prozess
    • Eingabedaten
    • Ausgabedaten

  7. Vorhandensein
    • Muss-Daten
    • Kann-Daten

  8. Verschlüsselung
    • verschlüsselt (codiert)
    • unverschlüsselt (offen)


1.3.1 Aufgabe der Daten im EDV-Prozess

Definition:
NUTZDATEN (oder PASSIVE DATEN)
sind die zu verarbeitenden Informationen.
STEUERDATEN (oder AKTIVE DATEN)
sind Informationen zur Steuerung der Verarbeitungsvorgänge innerhalb des Computers.

Mit Nutzdaten ist eine Verarbeitung durchzuführen (daher passive Daten), Steuerdaten legen die Art der Verarbeitung fest (daher aktive Daten).
Bezüglich der physikalischen Repräsentation der Information in maschinengerechter Form gibt es keinen Unterschied zwischen Nutz- und Steuerdaten.

Beispiele:
  • Nutzdaten:
    Angaben über Kunden,
    Mengen und Werte der verkauften Artikel
  • Steuerdaten:
    Befehle eines Programms zur Rechnungsschreibung

Nutzdaten lassen sich nach bestimmten Merkmalen noch weiter unterscheiden:

Definition:
STAMMDATEN
sind zustandsorientierte Daten, die der Identifizierung, Klassifizierung und Charakterisierung von Sachverhalten dienen und die unverändert über einen längeren Zeitraum hinweg zur Verfügung stehen.
ÄNDERUNGSDATEN
sind abwicklungsorientierte Daten, die fallweise eine Änderung von Stammdaten auslösen.
BESTANDSDATEN
sind zustandsorientierte Daten, die die betriebliche Mengen- und Wertestruktur kennzeichnen (bzw. beschreiben).
BEWEGUNGSDATEN
sind abwicklungsorientierte Daten, die immer wieder neu durch die betrieblichen Leistungsprozesse entstehen, die laufend in die Vorgänge der DV einfließen und dabei eine Veränderung von Bestandsdaten bewirken.
Definition:
FESTE (oder FIXE) DATEN
sind Daten, die sich nicht verändern können bzw. über einen längeren Zeitraum hinweg unverändert bleiben.
VARIABLE (oder FLIESZENDE) DATEN
sind Daten, die sich jederzeit ändern können.

Die Bestandsdaten unterliegen durch das Betriebsgeschehen einer systematischen Änderung, welche durch die Verarbeitung von Bewegungsdaten bewirkt wird.

Definition:
ÄNDERUNGSDIENST
das Berichtigen, Ergänzen und Löschen von Stammdaten in Datenbeständen durch Änderungsdaten.

Beispiele:
  • Stammdaten:
    Kundenname, Lieferantenname, Adresse, Artikelnummer, Artikelbezeichnung
  • Bestandsdaten:
    Lagermengen von Artikeln, Lieferantenumsätze, Kontensalden in der Finanzbuchhaltung
  • Änderungsdaten:
    Angaben zur Aufnahme oder Streichung von Artikeln, Änderungen von Adressen
  • Bewegungsdaten:
    Warenzugänge, Warenabgänge, Zahlungseingänge, Zahlungsausgänge

Wichtige Beschreibungskriterien für Nutzdaten:
  • Organisationsform (Speicherungsform) und Verarbeitungsform (siehe Kap.12)
  • Größe des Datenbestands (Anzahl Sätze, Satzlänge)
  • Wachstum des Datenbestands (zukünftige Größe (z.B. jahresbezogen: Anzahl neue - Anzahl gelöschte Sätze))
  • Umfang des Änderungsdiensts (neue, gelöschte, geänderte Sätze)
  • Bewegungshäufigkeit (pro Woche, pro Monat, ...)
  • Einsatzhäufigkeit (Verwendungshäufigkeit)

Die folgende Tabelle zeigt wichtige Merkmale von Nutzdaten mit ihren Erscheinungsformen:

MERKMAL DATENART Beispiele
Verwendungszweck (Funktion) Stammdaten
Änderungsdaten
Bestandsdaten
Bewegungsdaten
Adresse
neue Adresse
Kontostand
Zahlungsbetrag
Entstehungsart zustandsorientierte Daten (statisch)
 
 
abwicklungsorientierte Daten (dynamisch)
 
Stammdaten
Bestandsdaten
 
Änderungsdaten
Bewegungsdaten
Veränderbarkeit (Beständigkeit) feste (fixe) Daten
 
 
 
variable (fließende) Daten
Stammdaten
Änderungsdaten
Bewegungsdaten
 
Bestandsdaten


1.3.2 Struktur der Daten

Definition:
FORMATIERTE DATEN
sind Daten, die einen fest vereinbarten Aufbau (fest vereinbarte Struktur) haben.
TEXT
sind Daten, die keinen fest vereinbarten Aufbau haben.
BILDER
sind optische Darstellungen von Informationen auf einer Fläche durch einen unbeschränkten Zeichenvorrat.
   Es gibt BUNTE und UNBUNTE Bilder.
   Es gibt FESTSTEHENDE und BEWEGTE Bilder.
SPRACHE
ist die menschliche Lautsprache.
Die Struktur der Daten legt die Art ihrer Verarbeitung fest, man unterscheidet somit
  • Datenverarbeitung im engeren Sinn - formatierte Daten
  • Textverarbeitung - unformatierte Daten (Text)
  • Bildverarbeitung - grafische Daten (Bilder)
  • Sprachverarbeitung - akustische Daten (Sprache)
Bem.:
Die beiden Begriffe DATENVERARBEITUNG und DATENVERARBEITUNG IM ENGEREN SINN, sowie die Begriffe DATEN und FORMATIERTE DATEN sind im Allg. synonyme Begriffe.
Formatierte Daten sind für die maschinelle Interpretation besonders gut geeignet. Text sind unformatierte bzw. unstrukturierte Daten.

Beispiele:

In der kommerziellen DV werden überwiegend formatierte Daten verarbeitet. In den letzten Jahren nahm aber die Bedeutung der anderen Datenverarbeitungsformen zu.
Die maschinelle Verarbeitung von Sprache wird derzeit (noch) wenig für maschinell lesbare Daten verwendet.


1.3.3 Datentyp

Definition:
DATENTYP eines Datums
bestimmt die Menge der zulässigen Werte, die das Datum annehmen kann bzw. zu der das Datum gehört, und kennzeichnet die Menge von Operationen, die auf das Datenelement anwendbar sind.

Im Allg. muss sich der Programmierer nicht um die physikalische (d.h. technische) Repräsentation der Daten kümmern. In höheren Programmiersprachen kann man die Art der zu verarbeitenden Daten durch Datentypen beschreiben. Jedes Datum hat genau einen eindeutigen Datentyp, den es im Programm zugewiesen bekommt.

Definition:
DIGITALE DATEN
bestehen nur aus Zeichen.
ANALOGE DATEN
bestehen aus kontinuierlichen Funktionen.
digital - diskret (genau festgelegte endlich viele Zustände)
analog - kontinuierlich (theoretisch beliebig genau (je genauer, desto teurer!))

Die Zeichen von digitalen Daten werden bei der maschinellen Verarbeitung durch elektrische Impulse und dergleichen verwirklicht.
Die analoge Darstellung erfolgt durch eine physikalische Größe, die sich proportional zu den Daten ändert, d.h. die eigentlich interessierende Größe (z.B. Temperatur) wird durch eine andere physikalische Größe (z.B. Länge) ersetzt bzw. simuliert.
Analoge Daten kann man DIGITALISIEREN.

Beispiele:
  • Thermometer ... Temperatur = Höhe der Quecksilbersäule
  • Rechenschieber ... Zahlenwert = Länge im logarithmischen Maßstab
  • Tachometer ... Geschwindigkeit = Zeigerstellung
  • Manometer ... Druck = Zeigerstellung
  • Uhr ... Zeit = Winkelstellung des Zeigers

(Gegensatz: Digitalthermometer, Digitaltachometer, Digitaluhr usw.)

Bei digitalen Daten unterscheidet man die folgenden Standarddatentypen:

ALPHABETISCHE DATEN
bestehen nur aus alphabetischen Zeichen
NUMERISCHE DATEN
bestehen nur aus numerischen Zeichen (dienen also zur Darstellung von Zahlen)
ALPHANUMERISCHE DATEN
bestehen zumindest aus alphabetischen und numerischen Zeichen
ALPHAMERISCHE DATEN
bestehen aus Buchstaben, Ziffern und Sonderzeichen
LOGISCHE (BOOL'sche) DATEN
bestehen aus den beiden Wahrheitswerten WAHR und FALSCH (true - false)
Bem.:
Der Begriff "alphamerisch" ist veraltet und wird heute nicht mehr verwendet.
Man vergleiche diese Begriffe mit den bereits definierten Begriffen alphabetische, numerische und alphanumerische Zeichen (siehe Kap.1.1).

Neben diesen Standarddatentypen gibt es noch viele weitere (benutzerdefinierte) Datentypen:

Beispiele:
  • Datentyp WOCHENTAG
... besteht aus den 7 Werten MO, DI, MI, DO, FR, SA, SO
  • Datentyp SPIELKARTENFARBE
... besteht aus den 4 Werten HERZ, KARO, PIK, TREFF

Elektronische ANALOGRECHNER werden nicht für kommerzielle Zwecke eingesetzt. Analoge Daten werden vorwiegend im technisch-naturwissenschaftlichen Bereich verwendet und bei der elektronischen DV meist durch elektrische Spannungen dargestellt.
Einsatzgebiete sind: Lösung von Differentialgleichungen, die Bewegungen beschreiben, Flugbahnen simulieren, Schwingungen berechnen usw.
DIGITALRECHNER werden sowohl im kommerziellen als auch im technisch-naturwissenschaftlichen Bereich eingesetzt (UNIVERSALRECHNER).

HYBRIDRECHNER koppeln die beiden Rechenverfahren (Analog- und Digitaltechnik) miteinander. Sie besitzen sowohl analoge als auch digitale Bauelemente, die elektrisch miteinander verknüpft werden können. Die Entwicklungsaussichten für Analog- und Hybridrechner sind weitgehendst abgeschlossen.


1.3.4 Organisationseinheiten von Daten

Definitionen:

BIT
ist die kleinste formale Organisationseinheit von Daten und kann nur 2 Werte annehmen (binäre Null - binäre Eins).

BYTE
ist eine maschineninterne Einheit von 8 Bits, die gemeinsam in einem DV-System verarbeitet werden.
Ein HALBBYTE (oder NIBBLE bzw. TETRADE) ist die linke oder rechte Hälfte eines Bytes und besteht daher immer aus 4 Bits.
  • Das linke Halbbyte nennt man auch ZONENTEIL eines Bytes.
  • Das rechte Halbbyte nennt man auch ZIFFERNTEIL eines Bytes.

ZEICHEN ("Character")
ist ein Buchstabe, eine Ziffer oder ein Sonderzeichen und wird maschinenintern durch eine definierte Anzahl von Bits (im Allg. 8 Bits = 1 Byte) dargestellt (verschlüsselt).

DATENFELD (kurz FELD)
ist eine Zusammenfassung von nebeneinanderliegenden Zeichen zu einer Zeichenfolge, der eine bestimmte Bedeutung zugeordnet ist und die durch einen eindeutigen Feldnamen gekennzeichnet ist. Ein Datenfeld kann natürlich auch nur aus 1 einzigen Zeichen bestehen.
Jedes Datenfeld wird durch Attribute (Eigenschaften) näher beschrieben.

SEGMENT (auch DATENGRUPPE)
ist eine Zusammenfassung von Feldern, die logisch zusammengehören und die durch einen Oberbegriff gekennzeichnet sind.

DATENSATZ (kurz SATZ, "Record")
ist eine Zusammenfassung von mehreren Feldern oder Segmenten, die logisch zusammengehören und die durch einen eindeutigen Namen gekennzeichnet sind.

DATEI (auch Datenbestand, "File", "Data Set")
ist die Menge aller Datensätze mit demselben Namen.

DATENBANK ("Data Base")
ist eine größere Anzahl von Daten, die in gemeinsam verwalteten Dateien aufbewahrt werden.

Bem.:
Sehr allgemein bezeichnet man auch jeden Datenbestand als Datei.

Das Wort DATEI ist ein Kunstwort - es entstand aus den Wörtern "Daten" und "Kartei".
BIT ist die Kurzform für "binary digit".
BYTE entstand aus einer Zusammenziehung von "by eight".

Zur Darstellung eines Zeichens werden in einem DV-System mehrere Bits zusammengefasst. Jedes Zeichen wird in dem DV-System durch eine eindeutige Bitkombination (je nach festgelegter Verschlüsselungsvorschrift) dargestellt. Gebräuchliche Bitgruppen zur Zeichendarstellung in Zentraleinheiten (die konstruktionstechnisch durch die jeweiligen Hersteller realisiert werden) sind vor allem 8-Bit-Gruppen (Bytes). Bitgruppen zur Zeichendarstellung auf Datenträgern in peripheren Geräten können Gruppen von 4 bis zu 10 und mehr Bits sein.

In einem DV-System werden meist mehr als 8 Bits gleichzeitig verarbeitet (d.h. es wird auf mehr als 8 Bits gleichzeitig zugegriffen - meist 16, 32, 64 usw.).
Eine solche Verarbeitungseinheit nennt man ein WORT. Die WORTLÄNGE ist immer herstellerabhängig.
Wir werden in diesem Buch immer eine Wortlänge von 4 Bytes bzw. 32 Bits verwenden.

Definition:
(DATEN-)FELDLÄNGE
ist die Anzahl der zusammengefassten Zeichen eines Feldes.
(DATEN-)SATZLÄNGE
ist die Anzahl der zusammengefassten Zeichen eines Satzes.

Ein Feld wird durch seine Länge, durch seinen Namen und durch seinen Datentyp definiert.
Es gibt demnach NUMERISCHE und NICHTNUMERISCHE (ALPHABETISCHE bzw. ALPHANUMERISCHE) Felder. Der Feldname ist der gemeinsame Oberbegriff und damit der Bezugspunkt aller Feldinhalte.
Ein Feld kann auch aus einem einzigen Zeichen bestehen.
Ein Segment kann auch mit einem einzigen Feld identisch sein. Segmente werden vor allem in Datenbanken verwendet.

Sehr oft besitzt jeder Datensatz einen (meist) eindeutigen Ordnungsbegriff (Schlüsselbegriff, Schlüssel - siehe Kap.12). In einem solchen Fall kann ein Datensatz in einer Datei leichter gefunden werden.

Ein Datensatz wird immer durch einen sogenannten SATZSPIEGEL beschrieben:

Beispiel:
Menge aller Artikel (= "Artikelsätze") ist die Artikeldatei.
Artikelnummer und Artikelbezeichnung bilden ein Segment (ein Stammdatensegment).
Lagermenge und Lagerwert bilden ein weiteres Segment (ein Bestandsdatensegment).
(Ein Satz kann sowohl Stamm- als auch Bestandsdaten enthalten.)

Artikeldatei und Lieferantendatei könnten zu einer Datenbank zusammengefasst werden.
Wird in der Artikeldatei der Mindestbestand unterschritten, dann erfolgt sogleich eine Bestellung, die wiederum Änderungen in der Lieferantendatei nach sich zieht.


1.3.5 Entstehungsort der Daten

Definitionen:
DATENQUELLE
ist der Entstehungsort von Daten.
PRIMÄRDATEN
sind Daten, die direkt an der Datenquelle entstehen. Sie müssen nicht zwingend maschinell verarbeitbar sein.
SEKUNDÄRDATEN
sind Daten, die sich aus Primärdaten ableiten lassen.
EXTERNE DATEN
sind Daten, die außerhalb des Objektsystems (= Bezugssystems) entstehen (die Datenquelle liegt außerhalb des Bezugssystems).
INTERNE DATEN
sind Daten, die im Objektsystem entstehen (die Datenquelle liegt innerhalb des Bezugssystems).
Bem.:
Sekundärdaten werden manchmal nur zum Zweck der Datenerfassung erzeugt und sind dann immer maschinell verarbeitbar (denn das ist der Zweck ihrer Herstellung).

Beispiele:
  • Der Rechnungsbetrag bei einer Strom- oder Gasrechnung ist ein Sekundärdatum - er lässt sich aus dem Einheitspreis und dem Verbrauch berechnen.
  • Wenn das Bezugssystem der Betrieb ist, dann sind die Steuersätze, die der Staat vorschreibt, externe Daten, die zu zahlenden Steuerbeträge sind interne Daten.
  • Gibt ein Kunde beim Kauf einer Ware in einem Geschäft seine Adresse bekannt, so ist die Datenquelle des Datums "Kundenadresse" das Geschäft. Bestellt ein Kunde die Ware telefonisch oder schriftlich, so ist die Datenquelle dieses Datums die Vertriebsabteilung des Betriebs.
Definition:
PRIMÄRDATENTRÄGER (oder URBELEG)
ist jeder Gegenstand, auf dem einzugebende Daten zum ersten Mal aufgezeichnet werden.
SEKUNDÄRDATENTRÄGER
ist jeder Gegenstand, der (fast) nur zum Zweck der Aufzeichnung (Datenerfassung) von maschinell zu verarbeitenden Daten dient.
Bem.:
Ein klassischer Sekundärdatenträger war die Lochkarte.


1.3.6 Stellung der Daten im EDV-Prozess

Definition:
EINGABEDATEN
sind Daten, die bereits vor Beginn des Verarbeitungsprozesses vorhanden und für die Verarbeitung notwendig sind.
AUSGABEDATEN
sind Daten, die erst während der Verarbeitung entstehen und die nach dem Verarbeitungsprozess als Endergebnis der Verarbeitung zur Verfügung stehen.

Daten können in einem Verarbeitungsprozess Eingabedaten, in einem anderen Ausgabedaten sein.

Beispiele:
  • Der Mehrwertsteuersatz und der Nettobetrag sind Eingabedaten ("Input") für die Berechnung des zu zahlenden Kaufpreises. Der Rechnungsbetrag (Kaufpreis) und der Mehrwertsteuerbetrag sind Ausgabedaten ("Output").
  • Bei der Kontostandsberechnung eines Kunden wird dieser Rechnungsbetrag zu einem Eingabedatum.


1.3.7 Das Vorhandensein von Daten

Definition:
MUSS-DATEN
sind Daten, die immer vorhanden sind (bzw. sein müssen).
KANN-DATEN
sind Daten, die vorhanden sein, jedoch auch ebensogut fehlen können.

Ein Datum kann mehrmals vorkommen (z.B. Vorname). Ein WIEDERHOLUNGSFAKTOR legt in diesem Fall fest, wie oft ein solches Datum vorkommen kann.
Ein Wiederholungsfaktor 0 bedeutet, dass es sich um ein Kann-Datum handelt; durch einen Wiederholungsfaktor größer oder gleich 1 wird ein Muss-Datum definiert.

Beispiel:
Bei einer Volkszählung müssen bestimmte Daten in ein Formular eingetragen werden (z.B. vollständiger Name und Geburtsdatum - das Fehlen dieser Daten ist strafbar); andere Daten (z.B. Religionsbekenntnis) müssen nicht eingetragen werden - sie können aber durchaus angegeben werden.


1.3.8 Verschlüsselung von Daten

Die Verschlüsselung von Daten dient zur Verkürzung der Daten oder auch zur Geheimhaltung von Informationen.

Für die Verschlüsselung können

Bei nichtsprechendem Schlüssel benötigt man zusätzliche Informationen über die Art der Verschlüsselung (Übersetzungstabelle).

Definition:
OFFENE Daten
sind unverschlüsselte Daten.
CODIERTE Daten
sind verschlüsselte Daten.

Verkürzung (Komprimierung) von Daten:

Es gibt 2 Arten der Komprimierung von Daten:
verlustfrei - Informationen gehen nicht verloren (z.B. Daten der Buchhaltung müssen verlustfrei komprimiert werden)
mit Verlust - Informationen gehen verloren (z.B. hohe (unhörbare) Töne in Audio-Daten können weggelassen werden)
Datenkomprimierung wird im folgenden Kap.2 behandelt.

Geheimhaltung und Integrität von Daten:

Durch die zunehmende Verbreitung elektronischer Kommunikationsmedien erlangte die Lehre vom Verschlüsseln und Entschlüsseln von Nachrichten (die sogenannte KRYPTOGRAPHIE) enorme Bedeutung. Aus der ehemaligen "Geheimwissenschaft" entwickelte sich ein seriöses Forschungsgebiet an vielen Universitäten und eine Vielzahl von Fachtagungen zum Thema Datensicherheit zeigt das wachsende Interesse an der Kryptographie.
Die sogenannte KRYPTOANALYSE ist die Wissenschaft vom Entschlüsseln von Nachrichten durch unauthorisierte Mithörer. Die KRYPTOLOGIE schließlich fasst die Disziplinen Kryptographie und Kryptoanalyse zusammen. Die Grundlagen der Kryptologie sind vor allem verschiedene Teilgebiete der Mathematik.
Neben dem klassischen Ziel der Geheimhaltung (Schutz der Daten vor unbefugter Kenntnisnahme) spielt heute in den meisten Anwendungsfällen die INTEGRITÄT (Sendedaten stimmen mit den Empfangsdaten überein) und AUTHENTIZITÄT (der Sender von Daten kann seine Identität und die Gültigkeit der Daten dem Empfänger nachweisen) der Daten eine mindestens ebenso große Rolle.


Zurück
zum Anfang dieses Kapitels
zu Kapitel 1.2
zum Inhaltsverzeichnis