Angewandte Datentechnik - Klassifikation von Daten

1.3 Klassifikation von Daten

Aufgabe im EDV-Prozess
- Nutzdaten (passive Daten):
  - Stammdaten
  - Änderungsdaten
  - Bestandsdaten
  - Bewegungsdaten
- Steuerdaten (aktive Daten)
Struktur ("Aggregatzustand")
- formatierte Daten
- Text
- Bild (Grafik)
- Sprache
Datentyp
- digitale Daten:
  - alphabetisch
  - numerisch
  - alphanumerisch
- analoge Daten
Organisationseinheiten ("Hierarchie")
- Bit
- Zeichen
- Feld
- Segment
- Satz
- Datei
- Datenbank
Datenquelle, Speicherung
- Primärdaten
- Sekundärdaten
- externe Daten
- interne Daten
Stellung im EDV-Prozess
- Eingabedaten
- Ausgabedaten
Vorhandensein
- Muss-Daten
- Kann-Daten
Verschlüsselung
- verschlüsselt (codiert)
- unverschlüsselt (offen)

1.3.1 Aufgabe der Daten im EDV-Prozess

NUTZDATEN (oder PASSIVE DATEN): sind die zu verarbeitenden Informationen.
STEUERDATEN (oder AKTIVE DATEN): sind Informationen zur Steuerung der Verarbeitungsvorgänge innerhalb des Computers.

Mit Nutzdaten ist eine Verarbeitung durchzuführen (daher passive Daten), Steuerdaten legen die Art der Verarbeitung fest (daher aktive Daten).
Bezüglich der physikalischen Repräsentation der Information in maschinengerechter Form gibt es keinen Unterschied zwischen Nutz- und Steuerdaten.

Beispiele: Nutzdaten: Angaben über Kunden, Mengen und Werte der verkauften Artikel Steuerdaten: Befehle eines Programms zur Rechnungsschreibung

Nutzdaten lassen sich nach bestimmten Merkmalen noch weiter unterscheiden:

STAMMDATEN: sind zustandsorientierte Daten, die der Identifizierung, Klassifizierung und Charakterisierung von Sachverhalten dienen und die unverändert über einen längeren Zeitraum hinweg zur Verfügung stehen.
ÄNDERUNGSDATEN: sind abwicklungsorientierte Daten, die fallweise eine Änderung von Stammdaten auslösen.
BESTANDSDATEN: sind zustandsorientierte Daten, die die betriebliche Mengen- und Wertestruktur kennzeichnen (bzw. beschreiben).
BEWEGUNGSDATEN: sind abwicklungsorientierte Daten, die immer wieder neu durch die betrieblichen Leistungsprozesse entstehen, die laufend in die Vorgänge der DV einfließen und dabei eine Veränderung von Bestandsdaten bewirken.

FESTE (oder FIXE) DATEN: sind Daten, die sich nicht verändern können bzw. über einen längeren Zeitraum hinweg unverändert bleiben.
VARIABLE (oder FLIESZENDE) DATEN: sind Daten, die sich jederzeit ändern können.

Die Bestandsdaten unterliegen durch das Betriebsgeschehen einer systematischen Änderung, welche durch die Verarbeitung von Bewegungsdaten bewirkt wird.

ÄNDERUNGSDIENST: das Berichtigen, Ergänzen und Löschen von Stammdaten in Datenbeständen durch Änderungsdaten.

Beispiele: Stammdaten: Kundenname, Lieferantenname, Adresse, Artikelnummer, Artikelbezeichnung Bestandsdaten: Lagermengen von Artikeln, Lieferantenumsätze, Kontensalden in der Finanzbuchhaltung Änderungsdaten: Angaben zur Aufnahme oder Streichung von Artikeln, Änderungen von Adressen Bewegungsdaten: Warenzugänge, Warenabgänge, Zahlungseingänge, Zahlungsausgänge

Wichtige Beschreibungskriterien für Nutzdaten: Organisationsform (Speicherungsform) und Verarbeitungsform (siehe Kap.12) Größe des Datenbestands (Anzahl Sätze, Satzlänge) Wachstum des Datenbestands (zukünftige Größe (z.B. jahresbezogen: Anzahl neue - Anzahl gelöschte Sätze)) Umfang des Änderungsdiensts (neue, gelöschte, geänderte Sätze) Bewegungshäufigkeit (pro Woche, pro Monat, ...) Einsatzhäufigkeit (Verwendungshäufigkeit)

Die folgende Tabelle zeigt wichtige Merkmale von Nutzdaten mit ihren Erscheinungsformen:

MERKMAL	DATENART	Beispiele
Verwendungszweck (Funktion)	Stammdaten Änderungsdaten Bestandsdaten Bewegungsdaten	Adresse neue Adresse Kontostand Zahlungsbetrag
Entstehungsart	zustandsorientierte Daten (statisch) abwicklungsorientierte Daten (dynamisch)	Stammdaten Bestandsdaten Änderungsdaten Bewegungsdaten
Veränderbarkeit (Beständigkeit)	feste (fixe) Daten variable (fließende) Daten	Stammdaten Änderungsdaten Bewegungsdaten Bestandsdaten

1.3.2 Struktur der Daten

FORMATIERTE DATEN: sind Daten, die einen fest vereinbarten Aufbau (fest vereinbarte Struktur) haben.
TEXT: sind Daten, die keinen fest vereinbarten Aufbau haben.
BILDER: sind optische Darstellungen von Informationen auf einer Fläche durch einen unbeschränkten Zeichenvorrat.
Es gibt BUNTE und UNBUNTE Bilder.
Es gibt FESTSTEHENDE und BEWEGTE Bilder.
SPRACHE: ist die menschliche Lautsprache.

Die Struktur der Daten legt die Art ihrer Verarbeitung fest, man unterscheidet somit

Datenverarbeitung im engeren Sinn - formatierte Daten
Textverarbeitung - unformatierte Daten (Text)
Bildverarbeitung - grafische Daten (Bilder)
Sprachverarbeitung - akustische Daten (Sprache)

Bem.:: Die beiden Begriffe DATENVERARBEITUNG und DATENVERARBEITUNG IM ENGEREN SINN, sowie die Begriffe DATEN und FORMATIERTE DATEN sind im Allg. synonyme Begriffe.; Formatierte Daten sind für die maschinelle Interpretation besonders gut geeignet. Text sind unformatierte bzw. unstrukturierte Daten.

Beispiele:

(Formatierte) Daten:
```
	+----------+--------+-- ···
	MEIERbbbbbbHANSbbbbbb...
	MÜLLERbbbbbGERHARDbb...
	...
```
Benötigt man für die Daten eines Kunden 486 Zeichen, dann braucht man für 1000 Kunden einen Speicherplatz von 486.000 Zeichen (unabhängig davon, wie lang oder wie kurz die Namen sind - die Leerzeichen werden im Computer gemeinsam mit den Buchstaben eines Namens abgespeichert und sind daher für den Computer genauso ein Zeichen wie jedes andere!).

Lohn- und Gehaltsabrechnungen, Rechnungen, Kunden- und Lieferantendaten, gespeicherte Artikeldaten für Verkaufsabrechnung, Kostenrechnungsdaten usw.
Text:
```
	MEIERbHANSb...bMÜLLERbGERHARDb...
```
Der Speicherplatz hängt hier davon ab, wie lang bzw. wie kurz die Namen der Kunden sind - die Leerzeichen werden im Computer nicht gespeichert (bis auf eines als Trennzeichen zwischen Wörtern).

Prozessakten, Gesetzestexte, Patentschriften, Briefe, Dokumente;

deren Inhalte lassen sich nicht einem streng einzuhaltenden Aufbau mit festen Formaten anpassen.
Bilder:
Grafiken, Zeichnungen, Kurven

In der kommerziellen DV werden überwiegend formatierte Daten verarbeitet. In den letzten Jahren nahm aber die Bedeutung der anderen Datenverarbeitungsformen zu.
Die maschinelle Verarbeitung von Sprache wird derzeit (noch) wenig für maschinell lesbare Daten verwendet.

1.3.3 Datentyp

DATENTYP eines Datums: bestimmt die Menge der zulässigen Werte, die das Datum annehmen kann bzw. zu der das Datum gehört, und kennzeichnet die Menge von Operationen, die auf das Datenelement anwendbar sind.

Im Allg. muss sich der Programmierer nicht um die physikalische (d.h. technische) Repräsentation der Daten kümmern. In höheren Programmiersprachen kann man die Art der zu verarbeitenden Daten durch Datentypen beschreiben. Jedes Datum hat genau einen eindeutigen Datentyp, den es im Programm zugewiesen bekommt.

DIGITALE DATEN: bestehen nur aus Zeichen.
ANALOGE DATEN: bestehen aus kontinuierlichen Funktionen.

digital - diskret (genau festgelegte endlich viele Zustände)
analog - kontinuierlich (theoretisch beliebig genau (je genauer, desto teurer!))

Die Zeichen von digitalen Daten werden bei der maschinellen Verarbeitung durch elektrische Impulse und dergleichen verwirklicht.
Die analoge Darstellung erfolgt durch eine physikalische Größe, die sich proportional zu den Daten ändert, d.h. die eigentlich interessierende Größe (z.B. Temperatur) wird durch eine andere physikalische Größe (z.B. Länge) ersetzt bzw. simuliert.
Analoge Daten kann man DIGITALISIEREN.

Beispiele: Thermometer ... Temperatur = Höhe der Quecksilbersäule Rechenschieber ... Zahlenwert = Länge im logarithmischen Maßstab Tachometer ... Geschwindigkeit = Zeigerstellung Manometer ... Druck = Zeigerstellung Uhr ... Zeit = Winkelstellung des Zeigers: (Gegensatz: Digitalthermometer, Digitaltachometer, Digitaluhr usw.)

Bei digitalen Daten unterscheidet man die folgenden Standarddatentypen:

ALPHABETISCHE DATEN: bestehen nur aus alphabetischen Zeichen
NUMERISCHE DATEN: bestehen nur aus numerischen Zeichen (dienen also zur Darstellung von Zahlen)
ALPHANUMERISCHE DATEN: bestehen zumindest aus alphabetischen und numerischen Zeichen
ALPHAMERISCHE DATEN: bestehen aus Buchstaben, Ziffern und Sonderzeichen
LOGISCHE (BOOL'sche) DATEN: bestehen aus den beiden Wahrheitswerten WAHR und FALSCH (true - false)

Bem.:: Der Begriff "alphamerisch" ist veraltet und wird heute nicht mehr verwendet.; Man vergleiche diese Begriffe mit den bereits definierten Begriffen alphabetische, numerische und alphanumerische Zeichen (siehe Kap.1.1).

Neben diesen Standarddatentypen gibt es noch viele weitere (benutzerdefinierte) Datentypen:

Beispiele: Datentyp WOCHENTAG ... besteht aus den 7 Werten MO, DI, MI, DO, FR, SA, SO Datentyp SPIELKARTENFARBE ... besteht aus den 4 Werten HERZ, KARO, PIK, TREFF

Elektronische ANALOGRECHNER werden nicht für kommerzielle Zwecke eingesetzt. Analoge Daten werden vorwiegend im technisch-naturwissenschaftlichen Bereich verwendet und bei der elektronischen DV meist durch elektrische Spannungen dargestellt.
Einsatzgebiete sind: Lösung von Differentialgleichungen, die Bewegungen beschreiben, Flugbahnen simulieren, Schwingungen berechnen usw.
DIGITALRECHNER werden sowohl im kommerziellen als auch im technisch-naturwissenschaftlichen Bereich eingesetzt (UNIVERSALRECHNER).

HYBRIDRECHNER koppeln die beiden Rechenverfahren (Analog- und Digitaltechnik) miteinander. Sie besitzen sowohl analoge als auch digitale Bauelemente, die elektrisch miteinander verknüpft werden können. Die Entwicklungsaussichten für Analog- und Hybridrechner sind weitgehendst abgeschlossen.

1.3.4 Organisationseinheiten von Daten

BIT

ist die kleinste formale Organisationseinheit von Daten und kann nur 2 Werte annehmen (binäre Null - binäre Eins).

BYTE

ist eine maschineninterne Einheit von 8 Bits, die gemeinsam in einem DV-System verarbeitet werden.

Ein HALBBYTE (oder NIBBLE bzw. TETRADE) ist die linke oder rechte Hälfte eines Bytes und besteht daher immer aus 4 Bits.

Das linke Halbbyte nennt man auch ZONENTEIL eines Bytes.
Das rechte Halbbyte nennt man auch ZIFFERNTEIL eines Bytes.

ZEICHEN ("Character")

ist ein Buchstabe, eine Ziffer oder ein Sonderzeichen und wird maschinenintern durch eine definierte Anzahl von Bits (im Allg. 8 Bits = 1 Byte) dargestellt (verschlüsselt).

DATENFELD (kurz FELD)

ist eine Zusammenfassung von nebeneinanderliegenden Zeichen zu einer Zeichenfolge, der eine bestimmte Bedeutung zugeordnet ist und die durch einen eindeutigen Feldnamen gekennzeichnet ist. Ein Datenfeld kann natürlich auch nur aus 1 einzigen Zeichen bestehen.
Jedes Datenfeld wird durch Attribute (Eigenschaften) näher beschrieben.

SEGMENT (auch DATENGRUPPE)

ist eine Zusammenfassung von Feldern, die logisch zusammengehören und die durch einen Oberbegriff gekennzeichnet sind.

DATENSATZ (kurz SATZ, "Record")

ist eine Zusammenfassung von mehreren Feldern oder Segmenten, die logisch zusammengehören und die durch einen eindeutigen Namen gekennzeichnet sind.

DATEI (auch Datenbestand, "File", "Data Set")

ist die Menge aller Datensätze mit demselben Namen.

DATENBANK ("Data Base")

ist eine größere Anzahl von Daten, die in gemeinsam verwalteten Dateien aufbewahrt werden.

Bem.:: Sehr allgemein bezeichnet man auch jeden Datenbestand als Datei.

Das Wort DATEI ist ein Kunstwort - es entstand aus den Wörtern "Daten" und "Kartei".
BIT ist die Kurzform für "binary digit".
BYTE entstand aus einer Zusammenziehung von "by eight".

Zur Darstellung eines Zeichens werden in einem DV-System mehrere Bits zusammengefasst. Jedes Zeichen wird in dem DV-System durch eine eindeutige Bitkombination (je nach festgelegter Verschlüsselungsvorschrift) dargestellt. Gebräuchliche Bitgruppen zur Zeichendarstellung in Zentraleinheiten (die konstruktionstechnisch durch die jeweiligen Hersteller realisiert werden) sind vor allem 8-Bit-Gruppen (Bytes). Bitgruppen zur Zeichendarstellung auf Datenträgern in peripheren Geräten können Gruppen von 4 bis zu 10 und mehr Bits sein.

In einem DV-System werden meist mehr als 8 Bits gleichzeitig verarbeitet (d.h. es wird auf mehr als 8 Bits gleichzeitig zugegriffen - meist 16, 32, 64 usw.).
Eine solche Verarbeitungseinheit nennt man ein WORT. Die WORTLÄNGE ist immer herstellerabhängig.
Wir werden in diesem Buch immer eine Wortlänge von 4 Bytes bzw. 32 Bits verwenden.

(DATEN-)FELDLÄNGE: ist die Anzahl der zusammengefassten Zeichen eines Feldes.
(DATEN-)SATZLÄNGE: ist die Anzahl der zusammengefassten Zeichen eines Satzes.

Ein Feld wird durch seine Länge, durch seinen Namen und durch seinen Datentyp definiert.
Es gibt demnach NUMERISCHE und NICHTNUMERISCHE (ALPHABETISCHE bzw. ALPHANUMERISCHE) Felder. Der Feldname ist der gemeinsame Oberbegriff und damit der Bezugspunkt aller Feldinhalte.
Ein Feld kann auch aus einem einzigen Zeichen bestehen.
Ein Segment kann auch mit einem einzigen Feld identisch sein. Segmente werden vor allem in Datenbanken verwendet.

Sehr oft besitzt jeder Datensatz einen (meist) eindeutigen Ordnungsbegriff (Schlüsselbegriff, Schlüssel - siehe Kap.12). In einem solchen Fall kann ein Datensatz in einer Datei leichter gefunden werden.

Ein Datensatz wird immer durch einen sogenannten SATZSPIEGEL beschrieben:

Satzlänge
Attribute jedes Datenfeldes
- Name
- Position
- Längenart (fest, variabel)
- Länge (feste Länge bzw. maximale und durchschnittliche Länge)
- Wiederholungsfaktor
- Datentyp
- Inhalt (Wert)

Beispiel:: Menge aller Artikel (= "Artikelsätze") ist die Artikeldatei.
Artikelnummer und Artikelbezeichnung bilden ein Segment (ein Stammdatensegment).
Lagermenge und Lagerwert bilden ein weiteres Segment (ein Bestandsdatensegment).
(Ein Satz kann sowohl Stamm- als auch Bestandsdaten enthalten.); Artikeldatei und Lieferantendatei könnten zu einer Datenbank zusammengefasst werden.
Wird in der Artikeldatei der Mindestbestand unterschritten, dann erfolgt sogleich eine Bestellung, die wiederum Änderungen in der Lieferantendatei nach sich zieht.

1.3.5 Entstehungsort der Daten

DATENQUELLE: ist der Entstehungsort von Daten.
PRIMÄRDATEN: sind Daten, die direkt an der Datenquelle entstehen. Sie müssen nicht zwingend maschinell verarbeitbar sein.
SEKUNDÄRDATEN: sind Daten, die sich aus Primärdaten ableiten lassen.
EXTERNE DATEN: sind Daten, die außerhalb des Objektsystems (= Bezugssystems) entstehen (die Datenquelle liegt außerhalb des Bezugssystems).
INTERNE DATEN: sind Daten, die im Objektsystem entstehen (die Datenquelle liegt innerhalb des Bezugssystems).

Bem.:: Sekundärdaten werden manchmal nur zum Zweck der Datenerfassung erzeugt und sind dann immer maschinell verarbeitbar (denn das ist der Zweck ihrer Herstellung).

Beispiele: Der Rechnungsbetrag bei einer Strom- oder Gasrechnung ist ein Sekundärdatum - er lässt sich aus dem Einheitspreis und dem Verbrauch berechnen. Wenn das Bezugssystem der Betrieb ist, dann sind die Steuersätze, die der Staat vorschreibt, externe Daten, die zu zahlenden Steuerbeträge sind interne Daten. Gibt ein Kunde beim Kauf einer Ware in einem Geschäft seine Adresse bekannt, so ist die Datenquelle des Datums "Kundenadresse" das Geschäft. Bestellt ein Kunde die Ware telefonisch oder schriftlich, so ist die Datenquelle dieses Datums die Vertriebsabteilung des Betriebs.

PRIMÄRDATENTRÄGER (oder URBELEG): ist jeder Gegenstand, auf dem einzugebende Daten zum ersten Mal aufgezeichnet werden.
SEKUNDÄRDATENTRÄGER: ist jeder Gegenstand, der (fast) nur zum Zweck der Aufzeichnung (Datenerfassung) von maschinell zu verarbeitenden Daten dient.

Bem.:: Ein klassischer Sekundärdatenträger war die Lochkarte.

1.3.6 Stellung der Daten im EDV-Prozess

EINGABEDATEN: sind Daten, die bereits vor Beginn des Verarbeitungsprozesses vorhanden und für die Verarbeitung notwendig sind.
AUSGABEDATEN: sind Daten, die erst während der Verarbeitung entstehen und die nach dem Verarbeitungsprozess als Endergebnis der Verarbeitung zur Verfügung stehen.

Daten können in einem Verarbeitungsprozess Eingabedaten, in einem anderen Ausgabedaten sein.

Beispiele: Der Mehrwertsteuersatz und der Nettobetrag sind Eingabedaten ("Input") für die Berechnung des zu zahlenden Kaufpreises. Der Rechnungsbetrag (Kaufpreis) und der Mehrwertsteuerbetrag sind Ausgabedaten ("Output"). Bei der Kontostandsberechnung eines Kunden wird dieser Rechnungsbetrag zu einem Eingabedatum.

1.3.7 Das Vorhandensein von Daten

MUSS-DATEN: sind Daten, die immer vorhanden sind (bzw. sein müssen).
KANN-DATEN: sind Daten, die vorhanden sein, jedoch auch ebensogut fehlen können.

Ein Datum kann mehrmals vorkommen (z.B. Vorname). Ein WIEDERHOLUNGSFAKTOR legt in diesem Fall fest, wie oft ein solches Datum vorkommen kann.
Ein Wiederholungsfaktor 0 bedeutet, dass es sich um ein Kann-Datum handelt; durch einen Wiederholungsfaktor größer oder gleich 1 wird ein Muss-Datum definiert.

Beispiel:: Bei einer Volkszählung müssen bestimmte Daten in ein Formular eingetragen werden (z.B. vollständiger Name und Geburtsdatum - das Fehlen dieser Daten ist strafbar); andere Daten (z.B. Religionsbekenntnis) müssen nicht eingetragen werden - sie können aber durchaus angegeben werden.

1.3.8 Verschlüsselung von Daten

Die Verschlüsselung von Daten dient zur Verkürzung der Daten oder auch zur Geheimhaltung von Informationen.

Für die Verschlüsselung können

sprechende Schlüssel (z.B. M = männlich, W = weiblich) oder
nichtsprechende Schlüssel (z.B. 0 = männlich, 1 = weiblich) verwendet werden.

Bei nichtsprechendem Schlüssel benötigt man zusätzliche Informationen über die Art der Verschlüsselung (Übersetzungstabelle).

OFFENE Daten: sind unverschlüsselte Daten.
CODIERTE Daten: sind verschlüsselte Daten.

Verkürzung (Komprimierung) von Daten:

Es gibt 2 Arten der Komprimierung von Daten:: verlustfrei - Informationen gehen nicht verloren (z.B. Daten der Buchhaltung müssen verlustfrei komprimiert werden); mit Verlust - Informationen gehen verloren (z.B. hohe (unhörbare) Töne in Audio-Daten können weggelassen werden)

Datenkomprimierung wird im folgenden Kap.2 behandelt.

Geheimhaltung und Integrität von Daten:

: Durch die zunehmende Verbreitung elektronischer Kommunikationsmedien erlangte die Lehre vom Verschlüsseln und Entschlüsseln von Nachrichten (die sogenannte KRYPTOGRAPHIE) enorme Bedeutung. Aus der ehemaligen "Geheimwissenschaft" entwickelte sich ein seriöses Forschungsgebiet an vielen Universitäten und eine Vielzahl von Fachtagungen zum Thema Datensicherheit zeigt das wachsende Interesse an der Kryptographie.; Die sogenannte KRYPTOANALYSE ist die Wissenschaft vom Entschlüsseln von Nachrichten durch unauthorisierte Mithörer. Die KRYPTOLOGIE schließlich fasst die Disziplinen Kryptographie und Kryptoanalyse zusammen. Die Grundlagen der Kryptologie sind vor allem verschiedene Teilgebiete der Mathematik.; Neben dem klassischen Ziel der Geheimhaltung (Schutz der Daten vor unbefugter Kenntnisnahme) spielt heute in den meisten Anwendungsfällen die INTEGRITÄT (Sendedaten stimmen mit den Empfangsdaten überein) und AUTHENTIZITÄT (der Sender von Daten kann seine Identität und die Gültigkeit der Daten dem Empfänger nachweisen) der Daten eine mindestens ebenso große Rolle.

Zurück: zum Anfang dieses Kapitels; zu Kapitel 1.2; zum Inhaltsverzeichnis

Datentyp WOCHENTAG	...	besteht aus den 7 Werten	MO, DI, MI, DO, FR, SA, SO
Datentyp SPIELKARTENFARBE	...	besteht aus den 4 Werten	HERZ, KARO, PIK, TREFF