softwaretechnologie für fortgeschrittene teil thaller stunde vi: information revisited köln 4....

44
Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Upload: hartwig-kehrli

Post on 05-Apr-2015

102 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Softwaretechnologie für FortgeschritteneTeil Thaller

Stunde VI: Information revisited

Köln 4. Februar 2010

Page 2: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Claude Shannon: "A Mathematical Theory of Communication", Bell System Technical Journal, 1948.

Enthält eine quantitative Definition von Information.

Zweck: Wie kann ein Signal zwischen einem Sender und einem Empfänger mit dem geringstmöglichen Aufwand "korrekt" übertragen werden.

Information

2

Page 3: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Shannon hat also eine technische Definition von "Information", die die Bedeutungsebene völlig ausklammert. Er betont, dass "die semantischen Aspekte der Kommunikation für die ingenieurwissenschaftliche Seite irrelevant sind".

Information

3

Page 4: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Nahezu alle mir bekannten Lehrbücher der Informatik beginnen mit Shannons Definition der Information.

Räumen aber ein, dass die ingenieurwissenschaftliche Definition von Information defizitär sei. Insbesondere:

Information

4

Page 5: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

(1) Bildet sie nur einen Teil des intellektuellen Umfanges des Konzepts "Information„ (syntaktisch, semantisch, pragmatisch) ab.

(2) Gibt es dagegen keine operable Definition die dieses Konzept in seiner vollen Breite abdeckt.

Aber: Die vorhandenen Konzepte reichen aus, um Information auf einem Digitalrechner so darzustellen, dass man sie sinnvoll verarbeiten kann.

*

Information

5

Page 6: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Informationsebenen

Syntax: Beziehungen der „Zeichen“ untereinander.

Semantik: Beziehungen zwischen „Zeichen“ und „Gegenständen“.

Pragmatik: Beziehungen zwischen „Zeichen“ und ihren „Benutzern“.

6

Page 7: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Bernard Favre-Bulle

Information und Zusammenhang. Informationsfluß in Prozessen der Wahrnehmung, des Denkens und der Kommunikation.

Springer: 2001

Information und Wissen

7

Page 8: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Daten sind speicherbare Angaben - 22°C.

Information stellt Daten in einen Kontext:

"In diesem Hörsaal herrscht eine Temperatur von 22°C".

Dieser Kontext ist jedoch noch fest (und für alle Informationsempfänger identisch).

Information und Wissen

8

Page 9: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Wissen ist das Ergebnis von Erkenntnisprozessen. Es bezieht die praktische Anwendung der Daten und Informationen ein. Es muss nicht "absolut wahr" sein, sondern adäquates Handeln zu ermöglichen.

Z.B. die Entscheidung einen Pulli (nicht) auszuziehen, um sich angenehm zu fühlen, ohne sich zu erkälten.

Information und Wissen

9

Page 10: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

*

„Ladder of Knowledge“

10

Weisheit

Wissen

Information

Daten

Page 11: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Testfile in Word 2007

Page 12: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Testfile in Word 2003 (2007)

Page 13: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Testfile in Open Office ODT

Page 14: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Testfile in PDF

Page 15: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Measuring the pages … Cut out page from rendering surface.

Scale to common dimensions: 371 +/- 1 x 521 +/- 1

Measure1. The leftmost and lowest completely black pixel in the letter “A” starting

the first line of the main text.2. The leftmost and highest completely black pixel in the letter “E” starting

the first line of the text in the footnote.3. The geometrical centre of the period at the end of the main sentence.4. The geometrical centre of the period at the end of the footnote text.

Page 16: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Measuring Word 2003(i) = 45 / 134;

(ii) = 57 / 470;

(iii) = 215 / 322 ;

(iv) = 254 / 483

Page 17: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Measuring Word 2007(i) = 45 / 134;

(ii) = 57 / 470;

(iii) = 215 / 322 ;

(iv) = 254 / 483

Page 18: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Open Office ODT(i) = 44 / 132;

(ii) = 52 / 469; (iii) = 214 / 320 ;

(iv) = 247 / 482

Page 19: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

PDF(i) = 45 / 130;

(ii) = 59 / 467;

(iii) = 215 / 317 ;

(iv) = 254 / 480

Page 20: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Summary I

The comparison of the four renderings of the example pages described above seem to indicate clearly, that a migration from the Word family of formats to PDF is a better way to preserve the content of the document, than a migration to the Open Office format.

Page 21: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Measuring Word 2003Relationship tagged explicitly.

Text / footnote separation clear.

Rendering / layout not (totally) predicatble.

Footnote indicator unpredictable.

Page 22: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Measuring Word 2007Relationship tagged explicitly.

Text / footnote separation extremely clear.

Rendering / layout pretty predictable.

Footnote indicator not predictable.

Page 23: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Open Office ODTRelationship tagged explicitly.

Text / footnote separation extremely clear.

Rendering / layout a little bit predictable.

Footnote indicator predictable.

Page 24: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

PDFRelationship expressed by layout.

Text / footnote separation missing.

Rendering / layout very much predictable.

Footnote indicator predictable.

Page 25: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Summary II

The comparison of the four internal structures of the example pages described above seem to indicate clearly, that a migration from the Word family of formats to PDF is a worse way to preserve the content of the document, than a migration to the Open Office format.

Page 26: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Small technical note

Do not forget, that the whole movement started by SGML, carried into the WWW by HTML, transferred to content by the TEI and started XML as a basic empowering technology ...... assumes that rendering is NOT particularly relevant.“Separation of content and form.”

*

Page 27: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Cologne Information Model

Page 28: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Data which represent stored information do so in two forms:

1. As a set of tokens, which describe atomic items of information.

2. By a set of independent parameters, which describe, in a formalized way, the semantic interpretation of these items of information.

Assumption I

Page 29: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

1. Most algorithms today are based on “data types”, which are

reflecting hardware characteristics (char, int, float ...).

2. “Objects”, which are constructed from these data types, are transient concepts, which are meaningful only within a specific implementation / environment.

3. What we would need are considerably higher order objects, which are persistent by themselves and independent of a specific implementation / environment.

Assumption II

Page 30: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

The need formulated as assumption II can be fulfilled using

assumption I.

Assumption III

Page 31: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

(1) I = i (D, S, t)

(2) I2 = i (I1, S2, t)

(3) Ix = i (Ix-1, Sx, t)

(4) Sx = s (Ix-1, t)

(5) Ix = i (Ix-α, Sx-β, t)

(6) Ix = i (Ix-α, s(Ix-β, t), t)

Generalisation of Langefors “Infological Equation”

Page 32: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

(1) <person><surname><bold>Biggin</bold></surname></person>

(2) <person><surname><italics>Biggin</italics></surname></person>

(3) <airfield><name><bold>Biggin</bold></name></airfield>

(4) <airfield><name><italics>Biggin</italics></name></airfield>

Which of the chunks are more similar to each other: (1) and (2) or (1) and (3)?

Four texts

Page 33: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Coordinates:

Page 34: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Coordinates:

Liber exodi glosatus

Page 35: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Generalization 1

35

BigginVisualization {bold, italic}Interpretation {surname, topographic name}

Page 36: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Generalization 2

36

Series of atomic content tokensConceptual dimension 1Conceptual dimension 2

Page 37: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Generalization 3

37

{ T, C1, C2}

Page 38: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Generalization 4

38

{ T, { C1, C2, …, Cn } }

Page 39: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Generalization 5

39

{ T, Cn }

(1) Texts are sequences of content carrying atomic tokens.

(2) Each of these tokens has a position in an n-dimensional conceptual universe.

Page 40: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Generalization 6

40

{ X, Y, Cn }

Page 41: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Generalization 7

41

{ T1, T2, Cn }

(1) Images are planes of content carrying atomic tokens.

(2) Each of these tokens has a position in an n-dimensional conceptual universe.

Page 42: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Generalization 8

42

I ::= { { T1, T2, … Tm}, Cn }

(1) Information objects are m-dimensional arrangements of content carrying atomic tokens.

(2) Each of these tokens has a position in an n-dimensional conceptual universe.

Page 43: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Generalization 9

43

I ::= {Tm, Cn }

(1) Information objects are m-dimensional arrangements of content carrying atomic tokens.

(2) Each of these tokens has a position in an n-dimensional conceptual universe.

(3) All of this, of course, is recursive …

Page 44: Softwaretechnologie für Fortgeschrittene Teil Thaller Stunde VI: Information revisited Köln 4. Februar 2010

Danke für heute;Schöne Ferien!

44