föreläsning 2: grundläggande informationsteori

Föreläsning 2:Föreläsning 2:Grundläggande informationsteoriGrundläggande informationsteori

TSBK02 Bild- och ljudkodningTSBK02 Bild- och ljudkodning

Författare: Jörgen AhlbergÖversättning och modifiering:Robert Forchheimer

InformationsteoriInformationsteori

Claude ShannonClaude Shannon: A Mathematical Theory of Communication

The

Bell System Technical Journal, 1948

Två versioner av Shannons ursprungliga publikation.

Från Scientific American-artikelFrån Scientific American-artikel

””What is information? Sidestepping questions about What is information? Sidestepping questions about meaning, Shannon showed that it is a measurable meaning, Shannon showed that it is a measurable commodity”.commodity”.

””Today, Shannon’s insight help shape virtually all systems Today, Shannon’s insight help shape virtually all systems that store, process, or transmit information in digital form, that store, process, or transmit information in digital form, from compact discs to computers, from facsimile machines from compact discs to computers, from facsimile machines to deep space probes”.to deep space probes”.

””Information theory has also infiltrated fields outside Information theory has also infiltrated fields outside communications, including linguistics, psychology, communications, including linguistics, psychology, economics, biology, even the arts”.economics, biology, even the arts”.

KällaKanal-

kodare

Käll-

kodare

Kanal

Käll-

avkodare

mottagareKanal-

avkodare

Kanal

Shannons KommunikationsmodellShannons Kommunikationsmodell

Grundläggande storheterGrundläggande storheter

KällaKanal-

kodare

Käll-

kodare

kanal

Käll-avkodare

mottagareKanal-

avkodare

kanal

HH: Källans informationstakt.

HH

RR: Datatakten från källkodaren.

RRCC

CC

CC: Kanalkapaciteten

Shannon 2Shannon 2: Källkodning och kanalkodning kan optimeras oberoende, och binära symboler kan användas som mellanformat. Förutsättning: godtyckligt lång fördröjning.

Grundläggande teoremGrundläggande teorem

KällaKanal-kodare

Käll-kodare

kanal

Käll-avkodare

mottagare

Kanal-avkodare

kanal

HH RRCC

CC

Shannon 1Shannon 1: Felfri transmission möjlig om R>H and C>R.

Stokastiska källorStokastiska källor

En källa genererar En källa genererar symbolersymboler XX11, , XX22, ..., ...

Symbolerna tar sina värden från ett Symbolerna tar sina värden från ett alfabetalfabet AA = (= (aa11, , aa22, …)., …).

Modell:Modell: PP((XX11,…,,…,XXNN)) anses vara känd för alla anses vara känd för alla

kombinationer.kombinationer.

Källa X1, X2, …

Exempel 1: En text är en följd av symboler som vardera tar sitt värde från alfabetetA = (a, …, ö, A, …, Ö, 1, 2, …9, !, ?, …).

Exempel 2: En (digital) gråskalebild är en sekvens av symboler som vardera tar sitt värde från alfabetet A = (0,1) eller A = (0, …, 255).

Två speciella fallTvå speciella fall

1.1. Den minnesfria källanDen minnesfria källan Varje symbol är oberoende av tidigare Varje symbol är oberoende av tidigare

symbolersymboler PP((XX11, , XX22, …, , …, XXnn) = ) = PP((XX11) ) ** PP((XX22) ) ** … … ** PP((XXnn))

MarkovkällanMarkovkällan Varje symbol beror endast av föregående Varje symbol beror endast av föregående

symbol.symbol. PP((XX11, , XX22, …, , …, XXnn)) = = PP((XX11) ) ** PP((XX22||XX11) ) ** PP((XX33||XX22) ) ** … …

** PP((XXnn|X|Xnn-1-1))

MarkovkällanMarkovkällan

En symbol beror endast av den tidigare En symbol beror endast av den tidigare symbolen, så källan kan modelleras med ett symbolen, så källan kan modelleras med ett tillståndsdiagram.tillståndsdiagram.

a

b

c

1.00.5

0.7

0.3

0.30.2

En ternär källa medalfabet A = (a, b, c).


Antag vi är i tillstånd Antag vi är i tillstånd aa, dvs., , dvs., XXkk = = aa..

Sannolikheterna för nästa symbol är:Sannolikheterna för nästa symbol är:

a

b

c

1.00.5

0.7

0.3

0.30.2

PP((XXkk+1+1 = = a | Xa | Xkk = a = a) = 0.3) = 0.3

PP((XXkk+1+1 = = b | Xb | Xkk = a = a) = 0.7) = 0.7

PP((XXkk+1+1 = = c | Xc | Xkk = a = a) = 0) = 0


På motsvarande sätt, om På motsvarande sätt, om XXkk+1+1 = = bb, vet vi att , vet vi att

XXkk+2+2 blir lika med blir lika med cc..

a

b

c

1.00.5

0.7

0.3

0.30.2

PP((XXkk+2+2 = = a | Xa | Xkk+1+1 = b = b) = 0) = 0

PP((XXkk+2+2 = = b | Xb | Xkk+1+1 = b = b) = 0) = 0

PP((XXkk+2+2 = = c | Xc | Xkk+1+1 = b = b) = 1) = 1


Om alla tillstånden kan nås så kan de Om alla tillstånden kan nås så kan de stationära sannolikheternastationära sannolikheterna i = P(Xk = ai) för för tillstånden beräknas från de givna tillstånden beräknas från de givna övergångssannolikheterna.övergångssannolikheterna.

Markovmodeller kan användas för att Markovmodeller kan användas för att representera källor som har mer än ett stegs representera källor som har mer än ett stegs minne.minne.– Använd tillståndsdiagram med flera symboler i Använd tillståndsdiagram med flera symboler i

varje tillstånd.varje tillstånd.

Analys och syntesAnalys och syntes

Stokastiska modeller kan användas för att Stokastiska modeller kan användas för att analyseraanalysera en källa. en källa.– Finn en modell som väl överensstämmer med Finn en modell som väl överensstämmer med

en verklig källa. Analysera modellen istället för en verklig källa. Analysera modellen istället för verkligheten.verkligheten.

Stokastiska modeller kan användas för att Stokastiska modeller kan användas för att syntetiserasyntetisera en källa. en källa. – använd en slumpgenerator i varje steg i använd en slumpgenerator i varje steg i

Markovmodellen för att skapa en signal som Markovmodellen för att skapa en signal som simulerar källan.simulerar källan.

Information och EntropiInformation och Entropi

Antag vi har en binär minnesfri källa t.ex. Antag vi har en binär minnesfri källa t.ex. slantsingling. Hur mycket information får vi då vi slantsingling. Hur mycket information får vi då vi får reda på att krona kommit upp?får reda på att krona kommit upp?– Om myntet är korrekt, dvs, Om myntet är korrekt, dvs, PP((kronakrona) = ) = PP ( (klaveklave) = 0.5, ) = 0.5,

säger vi att säger vi att mängden information är mängden information är 1 bit1 bit..– Om vi redan visste att krona kommit upp, dvs Om vi redan visste att krona kommit upp, dvs PP((kronakrona) = ) =

1, så är 1, så är mängen information lika med mängen information lika med nollnoll!!– Om myntet är osymmetriskt, t.ex., Om myntet är osymmetriskt, t.ex., PP((kronakrona) = 0.9, så är ) = 0.9, så är

mängden information mängden information mer än noll men mindre än en bitmer än noll men mindre än en bit!!– Intuitivt, mängden information som tas emot Intuitivt, mängden information som tas emot är är

densammadensamma om om PP((kronakrona) = 0.9 or ) = 0.9 or PP ( (klaveklave) = 0.9.) = 0.9.

SjälvinformationSjälvinformation

Låt oss se detta på Shannons sätt.Låt oss se detta på Shannons sätt. Antag vi har en minnesfri källa medAntag vi har en minnesfri källa med

– alfabet alfabet AA = (= (aa11, …, a, …, ann))

– symbolsannolikheter symbolsannolikheter ((pp11, …, p, …, pnn))..

Hur mycket information får vi när vi får reda Hur mycket information får vi när vi får reda på att nästa symbol är på att nästa symbol är aaii??

Enligt Shannon är Enligt Shannon är självinformationensjälvinformationen för för aaii

lika medlika med

Varför det?Varför det?Antag Antag två oberoende händelsertvå oberoende händelser AA and and BB, med, medsannolikheterna sannolikheterna PP((AA)) = p = pAA and and PP((BB)) = p = pBB..

Sannolikheten att båda händelserna skall inträffa är Sannolikheten att båda händelserna skall inträffa är ppAA ** ppBB. Däremot bör . Däremot bör mängden informationmängden information

adderasadderas, ej multipliceras., ej multipliceras.

Logaritmering löser detta!

Dessutom vill vi att informationen skall öka med minskande sannolikhet så låt oss byta tecken:


Exempel 1:Exempel 1:

Exempel 2:Exempel 2:

Vilken logaritm?Vilken logaritm? Välj själv! Om du väljer naturliga logaritmen blir sorten Välj själv! Om du väljer naturliga logaritmen blir sorten natsnats, , om du väljer 10-log, får du om du väljer 10-log, får du HartleysHartleys, om du väljer 2-log (som är vanligast), så , om du väljer 2-log (som är vanligast), så får du får du bitarbitar..


HH((XX)) kallas för första ordningens kallas för första ordningens entropientropi för källan. för källan.

Detta kan också betraktas som graden av osäkerhet Detta kan också betraktas som graden av osäkerhet om vad nästa symbol kommer att ha för värde.om vad nästa symbol kommer att ha för värde.

I I medel över alla symbolernamedel över alla symbolerna, så får vi:, så får vi:

EntropiEntropi

Exempel l:Exempel l: Binär minnesfri källa

BMK 0 1 1 0 1 0 0 0 …

1

0 0.5 1

Osäkerheten (informationen) är störst när

kallas oftaDå är

Låt

Entropi: Tre egenskaperEntropi: Tre egenskaper

1.1. Man kan visa att Man kan visa att 0 0 << HH << log Nlog N..

2.2. Maximal entropiMaximal entropi ( (H = log NH = log N) fås när alla ) fås när alla symboler är symboler är lika sannolikalika sannolika, dvs,, dvs,ppii = = 11/N/N..

3.3. Skillnaden Skillnaden log N – Hlog N – H kallas kallas redundansenredundansen hos källan.hos källan.

Entropi för minneskällorEntropi för minneskällor

Antag ett block av källsymboler Antag ett block av källsymboler ((XX11, …, , …, XXnn))

och definiera och definiera blockentropinblockentropin::

Entropin för en minneskälla Entropin för en minneskälla definieras som:definieras som:Dvs, summationen görs över alla möjliga kombinationer av Dvs, summationen görs över alla möjliga kombinationer av nn symboler. symboler.

Dvs, låt blocklängden gå mot oändligheten.Dvs, låt blocklängden gå mot oändligheten.Dividera med Dividera med nn för att få antal för att få antal bitar / symbolbitar / symbol..

Entropin för en MarkovkällaEntropin för en Markovkälla

Entropin för ett tillstånd SEntropin för ett tillstånd Skk kan uttryckas som kan uttryckas som

Medelvärdesbildning över alla tillstånd gerMedelvärdesbildning över alla tillstånd gerentropin för Markovkällanentropin för Markovkällan

PPklkl är övergångssannolikheten från tillstånd är övergångssannolikheten från tillstånd kk till tillstånd till tillstånd ll..

SkurlängdskällanSkurlängdskällan Vissa källor genererar långa Vissa källor genererar långa skurarskurar (”runs”)(”runs”) av samma av samma

symboler.symboler. Exempel:Exempel:

Sannolikheten för en skur av längd Sannolikheten för en skur av längd rr: : PP((rr)) = = ((1-1-))r-1r-1 EntropiEntropi: : HHRR = - = - r=1r=1

PP((rr) ) loglog PP((rr)) Om den genomsnittliga skurländgen är Om den genomsnittliga skurländgen är , så är , så är HHRR// = =

HHMM..

A B

KällkodningsteoremetKällkodningsteoremet

Entropin ger det minsta antalet bitarEntropin ger det minsta antalet bitarsom möjliggör felfri representation av källan.som möjliggör felfri representation av källan.

KällkodningsteoremetKällkodningsteoremet

SägerSäger– att vi kan representera utsignalen från en källa att vi kan representera utsignalen från en källa

XX med med HH((XX)) bitar/symbol. bitar/symbol.– att vi inte kan göra bättre än så.att vi inte kan göra bättre än så.

Säger oss inteSäger oss inte– Hur man gör.Hur man gör.

föreläsning 2: grundläggande informationsteori

Documents