bandwidth expansion of narrow band speech using linear prediction

40
1 Bandwidth Expansion of Narrow band Speech using Linear Prediction Bjarke Andersen, Jakob Dyreby, Brian Jensen, Frederik Holmelund Kjærskov, Ole Lodahl Mikkelsen, Peter Drustrup Nielsen, Henrik Zimmermann Group 742 Institute of Electronic Systems Department of Communications Technology Aalborg University, 2004

Upload: noble-parker

Post on 01-Jan-2016

50 views

Category:

Documents


0 download

DESCRIPTION

Bandwidth Expansion of Narrow band Speech using Linear Prediction. Bjarke Andersen, Jakob Dyreby, Brian Jensen, Frederik Holmelund Kjærskov, Ole Lodahl Mikkelsen, Peter Drustrup Nielsen, Henrik Zimmermann. Group 742 Institute of Electronic Systems Department of Communications Technology - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Bandwidth Expansion of Narrow band Speech using Linear Prediction

1

Bandwidth Expansion of Narrow band Speech using Linear

PredictionBjarke Andersen, Jakob Dyreby, Brian Jensen, Frederik Holmelund

Kjærskov, Ole Lodahl Mikkelsen, Peter Drustrup Nielsen, Henrik Zimmermann

Group 742Institute of Electronic Systems

Department of Communications TechnologyAalborg University, 2004

Page 2: Bandwidth Expansion of Narrow band Speech using Linear Prediction

2

Agenda

• Præsentation fra Semcon conference

• Poster præsentation

• Abstract

• Arbejdsmetodik og arbejdsblade

• Envelope

• Excitation

• Artikel

Page 3: Bandwidth Expansion of Narrow band Speech using Linear Prediction

3

• Bandwidth of speech is more than 8 kHz

• Limited bandwidth of todays system

• Too expensive to expand current telephone systems.

• Expansion at the receiving end of the telephoneline

Todays Narrow band telephone systems

8[kHz]

0

[dB]

0.3 3.4[kHz]

[dB]

80[kHz]

[dB]

Page 4: Bandwidth Expansion of Narrow band Speech using Linear Prediction

4

LPsynthesis

Envelopeextension

LPanalysis

LPestimation

Excitationextension

Narrow bandspeech

Wide bandspeech

Codebook

Envelope Estimation

•Transforms the LPC coefficients into LSF (Line Spectrum Frequency)

•Codebook used for prediction of upper frequencies

LSFtransform

Codebookmapping

Inv. LSFTransform

LPsynthesis

Envelopeextension

LPanalysis

LPestimation

Excitationextension

Narrow bandspeech

Wide bandspeech

Codebook

System overview

Page 5: Bandwidth Expansion of Narrow band Speech using Linear Prediction

6

LPsynthesis

Envelopeextension

LPanalysis

LPestimation

Excitationextension

Narrow bandspeech

Wide bandspeech

Codebook

Excitation Estimation

•Modulation moves the frequency

•Pitch detection estimates the fundamental frequency

Modulation

Adding ofpitch

Page 6: Bandwidth Expansion of Narrow band Speech using Linear Prediction

7

The result

Telephoneswitch

Telephoneswitch

BandwidthExpansion

Public telephone system At the user

Page 7: Bandwidth Expansion of Narrow band Speech using Linear Prediction

8

Poster præsentation

Frederik

Page 8: Bandwidth Expansion of Narrow band Speech using Linear Prediction

9

Page 9: Bandwidth Expansion of Narrow band Speech using Linear Prediction

10

Kommunikative virkemidler• Bygget op omkring IMRaD-modellen• Centralt placerede figurer• Selvforklarende figurer• Kortfattet tekst• Tekst underbygges af figurer

Page 10: Bandwidth Expansion of Narrow band Speech using Linear Prediction

11

Abstract

Peter

Page 11: Bandwidth Expansion of Narrow band Speech using Linear Prediction

12

AbstractOversigt Titel Introduktion Metoder Resultater Diskussion

• Titel

• IMRaD– Introduktion– Metoder– Resultater– Diskussion

Page 12: Bandwidth Expansion of Narrow band Speech using Linear Prediction

13

Abstract Oversigt Titel Introduktion Metoder Resultater Diskussion

• Beskrive rapporten så præcist som muligt

• Skal ikke være for lang

• Skal præsentere ”key words”.

• Bandwidth Expansion of Narrowband Speech using Linear Prediction

Page 13: Bandwidth Expansion of Narrow band Speech using Linear Prediction

14

Abstract Oversigt Titel Introduktion Metoder Resultater Diskussion

• Beskrivelse af problemstillingen

• Uddybelse af problem, så læseren ikke er i tvivl om hvad projektet handler om

• Kan bruges som en ”appetitvækker”

• ”...,thus making the speech sound more realistic and pleasant”

Page 14: Bandwidth Expansion of Narrow band Speech using Linear Prediction

15

Abstract Oversigt Titel Introduktion Metoder Resultater Diskussion

• Forklaring af brugte metoder

• Forklaring af løsningsforslag

• Inddrag ikke resultater i Metoder

• Signal split into two parts....

• LP coefficient → LSF coefficient

• LSF codebook

Page 15: Bandwidth Expansion of Narrow band Speech using Linear Prediction

16

Abstract Oversigt Titel Introduktion Metoder Resultater Diskussion

• Forklaring af testmetode

• Præsentation af relevante resultater, evt. Ikke alle resultater fra projektet.

• ”Spectrograms of the reconstructed wideband signal verified.....”

• ”Convergence measurements ranging.....”• Listening test

Page 16: Bandwidth Expansion of Narrow band Speech using Linear Prediction

17

Abstract Oversigt Titel Introduktion Metoder Resultater Diskussion

• Opsummerer de mest relevante resultater

• Diskuterer resultaterne

• Diskuterer fremtidigt arbejde

• ”The algorithm for wideband expansion proved to work...”

• ”However, unwanted artefacts developed in the reconstruction af the wideband signal”

Page 17: Bandwidth Expansion of Narrow band Speech using Linear Prediction

18

Arbejdsmetodik og arbejdsblade

Ole

Page 18: Bandwidth Expansion of Narrow band Speech using Linear Prediction

19

Arbejdsmetoder

• Projektet blev delt op i flere mindre dele

• Hver del blev undersøgt og behandlet af 1-3 personer

• Dele og grupper blev løbende revideret

• Alle undersøgelser og behandlinger blev beskrevet i arbejdsblade

Page 19: Bandwidth Expansion of Narrow band Speech using Linear Prediction

20

• Envelope and excitation evaluation• Listening test• Overview of the human speech system• Framing and deframing• LPC modeling of vocal tract

• Vector Quantization• Codebook training• Generating the codebook for speech enhancement• The K-means Clustering Algorithm

• Excitation extension• Cepstral signal analysis for pitch detection• Pitch detection• Telephone filter• Reflection Coefficients• Line Spectrum Pairs

LPsynthesis

Envelopeextension

LPanalysis

LPestimation

Excitationextension

Codebook

Arbejdsblade

Page 20: Bandwidth Expansion of Narrow band Speech using Linear Prediction

21

Envelope

Brian

Page 21: Bandwidth Expansion of Narrow band Speech using Linear Prediction

22

Envelope

• Vocal tract model

• Line Spectrum Frequency

• Codebook

• Spectral distortion

Page 22: Bandwidth Expansion of Narrow band Speech using Linear Prediction

23

Vocal tract model

W

-

+

FIR

Impuls generator/ white noise

1

H(z)

Predictions error filterVocal tract model

( )n-1u n | U

(u n)

(u n- 1)

(v n) (e n)

-1z

Sound production

H(z)

Page 23: Bandwidth Expansion of Narrow band Speech using Linear Prediction

24

Line Spectrum Frequency

Page 24: Bandwidth Expansion of Narrow band Speech using Linear Prediction

25

Final codebook

Narrow bandtraining data

K-meansNarrow band

codebook(2048 x 10)

Wide bandtraining data

IndexWide bandcodebook

(2048 x 20)

Codebook

Page 25: Bandwidth Expansion of Narrow band Speech using Linear Prediction

26

Spectral distortion

Mål : Spectral distortion < 1dB

Page 26: Bandwidth Expansion of Narrow band Speech using Linear Prediction

27

Excitation

Jakob

Page 27: Bandwidth Expansion of Narrow band Speech using Linear Prediction

28

• Ønsket funktionalitet

• Filtrering og opsampling

• Rekonstruktion af residualsignal

Excitation Extension

Page 28: Bandwidth Expansion of Narrow band Speech using Linear Prediction

29

• Rekonstrueret residualsignal lig originalt

• Genskabe amplitudespektrum

• Karakteristika

• Filtreringsproblem

Ønsket funktionalitet

0 1000 2000 3000 4000 5000 6000 7000 80000

0.5

1

1.5

2

Frequency

Am

plit

ud

e

0 1000 2000 3000 4000 5000 6000 7000 80000

0.5

1

1.5

2

Frequency

Am

plit

ud

e

Page 29: Bandwidth Expansion of Narrow band Speech using Linear Prediction

30

• Telefilter

-HP-filter: fp = 300 Hz fs = 250 Hz

-LP-filter: fp = 3400 Hz fs = 3450 Hz

Filtrering og opsampling

• Residualfilter

-HP-filter: fp = 350 Hz fs = 300 Hz

-LP-filter: fp = 3350 Hz fs = 3400 Hz

4

f [kHz]

2

Am

plitude

4

f [kHz]

2

Am

plitude

Page 30: Bandwidth Expansion of Narrow band Speech using Linear Prediction

31

• Modulation

• Addition af hvid støj

Rekonstruktion

Upsample &Filtering

exp(jn)

HP-filter

Excitationsignal Output

HP-filter

Whitenoise

Pitchdetector

Sinegenerator

Speechsignal

G1

G2

G3

84 6

f [kHz]

2

Am

plitude

84 6

f [kHz]

2

Am

plitude

84 6

f [kHz]

2

Am

plitude

Page 31: Bandwidth Expansion of Narrow band Speech using Linear Prediction

32

• Addering af pitchfrekvens

• Tilpasning af fase

• Problem ved segmentoverlap

Rekonstruktion

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6 1.8 2

-1

-0.8

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Forbedringer

• Midling af pitch

• Kalman-filter

• Pitchdetektion af svage signaler

Page 32: Bandwidth Expansion of Narrow band Speech using Linear Prediction

33

Gennemgang af artikel

Bjarke

Page 33: Bandwidth Expansion of Narrow band Speech using Linear Prediction

34

Gennemgang af artikel

Abstract Introduktion Metoder Resultater Diskussion / konklusion

Gennemgang• IMRaD

• Indhold og opbygning af afsnit

• Videnskabelig fremgangsmetode(r)

• Særlig fokus på resultater / konklusion

Page 34: Bandwidth Expansion of Narrow band Speech using Linear Prediction

35

Gennemgang af artikelArtiklens opbygning

Problemstilling

Undersøgelse af løsnings-metoder

Valg af løsnings-metode

Anvendelse af nye / kombination af eksisterende metoder

Videnskabelig gen-nemgang af metoder

Test metoder og resultater af tests

Vurdering af resultater

Konklusion

Page 35: Bandwidth Expansion of Narrow band Speech using Linear Prediction

36

Gennemgang af artikel

Abstract Introduktion Metoder Resultater Diskussion / konklusion

Indhold• Kort beskrivelse af problemstilling

• Anvendte metoder i løsning

• Resultat

Page 36: Bandwidth Expansion of Narrow band Speech using Linear Prediction

37

Gennemgang af artikel

Problemstilling• Telefonsystem båndbrede begrænset (300-3400 Hz)

• Mål: Båndbrede på 80-8000 Hz

Løsning• Undersøgt eksisterende løsninger / ideer

- Problemstilling ikke løst

• Arbejde videre med eksisterende idé

• Mål: Finde / forbedre metoder til implementering af idé

Abstract Introduktion Metoder Resultater Diskussion / konklusion

Page 37: Bandwidth Expansion of Narrow band Speech using Linear Prediction

38

Gennemgang af artikel

Eksisterende metoder• Anvendelse af metoder

• Kombination af metoder

Nye ideer• LPC LSF koefficienter

• Anvendelse af kodebog

• Modulation af residual signal

Abstract Introduktion Metoder Resultater Diskussion / konklusion

Page 38: Bandwidth Expansion of Narrow band Speech using Linear Prediction

39

Gennemgang af artikel

Test metoder• Matematisk - Talstørrelse for godhed

• Visuelt - Identificering af mangler

• Lyttetest - Overordnet resultat

Mål med test• Sammenligne resultater

• Identificering af problemer i metoder

• Brugeres vurdering af metoder

Abstract Introduktion Metoder Resultater Diskussion / konklusion

Page 39: Bandwidth Expansion of Narrow band Speech using Linear Prediction

40

Vurdering af resultater• Matematiske resultater

• Visuelle resultater

• Lyttetest resultater

Konklusion• Båndbredeudvidelse opnået

• Metoder mangler videre udvikling

Gennemgang af artikel

Abstract Introduktion Metoder Resultater Diskussion / konklusion

• Spectral Distortion

- 5,3 < μ < 7,0 dB

- 2,4 < σ2 < 7,4 dB2

- Ingen spectral transparency (1,0 dB)

• Forklaringer

- Kodebog er mangelfuld

- Sammenhæng mellem bånd utilstrækkelig

• Spectrogrammer

- Tilføjet komponenter til øvre bånd

- Unvoiced lyd gengives ultilstrækkeligt i øvre bånd

- Sinus element tilføjet upræcist i nedre bånd

• Forklaringer

- Envelope extension virker utilstrækkelig i øvre bånd

- Excitation extension virker utilstrækkelig i nedre bånd

• A/B test

- Original telefon signal fortrukket

• Forklaringer

- Artefakter introduceret i signal

- Utiltrækkelig gengivelse af unvoiced lyd

Page 40: Bandwidth Expansion of Narrow band Speech using Linear Prediction

41