alignment of parallel corpora
TRANSCRIPT
-
7/21/2019 Alignment of Parallel Corpora
1/3
A U T O M A T I C A L I G N M E N T I N P A R A L L E L C O R P O R A
H a r r i s P a p a g e o r g i o u L a m b r o s C r a n ia s S t e l i o s P i p e r i d i s I
I n s t it u t e f o r L a n g u a g e a n d S p e e c h P r o c e s s i n g
2 2 , M a r g a r i S t r e e t , 1 1 5 2 5 A t h e n s , G r e e c e
S t e l i o s . P i p e r i d i s @ e u r o k o m . i e
A B S T R A C T
Th i s p a p e r a d d re s s e s t h e a l i g n m e n t i s s u e i n
t h e f r a m e w o rk o f e x p l o i t a t i o n o f l a rg e b i -
mul t i l ingua l co rpora fo r t rans la t ion pu rposes . A
g e n e r i c a l i g n m e n t s c h e m e i s p ro p o s e d t h a t c a n
m e e t v a r y i n g r e q u i r e m e n t s o f d i f f e r e n t
a p p l i c a t i o n s . D e p e n d i n g o n t h e l e v e l a t w h i c h
a l ignm en t i s sough t , appropr ia te su r face
l i n g u i s t i c i n fo rm a t i o n i s i n v o k e d c o u p l e d w i t h
in fo rmat ion abou t poss ib le un i t de l imi te rs . Each
tex t un i t ( sen tence , c lause o r ph rase) i s
r e p re s e n t e d b y t h e s u m o f i ts c o n t e n t t a gs . Th e
re s u lt s a r e t h e n f e d i n to a d y n a m i c p ro g ra m m i n g
f r a m e w o r k t ha t c o m p u t e s t h e o p t i m u m a l i g nm e n t
o f u n it s . Th e p ro p o s e d s c h e m e h a s b e e n t e s t e d a t
s e n t e n c e l e v e l o n p a r a l le l c o rp o ra o f t h e C E LE X
d a t a b a s e . Th e s u c c e s s r a te e x c e e d e d 9 9 % . T h e
n e x t s t e p s o f t h e w o rk c o n c e rn t h e t e s t i ng o f t h e
s c h e m e ' s e f f i c i e n c y a t l o w e r l e v e l s e n d o w e d w i t h
n e c e s s a ry b i l i n g u a l i n fo rm a t i o n a b o u t p o t e n t i a l
de l imi te rs .
I N T R O D U C T I O N
Para l le l l ingu is t i ca l ly mean ingfu l t ex t un i t s
a r e i n d i sp e n s a b le i n a n u m b e r o f N L P a n d
lex icograph ic app l ica t ions and recen t ly in the so
c a l l e d Ex a m p l e -B a s e d M a c h i n e T ra n s l a t i o n
( E B M T ) .
A s r e g a r d s E B M T , a l a r g e a m o u n t o f b i-
m u l t i l in g u a l t r a n s la t i on e x a m p l e s i s s t o r e d i n a
d a t a b a s e a n d i n p u t e x p re s s i o n s a r e r e n d e re d i n
t h e t a rg e t l a n g u a g e b y r e t r i e v i n g f ro m t h e
d a t a b a s e t h a t e x a m p l e w h i c h i s m o s t s i m i l a r t o
the inpu t . A task o f c ruc ia l impor tance in th i s
f r a m e w o rk , i s t h e e s t a b l is h m e n t o f
c o r r e s p o n d e n c e s b e t w e e n u n i t s o f m u l t i l i n g u a l
t e x ts a t s e n t e n c e , p h ra s e o r e v e n w o rd l e v e l.
Th e a d o p t e d c r i t e ri a f o r a s c e r t a in i n g t h e
a d e q u a c y o f a l i g n m e n t m e t h o d s a re st a t e d a s
fo l lows :
1This resea rch was supported by the LRE I
TRANSLE ARN project of the European Union
a n a l i g nm e n t s c h e m e m u s t c o p e w i t h t h e
e m b e d d e d e x t r a - l i n g u i s t i c d a t a ( t a b l e s , a n c h o r
p o i n t s , S G M L m a rk e r s , e t c ) a n d t h e i r p o s s i b l e
incons i s tenc ies .
i t shou ld be ab le to p rocess a l a rge am oun t
o f t e x t s in l i n e a r t im e a n d i n a c o m p u t a t i o n a l l y
e f f e c t i v e w a y .
i n t e rm s o f p e r fo rm a n c e a c o n s i d e ra b l e
s u c c e s s r a t e ( a b o v e 9 9 % a t s e n t e n c e l e v e l ) m u s t
b e e n c o u n t e r e d i n o rd e r t o c o n s t ru c t a d a t a b a s e
wi th t ru th fu l ly co rre spond en t un i t s . I t is des i rab le
t h a t th e a l i g n m e n t m e t h o d i s l a n g u a g e -
independen t .
s t h e p ro p o s e d m e t h o d m u s t b e e x te n s i b l e t o
a c c o m m o d a t e fu t u r e i m p ro v e m e n t s . I n a d d i t i o n ,
a n y t r a i n i n g o r e r ro r c o r r e c t i o n m e c h a n i s m
shou ld be re l i ab le , fas t and shou ld no t requ i re
v a s t a m o u n t s o f d a t a w h e n s w i t c h i n g f ro m a p a i r
o f l a n g u a g e s t o a n o t h e r o r d e a l i n g w i t h d i f f e r e n t
t e x t t y p e c o rp o ra .
S e v e ra l a p p ro a c h e s h a v e b e e n p ro p o s e d
tack l ing the p rob le m a t var ious l eve l s . [Cat izone
8 9 ] p ro p o s e d l i nk i n g r e g i o n s o f t e x t a c c o rd i n g t o
t h e r e g u l a r i t y o f w o rd c o -o c c u r r e n c e s a c ro s s
texts .
[B ro w n 9 1 ] d e s c r i b e d a m e t h o d b a s e d o n t h e
n u m b e r o f w o rd s t h a t s e n t e n c e s c o n ta i n .
M o re o v e r , c e r t a i n a n c h o r p o i n t s a n d p a ra g ra p h
m a rk e r s a r e a l s o c o n s i d e re d . Th e m e t h o d h a s
b e e n a p p l i e d to t h e H a n s a rd C o rp u s a c h i e v i n g a n
a c c u r a c y b e t w e e n 9 6 % - 9 7% .
[G a l e 9 1 ] [C h u rc h 9 3 ] p ro p o s e d a m e t h o d
tha t re l i es on a s imple s ta t i s t i ca l model o f
c h a ra c t e r l e ng t h s . Th e m o d e l i s b a s e d o n t h e
o b s e rv a t io n t h a t l o n g e r s e n t e n c e s i n o n e l a n g u a g e
tend to be t rans la ted in to longer sequences in the
o t h e r l a n g u a g e w h i l e s h o r t e r o n e s t e n d t o b e
t rans la ted in to shor te r ones . A p robab i l i s t i c sco re
i s a s s ig n e d t o e a c h p a i r o f p ro p o s e d s e n t e n c e
p a i rs , b a s e d o n t h e r a t io o f l e n g t h s o f t h e t w o
s e n t e n c e s a n d t h e v a r i a n c e o f t h i s r a t i o .
4
-
7/21/2019 Alignment of Parallel Corpora
2/3
A l t h o u g h t h e a p p a r e n t e f f i c a c y o f th e G a l e -
C h u r c h a l g o ri t h m i s u n d e n i a b l e a n d v a l i d a t e d o n
d i f f e r e n t p a i rs o f l a n g ua g e s , i t fa c e s p r o b l e m s
w h e n h a n d l i n g c o m p l e x a l i g n m e n t s . T h e 2 - 1
a l i gnmen t s had f i ve t i mes t he e r ro r r a t e o f 1 -1 .
T h e 2 - 2 c a t e g o r y d i s c l o s e d a 3 3 % e r r o r r a t e ,
wh i l e t he 1 -0 o r 0 -1 a l i gnmen t s were t o t a l l y
mi ssed .
T o o v e r c o m e t h e in h e r it e d w e a k n e s s e s o f t h e
G a l e - C h u r c h m e t h o d , [ S i m a r d 9 2 ] p r o p o s e d
u s i n g c o g n a t e s , w h i c h a r e p a i rs o f to k e n s o f
d i f f e re n t l a n g u a g e s w h i c h s h a r e o b v i o u s
p h o n o l o g i c a l o r o r t h o g r a p h i c a n d s e m a n t i c
p roper t i es , s i nce t hese a r e l i ke l y t o be u sed as
mu t ua l t r ans la t i ons .
In t h i s paper , an a l i gnmen t scheme i s
p r o p o s e d i n o r d e r to d e a l w i t h t h e c o m p l e x i t y o f
v a r y i n g r e q u i r e m e n t s e n v i s a g e d b y d i f f e r e n t
app l i ca t i ons i n a sys t emat i c way . Fo r exampl e , i n
E B M T , t h e r e q u i r e m e n t s a r e s t r i c t i n t e r m s o f
i n fo rmat i on i n t eg r i t y bu t r e l axed i n t e rms o f
d e l a y a n d r e s p o n s e t i m e . O u r a p p r o a c h i s b a s e d
o n s e v e r a l o b s e r v a t i o n s . F i r s t o f a l l , w e a s s u m e
t h a t e s t a b l is h m e n t o f c o r r e s p o n d e n c e s b e t w e e n
un i t s can be app l i ed a t sen t ence , c l ause , and
p h r a s e l e v e l. A l i g n m e n t a t a n y o f t h e s e l e v e l s h a s
t o i nvoke a d i f f e r en t se t o f t ex t ua l and l i ngu is t ic
i n fo rmat i on ( ac t i ng as un i t de l i mi t e r s ) . I n t h i s
paper , a l i gnmen t i s t ack l ed a t sen t ence l eve l .
T H E A L I G N M E N T A L G O R I T H M _
Cont en t words , un l i ke func t i ona l ones , mi gh t
b e i n t e r p r e t e d a s t h e b e a r e r s t h a t c o n v e y
i n fo rmat i on b y deno t i ng t he en t i t ies and t he i r
r e l a t i onsh i ps i n t he wor l d . The no t i on o f
sp read i ng t he seman t i c l oad suppor t s t he i dea
t h a t e v e r y c o n t e n t w o r d s h o u l d b e r e p r e s e n t e d a s
t h e u n i o n o f a l l th e p a r t s o f s p e e c h w e c a n a s s i gn
t o i t [Bas i l i 92 ] . The pos t u l a t ed assumpt i on i s
t h a t a c o n n e c t i o n b e t w e e n t w o u n i t s o f t e x t i s
es t ab l i shed i f , and on l y i f , t he seman t i c l oad i n
o n e u n i t a p p r o x i m a t e s t h e s e m a n t i c l o a d o f th e
other .
Based on t he f ac t t ha t t he p r i nc i pa l
r equ i r emen t i n any t r ans l a t i on exerc i se i s
m e a n i n g p r e s e r v a t i o n a c r o s s th e l a n g u a g e s o f th e
t r ans l a ti on pa i r , we de f i ne t he seman t i c l oad o f a
sen t enc e as t he pa t t e rns o f t ags o f i ts con t en t
w o r d s . C o n t e n t w o r d s a r e t a k e n t o b e v e r b s ,
n o u n s , a d j e c t iv e s a n d a d v e r b s . T h e c o m p l e x i t y o f
t r ans fer i n t r ans l a t i on i mposes t he cons i dera t i on
o f t h e n u m b e r o f c o n t e n t ta g s w h i c h a p p e a r i n a
t a g p a t t e r n . B y c o n s i d e r i n g t h e t o t a l n u m b e r o f
con t en t t ags t he morpho l og i ca l der i va t i on
p r o c e d u r e s o b s e r v e d a c r o s s l a n g u a g e s , e . g . t h e
t r a n s fe r o f a v e r b i n t o a v e r b + d e v e r b a l n o u n
pat t e rn , a r e t aken in t o accoun t . M orpho l og i ca l
a m b i g u i t y p r o b l e m s p e r t a in i n g t o c o n t e n t w o r d s
a r e t r e a t e d b y c o n s t r u c t i n g a m b i g u i t y c l a s s e s
(acs ) l ead i ng t o a gene ra l i sed s e t o f con t en t t ags .
I t i s es sen t i a l here t o c l a r i fy t ha t i n t h i s
a p p r o a c h n o d i s a m b i g u a t i o n m o d u l e i s
p r e r e q u i s i t e . T h e t i m e b r e a k d o w n f o r
m o r p h o l o g i c a l t a g g i n g , w i t h o u t a d i s a m b i g u a t o r
dev i ce , i s acco rd i ng t o [Cu t t i ng 92 ] i n t he o rder
o f 1 0 0 0 ~ t s e c o n d s p e r t o k e n . T h u s , t e n s o f
m e g a b y t e s o f t e x t m a y t h en b e t a g g e d p e r h o u r
a n d h i g h c o v e r a g e c a n b e o b t a i n e d w i t h o u t
p roh i b i t i ve e f fo r t .
H a v i n g i d e n ti f ie d t h e s e m a n t i c l o a d o f a
s e n t e n c e , M u l t i p l e L i n e a r R e g r e s s i o n i s u s e d
to
bu i l d a quan t i t a t i ve model r e l a t i ng t he con t en t
t a g s o f t h e s o u r c e l a n g u a g e ( S L ) s e n t e n c e t o th e
r e s p o n s e , w h i c h i s a s s u m e d t o b e t h e s u m o f t h e
c o u n t s o f t h e c o r r e s p o n d i n g c o n t e n t t a g s i n t h e
t a r g e t l a n g u a g e ( T L ) s e n t e n c e . T h e r e g r e s s i o n
m o d e l i s f i t t o a s e t o f s a m p l e d a t a w h i c h h a s
b e e n m a n u a l l y a l i g n e d a t s e n t e n c e l e v e l . S i n c e
w e i n t u i t i v e l y b e l i e v e t h a t a s i m p l e s u m m a t i o n
o v e r t h e S L c o n t e n t t a g c o u n t s w o u l d b e a r a t h e r
g o o d e s t i m a t o r o f t h e r e s p o n s e , w e d e c i d e t h a t
t h e u s e o f a l in e a r m o d e l w o u l d b e a c o s t -
e f f ec t i ve so l u t i on .
T h e l i n e a r d e p e n d e n c y o f y ( th e s u m o f th e
c o u n t s o f t h e c o n t e n t t a g s i n th e T L s e n t e n c e )
u p o n x i ( th e c o u n t s o f e a c h c o n t e n t t a g c a t e g o r y
a n d o f e a c h a m b i g u it y c la s s o v e r t h e S L
s e n t e n c e ) c a n b e s t a t e d a s
Y = b o + b
1
x
1
b 2 x 2 + b 3 x 3 + - - . + b n x n ~ I )
w h e r e t h e u n k n o w n p a r a m e t e r s { b i } a r e t h e
r e g r e s s i o n c o e f f i c i e n t s , a n d s i s t he e r ro r o f
e s t i m a t i o n a s s u m e d t o b e n o r m a l l y d i s t r i b u t e d
w i t h z e r o m e a n a n d v a r i a n c e 0 2 .
I n o r d e r t o d e a l w i t h d i f f e r e n t t a g g e r s a n d
a l t e rna t ive t agse t s , o t her co n f i gu ra t i ons o f (1 ) ,
m e r g i n g acs appropr i a t e l y , a r e a l so
r e c o m m e n d e d . F o r e x a m p l e , i f a n a c s a c c o u n t s
f o r u n k n o w n w o r d s , w e c a n u s e t h e f a c t t h a t
m o s t u n k n o w n w o r d s a r e n o u n s o r p r o p e r n o u n s
a n d m e r g e t h is c a t e g o r y w i t h n o u n s. W e c a n a l s o
m e r g e a c s t h a t a r e r e p r e s e n t e d w i t h o n l y a f e w
d i s t i n c t w o r d s i n t h e t r a i n i n g c o r p u s . M o r e o v e r ,
t h e u s e o f r e l a ti v e l y f e w a c s ( a s s o c i a t e d w i t h
c o n t e nt w o r d s ) r e d u c e s t h e n u m b e r o f p a r a m e t e r s
5
-
7/21/2019 Alignment of Parallel Corpora
3/3
t o b e e s t i m a t e d , a f f e c t i n g t h e s i ze o f t h e s a m p l e
a n d t h e t i m e r e q u i r e d fo r t r a in i n g.
Th e m e t h o d o f l e a s t sq u a re s is u s e d to
es t imate the reg ress ion coeff ic ien t s in (1 ) .
H a v i n g e s t i m a t e d t h e b i a n d 0 2 , t h e
p robab i l i s t i c sco re as s igned to the compar i son o f
t w o s e n t e n c e s a c ro s s l a n g u a g e s i s j u s t t h e a r e a
u n d e r t h e N (0 ,o 2 ) p . d .f . , s p e c i f i e d b y t h e
es t imat ion e r ro r . Th is p robab i l i s t i c sco re i s
u t i l i s e d i n a D y n a m i c P ro g ra m m i n g (D P )
f r a m e w o rk s i m i l a r t o t h e o n e d e s c r i b e d i n [G a l e
91] . The DP a lgo r i thm i s app l ied to a l igned
p a ra g ra p h s a n d p ro d u c e s t h e o p t i m u m a l i g n m e n t
o f s e n t e n c e s w i t h i n t h e p a r a g ra p h s .
E V A L U A T I O N
Th e a p p l i c a t i o n o n w h i c h w e a r e d e v e l o p i n g
a n d t e s t in g t h e m e t h o d i s i m p l e m e n t e d o n t h e
G re e k -En g l i s h l a n g u a g e p a i r o f s e n t e n c e s o f t h e
C E L E X c o r p us ( t h e c o m p u t e r i s e d d o c u m e n ta t i on
s y s t em o n E u r o p e a n C o m m u n i t y L a w ) .
T ra i n i n g w a s p e r fo rm e d o n 4 0 A r t ic l e s o f
t h e C EL EX c o rp u s a c c o u n t i n g fo r 3 0 00 0 w o rd s .
W e h a v e t e s t e d t h i s a l g o r i t h m o n a r a n d o m l y
s e l e c t e d c o rp u s o f t h e s a m e t e x t t y p e o f a b o u t
3 2 0 0 s e n t e n c e s . D u e t o t h e s p a r s e n e s s o f a c s
( a s s o c i a t e d o n l y w i t h c o n t e n t w o rd s ) i n o u r
t r a i n i n g d a t a , w e r e c o n s t ru c t ( 1 ) b y u s i n g fo u r
var iab les . Fo r in f lec t ive l anguages l ike Greek ,
m o rp h o l o g i c a l i n fo rm a t i o n a s s o c i a t e d t o w o rd
fo rms p lays a c ruc ia l ro le in as s ign ing a s ing le
c a t e g o ry . M o re o v e r , b y c o u n t i n g i n s ta n c e s o f a c s
i n t h e tr a i n in g c o rp u s , w e o b s e rv e d th a t w o rd s
t h a t , f o r e x a m p l e , c a n b e a n o u n o r a v e rb , a r e
(d u e t o t h e l a c k o f t h e s e c o n d s i n g u la r p e r s o n i n
t h e c o rp u s ) e x c l u s i v e l y n o u n s . H e n c e :
Y=bo+b 1x 1+ b 2 x 2 + b 3 x 3 + b 4 x 4 + s (2 )
w her e x 1 rep resen t s ve rbs , x 2 s tands fo r no uns ,
u n k n o w n w o rd s , v e rn o u (ve rb o r n o u n ) a n d
nouad j (n oun o r ad jec t ive) , x 3 ad jec t ives and
verad j (ve rb o r ad jec t ive) , x 4 adverbs and
advad j (adverb o r ad jec t ive )
02 was es t imated a t 3 .25 on our t ra in ing
s a m p l e , w h i l e t h e r e g re s s i o n c o e f f i c i e n t s w e re :
b 0 = 0.2848 ,b 1 = 1.1075, b 2 = 0.947 4,
b 3 = 0 .8584,b 4 = 0 .7579
A n a c c u ra c y t h a t a p p ro x i m a t e d a 1 0 0 %
s u c c e s s r a t e w a s r e c o rd e d . R e s u l t s a r e s h o w n i n
Ta b l e 1 . I t i s r e m a rk a b l e t h a t t h e r e i s n o n e e d fo r
any lex ica l cons t ra in t s o r cer ta in anchor po in t s to
i m p ro v e t h e p e r fo rm a n c e . A d d i t i o n a ll y , t h e s a m e
m o d e l a n d p a ra m e t e r s c a n b e u s e d i n o rd e r t o
c o p e w i t h t h e i n f r a - s e n t e n c e a l ig n m e n t .
In o rd e r t o a l i g n a ll t h e C EL EX t e x ts , w e
in tend to p repare the mater ia l ( t ex t hand l ing , pos
t a g g i n g i n d i f f e r e n t l a n g u a g e s p a i r s a n d d i f f e r e n t
tag se t s, e tc . ) so tha t w e wi l l be ab le to eva lua te
t h e m e t h o d o n a m o re r e l i a b l e b a s i s . W e a l s o
h o p e t o t e s t t h e m e t h o d ' s e f f i c i e n c y a t p h ra s e
l e v e l e n d o w e d w i t h n e c e s s a ry b i l i n g u a l
i n fo rm a t i o n a b o u t p h ra s e d e l i m i te r s . I t w i l l b e
s h o w n t h e r e , t h a t r e u s a b i l i t y o f p r e v i o u s
i n fo rm a t i o n f a c i l i t a t e s t u n i n g a n d r e s o l v i n g o f
i n c o n s i st e n c i e s b e t w e e n v a r i o u s d e l i m i te r s .
c a t e g o r y
1-0 or 0-1
N
correct m a t c h e s
4
1-1 3178 3178
2-1 or 1-2 36 35
2-2 0 0
Ta b l e 1 : M a t c h e s i n s e n t e n c e p a ir s o f t h e
C E L E X c o r p u s
R E F E R E N C E S .
[B a s i l i 9 2 ] B a s i l i R . P a z i e n z a M . V e l a rd i
P .
C o m p u t a t i o n a l l e xi c o n s : Th e n e a t e x a m p l e s a n d
t h e o d d e x e m p l a r s . P r e c . o f t h e Th i rd
C o n fe r e n c e o n A p p l i e d N LP 1 99 2
[ B r o w n 9 1 ] B r o w n P . L a i J . a n d M e r c e r R .
A l i g n i n g s e n t e n c e s i n p a r a l le l c o rp o ra . P r e c . o f
A C L 1 9 9 1
[ C a t i z o n e 8 9 ] C a t i z o n e R . R u s s e l l G . W a r w i c k
S. Der iv ing t rans la t ion da ta f rom b i lingual
tex t s . P re c . o f the F i rs t Lex ica l Ac qu is i t ion
Workshop , Det ro i t 1989
[ C h u r c h 9 3 ] C h u r c h K . C h a r _a l ig n : A p r o g ra m
for a l ign ing para l l e l t ex t s a t charac te r l eve l
P r e c . o f A C L 9 3
[C u t t i n g 9 2 ] C u t t in g D . K u p i e c J . P e d e r s e n J .
S i b u n P . A p ra c ti c a l p a r t -o f - s p e e c h t a g g e r
P r o c . o f A C L 1 99 2
[ G a l e 9 1 ] G a l e W . C h u r c h K . A p ro g r a m f o r
a l ign ing sen tences in b i l ingual co rpora , Prec . o f
A C L 1 9 9 1
[S i m a rd 9 2 ] S i m a rd M . F o s t e r G . I sa b e l l e
P .
Using cognates to a l ign sen tences in b i l ingual
c o rp o ra P re c . o f TM I 1 9 92
3 3 6