generalized lr laurent wouters laurent.wouters@eads.net 01/06/2012

Generalized LR

Laurent WOUTERS

laurent.wouters@eads.net

01/06/2012

Partie 1 – Introduction

Partie 2 – Méthode GLR

1 – Historique et Variantes

2 – Graph-Structured Stack

3 – Algorithme GLR

4 – Shared Packed Parse Forest

5 – Right-Nulled GLR

6 – Complexités

Partie 3 – Outils

Partie 4 – Ouverture

INTRODUCTION

Langage de programmation

Pour des langages de programmation modernes, la grammaire est en général accessible:

- Documents de standardisation: C: ISO/IEC 9899:1999 C++: ISO/IEC 14882:2011 C#: ECMA-334

- Site web pour des projets open source: Java: http://docs.oracle.com/javase/specs/

- Documents de spécification pour d’autres: Visual Basic: http://www.microsoft.com/en-us/download/details.aspx?id=15039

Ambigüité des grammaires

Les grammaires des « gros » langages sont de plus en plus complexes:C: 210 règles syntaxiques BNFECMA Script: 270 règles syntaxiques BNFC# : 1200 règles syntaxiques BNF

Ces grammaires sont aussi ambigües, avec des ambigüités difficiles à résoudre tout en gardant la grammaire lisible pour un être humain.

Langage Nb états LALR(1) Conflits LR

C 375 38

ECMA Script 513 38

C# 2021 457

Exemple de conflit

type → NAME

primary → NAMEprimary → ( exp )

exp → primaryexp → ( type ) exp

( NAME ▪ ) …

Exemple de conflit LR classique dans les langages avec une syntaxe de type C :

exp → ( type ) exp → ( NAME ) exp

exp → primary → ( exp ) → ( primary ) → ( NAME )

MÉTHODE GLR

Idée Générale

Utiliser un automate LR.

Lors d’un conflit, explorer les différentes options en parallèle.

A tout moment dans la lecture de l’entrée, conserver l’ensemble des états accessibles de l’automate LR pour l’entrée lue.

Historique GLR

Knuth 65LR parsing

De Remer 69LALR parsing

De Remer 71SLR parsing

Tomita 85 86GLR parsing

Farshi 91Correct GLR

Rekers 92Compact Parse Forest

Johnstone & Scott 02 06Right Nulled parsing

Hilfinger 03GLR mode dans Bison

Algorithmes GLR (1)

TomitaAlgorithme 0 : Algorithme pour le cas où la grammaire n’a pas de conflit.

Algorithme 1: Fonctionne pour toutes les grammaires hors contexte sans règle vide.

Algorithme 2: Fonctionne pour toutes les grammaires hors contexte qui n’ont pas de récursivité à gauche cachés (non terminaison).

Algorithme 3: Même contrainte que 2 mais optimise la gestion de la pile.

Algorithme 4: Même contrainte que 2 et construit l’arbre syntaxique abstrait.

L’algorithme 2 est souvent considéré comme la référence.

FarshiModification de l’algorithme 1 pour le faire fonctionner pour toutes les grammaires hors

contexte. Mais complexe et inefficace.

Algorithmes GLR (2)

Scott & JohnstoneAlgorithme 1e: Modification de l’algorithme 1 pour traiter les règles vides mais ne supportant

pas la récursivité à droite.

Algorithme RNGLR: Algorithme final supportant toutes les grammaires hors contexte.

Exemple 1

type → NAMEtype → NAME . type

primary → NAMEprimary → ( exp )primary → primary . NAME

exp → primaryexp → ( type ) expS → exp $

( myvar )( string ) myvar( nmspce.ClassA ) obj.field

0S → ▪ exp $exp → ▪ primary $exp → ▪ ( type ) exp $primary → ▪ NAME $ .primary → ▪ ( exp ) $ .primary → ▪ primary . NAME $ .

1: S → exp ▪ $ 5: S → exp $ ▪

2exp → primary ▪ $ )primary → primary ▪ . NAME $ . )

6: primary → primary . ▪ NAME $. )

A: primary → primary . NAME ▪ $ . )

3exp → ( ▪ type ) exp $ )primary → ( ▪ exp ) $ . )type → ▪ NAME )type → ▪ NAME . Type )exp → ▪ primary )exp → ▪ ( type ) exp )primary → ▪ NAME . )primary → ▪ ( exp ) . )primary → ▪ primary . NAME . )

7: exp → ( type ▪ ) exp $ )

Bexp → ( type ) ▪ exp $ )exp → ▪ primary $ )exp → ▪ ( type ) exp $ )primary → ▪ NAME $ . )primary → ▪ ( exp ) $ . )primary → ▪ primary . NAME $ . )

E: exp → ( type ) exp ▪ $ )

4: primary → NAME ▪ $ . )

8: exp → ( exp ▪ ) $ . )

C: exp → ( exp ) ▪ $. )

9type → NAME ▪ )type → NAME ▪ . type )primary → NAME ▪ . )

Dtype → NAME . ▪ type )type → ▪ NAME )type → ▪ NAME . type )

10type → NAME ▪ )type → NAME ▪ . type )

F: type → NAME . type ▪ )

primary

primary(

GLR: Stack Splitting

( NAME ) $▪

Effectuer toutes les réductions possiblesPasser au token suivant

GLR: Graph-Structured Stack (1)

U0 U1 U2 U3

( NAME

primary

( NAME ) $▪

GLR: Graph-Structured Stack (2)

( NAME . NAME ) NAME $

primary

U0 U1 U2 U3 U4 U5 U6 U7

2primary

4primary

Exemple 2

A → aX → a XX → A XX → S → X $ 0

S → ▪ X $X → ▪ A X $X → ▪ a X $X → ▪ $A → ▪ a $ a

1: S → X ▪ $ 4: S → X $ ▪X $

2X → A ▪ X $X → ▪ A X $X → ▪ a X $X → ▪ $A → ▪ a $ a

3X → a ▪ X $A → a ▪ $ aX → ▪ A X $X → ▪ a X $X → ▪ $A → ▪ a $ a

5: X → A X ▪ $ 6: X → a X ▪ $

GLR: Stack Head Sharing and ε-Reduction

((3, 0), A)

((3, 3), A)

File de réduction

((3, 2), A)

((3), X)

((2), X)

((6, 3, 3), X)

((6, 3, 2), X)

((5, 2, 3), X)

((5, 2, 2), X)

((6, 3, 0), X)

((5, 2, 0), X)

((4, 1, 0), S)

a a $▪

GLR: Résumé

Une réduction GLR est l’action de réduire la règle correspondante et appliquer immédiatement le shift du symbole de tête.

Il faut rechercher dans le graph tous les chemins correspondant à la règle commençant au nœud courant de la pile.

Table GLR $ a X A

0 r(X,4,0) p3 p1 p2

2 r(X,4,0) p3 p5 p2

3 r(A,1,1) r(X,4,0)

r(A,1,1) p3

4 acc acc acc acc

5 r(X,3,2)

6 r(X,2,2)0

S → ▪ X $X → ▪ A X $X → ▪ a X $X → ▪ $A → ▪ a $ a 1: S → X ▪ $ 4: S → X $ ▪X

2X → A ▪ X $X → ▪ A X $X → ▪ a X $X → ▪ $A → ▪ a $ a

5: X → A X ▪ $ 6: X → a X ▪ $

1 A → a2 X → a X3 X → A X4 X → 5 S → X $

px = transition vers xr(V,r,l) = réduction de V avec la règle r de longueur l

GLR: Algorithme (DRIVER)

Table GLR T heads rqueue

DRIVER(input)

start = nouveau nœud de la pile pour l’état 0

heads= {start}

rqueue= {}

POUR (tous les tokens t dans input)

REDUCE(t)

SHIFT(t)

RETOURNE l’ensemble des état acceptant dans heads

GLR: Algorithme (REDUCE)

REDUCE(t)

POUR (tous les nœuds n représentant un état s dans heads)

POUR (toutes les réductions r(X, r, l) dans T(s, t))

POUR (tous les chemins p de longueur l partant de n)

Ajouter (p, X) à rqueue

TANT QUE (rqueue n’est pas vide)

Retirer le prochain (p, X) de rqueue

REDUCE_PATH(p, X, t)

GLR: Algorithme (REDUCE_PATH)

REDUCE_PATH(p, X, t)

left = premier nœud dans le chemin p; o = état représenté par left

SI (il existe un nœud d pour l’état s dans heads tel que T(o, X) contient p s)

SI (il n’ existe pas de lien X de d vers left)

Créer un lien link de d vers left

REDUCE_LIMITED(link, t)

Créer le nœud d pour l’état s dans heads tel que T(o, X) contient p s

Créer un lien link de d vers left

GLR: Algorithme (REDUCE_LIMITED)

POUR (tous les nœuds n représentant un état s dans heads)

POUR (toutes les réductions r(X, r, l) dans T(s, t))

POUR (tous les chemins p de longueur l partant de n et utilisant link)

Ajouter (p, X) à rqueue

GLR: Algorithme (SHIFT)

SHIFT(t)

tails = heads; heads = {}

POUR (tous les nœuds n représentant un état s dans tails)

SI (T(s, t) contient p x)

SI (heads contient un nœud d pour l’état x)

Créer un lien de d vers n

Créer un nœud d pour l’état x dans heads

Créer un lien de d vers n

Arbre Syntaxique

A → aX → a XX → A XX → S → X $

Shared Packed Parse Forest

x1 xm…

ai aj…

y1 yp…

ai aj…

y1 yp…

ai aj…

x1 xm…

FamillePacked

Exemple SPPF

A → aX → a XX → A XX → S → X $

GLR: Construction du SPPF, Méthode Tomita

Principe:

- Chaque arc dans la pile correspond à exactement 1 nœud dans le SPPF

- Les arcs de la pile sont labellisés avec leur nœud respectif

- Lors d’un shift, créer un nœud SPPF pour le terminal

- Lors d’une réduction

- Si le nœud SPPF existe déjà, (pas d’arc ajouté dans la pile), ajouter la nouvelle famille- Sinon, créer un nouveau nœud SPPF et une famille

GLR: Construction du SPPF, Méthode Tomita

((3, 0), A1)

((3, 3), A2)

File de réduction

((3, 2), A3)

((3), X1)

((2), X2)

((6, 3, 3), X3)

((6, 3, 2), X4)

((5, 2, 3), X3)

((5, 2, 2), X4)

((6, 3, 0), X5)

((5, 2, 0), X5)

((4, 1, 0), S)

a a $▪ SPPF

SPPF Construit avec Tomita

GLR: Construction du SPPF, Méthode Rekers

Principe:

- Similaire à la méthode de Tomita, mais cherche à maximiser la réutilisation des nœuds du SPPF.

- Les nœuds du SPPF contiennent plus d’informations: 1 nœud = 1 triplet (x, i, j)

- x: symbole du nœud- i: index de départ de la sous-chaîne d’entrée matchée par ce nœud- j: index d’arrivé

GLR: Construction du SPPF, Méthode Rekers

((3, 0), A)

((3, 3), A)

File de réduction

((3, 2), A)

((3), X)

((2), X)

((6, 3, 3), X)

((6, 3, 2), X)

((5, 2, 3), X)

((5, 2, 2), X)

((6, 3, 0), X)

((5, 2, 0), X)

((4, 1, 0), S)

a a $▪ SPPF

a, 0, 1 A, 0, 1

a, 1, 2 A, 1, 2 X, 2, 2

X, 1, 2

X, 0, 2 $, 2, 3

S, 0, 3

SPPF Construit avec Rekers

a, 0, 1 A, 0, 1

a, 1, 2 A, 1, 2 X, 2, 2

X, 1, 2

X, 0, 2 $, 2, 3

S, 0, 3

Right-Nulled GLR

Principe: Permettre la réduction d’une règle si la partie droite du corps de la règle peut être vide.

Pour l’item A → α ▪ β, x

appliquer la réduction de la règle A → α β pour le lookahead x si β ⇒ ε.*

Table RNGLR

$ a X A

0 r(X,4,0) p3 p1 p2

2 r(X,4,0) r(X,3,1)

p3 p5 p2

3 r(A,1,1) r(X,4,0) r(X,2,1)

r(A,1,1) p3

4 acc acc acc acc

5 r(X,3,2)

6 r(X,2,2)0S → ▪ X $X → ▪ A X $X → ▪ a X $X → ▪ $A → ▪ a $ a 1: S → X ▪ $ 4: S → X $ ▪X

2X → A ▪ X $X → ▪ A X $X → ▪ a X $X → ▪ $A → ▪ a $ a

5: X → A X ▪ $ 6: X → a X ▪ $

1 A → a2 X → a X3 X → A X4 X → 5 S → X $

px = shift vers xr(V,r,l) = réduction de V avec la règle r de longueur l

RNGLR: Algorithme (PARSER)

Table RNGLR T Entrée a1 … ad U0 … Ud R Q

SI (d = 0)

SI (T(0, $) accepte) => Retourne succès

SINON => Retourne échec

Créer un nœud v0 avec l’état 0

U0 = {v0}, R = {}, Q = {}, ad+1 = $

SI (T(0, a1) contient transition vers k)

Ajouter (v0, k) à Q

POUR (toutes les réduction d’une variable X en 0)

Ajouter (v0, X, 0) à R

POUR (i de 0 à d)

TANT QUE (Ui n’est pas vide)

TANT QUE (R n’est pas vide) => REDUCER(i)

SHIFTER(i)

RNGLR: Algorithme (REDUCER)

Prendre un triplet(v, X, m) dans R

χ = ensemble des nœuds accessible depuis v avec un chemin de taille m – 1, ou 0 si m = 0

POUR (tous les u dans χ)

k = l’état représenté par le nœud u

l = état successeur de k par X

SI (il existe w dans Ui représentant l)

SI (il n’y a pas d’arc de w vers u)

Créer un arc de w vers u

SI (m != 0) POUR (toutes les réduction de B à l’état l sur ai+1 de longueur t != 0)

Ajouter (u, B, t) à R

Créer un nœud w dans Ui pour l’état l et un arc de w vers u

SI (T(l, ai+1) contient une transition vers h => Ajouter (w, h) à Q

POUR (toutes les réduction de B à l’état l sur ai+1 de longueur 0)

Ajouter (w, B, 0) à R

SI (m != 0) POUR (toutes les réductions de B à l’état l sur ai+1 de longueur t != 0)

Ajouter (u, B, t) à R

RNGLR: Algorithme (SHIFTER)

SI (i = d) RETOURNE

Q’ = {}

TANT QUE (Q != {})

Prendre un couple (v, k) dans Q

SI (il existe w dans Ui+1 représentant k)

Créer un arc de w, vers v

POUR (toutes les réductions de B à l’état k sur ai+2 de longueur t != 0)

Ajouter (v, B, t) à R

Créer w dans Ui+1 représentant k et un arc de w vers v

SI (T(k, ai+2) contient une transition vers h)

Ajouter (w, h) à Q’

POUR (toutes les réductions de B à l’état k sur ai+2 de longueur t != 0)

Ajouter (v, B, t) à R

POUR (toutes les réductions de B à l’état k sur ai+2 de longueur 0)

Ajouter (w, B, 0) à R

Q = Q’

RNGLR: Construction du SPPF

L’algorithme RNGLR utilise une version modifiée de la méthode de Rekers pour prendre en charge les réductions supplémentaires.

Lors de la génération de la table, il faut également construire les bouts de SPPF correspondants à la partie droite des règles pouvant se dériver en ε.

Complexités

n = taille de l’input:

Algorithme Pire cas Grammaire LR(1)

Farshi O(n3) O(n)

Algorithme 1e O(n2) O(n)

RNGLR O(n2) O(n)

OUTILS

https://en.wikipedia.org/wiki/Comparison_of_parser_generators

Bison http://www.gnu.org/software/bison/ C, C++, Java

Elkhound http://scottmcpeak.com/elkhound/ C++, OCaml

Wormhole http://www.mightyheave.com/blog/ C, Python

Hime Parser Generator http://himeparser.codeplex.com/ C#

OUVERTURE

LR(*) : Cas d’utilisation

type → NAMEtype → NAME . type

primary → NAMEprimary → ( exp )primary → primary . NAME

exp → primaryexp → ( type ) expS → exp $

0S → ▪ exp $exp → ▪ primary $exp → ▪ ( type ) exp $primary → ▪ NAME $ .primary → ▪ ( exp ) $ .primary → ▪ primary . NAME $ .

1: S → exp ▪ $ 5: S → exp $ ▪

2exp → primary ▪ $ )primary → primary ▪ . NAME $ . )

6: primary → primary . ▪ NAME $. )

A: primary → primary . NAME ▪ $ . )

3exp → ( ▪ type ) exp $ )primary → ( ▪ exp ) $ . )type → ▪ NAME )type → ▪ NAME . Type )exp → ▪ primary )exp → ▪ ( type ) exp )primary → ▪ NAME . )primary → ▪ ( exp ) . )primary → ▪ primary . NAME . )

7: exp → ( type ▪ ) exp $ )

Bexp → ( type ) ▪ exp $ )exp → ▪ primary $ )exp → ▪ ( type ) exp $ )primary → ▪ NAME $ . )primary → ▪ ( exp ) $ . )primary → ▪ primary . NAME $ . )

E: exp → ( type ) exp ▪ $ )

4: primary → NAME ▪ $ . )

8: exp → ( exp ▪ ) $ . )

C: exp → ( exp ) ▪ $. )

9type → NAME ▪ )type → NAME ▪ . type )primary → NAME ▪ . )

Dtype → NAME . ▪ type )type → ▪ NAME )type → ▪ NAME . type )

10type → NAME ▪ )type → NAME ▪ . type )

F: type → NAME . type ▪ )

primary

primary(

Construire un automate déterminant le bon item

LR(*) : Automate de décision

4: type → NAME ▪

5: primary → NAME ▪

7: Shift D.

) ( NAME

Bibliographie

Scott McPeak. Elkhound: A Fast, Practical GLR Parser Generator. Report No. UCB/CSD-2-1214, University of California, Berkley, December 2002.

Masaru Tomita. Efficient Parsing of Natural Language. Kluwer Academic, Boston, 1986.

R. Nozohoor-Farshi. GLR Parsing for e-Grammar. In Generalized LR Parsing, M. Tomita, Kluwer Academic, 1991.

Jan Rekers. Parser Generation for Interactive Environment. PhD thesis, University of Amsterdam, 1992.

Elizabeth Scott and Adrian Johnstone. Right-Nulled GLR Parsers. ACM Transactions on Programming Languages and Systems. Volume 28 Issue 4, July 2006.

generalized lr laurent wouters laurent.wouters@eads.net 01/06/2012

x x s x

exp exp primary exp

primary exp primary

type primary exp

exp primary exp type

primary exp page

type type

b exp type exp

Documents

berthier laurent

laurent tesla

32e85neee63 st. laurent€¦ · laurent 010 geomagnetic...

health innovations and technology eveline wouters

sam wouters - blockchain and the big data/market research...

laurent interpretación

luc wouters october 2013 statistical thinking and smart...

wouters talk edinburgh watsan conf may 2008

laurent series and z-transform - wikimediaz-transform...

a g wouters

6. peter wouters ecbcs - buildings and community systemsx

saint laurent

roman policier et inférence els wouters

presentation of recent improvements, including the...

eddy wouters, apl logistics on '3pl branding & marketing

eric wouters 11 februari 2012 symposium 11/2/2012

fast, furious and insecure - ches · 2018-09-18 · fast,...

inkopper met dank aan willem wouters

laurent vanat

enca 2016 - genoa - carine wouters