Eine linksrekursive Grammatik im rekursiven Abstieg parsen

Zur Zeit zerbreche ich mir den Kopf darüber, wie man eine linksrekursive Grammatik mit einem rekursiv-absteigenden Parser parsen kann.

Darauf gekommen bin ich durch das Open-Source-Projekt RpaTk von Martin Stoilov – ein im übrigen sehr geniales Projekt. Es enthält einen grundlegend anderen Ansatz als meine bisherigen Entwicklungen, nämlich einen rekursiv-absteigenden Parser, der Backtracking verwendet und noch einige Geschwindigkeitsoptimierungen durch Caching. Das alles läuft dann auch noch auf Basis einer virtuellen Maschine, die ziemlich rasantes Parsing ermöglicht. Ein sehr durchdachtes Konzept, auch wenn es in direkter Konkurrenz zu den letzten Entwicklungen in der libphorward steht, und dieser auch meilenweit voraus ist – Hut ab. Habe mit dem Autor auch Kontakt aufgenommen, weil ich es einfach verstehen will, wie man mit einem rekursiv-absteigenden Parser eine linksrekursive Grammatik parst.

Nehmen wir mal als Beispiel die Grammatik

s: e
e: e + X
e: e - X
e: X

s: e

e: e + X

e: e - X

e: X

und würden diese als plumpen rekursiven Abstieg umsetzen, so wird er noch vor dem lesen des ersten Zeichens in eine Endlosschleife verfallen, weil sich e rekursiv aufruft.

Es muss also ein Mechanismus geschaffen werden, der zuerst schaut, ob bereits eine entsprechende Produktion bearbeitet wird und dann nur die Produktionen erlauben, welche nicht in eine erneute Rekursion verfallen. Dazu muss man zuerst prüfen, welche der Produktionen zu einer linksrekursion führen, indem man jede Produktion durchläuft, expandiert und schaut, ob sie sich (auch ein einer tieferen Expansion) selbst aufruft. Dies aber immer nur für das linkeste Nichtterminal, alles andere kann man getrost ignorieren.

Schematisch habe ich das mal für den Eingabestring

X+X-X+X

X+X-X+X

auf der Tafel skizziert, nämlich ab dem Punkt, wo er sich bereits in der Produktion e+X befindet und was dann zu tun ist. Man kann sich die linksrekursion dabei als eine Art Schleife vorstellen: Es wird solange versucht, e wieder zu ersetzen, bis eine Produktion fehlschlägt.

Nachdem ich das so skizziert hatte, kam ich auch endlich dazu, ein Programm zu schreiben, welches dies so halbwegs umsetzt. Allerdings bin ich mit dem Ergebnis noch nicht so hundertprozentig im reinen, aber dieser Parser ist immerhin dazu in der Lage, eine linksrekursive Grammatik über den rekursiven Abstieg zu parsen ohne in eine Endlosschleife zu fallen.

Der Trick liegt eigentlich darin: Die mit L markierten Zustände probieren zuerst alle linksrekursiven Produktionen aus. Sofern eine linksrekursive Produktion funktioniert, beginnt der Zustand erneut mit den linksrekursiven Produktionen und verschiebt den Punkt (dot) auf 1. Wenn aber beim ersten Versuch alle linksrekursiven Versuche fehlschlagen, wird mit den nicht-linksrekursiven Versuchen fortgefahren.

Befindet sich bereits ein linksrekursiver Aufruf an selber Leseposition auf dem Stapel, so werden NUR die nicht-linksrekursiven Produktionen versucht.

Hier das Programm, welches dies ansatzweise umsetzt. Ich denke aber, dass ich mich mit dem Thema noch mehr beschäftigen werde, und es demnächst zu einem Update kommt.

#include <stdlib.h>
#include <stdio.h>
#include <string.h>

#define    MAXSTACK    512
#define    MAXRULES    8
#define    MAXRULELEN    10
#define    BOOLEAN        short
#define    TRUE        1
#define    FALSE        0

typedef struct
{
    char    rule        [ MAXRULELEN ];
    BOOLEAN    is_lrec;
} RULE;

#define IS_VAR( N )        ( islower( N ) )

typedef struct
{
    char    name;

    RULE    rules        [ MAXRULES ];
    int        rules_cnt;

    BOOLEAN    is_lrec;
} VAR;

typedef struct
{
    VAR*    var;

    char*    istart;
    char*    start;
    char*    end;

    int        rule;
    int        dot;

    BOOLEAN    is_lrec;
    int        consumed;
    int        matches;

    BOOLEAN    used        [ MAXRULES ];
    int        smatch;
} STATE;

typedef struct
{
    VAR*    var;
    char*    start;
    char*    end;
} MATCH;

VAR    vars[] =
{
    {
        's',
        {
            {    "e"        }
        },
        1
    },
    {
        'e',
        {
            {    "e+t"    },
            {    "e-t"    },
            {    "t"        }
        },
        3
    },
    {
        't',
        {
            {    "t*f"    },
            {    "t/f"    },
            {    "f"        }
        },
        3
    },
    {
        'f',
        {
            {    "X"        },
            {    "(e)"    }
        },
        2
    }
};

int vars_cnt    =    sizeof( vars ) / sizeof( VAR );

VAR* getvar( char name )
{
    int    i;

    for( i = 0; i < vars_cnt; i++ )
        if( vars[ i ].name == name )
            return &vars[ i ];

    return (VAR*)NULL;
}

int lrecs( VAR* var )
{
    int        lrecs    = 0;
    VAR*    tvar;
    VAR*    stack    [ MAXSTACK ];
    int        tos        = 0;
    int        i;
    int        j;

    stack[ tos++ ] = var;

    while( tos > 0 )
    {
        var = stack[ --tos ];

        for( i = 0; i < var->rules_cnt; i++ )
        {
            if( IS_VAR( var->rules[ i ].rule[ 0 ] ) )
            {
                tvar = getvar( var->rules[ i ].rule[ 0 ] );
                if( tvar->is_lrec )
                {
                    var->is_lrec = var->rules[ i ].is_lrec = TRUE;
                    lrecs++;
                    continue;
                }

                stack[ tos++ ] = tvar;

                for( j = tos - 1; j >= 0; j-- )
                {
                    if( stack[ j ] == var )
                    {
                        var->is_lrec = var->rules[ i ].is_lrec = TRUE;

                        tos--;
                        lrecs++;
                        break;
                    }
                }
            }
        }
    }

    return lrecs;
}

int run( VAR* var, char* start )
{
    char*    end;
    STATE    states    [ MAXSTACK ];
    STATE*    tos        = states;
    STATE*    state;
    RULE*    rule;
    int        i;
    MATCH    match        [ MAXSTACK ];
    int        nmatch    = 0;

    memset( &states[ 0 ], 0, sizeof( STATE ) );

    tos->var = var;
    tos->rule = -1;
    tos->istart = tos->start = tos->end = start;

    while( tos )
    {
        /* Find first non-used production */
        if( tos->rule < 0 )
        {
            for( i = 0; i < tos->var->rules_cnt; i++ )
            {
                if( !tos->used[ i ] )
                {
                    tos->rule = i;
                    tos->used [ i ] = TRUE;
                    break;
                }
            }

            if( tos->rule < 0 )
            {
                if( tos > states )
                {
                    if( tos->matches > 0 )
                    {
                        ( tos - 1 )->dot++;
                        ( tos - 1 )->end += tos->consumed;
                    }
                    else
                    {
                        ( tos - 1 )->dot = 0;
                        ( tos - 1 )->rule = -1;
                        ( tos - 1 )->end = ( tos - 1 )->start;
                    }

                    tos--;
                }

                continue;
            }
        }

        /* Dump states */
        for( state = states; state <= tos; state++ )
        {
            rule = &( state->var->rules[ state->rule ] );

            printf( "%s %c => ", state->is_lrec ? "L" : " ", state->var->name );
            for( i = 0; i < strlen( rule->rule ) + 1; i++ )
            {
                if( i == state->dot )
                    printf( "." );

                if( rule->rule[ i ] )
                    printf( "%c", rule->rule[ i ] );
            }

            printf( "  >%s<", state->start );

            printf( "\n" );
        }

        /* getchar(); */

        rule = &( tos->var->rules[ tos->rule ] );

        if( tos->dot == strlen( rule->rule ) )
        {
            printf( "rule completed\n" );

            tos->consumed = tos->consumed + (int)( tos->end - tos->start );
            tos->matches++;

            match[ nmatch ].var = tos->var;
            match[ nmatch ].start = tos->istart;
            match[ nmatch ].end = tos->end;
            nmatch++;

            if( rule->is_lrec )
            {
                tos->dot = 1;
                tos->end = tos->start += ( tos->end - tos->start );
                tos->smatch = nmatch;

                /* Only allow left-recursives */
                for( i = 0; i < tos->var->rules_cnt; i++ )
                {
                    if( tos->var->rules[ i ].is_lrec )
                        tos->used[ i ] = FALSE;
                    else
                        tos->used[ i ] = TRUE;
                }

                tos->rule = -1;
            }
            else
            {
                if( tos > states )
                {
                    ( tos - 1 )->dot++;
                    ( tos - 1 )->end += ( tos->end - tos->start );
                    tos--;
                }
                else
                    break;
            }
        }
        else if( IS_VAR( rule->rule[ tos->dot ] ) )
        {
            printf( "call variable\n" );

            memset( tos + 1, 0, sizeof( STATE ) );

            ( tos + 1 )->var = getvar( rule->rule[ tos->dot ] );
            ( tos + 1 )->smatch = nmatch;
            ( tos + 1 )-> istart = ( tos + 1 )->start
                                        = ( tos + 1 )->end = tos->end;
            tos++;

            if( ( tos->is_lrec = tos->var->is_lrec ) )
            {
                for( state = tos - 1; state >= states; state-- )
                {
                    if( state->var == tos->var && state->end == tos->end )
                    {
                        tos->is_lrec = !state->is_lrec;
                        break;
                    }
                }

                /* Only allow non-left-recursives */
                printf( "tos->is_lrec = %d\n", tos->is_lrec );
                if( !tos->is_lrec )
                {
                    for( i = 0; i < tos->var->rules_cnt; i++ )
                        if( tos->var->rules[ i ].is_lrec )
                            tos->used[ i ] = TRUE;
                }
            }

            tos->rule = -1;
        }
        else if( *( tos->end ) == rule->rule[ tos->dot ] )
        {
            printf( "matching char >%c<\n", *( tos->end ) );
            tos->dot++;
            tos->end++;
        }
        else
        {
            printf( "rule failed\n" );
            tos->rule = -1;
            nmatch = tos->smatch;

            if( tos->is_lrec && tos->matches > 0 )
                tos->dot = 1;
            else
                tos->dot = 0;

            tos->end = tos->start;
        }
    }

    for( i = 0; i < nmatch; i++ )
        printf( "%c >%.*s<\n",
            match[ i ].var->name,
                match[ i ].end - match[ i ].start,
                    match[ i ].start );

    printf( "nmatch = %d\n", nmatch );

    return tos ? tos->consumed : 0;
}

int print( void )
{
    int        i;
    int        j;

    for( i = 0; i < vars_cnt; i++ )
    {
        for( j = 0; j < vars[ i ].rules_cnt; j++ )
            printf( "%c : %s%s\n", vars[ i ].name, vars[ i ].rules[ j ].rule,
                                    vars[ i ].rules[ j ].is_lrec ?
                                        " (left-recursive)" : "" );
    }
}

int main( int argc, char** argv )
{
    int        len;

    lrecs( &vars[ 0 ] );
    print();

    if( argc > 1 )
    {
        len = run( &vars[ 0 ], argv[ 1 ] );
        printf( "\nlen = %d >%.*s<\n", len, len, argv[ 1 ] );
    }

    return 0;
}

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

230

231

232

233

234

235

236

237

238

239

240

241

242

243

244

245

246

247

248

249

250

251

252

253

254

255

256

257

258

259

260

261

262

263

264

265

266

267

268

269

270

271

272

273

274

275

276

277

278

279

280

281

282

283

284

285

286

287

288

289

290

291

292

293

294

295

296

297

298

299

300

301

302

303

304

305

306

307

308

309

310

311

312

313

314

315

316

317

318

319

320

321

322

323

324

325

326

327

328

329

330

331

332

333

334

335

336

337

338

339

340

341

342

343

344

345

346

347

348

349

350

351

352

353

354

355

356

357

358

359

360

361

362

363

364

365

366

367

368

#include <stdlib.h>

#include <stdio.h>

#include <string.h>

#define MAXSTACK 512

#define MAXRULES 8

#define MAXRULELEN 10

#define BOOLEAN short

#define TRUE 1

#define FALSE 0

typedef struct

{

char rule [ MAXRULELEN ];

BOOLEAN is_lrec;

} RULE;

#define IS_VAR( N ) ( islower( N ) )

typedef struct

{

char name;

RULE rules [ MAXRULES ];

int rules_cnt;

BOOLEAN is_lrec;

} VAR;

typedef struct

{

VAR* var;

char* istart;

char* start;

char* end;

int rule;

int dot;

BOOLEAN is_lrec;

int consumed;

int matches;

BOOLEAN used [ MAXRULES ];

int smatch;

} STATE;

typedef struct

{

VAR* var;

char* start;

char* end;

} MATCH;

VAR vars[] =

{

's',

{

{ "e" }

{

'e',

{

{ "e+t" },

{ "e-t" },

{ "t" }

{

't',

{

{ "t*f" },

{ "t/f" },

{ "f" }

{

'f',

{

{ "X" },

{ "(e)" }

}

};

int vars_cnt = sizeof( vars ) / sizeof( VAR );

VAR* getvar( char name )

{

int i;

for( i = 0; i < vars_cnt; i++ )

if( vars[ i ].name == name )

return &vars[ i ];

return (VAR*)NULL;

}

int lrecs( VAR* var )

{

int lrecs = 0;

VAR* tvar;

VAR* stack [ MAXSTACK ];

int tos = 0;

int i;

int j;

stack[ tos++ ] = var;

while( tos > 0 )

{

var = stack[ --tos ];

for( i = 0; i < var->rules_cnt; i++ )

{

if( IS_VAR( var->rules[ i ].rule[ 0 ] ) )

{

tvar = getvar( var->rules[ i ].rule[ 0 ] );

if( tvar->is_lrec )

{

var->is_lrec = var->rules[ i ].is_lrec = TRUE;

lrecs++;

continue;

}

stack[ tos++ ] = tvar;

for( j = tos - 1; j >= 0; j-- )

{

if( stack[ j ] == var )

{

var->is_lrec = var->rules[ i ].is_lrec = TRUE;

tos--;

lrecs++;

break;

}

return lrecs;

}

int run( VAR* var, char* start )

{

char* end;

STATE states [ MAXSTACK ];

STATE* tos = states;

STATE* state;

RULE* rule;

int i;

MATCH match [ MAXSTACK ];

int nmatch = 0;

memset( &states[ 0 ], 0, sizeof( STATE ) );

tos->var = var;

tos->rule = -1;

tos->istart = tos->start = tos->end = start;

while( tos )

{

/* Find first non-used production */

if( tos->rule < 0 )

{

for( i = 0; i < tos->var->rules_cnt; i++ )

{

if( !tos->used[ i ] )

{

tos->rule = i;

tos->used [ i ] = TRUE;

break;

}

if( tos->rule < 0 )

{

if( tos > states )

{

if( tos->matches > 0 )

{

( tos - 1 )->dot++;

( tos - 1 )->end += tos->consumed;

}

else

{

( tos - 1 )->dot = 0;

( tos - 1 )->rule = -1;

( tos - 1 )->end = ( tos - 1 )->start;

}

tos--;

}

continue;

}

/* Dump states */

for( state = states; state <= tos; state++ )

{

rule = &( state->var->rules[ state->rule ] );

printf( "%s %c => ", state->is_lrec ? "L" : " ", state->var->name );

for( i = 0; i < strlen( rule->rule ) + 1; i++ )

{

if( i == state->dot )

printf( "." );

if( rule->rule[ i ] )

printf( "%c", rule->rule[ i ] );

}

printf( " >%s<", state->start );

printf( "\n" );

}

/* getchar(); */

rule = &( tos->var->rules[ tos->rule ] );

if( tos->dot == strlen( rule->rule ) )

{

printf( "rule completed\n" );

tos->consumed = tos->consumed + (int)( tos->end - tos->start );

tos->matches++;

match[ nmatch ].var = tos->var;

match[ nmatch ].start = tos->istart;

match[ nmatch ].end = tos->end;

nmatch++;

if( rule->is_lrec )

{

tos->dot = 1;

tos->end = tos->start += ( tos->end - tos->start );

tos->smatch = nmatch;

/* Only allow left-recursives */

for( i = 0; i < tos->var->rules_cnt; i++ )

{

if( tos->var->rules[ i ].is_lrec )

tos->used[ i ] = FALSE;

else

tos->used[ i ] = TRUE;

}

tos->rule = -1;

}

else

{

if( tos > states )

{

( tos - 1 )->dot++;

( tos - 1 )->end += ( tos->end - tos->start );

tos--;

}

else

break;

}

else if( IS_VAR( rule->rule[ tos->dot ] ) )

{

printf( "call variable\n" );

memset( tos + 1, 0, sizeof( STATE ) );

( tos + 1 )->var = getvar( rule->rule[ tos->dot ] );

( tos + 1 )->smatch = nmatch;

( tos + 1 )-> istart = ( tos + 1 )->start

= ( tos + 1 )->end = tos->end;

tos++;

if( ( tos->is_lrec = tos->var->is_lrec ) )

{

for( state = tos - 1; state >= states; state-- )

{

if( state->var == tos->var && state->end == tos->end )

{

tos->is_lrec = !state->is_lrec;

break;

}

/* Only allow non-left-recursives */

printf( "tos->is_lrec = %d\n", tos->is_lrec );

if( !tos->is_lrec )

{

for( i = 0; i < tos->var->rules_cnt; i++ )

if( tos->var->rules[ i ].is_lrec )

tos->used[ i ] = TRUE;

}

tos->rule = -1;

}

else if( *( tos->end ) == rule->rule[ tos->dot ] )

{

printf( "matching char >%c<\n", *( tos->end ) );

tos->dot++;

tos->end++;

}

else

{

printf( "rule failed\n" );

tos->rule = -1;

nmatch = tos->smatch;

if( tos->is_lrec && tos->matches > 0 )

tos->dot = 1;

else

tos->dot = 0;

tos->end = tos->start;

}

for( i = 0; i < nmatch; i++ )

printf( "%c >%.*s<\n",

match[ i ].var->name,

match[ i ].end - match[ i ].start,

match[ i ].start );

printf( "nmatch = %d\n", nmatch );

return tos ? tos->consumed : 0;

}

int print( void )

{

int i;

int j;

for( i = 0; i < vars_cnt; i++ )

{

for( j = 0; j < vars[ i ].rules_cnt; j++ )

printf( "%c : %s%s\n", vars[ i ].name, vars[ i ].rules[ j ].rule,

vars[ i ].rules[ j ].is_lrec ?

" (left-recursive)" : "" );

}

int main( int argc, char** argv )

{

int len;

lrecs( &vars[ 0 ] );

print();

if( argc > 1 )

{

len = run( &vars[ 0 ], argv[ 1 ] );

printf( "\nlen = %d >%.*s<\n", len, len, argv[ 1 ] );

}

return 0;

}

Eines ist aber Klar: Ansätze von RpaTk werden in libphorward einfließen, wie z.B. die einfache aber sehr effiziente Definition, dass man z.B. AST-Knoten aus Nichtterminalsymbolen erzeugt, und nicht aus Produktionen. Möchte man dann ein differierenden AST haben, muss man hierfür ein neues Nichtterminal definieren. Das ist unterm Strich gesehen einfacher, als einzelnen Produktionen einen bestimmten Knotentyp zuzuweisen, wie es momentan der Fall ist.

Bierpiloten-Blog

Vom Fliegen, Coden und sonstigem Kram…

Eine linksrekursive Grammatik im rekursiven Abstieg parsen