V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
monkeyNik
V2EX  ›  推广

C 语言第三方库 Melon 开箱即用之词法分析器使用

  •  
  •   monkeyNik · 2021-02-15 10:03:08 +08:00 · 1456 次点击
    这是一个创建于 1412 天前的主题,其中的信息可能已经有所发展或是发生改变。

    之前的文章中,笔者介绍了 Linux/UNIX C 语言库 Melon 的基本功能及框架使用。

    本文将介绍 Melon 中的词法分析器组件。

    Melon 的 Github 仓库为: https://github.com/Water-Melon/Melon

    词法分析器在 Melon 中并不依赖于自身框架,因此可以在不初始化框架的情况下即可使用。

    基础使用

    我们先来看一个基本例子:

    //lexer.c
    
    #include <stdio.h>
    #include "mln_lex.h"
    
    MLN_DEFINE_TOKEN_TYPE_AND_STRUCT(static, mln_test, TEST);
    MLN_DEFINE_TOKEN(mln_test, TEST);
    
    int main(int argc, char *argv[])
    {
        if (argc != 2) {
            fprintf(stderr, "Usage: %s file_path\n", argv[0]);
            return -1;
        }
    
        mln_string_t path;
        mln_lex_t *lex = NULL;
        struct mln_lex_attr lattr;
        mln_test_struct_t *ts;
    
        mln_string_nSet(&path, argv[1], strlen(argv[1]));
        lattr.pool = mln_alloc_init();
        if (lattr.pool == NULL) {
            fprintf(stderr, "init memory pool failed\n");
            return -1;
        }
        lattr.keywords = NULL;
        lattr.hooks = NULL;
        lattr.preprocess = 0;
        lattr.padding = 0;
        lattr.type = M_INPUT_T_FILE;
        lattr.data = &path;
    
        mln_lex_initWithHooks(mln_test, lex, &lattr);
        if (lex == NULL) {
            fprintf(stderr, "lexer init failed\n");
            return -1;
        }
    
        while (1) {
            ts = mln_test_token(lex);
            if (ts == NULL || ts->type == TEST_TK_EOF)
                break;
            write(STDOUT_FILENO, ts->text->data, ts->text->len);
            printf(" line:%u type:%d\n", ts->line, ts->type);
        }
    
        return 0;
    }
    

    如此,即可完成一个词法解析器程序,它读取程序的参数所指定的文件的内容,然后解析成词素,并将其打印出来。

    我们执行:

    $ ./lexer lexer.c
    
    / line:1 type:21
    / line:1 type:21
    lexer line:1 type:5
    . line:1 type:20
    c line:1 type:5
    # line:3 type:9
    include line:3 type:5
    < line:3 type:24
    stdio line:3 type:5
    . line:3 type:20
    h line:3 type:5
    > line:3 type:26
    ...
    

    可以看到,这个程序将我们的示例 C 程序拆解成各种词素,如:/,#,<等等。

    进阶使用

    上面的例子可以看到,基础的词法解析器解析出的词素过于细碎,有时我们还希望解析器支持我们自定义的关键字、自定义格式的数据,甚至是一些预处理功能,例如引入其他文件的内容解析词素。

    那么,我们就将上面的例子进行一番修改:

    //lexer.c
    
    #include <stdio.h>
    #include "mln_lex.h"
    
    mln_string_t keywords[] = {
        mln_string("on"),
        mln_string("off"),
        mln_string(NULL)
    };
    
    MLN_DEFINE_TOKEN_TYPE_AND_STRUCT(static, mln_test, TEST, TEST_TK_ON, TEST_TK_OFF, TEST_TK_STRING);
    MLN_DEFINE_TOKEN(mln_test, TEST, {TEST_TK_ON, "TEST_TK_ON"}, {TEST_TK_OFF, "TEST_TK_OFF"}, {TEST_TK_STRING, "TEST_TK_STRING"});
    
    static inline int
    mln_get_char(mln_lex_t *lex, char c)
    {
        if (c == '\\') {
            char n;
            if ((n = mln_lex_getAChar(lex)) == MLN_ERR) return -1;
            switch ( n ) {
                case '\"':
                    if (mln_lex_putAChar(lex, n) == MLN_ERR) return -1;
                    break;
                case '\'':
                    if (mln_lex_putAChar(lex, n) == MLN_ERR) return -1;
                    break;
                case 'n':
                    if (mln_lex_putAChar(lex, '\n') == MLN_ERR) return -1;
                    break;
                case 't':
                    if (mln_lex_putAChar(lex, '\t') == MLN_ERR) return -1;
                    break;
                case 'b':
                    if (mln_lex_putAChar(lex, '\b') == MLN_ERR) return -1;
                    break;
                case 'a':
                    if (mln_lex_putAChar(lex, '\a') == MLN_ERR) return -1;
                    break;
                case 'f':
                    if (mln_lex_putAChar(lex, '\f') == MLN_ERR) return -1;
                    break;
                case 'r':
                    if (mln_lex_putAChar(lex, '\r') == MLN_ERR) return -1;
                    break;
                case 'v':
                    if (mln_lex_putAChar(lex, '\v') == MLN_ERR) return -1;
                    break;
                case '\\':
                    if (mln_lex_putAChar(lex, '\\') == MLN_ERR) return -1;
                    break;
                default:
                    mln_lex_setError(lex, MLN_LEX_EINVCHAR);
                    return -1;
            }
        } else {
            if (mln_lex_putAChar(lex, c) == MLN_ERR) return -1;
        }
        return 0;
    }
    
    static mln_test_struct_t *
    mln_test_dblq_handler(mln_lex_t *lex, void *data)
    {
        mln_lex_cleanResult(lex);
        char c;
        while ( 1 ) {
            c = mln_lex_getAChar(lex);
            if (c == MLN_ERR) return NULL;
            if (c == MLN_EOF) {
                mln_lex_setError(lex, MLN_LEX_EINVEOF);
                return NULL;
            }
            if (c == '\"') break;
            if (mln_get_char(lex, c) < 0) return NULL;
        }
        return mln_test_new(lex, TEST_TK_STRING);
    }
    
    int main(int argc, char *argv[])
    {
        if (argc != 2) {
            fprintf(stderr, "Usage: %s file_path\n", argv[0]);
            return -1;
        }
    
        mln_string_t path;
        mln_lex_t *lex = NULL;
        struct mln_lex_attr lattr;
        mln_test_struct_t *ts;
        mln_lex_hooks_t hooks;
    
        memset(&hooks, 0, sizeof(hooks));
        hooks.dblq_handler = (lex_hook)mln_test_dblq_handler;
    
        mln_string_nSet(&path, argv[1], strlen(argv[1]));
    
        lattr.pool = mln_alloc_init();
        if (lattr.pool == NULL) {
            fprintf(stderr, "init pool failed\n");
            return -1;
        }
        lattr.keywords = keywords;
        lattr.hooks = &hooks;
        lattr.preprocess = 1;//支持预处理
        lattr.padding = 0;
        lattr.type = M_INPUT_T_FILE;
        lattr.data = &path;
    
        mln_lex_initWithHooks(mln_test, lex, &lattr);
        if (lex == NULL) {
            fprintf(stderr, "lexer init failed\n");
            return -1;
        }
    
        while (1) {
            ts = mln_test_token(lex);
            if (ts == NULL || ts->type == TEST_TK_EOF)
                break;
            write(STDOUT_FILENO, ts->text->data, ts->text->len);
            printf(" line:%u type:%d\n", ts->line, ts->type);
        }
    
        return 0;
    }
    

    这一次,我们增加如下功能:

    • 支持关键字 onoff
    • 支持识别双引号扩住的内容为字符串类型
    • 增加了预处理功能,例如引入其他文件内容

    生成可执行程序:

    $ cc -o a a.c -I /usr/local/melon/include/ -L /usr/local/melon/lib/ -lmelon -lpthread
    

    创建两个测试文件:

    a.ini

    #include "b.ini"
    test_mode = on
    log_level = 'debug'
    proc_num = 10
    

    b.ini

    conf_name = "b.ini"
    

    运行我们的程序来看看效果:

    $ ./lexer a.ini
    
    conf_name line:1 type:5
    = line:1 type:25
    b.ini line:1 type:42
    test_mode line:2 type:5
    = line:2 type:25
    on line:2 type:40
    log_level line:3 type:5
    = line:3 type:25
    ' line:3 type:13
    debug line:3 type:5
    ' line:3 type:13
    proc_num line:4 type:5
    = line:4 type:25
    10 line:4 type:2
    

    可以看到,在 a.ini 中写入include的部分,是 b.ini 文件内容解析后的词素。并且onoff都被正常解析出来了。且字符串也被正常处理出来了。


    Melon 的 Github 仓库为: https://github.com/Water-Melon/Melon

    感谢阅读

    5 条回复    2021-02-16 21:43:54 +08:00
    LeeReamond
        1
    LeeReamond  
       2021-02-16 18:31:38 +08:00
    大佬,关注你这个项目有一段时间了,看到你在 v2 几次发帖。我想知道这个框架能不能做一些引入 python 生态相关的教学,因为现在写纯 c 很少,基本都是嵌入在 python 或者 cython 里写,我关注你这个项目的原因也是用到某些算法或数据结构的时候可以学习参考一下,但是我水平比较低,并不会直接调用。
    monkeyNik
        2
    monkeyNik  
    OP
       2021-02-16 18:38:33 +08:00
    @LeeReamond 之前到确实未曾想过这方面,因为之前的想法是以框架为主(即以 C 为主),框架内的脚本语言是辅助。不过你的想法倒是可以借鉴一下,方便的话可以加个好友深入交流下,我也希望这个框架能够应用于更多的场景中。
    monkeyNik
        3
    monkeyNik  
    OP
       2021-02-16 18:46:03 +08:00 via iPhone
    @LeeReamond 忘记说了 你可以在 QQ 群里面找到我哈😂
    LeeReamond
        4
    LeeReamond  
       2021-02-16 20:52:05 +08:00
    @monkeyNik 你在 gh 里贴出的群号提示搜索不到群号,可能有些问题需要排查一下
    monkeyNik
        5
    monkeyNik  
    OP
       2021-02-16 21:43:54 +08:00 via iPhone
    @LeeReamond 多谢告知啊,一个设置忘改了…现在已经可以啦
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1943 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 00:44 · PVG 08:44 · LAX 16:44 · JFK 19:44
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.