更新时间:2024-09-24 GMT+08:00
分享

GIN索引使用实践

GIN是一个存储对(key、posting list)集合的索引结构,其中key是一个键值,posting list是一组出现过key的位置。如‘hello', '14:2 23:4'中,表示hello在14:2和23:4这两个位置出现过。通过GIN索引结构可以快速的查找到包含指定关键字的元组,因此GIN索引适用于多值类型的元素搜索。本章节将介绍如何使用GIN索引查询数组类型、JSONB类型,如何进行全文检索。

使用GIN索引查询数组类型

创建一个GIN索引来加快对标签进行搜索的查询。

  1. 在管理控制台上创建集群,具体操作步骤请参考创建GaussDB(DWS)存算一体2.0集群
  2. 执行以下命令,使用gsql客户端连接GaussDB(DWS)集群中的数据库,其中password为用户创建集群时自定义的密码。

    1
    gsql -d gaussdb -p 8000 -h 192.168.0.86 -U dbadmin -W password -r
    

    显示如下信息表示gsql工具已经连接成功:

    1
    gaussdb=>
    

  3. 创建表books,其中列tags存储了书籍的标签信息,使用数组类型来表示。

    1
    CREATE TABLE books (id SERIAL PRIMARY KEY, title VARCHAR(100), tags TEXT[]);
    

  4. 插入数据。

    1
    2
    3
    4
    5
    INSERT INTO books (title, tags) 
    VALUES   ('Book 1', ARRAY['fiction', 'adventure']),
       ('Book 2', ARRAY['science', 'fiction']),
       ('Book 3', ARRAY['romance', 'fantasy']),
       ('Book 4', ARRAY['adventure']);
    

  5. 创建GIN索引。

    1
    CREATE INDEX idx_books_tags_gin ON books USING GIN (tags);
    

  6. 使用GIN索引执行搜索查询,以便在tags列中查找包含特定标签的书籍。查找包含标签“fiction”的书籍:

    1
    2
    3
    4
    5
    6
    SELECT * FROM books WHERE tags @> ARRAY['fiction'];
     id | title  |        tags
    ----+--------+---------------------
      1 | Book 1 | {fiction,adventure}
      2 | Book 2 | {science,fiction}
    (2 rows)
    

  7. 使用GIN索引查找同时包含“fiction”和“adventure”标签的书籍记录:

    1
    2
    3
    4
    5
    SELECT * FROM books WHERE tags @> ARRAY['fiction', 'adventure'];
     id | title  |        tags
    ----+--------+---------------------
      1 | Book 1 | {fiction,adventure}
    (1 row)
    

使用GIN索引查询JSONB类型

当使用JSONB数据类型存储和查询JSON数据时,可以使用GIN索引来提高查询性能。GIN索引适用于查询包含大量不同的键值对的JSONB列。

  1. 创建表my_table,其中列data存储了每个人的相关信息,使用JSONB类型来表示。

    1
    CREATE TABLE my_table (id SERIAL PRIMARY KEY, data JSONB);  
    

  2. 插入数据。

    1
    2
    3
    4
    INSERT INTO my_table (data)
     VALUES ('{"name": "John", "age": 30, "address": {"career": "announcer", "state": "NY"}}'),
          ('{"name": "Alice", "age": 25, "address": {"career": "architect", "state": "CA"}}'),
          ('{"name": "Bob", "age": 35, "address": {"career": "dentist", "state": "WA"}}');
    

  3. 创建一个GIN索引来加速JSONB列的查询。

    1
    CREATE INDEX my_table_data_gin_index ON my_table USING GIN (data);
    

  4. 使用GIN索引来执行JSONB列的查询。例如,查找职业是牙医的人:

    1
    2
    3
    4
    5
    SELECT * FROM my_table WHERE data @> '{"address": {"career": "dentist"}}';
     id |                                    data
    ----+-----------------------------------------------------------------------------
      3 | {"age": 35, "name": "Bob", "address": {"state": "WA", "career": "dentist"}}
    (1 row)
    

  5. GIN索引还可以在JSONB列的键上进行查询。例如,查找年龄大于等于30岁的人:

    1
    2
    3
    4
    5
    6
    SELECT * FROM my_table WHERE data ->> 'age' >= '30';
     id |                                      data
    ----+--------------------------------------------------------------------------------
      3 | {"age": 35, "name": "Bob", "address": {"state": "WA", "career": "dentist"}}
      1 | {"age": 30, "name": "John", "address": {"state": "NY", "career": "announcer"}}
    (2 rows)
    

使用GIN索引全文检索

当使用GIN索引进行全文搜索时,可以使用tsvector和tsquery数据类型以及相关的函数来实现。

要构建一个tsquery对象,需要使用to_tsquery函数,并提供搜索条件和相应的文本搜索配置(在本例中为english)。还可以使用其他文本搜索函数和操作符来进行更复杂的全文搜索查询,例如plainto_tsquery、ts_rank等。具体的用法取决于实际的需求。

  1. 创建articles表,其中列content存储了文章的内容。

    1
    CREATE TABLE articles (id SERIAL PRIMARY KEY,title VARCHAR(100),content TEXT);
    

  2. 插入数据。

    1
    2
    3
    4
    5
    INSERT INTO articles (title, content) 
     VALUES ('Article 1', 'This is the content of article 1.'),
       ('Article 2', 'Here is the content for article 2.'),
       ('Article 3', 'This article discusses various topics.'),
       ('Article 4', 'The content of the fourth article is different.');
    

  3. 为content列创建一个辅助列tsvector,该列将存储已处理的文本索引。

    1
    ALTER TABLE articles ADD COLUMN content_vector tsvector;
    

  4. 更新content_vector列的值,将content列的文本转换为tsvector类型。

    1
    UPDATE articles SET content_vector = to_tsvector('english', content);
    

  5. 创建GIN索引。

    1
    CREATE INDEX idx_articles_content_gin ON articles USING GIN (content_vector);
    

  6. 执行全文搜索查询,使用tsquery类型来指定搜索条件。例如,查找包含单词“content”的文章:

    1
    SELECT * FROM articles WHERE content_vector @@ to_tsquery('english', 'content');
    

相关文档