Esse projeto não tem funcionalidade alguma sem o Servidor de Soluções de IA do Módulo SEI IA.
Este projeto é um sistema de extração, processamento e criação de embeddings para documentos do SEI (Sistema Eletrônico de Informações). Ele é usado pelo Airflow do servidor de Soluções de IA do Módulo SEI IA.
- type_doc_sei.py: Extrai o tipo e extensão do documento.
- extract_doc_int_sei.py: Extrai documentos internos.
- metadata_sei.py: Extrai metadados de documentos externos.
- internal_sei.py: Extrai documentos internos.
- external_sei.py: Extrai documentos externos.
- extract_content.py: Extrai conteúdo de documentos internos e externos.
- init.py: Módulo de consulta e extração de documentos.
- embeddings.py: Cria embeddings para documentos do SEI RAG.
- text_preprocess.py: Realiza o pré-processamento de textos, incluindo conversão de HTML para Markdown, remoção de espaços múltiplos, formatação de tabelas e divisão de texto em chunks.
- persist_table_embeddings.py: Gerencia a persistência de embeddings no banco de dados, incluindo a definição do modelo de dados para a tabela de embeddings.
- Extração de documentos internos e externos do SEI.
- Extração de metadados de documentos.
- Processamento de conteúdo de documentos.
- Criação de embeddings para documentos.
- Pré-processamento de texto e conversão de HTML para Markdown.
- Persistência de embeddings em banco de dados.