Filtrar


Questões por página:
Na era do big data, as empresas precisam utilizar repositórios e tecnologias para armazenamento, tratamento e análise desse grande volume de dados, dentre as quais, encontram-se:
Uma equipe de auditoria possui uma tabela de NF-e com mais de 1 bilhão de registros em um pyspark.sgl.DataFrame chamado df. A auditora deseja inspecionar apenas 1.000 registros localmente em seu notebook, usando funcionalidades avangadas de pandas para buscar inconsisténcias. Nesse cenário, a abordagem em PySpark mais apropriada para gerar esses registros em um pandas. DataFrame, minimizando o risco de estouro de memória no ambiente local é:
Uma base tributaria de uma SEFAZ é analisada por meio de um cubo OLAP de arrecadação de ISS, com as seguintes dimensões: Ano, Município, Atividade econômica, Regime tributário e Contribuinte. Em uma reunido, um analista parte de uma visão agregada da arrecadação anual por município, em seguida, navega para uma visão mensal e depois para uma visão por contribuinte dentro de um município especifico, mantendo as demais dimensões fixas. Do ponto de vista conceitual em OLAP, essa sequência de operações é um exemplo de
Uma base tributaria de uma SEFAZ possui duas tabelas:
contribuinte (id, cpf_cnpj, nome, situacao) debitos (id, contribuinte_id, valor, tipo_tributo, data_vencimento)
A equipe de Banco de Dados deseja listar contribuintes ativos, exibindo o nome e o valor total de débitos vencidos, considerando apenas tributos do tipo IPTU (isto €, data vencimento anterior à data atual). Considerando consultas escritas em um SGBD em que não ha mais de um contribuinte com o mesmo nome na base de dados e em que CURRENT_DATE retorna a data atual, a consulta SQL que atende ao requisito é:
Uma Secretaria da Fazenda projeta um Data Lake para suportar fiscalização eletrônica, com ingestão diária de notas fiscais eletrônicas, conhecimentos eletrônicos de transporte de cargas, registros fiscais digitais entregues ao fisco, declarações do SIMPLES Nacional e recolhimentos. A equipe adota uma arquitetura em zonas (raw/bronze, refined/silver, curated/gold), com processos de ELT. Para o uso por auditores fiscais e cientistas de dados, a descrição mais adequada é que a zona raw/bronze