limpar filtros
Questões por página:
Uma equipe de ciência de dados está trabalhando na construção de um modelo preditivo utilizando um grande conjunto de dados. Durante esse processo, os cientistas de dados estão realizando o feature engineering para criar e selecionar as variáveis mais relevantes, além de aplicar técnicas de divisão de dados para garantir a eficácia e a generalização do modelo.
Considerando-se esse contexto, qual combinação de técnicas maximizará a performance do modelo?
Uma equipe de análise de riscos de um banco de investimentos precisa avaliar o risco de diferentes carteiras de clientes, que possuem ativos em escalas variadas. Para isso, ela decidiu utilizar modelos de aprendizado de máquina, a fim de auxiliar o seu processo de tomada de decisão. Os analistas da equipe perceberam que parte dos ativos disponíveis poderia influenciar desproporcionalmente a análise de risco. Assim, decidiram aplicar a técnica de normalização z-score. Com essa medida, pretendem reduzir a influência de uma variação abrupta no treinamento dos modelos de aprendizado de máquina, promovendo uma comparação justa entre os ativos e uma avaliação mais precisa do risco em cada carteira. Considere que W seja o conjunto de todos os valores em reais dos ativos de carteiras de investimentos que a equipe de analistas precisa avaliar.
Uma das características da normalização z-score é que, em sua definição original (clássica), essa normalização
Um conjunto de dados numéricos com significativa diversidade foi apresentado à equipe de análise de dados de uma empresa. Como parte do processo decisório, os analistas necessitavam transformar um dos atributos numéricos em faixas de valores, a fim de permitir classificá-los em um universo de possibilidades. Para isso, decidiram, na etapa de enriquecimento de dados, criar um atributo, derivado do atributo numérico supracitado, em um processo de transformação de dados conhecido por discretização.
Uma das características das técnicas de discretização é que
O Microsoft Team Data Science Process (TDSP) é uma metodologia que define, entre outros conceitos, um ciclo de vida para projetos de ciência de dados.
A TDSP possui cinco estágios principais, de modo que na etapa de
Em um Sistema Gerenciador de Banco de Dados (SGBD), os índices são estruturas de dados que têm por objetivo tornar mais rápido o acesso aos dados. Índices são utilizados tanto em SGBD relacionais quanto em SGBD NoSQL.
Considerando-se uma tabela T1 em um SGBD relacional, quanto a esses índices, verifica-se que