Exportar este item: EndNote BibTex

Use este identificador para citar ou linkar para este item: http://tede.mackenzie.br/jspui/handle/tede/3794
Tipo do documento: Dissertação
Título: Criação de um indicador de qualidade de dados para problemas de modelagem preditiva
Autor: Ferreira, Marcos 
Primeiro orientador: Silva, Leandro Augusto da
Primeiro membro da banca: Vallim Filho, Arnaldo Rabello de Aguiar
Segundo membro da banca: Prado, Edmir Parada Vasques
Resumo: Qualidade de dados é um tema relevante em tarefas de Mineração de Dados. Resultados errados podem ser obtidos quando se usa um conjunto de dados com qualidade pobre. Os padrões de governança adotados pela comunidade da prática em Mineração de Dados são genéricos e abstratos e, embora enfatizando a importância da tarefa de exploração do conjunto de dados, não fornecem um referencial de avaliação quantitativa de qualidade de um conjunto de dados. Nesse trabalho, propõe-se um indicador numérico para avaliação da qualidade de dados, usando as técnicas de estatística descritiva, avaliando a qualidade dos dados de uma maneira estruturada. Esse indicador avalia problemas no conjunto de dados, atribuindo notas ponderadas e gera uma média geral, indicando se ajustamentos devem ser efetuado antes de se prosseguir com as tarefas de mineração.
Abstract: Data Quality is a relevant subject in Data Mining Tasks. Wrong Results can be obtained when a poor data quality is selected for the task. Governance Frameworks used curren- tly by the community of practice in Data Mining are very generic and abstract as they should be: though they emphasize the importance of the exploration of the dataset and the related issues with data quality, they don´t supply a complete framework for evalu- ating the data quality. This work proposes a numeric index for data quality evaluation, using Descriptive Statistics tools to quantitatively evaluate data quality in a methodic and structured way. The proposed index evaluates problems with data sample, giving them a weighted score and finally gives an average in order to indicate if further cleansing and adjustment are needed for the dataset before proceed with the Data Mining Tasks.
Palavras-chave: qualidade de dados
complexidade de dados
governança
pré-processamento
data profiling
Área(s) do CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO::SOFTWARE BASICO
Idioma: por
País: Brasil
Instituição: Universidade Presbiteriana Mackenzie
Sigla da instituição: UPM
Departamento: Faculdade de Computação e Informática (FCI)
Programa: Engenharia Elétrica
Citação: FERREIRA, Marcos. Criação de um indicador de qualidade de dados para problemas de modelagem preditiva. 2018. 172 f. Dissertação( Engenharia Elétrica) - Universidade Presbiteriana Mackenzie, São Paulo.
Tipo de acesso: Acesso Aberto
Endereço da licença: http://creativecommons.org/licenses/by-nc-nd/4.0/
URI: http://tede.mackenzie.br/jspui/handle/tede/3794
Data de defesa: 24-Out-2018
Aparece nas coleções:Mestrado - Engenharia Elétrica e Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
MARCOS FERREIRA.pdfMarcos Ferreira6.32 MBAdobe PDFThumbnail

Baixar/Abrir Pré-Visualizar


Este item está licenciada sob uma Licença Creative Commons Creative Commons