Departamento de Estatística
ID: 9344
Resumo
O estudo da predição de churn está sendo muito utilizado atualmente, a fim de aumentar os lucros de uma empresa e diminuir o prejuízo gerado com possível rompimento de um contrato. Com isso as empresas passaram a priorizar suas estratégias de marketing em manter os clientes já existentes. Para realizar a predição do churn diferentes classificadores podem ser utilizados, como por exemplo, classificação por árvores associada a métodos de aprendizado de máquina.
Um dos propósitos dessa pesquisa é utilizar recursos tecnológicos para realizar a classificação de indivíduos de um banco de dados através de modelos de classificação múltipla para a predição de churn. Em segundo plano vamos comparar com os resultados de Nakano (2001), obtidos com regressão logística.
A predição de churn pode ser feita por técnicas de classificação múltipla associadas à classificação por árvores. O modelo de regressão e classificação por árvore é uma ferramenta preditiva para estudar associações entre um vetor de variáveis preditoras X e uma variável resposta Y, a partir de partições do espaço gerado por X. A ideia é construir um classificador global a partir de combinações de classificações múltiplas obtidas por meio das técnicas de bagging e boosting. O método bagging utiliza-se da técnica de bootstrap em que uma classificação é obtida para cada reamostra. No final do processo uma classificação é obtida pela média ou moda das classificações individuais. No boosting os classificadores são obtidos sequencialmente por meio de um algoritmo iterativo no qual pesos são gerados em cada passo do processo, penalizando as observações classificadas erradas no passo anterior. O processo é repetido para diversas amostras e a classificação final é dada pela última combinação linear das classificações individuais de tais amostras.
Com um conjunto de dados Telecom, contendo 1000 observações de clientes de uma empresa de telecomunicações, cuja resposta Y = ocorrência, ou não, de churn, ou seja, do cancelamento do contrato. Foram analisados quatro modelos, sendo que aquele que apresentou o melhor resultado em termos de erro de classificação foi: churn ∼ receitas + empregoduracao + educacao + idade + estadocivil + clienteduracao.
Comparando os resultados, o erro global de classificação com uma única regressão por árvores foi de 24,7%.
Dividindo os dados em duas partes na proporção de 3 para 1, denominadas treinamento e validação, os erros de classificação dos métodos boosting e bagging para o conjunto treinamento foram de 13,1% e 18,9%, respectivamente.
Considerando o conjunto treinamento e avaliando as classificações pelo erro global de predição, pode-se concluir que o boosting foi o método que apresentou o melhor desempenho. Porém, é importante destacar que a baixa proporção de churn nos dados influenciou os resultados, em especial no boosting, indicando que outros estudos devem ser realizados. É importante, ainda, destacar que os resultados obtidos com regressão logística retirados por Nakano (2017), foram melhores, porém com um modelo diferente e que, esse mesmo modelo também foi aqui avaliado, não repetindo a performance anterior.
Apresentação
ID: 9140
Resumo
Este trabalho tem como objetivo construir indicadores das dimensões do Sistema de Avaliação Institucional da UFSCar aplicada ao corpo discente. Tal sistema consiste em um questionário composto por questões que permitem avaliar a infraestrutura universitária e aferir a percepção de estudantes sobre sete dimensões, em particular, “Condições didático-pedagógicas do docente”, cujas respostas são dadas em escala Likert.
Para a construção de um índice pode-se utilizar métodos estatísticos multivariados, como a análise de componentes principais (ACP). A ACP clássica é uma técnica de análise exploratória de dados multivariados que transforma um conjunto de variáveis correlacionadas em um conjunto menor de variáveis independentes que são combinações lineares das variáveis originais, denominadas componentes principais. À princípio, tal técnica deve ser aplicada a variáveis quantitativas. No entanto, os dados provenientes de uma escala Likert são qualitativos ordinais e, para este caso, não é recomendado o uso da ACP clássica, devendo utilizar procedimentos mais adequados.
Um procedimento alternativo para reduzir a dimensionalidade de variáveis medidas em escala do tipo Likert, é a análise de componentes principais usando o procedimento Prinqual. Este método atribui valores numéricos às categorias de cada variável qualitativa, utilizando o escalonamento ótimo, fazendo com que seja possível executar a ACP nas variáveis transformadas. O valor numérico atribuído a cada variável qualitativa é obtido pelo “método dos mínimos quadrados alternados”. Este procedimento iterativo faz com que as quantificações numéricas em cada variável possuam propriedades métricas.
Para melhor compreensão do método Prinqual, foi realizada uma análise em um conjunto de dados fictícios, com variáveis quantitativas e qualitativas ordinais e nominais, utilizando diferentes softwares (RStudio e SAS OnDemand) a fim de identificar os passos da programação do algoritmo.
A partir do interesse em estudar as dimensões abordadas no questionário aplicado aos discentes da UFSCar, foram selecionadas as respectivas questões relacionadas à tais dimensões. Dentre estas, algumas questões são construídas de forma que as respostas são dadas em escala Likert, isto é, as questões são constituídas na escala de 1 a 5, em que 1 representa a resposta muito insatisfatória e 5 muito satisfatória para determinada pergunta.
No entanto, no decorrer do estudo, observou-se que dentre as questões selecionadas, algumas delas apresentavam uma sexta opção de resposta como “Sem informação/condição para responder”. Dessa forma, esta opção não reflete a informação contida no itens de 1-5, dados em Escala Likert, requerendo uma abordagem que considere como utilizar tais variáveis para aplicar a técnica em estudo.
Logo, foi possível analisar somente a dimensão “Condições didático-pedagógicas dos docentes”, a qual a partir da construção dos indicadores, foi bem avaliada pelos discentes.
Para a análise das demais dimensões abordadas no questionário, sugere-se um estudo aprofundado em como lidar com as questões que apresentam uma sexta opção de resposta não pertencente à escala Likert. Devido a presença desta opção, as questões não podem ser classificadas como variáveis qualitativas ordinais, requerendo uma abordagem que considere a utilização dessas variáveis para realizar a Análise de Componentes Principais para dados qualitativos utilizando o método Prinqual.
Apresentação
ID: 9319
Resumo
Este artigo estuda as causas de desaparecimento no estado de São Paulo por idade e sexo dos desaparecidos. Para tanto, usou o PLID, um banco de dados com os boletins de ocorrência dos desaparecimentos de 2013 e 2014. A metodologia consiste no uso de aprendizado de máquina para rotular automaticamente a causa de desaparecimento nos boletins, assim como métodos de quantificação para mensurar as proporções relativas de causa de desaparecimento estratificadas por idade e sexo. Os resultados indicam que grande parte dos boletins de ocorrência não possuem informações suficientes para inferir a causa do desaparecimento. Dentre os boletins com causa de desaparecimento clara, foi possível obter algumas classes de motivos mais frequentes para desaparecimento. A causa de desaparecimento mais frequente é a voluntária, sendo mais comum entre mulheres e homens menores de 18 anos. Também, cerca de 20% dos desaparecimentos ocorrem por usuários de drogas ou álcool, sendo mais comum entre menores de 50 anos. A partir de 50 anos, essa categoria torna-se menos frequente, sendo substituída pelo desaparecimento não intencional. Também observou-se que menos de 5% dos indivíduos foram vítimas de crimes. Essas conclusões podem auxiliar na elaboração de políticas públicas mais assertivas.
Apresentação
ID: 9158
Resumo
O pensamento complexo tem influenciado muitas áreas de pesquisa contribuindo para a modelagem de problemas relacionados ao surgimento de eventos inesperados ou catastróficos. Desta forma, pode-se pensar em modelar a incidência de dengue, que é uma infecção febril viral que tem como principal vetor o mosquito fêmea da espécie Aedesaegypti, do qual o Brasil vem sofrendo com altos índices de incidência da doença, caracterizando o fenômeno como epidêmico.
O objetivo é aplicar as medidas de complexidade LMC e SDL em dados referentes à incidência de dengue na cidade de São Paulo de janeiro de 2009 e agosto de 2018 a fim de verificar como tais medidas se comportam, permitindo identificar períodos de alta taxa de incidência e detectar possíveis fatores externos (por exemplo, fatores climáticos, baixo investimento em políticas públicas para combater a dengue) que possam ter levado a ocorrência dos altos índices de casos da doença.
As medidas de complexidade são utilizadas para modelar problemas complexos e, neste trabalho, aplicamos as medidas de complexidade desenvolvidas por Lópes, Mancini e Calbet (LMC) e por Shine, Davison and Landsberg (SDL). A medida LMC é definida em termos de entropia e desequilíbrio e a medida SDL relaciona-se com a medida LMC e é baseada no conceito de ordem e desordem.
Mortoza e Piqueira aplicaram as medidas LMC e SDL em observações de uma série temporal, especificamente, nas séries correspondentes ao índice IBOVESPA e à taxa de câmbio dólar-real com o objetivo de identificar períodos de instabilidade a eventos ocorridos na economia brasileira.
Mortoza e Piqueira particionaram o intervalo definido pelo maior e menor valor observado da série e, para cada intervalo da partição, calculou-se a probabilidade de uma observação pertencer a cada um deles. A partir disso, com as probabilidades obtidas, obteve-se as medidas LMC e SDL para cada intervalo.
Através da análise das séries das medidas de complexidade, notou-se que, conforme aumenta-se o número de intervalos, mais picos as medidas são capazes de detectar. Diante disso, pode-se concluir que as medidas de complexidade LMC e SDL são de grande utilidade quando tratamos de um grande conjunto de dados, dispostos em evolução temporal, visto que é possível identificar a mudança do comportamento da série sem a necessidade de quebrá-la em períodos. Utilizando a entropia conjunta do número de casos e índice pluviométrico, não foi possível obter uma explicação para o comportamento das medidas LMC e SDL quando lidamos com estas duas variáveis simultaneamente, apesar da desconfiança de que o alto número de casos registrados nos anos 2014 e 2015 tenham sido influenciados pela falta de investimento em políticas públicas.
Apresentação
ID: 9113
Resumo
O cálculo analítico de probabilidades não é sempre possível, e uma solução para este problema é fazer o uso de métodos computacionais, como Monte Carlo Simples e Metrópolis-Hastings. Esta Iniciação Científica abordou conceitos de leis de convergência, de variáveis aleatórias e cadeias de Markov para um melhor entendimento desses métodos. A linguagem probabilística, Stan, foi utilizada para testar esta técnica de simulação em alguns modelos estatístico usados em Inferência Bayesiana.
Apresentação
ID: 8881
Resumo
Séries temporais são sequências de observações de um mesmo conjunto de variáveis ao longo do tempo, estando presente em muitas aplicações na economia, física, entre outras áreas do conhecimento. O estudo e análise de séries temporais exige uma gama nova de técnicas, pois a observação de pontos adjacentes no tempo traz correlação às variáveis em questão. Um método comum para a modelagem de séries temporais é o método de Box-Jenkins.
Este trabalho consiste na criação de um aplicativo que permita a estimação de modelos ARIMA através de uma interface gráfica de usuário (GUI), facilitando a introdução de novos alunos de estatística ao uso dessas técnicas. Além da estimação dos modelos, o aplicativo também realiza o cálculo de algumas estatísticas dos dados associadas a modelagem. O desenvolvimento do aplicativo foi feito utilizando-se a linguaguem de programação python e o paradigma de programação orientada a objeto.
A aplicação precisa ser melhorada antes de disponibilização ao público em geral. O algorítmo que depende da convergência numérica para estimação de parâmetros é muito sensível, por exemplo. Além disso, algumas funcionalidades previstas (modelagem sazonal e detecção de outliers) não chegaram a ser implementadas.
A realização deste trabalho foi de grande valia, uma vez que o processo criativo foi enriquecedor e possibilitou ao estudante o aprendizado de uma série de conceitos introdutórios de programação importantes.
Apresentação
ID: 9393
Resumo
A Estatística pode ser aplicada em diversas áreas, como exemplo: medicina, indústria e finanças. Nas mais diversas áreas, os métodos de regressão são um dos mais aplicados, pois, a partir destes, é possível explicar a relação e a dependência entre as variáveis. Além disso, esses modelos apresentam casos particulares como: linear simples e múltiplo, logístico, entre outros.
O objetivo do trabalho foi estudar os modelos de regressão, em especial o logístico dicotômico, com aplicação na área financeira, sendo este amplamente utilizado por bancos e instituições financeiras. Também, estes modelos apresentam algumas vantagens como exemplo, resultados são chances de classificação de resposta, facilidade para classificar indivíduos e para tratar com variáveis independentes categóricas. Para tanto, estudamos estes modelos, estimamos seus parâmetros via máxima verossimilhança, e selecionamos o melhor modelo que descreva as relações.
Para tratar sobre o modelo de regressão logística, estudamos, primeiramente, os modelos lineares simples e múltiplo. Em seguida, estudamos o modelo logístico. Para estimar os parâmetros dos modelos, assumimos que a variável resposta tem distribuição Bernoulli e supomos uma amostra com n observações independentes, sendo possível construir a função de probabilidade. A partir de então, por meio do variáveis de máxima verossimilhança, estimamos os parâmetros.
A metodologia estudada foi aplicada em exemplos e os resultados obtidos via software R. Em particular, um dos exemplos, a variável resposta representa a adimplência ou inadimplência de clientes de determinada empresa, tendo como possíveis fatores (variáveis explicativas) renda mensal, número de dependentes e vínculo empregatício.
Apresentação
ID: 9111
Resumo
Um modelo filogenético é caracterizado pela representação das relações de descendência e ascendência entre indivíduos e espécies num contexto de evolução histórica. Uma maneira de retratar tais relações e hierarquias é por meio de uma árvore (costumeiramente binária). Na área de filogenética tem-se sempre o interesse em estimar topologias e tempos de divergência de espécies (tamanhos de galhos). Baseado em tal motivação, esta iniciação implementou o algoritmo de Felsenstein (1981) para otimização das arestas da árvore, juntamente com a função de predição com relação à configuração genética dos filhos. Posteriormente foi realizado um estudo de simulação sobre a capacidade preditiva do algoritmo de máxima verossimilhança sobre a topologia da árvore. Obteve-se como principal resultado a preservação das relações entre pais e filhos da árvore original quando esta é simulada. O algoritmo de Felsenstein também foi comparado com o método e dados em Sanson (2002), obtendo-se resultados similares.
Apresentação
ID: 9556
Resumo
O objetivo desse projeto é utilizar modelos probabilísticos para prever resultados de uma partida de futebol bem como estimar probabilidades de campeão para um determinado time, através de parâmetros como ”efeito casa” e quais times estão se enfretando em uma partida. Para tanto, foram considerados dois modelos. O modelo de probabilidade de Lee (1997), onde para uma dada partida de futebol, X representa o número de gols marcados pelo time mandante e Y o número de gols marcados pelo time visitante e o modelo de probabilidade de Brillinger (2008), que é um modelo ordinal na qual a variável estudada é o resultado direto de uma partida, ou seja, se o time mandante ganhou, perdeu ou empatou. Além de obter estimativas para o vencedor de uma partida de futebol usando esses dois modelos, o projeto tem por objetivo construir regiões de confiança para as estimativas, a fim de acrescentar medidas de incerteza a respeito dos resultados encontrados. Isso será feito através de dois métodos: Método Delta sem transformações e Método Delta com Transformações.
Apresentação
ID: 9437
Resumo
O calculo analítico exibe limites no contexto de técnicas de modelos estatísticos, porém com os recursos computacionais modernos , é possível a resolução de problemas previamente inviáveis através de métodos de simulação. Um destes métodos de particular interesse é o de Monte Carlo, que foi o objeto de estudo deste trabalho. Neste trabalho, tivemos como objetivo o estudo do conceito, extensões e aplicação do método de Monte Carlo, em particular métodos de Monte Carlo baseados em Cadeia de Markov (MCMC). O método de Monte Carlo permite a estimação de um valor utilizando uma amostra obtida por simulação, estimando um valor esperado de uma distribuição. Em métodos MCMC, construímos uma cadeia cuja medida invariante se aproxima de uma distribuição posteriori desejada,$f(\theta|x)$, onde $\theta$ são parâmetros e $x$ valores observados, obtendo a amostra desejada pela cadeia resultante para aplicar Monte Carlo.Exploramos alguns dos principais algorítimos para construção deste cadeia. Em Metropolis-Hastings, geramos a cadeia por propostas para mudança de estado, começando com valores iniciais. Utilizamos uma distribuição de transição condicional nos valores atuais de $\theta$ para gerar uma proposta e calcular uma chance de aceitação, aceitando ou rejeitando a mudança do estado, obtendo o novo valor da cadeia, repetindo até obter o tamanho desejado da amostra. Em Gibbs, utilizamos uma distribuição condicional de transição para propostas escolhendo um dos valores de $\theta$ de cada vez para gerar uma proposta, condicionada nos valores não escolhidos, sempre aceitando a proposta. Evitando uma possível lentidão de Metropolis-Hastings, quando se utiliza valores iniciais ruins, o Monte Carlo Hamiltoniano encorpora um novo grupo de variáveis auxiliares, $\phi$, calculadas através do gradiente de $\theta$,com função de ``impulsionar" a cadeia para seus valores apropriados, aumentando os ``pulos" em cada proposta caso a cadeia esteja longe de sua convergência. Finalmente, exploramos aplicações de MCMC em otimização de funções e restauração de imagens. Para restauração de imagens, utilizamos o Modelo de Ising em imagens com cor binaria. Tratamos cada pixel da imagem como uma variável aleatória e por Metropolis-Hastings, selecionamos um pixel a cada passo para manter ou modificar sua cor, utilizando a semelhança deste pixel com seus vizinhos para calcular uma taxa de aceitação.
Apresentação
ID: 9395
Resumo
O trabalho realizado apresenta técnicas estatísticas para análise de dados bancários, dando enfoque maior na regressão logística. Nesta metodologia é possível ajustar um modelo quando a variável dependente tem resposta binária, como é o caso apresentado neste projeto. A fim de ilustrar a metodologia apresentada, foram aplicados dois exemplos. Um dos conjuntos foi simulado
No segundo exemplo foi usado um conjunto de dados de Kaggle, com informações de clientes de um Banco. Foi ajustado um modelo e foi estudado técnicas de validação. Neste exemplo, o objetivo foi conseguir identificar clientes com alta propensão a desistir do serviço e evitar proativamente este desfecho, já́ que o custo de adquirir um novo cliente é em geral maior do que manter um cliente antigo, mesmo oferecendo vantagens. A variável resposta indica se o cliente fechou sua conta ou continua sendo um cliente até o corte de tempo registrado.
Desta forma, foi ajustado um modelo de regressão logística e foram calculadas algumas métricas afim de verificar a qualidade do modelo para tais dados, além da curva ROC e também o gráfico KS. Como conclusão, o modelo ajustado separa bem os clientes que encerram a conta daqueles que não encerram, concluindo assim o objetivo proposto no projeto.
Apresentação