Análise de regressão logística múltipla em stata forex


Análise de Regressão Múltipla usando Stata Introdução A regressão múltipla (uma extensão da regressão linear simples) é usada para prever o valor de uma variável dependente (também conhecida como variável de resultado) com base no valor de duas ou mais variáveis ​​independentes (também conhecidas como variáveis ​​preditoras ). Por exemplo, você pode usar uma regressão múltipla para determinar se a ansiedade do exame pode ser prevista com base na marca do curso, tempo de revisão, atendimento de conferência e pontuação de QI (ou seja, a variável dependente seria a ansiedade do exame e as quatro variáveis ​​independentes seriam a nota do curso, a revisão Tempo, participação em conferências e pontuação de QI). Alternativamente, você poderia usar uma regressão múltipla para determinar se a renda pode ser prevista com base na idade, gênero e nível educacional (ou seja, a variável dependente seria renda e as três variáveis ​​independentes seriam idade, gênero e nível educacional). Se você tem uma variável dependente dicotômica, você pode usar uma regressão logística binomial. A regressão múltipla também permite que você determine o ajuste geral (variação explicada) do modelo e a contribuição relativa de cada uma das variáveis ​​independentes para a variância total explicada. Por exemplo, você pode querer saber o quanto da variação na ansiedade do exame pode ser explicada pela nota do curso, tempo de revisão, atendimento de conferência e pontuação de QI como um todo, mas também a contribuição relativa de cada variável independente na explicação da variância. Este guia de início rápido mostra como realizar uma regressão múltipla usando o Stata, bem como como interpretar e relatar os resultados desse teste. No entanto, antes de apresentarmos este procedimento, você precisa entender os diferentes pressupostos que seus dados devem atender para que a regressão múltipla lhe dê um resultado válido. Discutimos estas suposições a seguir. Pressupostos Há oito suposições que sustentam a regressão múltipla. Se qualquer um desses oito pressupostos não for cumprido, você não pode analisar seus dados usando uma regressão múltipla porque você não obterá um resultado válido. Como as suposições 1 e 2 referem-se à sua escolha de variáveis, elas não podem ser testadas para usar o Stata. No entanto, você deve decidir se seu estudo atende a essas suposições antes de seguir em frente. Suposição 1: Sua variável dependente deve ser medida no nível contínuo. Exemplos de tais variáveis ​​contínuas incluem altura (medida em pés e polegadas), temperatura (medida em 176C), salário (medido em dólares norte-americanos), tempo de revisão (medido em horas), inteligência (medida com o escore de QI), tempo de reação Em milissegundos), desempenho de teste (medido de 0 a 100), vendas (medido em número de transações por mês), e assim por diante. Se você não tiver certeza se sua variável dependente é contínua (ou seja, medida no intervalo ou nível de razão), consulte o nosso Guia de Tipos de Variáveis. Assunção 2: Você tem duas ou mais variáveis ​​independentes. Que deve ser medido no nível contínuo ou categórico. Para exemplos de variáveis ​​contínuas. Veja a bala acima. Exemplos de variáveis ​​categóricas incluem gênero (por exemplo, 2 grupos: masculino e feminino), etnia (por exemplo, 3 grupos: caucasiano, afro-americano e hispânico), nível de atividade física (por exemplo, 4 grupos: sedentário, baixo, moderado e alto), profissão (eg 5 grupos: cirurgião, médico, enfermeiro, dentista, terapeuta) e assim por diante. Neste guia, mostramos o procedimento de regressão múltipla porque temos uma mistura de variáveis ​​independentes contínuas e categóricas. Nota: Se você tem apenas variáveis ​​independentes categóricas (ou seja, não há variáveis ​​independentes contínuas), é mais comum abordar a análise a partir da perspectiva de uma ANOVA bidirecional (para duas variáveis ​​independentes categóricas) ou ANOVA fatorial (para três ou mais categórico Variáveis ​​independentes) em vez de regressão múltipla. Felizmente, você pode verificar as suposições 3, 4, 5, 6, 7 e 8 usando Stata. Ao passar para as suposições 3, 4, 5, 6, 7 e 8, sugerimos testá-las nesta ordem porque representa uma ordem em que, se uma violação à suposição não for corrigível, você não poderá mais usar múltiplos regressão. Na verdade, não se surpreenda se seus dados falharem em uma ou mais destas suposições, uma vez que isso é bastante típico quando se trabalha com dados do mundo real, em vez de exemplos de livros didáticos, que muitas vezes só mostram como realizar a regressão linear quando tudo corre bem. No entanto, não se preocupe, porque mesmo quando seus dados falham certas suposições, muitas vezes há uma solução para superar isso (por exemplo, transformar seus dados ou usando outro teste estatístico em vez disso). Apenas lembre-se de que, se você não verificar se os dados cumprem essas premissas ou testá-las corretamente, os resultados obtidos ao executar regressão múltipla podem não ser válidos. Suposição 3: Você deve ter independência de observações (isto é independência de resíduos), que você pode verificar em Stata usando a estatística de Durbin-Watson. Suposição 4: Deve haver uma relação linear entre (a) a variável dependente e cada uma de suas variáveis ​​independentes, e (b) a variável dependente e as variáveis ​​independentes coletivamente. Você pode verificar a linearidade em Stata usando gráficos de dispersão e gráficos de regressão parcial. Suposição 5: Seus dados precisam mostrar homocedasticidade. Que é onde as variações ao longo da linha de melhor ajuste permanecem similares à medida que você se move ao longo da linha. Você pode verificar a homoscedasticidade em Stata, traçando os resíduos estudados contra os valores preditos não padronizados. Suposição 6: Os seus dados não devem mostrar multicolinearidade. Que ocorre quando você tem duas ou mais variáveis ​​independentes que estão altamente correlacionadas entre si. Você pode verificar esta suposição em Stata através de uma inspeção de coeficientes de correlação e ToleranceVIF valores. Suposição 7: Não deve haver outliers significativos. Pontos de alavancagem elevados ou pontos altamente influentes. Que representam observações em seu conjunto de dados que são de alguma forma incomuns. Estes podem ter um efeito muito negativo na equação de regressão que é usada para prever o valor da variável dependente com base nas variáveis ​​independentes. Você pode verificar outliers, pontos de alavancagem e pontos influentes usando Stata. Suposição 8: Os resíduos (erros) devem ser aproximadamente distribuídos normalmente. Que você pode verificar em Stata usando um histograma (com uma curva normal sobreposta) e Normal P-P Plot, ou uma Normal Q-Q Plot dos studentized resíduos. Na prática, a verificação das suposições 3, 4, 5, 6, 7 e 8 provavelmente ocupará a maior parte do seu tempo ao realizar uma regressão múltipla. No entanto, não é uma tarefa difícil, e Stata fornece todas as ferramentas que você precisa fazer isso. Na seção, Procedimento de teste no Stata. Nós ilustramos o procedimento de Stata requerido para executar a regressão múltipla supondo que nenhuma suposição foi violada. Primeiro, apresentamos o exemplo que usamos para explicar o procedimento de regressão múltipla na Stata. Um pesquisador de saúde quer ser capaz de prever o VO 2 max, um indicador de aptidão e saúde. Normalmente, para realizar este procedimento requer equipamento de laboratório dispendioso, bem como exigir que os indivíduos exerçam ao máximo (isto é, até que não possam mais continuar exercendo devido à exaustão física). Isso pode adiar indivíduos que não são muito ativos e aqueles que podem estar em maior risco de problemas de saúde (por exemplo, sujeitos mais velhos impróprios). Por estas razões, tem sido desejável encontrar uma maneira de prever um VO 2 máx indivíduos com base em atributos que podem ser medidos com mais facilidade e de baixo custo. Para tanto, um pesquisador recrutou 100 participantes para realizar um teste máximo de VO 2 máx, mas também registrou sua idade, peso, frequência cardíaca e sexo. A frequência cardíaca é a média dos últimos 5 minutos de um teste de ciclo de trabalho de 20 minutos, muito mais fácil e mais baixo. O objectivo dos investigadores é poder prever o VO 2 máx com base nestes quatro atributos: idade, peso, frequência cardíaca e sexo. Nota: O exemplo e os dados utilizados neste guia são fictícios. Acabamos de criá-los para os propósitos deste guia. Configuração em Stata In Stata, criamos cinco variáveis: (1) VO 2 max. Que é a capacidade aeróbia máxima (isto é, a variável dependente) e (2) a idade. Que é o peso participantes idade (3). Qual é o peso dos participantes (tecnicamente, é a massa deles) (4) heartrate. Que é a freqüência cardíaca dos participantes e (5) gênero. Que é o sexo dos participantes (isto é, as variáveis ​​independentes). Depois de criar essas cinco variáveis, inserimos as pontuações para cada uma das cinco colunas da planilha de edição de dados (Editar), conforme mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Procedimento de teste em Stata Nesta seção, mostramos como analisar seus dados usando regressão múltipla em Stata quando os oito pressupostos na seção anterior, Suposições. Não foram violados. Você pode realizar a regressão múltipla usando o código ou a interface gráfica do usuário do Statas (GUI). Depois de ter realizado a sua análise, mostramos como interpretar os resultados. Primeiro, escolha se deseja usar o código ou a interface gráfica de usuário (GUI) do Statas. O código para realizar uma regressão múltipla em seus dados assume a forma: regressar DependenteVariável IndependenteVariable1 IndependenteVariable2 IndependenteVariable3 IndependenteVariable4 Usando nosso exemplo onde a variável dependente é VO2max e as quatro variáveis ​​independentes são idade. peso. Heartrate e gênero. O código necessário seria: regress VO2max idade peso musculação i. gender Nota: Você verá a partir do código acima que as variáveis ​​independentes contínuas são simplesmente inseridas como está, enquanto as variáveis ​​independentes categóricas têm o prefixo i (por exemplo, idade para idade, uma vez que é um Variável independente contínua, mas i. gender para gênero, uma vez que esta é uma variável independente categórica). Portanto, digite o código, regredir VO2max, idade, peso, heartrate, i. gender. E pressione o botão ReturnEnter no seu teclado. Você pode ver a saída da Stata que será produzida aqui. Interface Gráfica do Usuário (GUI) As sete etapas necessárias para realizar a regressão múltipla no Stata são mostradas abaixo: Clique em Estatísticas gt Modelos lineares e gt relacionados Regressão linear no menu principal, conforme mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Nota: Não se preocupe que você está selecionando Estatísticas gt Modelos lineares e gt relacionados Regressão linear no menu principal, ou que as caixas de diálogo nos passos a seguir têm o título, Regressão linear. Você não cometeu um erro. Você está no lugar correto para realizar o procedimento de regressão múltipla. Este é apenas o título que Stata dá, mesmo quando executando um procedimento de regressão múltipla. Ser-lhe-á apresentada a caixa de diálogo regressar - Regressão linear, conforme ilustrado abaixo: Publicado com permissão por escrito da StataCorp LP. Selecione a variável dependente, VO2max. A partir da variável Dependente: caixa e selecione as variáveis ​​independentes contínuas, idade. Peso e heartrate da caixa Variáveis ​​independentes, usando o botão drop-down, como mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Selecione a variável independente categórica, gênero. Das variáveis ​​independentes: caixa, primeiro clicando no botão. Isto irá apresentá-lo com a seguinte caixa de diálogo onde as suas variáveis ​​independentes contínuas (idade peso e heartrate) já terão sido inseridos na Varlist: caixa: Publicado com permissão por escrito da StataCorp LP. Deixe a variável Fator selecionada no ndashTipo da área variablendash. Em seguida, na área ndashAdd factor variablendash, deixe selecionado na caixa Especificação :. Agora, selecione sexo na caixa Variáveis ​​usando o botão suspenso e selecione Padrão na caixa Base. Finalmente, clique no botão. Você será apresentado com a seguinte caixa de diálogo onde a variável independente categórica, i. gender. Foi inserido no Varlist: box: Publicado com permissão por escrito da StataCorp LP. Clique no botão. Você será retornado à regressão - caixa de diálogo de regressão linear, mas com a variável independente categórica, i. gender. Agora inserido na caixa Variáveis ​​independentes: como mostrado abaixo: Publicado com permissão por escrito da StataCorp LP. Clique no botão. Isso gerará a saída. Interpretação e Relatórios da Produção Stata da Análise de Regressão Múltipla Stata irá gerar uma única peça de saída para uma análise de regressão múltipla com base nas seleções feitas acima, assumindo que as oito premissas necessárias para regressão múltipla foram cumpridas. Determinar a adequação do modelo O R 2 e o R 2 ajustado podem ser usados ​​para determinar o quão bem um modelo de regressão se ajusta aos dados: A linha R-quadrada representa o valor R 2 (também chamado de coeficiente de determinação), que é a proporção De variância na variável dependente que pode ser explicada pelas variáveis ​​independentes (tecnicamente, é a proporção de variação explicada pelo modelo de regressão acima e além do modelo médio). Você pode ver do nosso valor de 0.577 que nossas variáveis ​​independentes explicam 57.7 da variabilidade de nossa variável dependente, VO 2 max. No entanto, você também precisa ser capaz de interpretar Adj R-squared (adj R 2) para informar com precisão os seus dados. Significado estatístico A F-ração testa se o modelo de regressão global é um bom ajuste para os dados. A saída mostra que as variáveis ​​independentes predizem estatisticamente a variável dependente, F (4, 95) 32.39, p lt. 0005 (isto é, o modelo de regressão é um bom ajuste dos dados). Coeficientes estimados do modelo A forma geral da equação para predizer VO 2 max a partir da idade. peso. O heartrate e o gender é: predito VO2 máximo 87.83 ndash (0.165 x idade) ndash (0.385 x peso) ndash (0.118 x heartrate) (13.208 x gender) Isto é obtido do Coef. , Conforme mostrado abaixo: Os coeficientes não padronizados indicam o quanto a variável dependente varia com uma variável independente, quando todas as outras variáveis ​​independentes são mantidas constantes. Considere o efeito da idade neste exemplo. O coeficiente não padronizado, B 1. Para idade é igual a -0,165 (ver a primeira linha da coluna Coef.). Isto significa que, para cada aumento de 1 ano de idade, há uma diminuição no VO 2 max de 0,165 mlminkg. Significância estatística das variáveis ​​independentes Pode-se testar a significância estatística de cada uma das variáveis ​​independentes. Isso testa se os coeficientes não padronizados (ou padronizados) são iguais a 0 (zero) na população. Se p lt .05, você pode concluir que os coeficientes são estatisticamente significativamente diferentes de 0 (zero). O valor t eo correspondente valor p estão localizados nas colunas t e Pgtt, respectivamente, conforme destacado abaixo: Você pode ver a partir da coluna Pgtt que todos os coeficientes de variáveis ​​independentes são estatisticamente significativamente diferentes de 0 (zero). Embora a intercepção, B 0. É testado quanto à significância estatística, isso raramente é uma descoberta importante ou interessante. Relatando a saída da análise de regressão múltipla Você pode escrever os resultados da seguinte forma: Foi realizada uma regressão múltipla para prever o VO 2 máx do sexo, idade, peso e freqüência cardíaca. Estas variáveis ​​predisseram, estatisticamente, VO 2 max, F (4, 95) 32,39, p lt. 0005, R 2, 577. Todas as quatro variáveis ​​adicionadas estatisticamente significativas para a previsão, p lt .05.Stata: Análise de Dados e Software Estatístico Regressão logística Stata suporta todos os aspectos da regressão logística. Veja a lista de recursos de regressão logística. A logística de Statarsquos se ajusta a modelos de logística dicotômicos de máxima verossimilhança: A sintaxe de todos os comandos de estimativa é a mesma: o nome da variável dependente é seguido pelos nomes das variáveis ​​independentes. Neste caso, a variável dependente baixa (contendo 1 se um recém-nascido teve um peso ao nascer inferior a 2500 gramas e 0 caso contrário) foi modelada em função de um número de variáveis ​​explicativas. Por padrão, relatórios logísticos relatam odds ratios logit alternativo relatará coeficientes se você preferir. Uma vez que um modelo foi montado, você pode usar Statas predizer para obter as probabilidades previstas de um resultado positivo, o valor do índice logit, ou o erro padrão do índice logit. Você também pode obter medidas de influência de Pearson residual, Pearson padrão, influência de alavancagem (os elementos diagonais da matriz de chapéu), Delta chi-quadrado, Delta D e Pregibons Delta, digitando um único comando. Todas as estatísticas são ajustadas para o número de padrões covariáveis ​​no datamdashm-assintótico ao invés de n-assintótico em Hosmer e Lemeshow (2000) jargão. Cada gráfico de diagnóstico sugerido por Hosmer e Lemeshow pode ser desenhado por Stata. Também estão disponíveis o teste de bondade de ajuste, usando células definidas pelos padrões de covariáveis ​​ou agrupamento, conforme sugerido pelas estatísticas de classificação de Hosmer e Lemeshow e a tabela de classificação e um gráfico e área sob a curva ROC. O Statarsquos mlogit realiza estimativa de máxima verossimilhança de modelos com variáveis ​​dependentes discretas. É destinado para uso quando a variável dependente assume mais de dois resultados e os resultados não têm ordem natural. Somente, as restrições lineares nos coeficientes podem ser especificadas dentro e entre equações usando sintaxe algébrica. Muito pensou em tornar o mlogit realmente útil. Por exemplo, não existem restrições artificiais sobre a natureza da variável dependente. A variável dependente não é obrigada a assumir valores integrais contíguos como 1, 2 e 3, embora tal codificação seja aceitável. Igualmente aceitável seria 1, 3 e 4, ou mesmo 1,2, 3,7 e 4,8. Statarsquos clogit realiza estimativa de máxima verossimilhança com uma variável dependente dicotômica análise logística condicional difere da regressão logística regular em que os dados são estratificados e as probabilidades são calculadas em relação a cada estrato. A forma da função de verossimilhança é semelhante mas não idêntica à regressão logística multinomial. A análise logística condicional é conhecida em círculos epidemiológicos como o modelo casendashcontrol acompanhado e em econometria como modelo de escolha de McFaddens. A forma dos dados, bem como a natureza da amostragem, difere entre as duas configurações, mas obstrução manipula ambos. O clogit permite tanto a correspondência de 1: 1 como de 1: k, e pode haver até mais de um resultado positivo por estrato (que é manipulado usando a solução exata). Statarsquos ologit realiza estimativa de máxima verossimilhança para ajustar modelos com uma variável dependente ordinal, significando uma variável que é categórica e em que as categorias podem ser ordenadas de baixo para alto, como ldquopoorrdquo, ldquogoodrdquo e ldquoexcellentrdquo. Ao contrário de mlogit. O ologit pode explorar o pedido no processo de estimativa. (Stata também fornece oprobit para montagem de modelos probit ordenados.) Tal como em mlogit, a variável dependente categórica pode assumir quaisquer valores. Ver Greene (2012) para uma descrição direta dos modelos montados por clogit. Mlogit. Ologit. E oprobit. Referências Breslow, N. E. 1974. Análise de covariância de dados de sobrevivência censurados. Biometrics 30: 89ndash99. Greene, W. H., 2012. Análise econométrica. 7a ed. Upper Saddle River, NJ: Prentice Hall. Hosmer, D. W. Jr. S. Lemeshow e Sturdivant R. X. 2013. Regressão Logística Aplicada. 3a ed. Nova Iorque: Wiley. McFadden, D. 1974. Análise de logis condicional de comportamento de escolha qualitativa. Em Fronteiras em Econometria. Ed. P. Zarembka, 105ndash142. Nova York: Academic Press.

Comments

Popular posts from this blog

Notícias e análises diárias de forex

Afera forex trading

Oscilador estocastico forex trading