![](https://github.com/bigdata-icict/ETL-Dataiku-DSS/raw/master/tutoriais/pcdas_1.5.png)

# Notebook para criação de tabela de indicadores da PNS -  módulo P 2019 Tabagismo

## Bibliotecas Utilizadas

In [53]:
#Lendo pacotes necessários
library(survey)
library(ggplot2)
library(dplyr)
library(foreign)
library(forcats)
library(tidyverse)

## Carregando microdados da PNS

In [54]:
#Carregando banco de dados para R versão 3.5.0 ou superior
load("<coloque aqui o caminho para o arquivo dos microdados formato RDATA>")

## Definição de peso e filtragem de respondentes do questionário

In [55]:
#Selecionando registros válidos para o módulo P e calculando peso amostral - summary de verificação
pns2019.1<-pns2019v3 %>% filter(V0025A==1)
pns2019.1<-pns2019.1 %>% mutate(peso_morador_selec=((V00291*(94114/168426190))))
pns2019.1<-pns2019.1 %>% filter(!is.na(peso_morador_selec))
summary(pns2019.1$peso_morador_selec)

    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.00582  0.27579  0.56358  1.03597  1.16822 63.29775 

## Criação de variáveis dos indicadores

In [56]:
#Desfechos - Indicadores

#P019P - Uso atual de produtos derivados do tabaco 
pns2019.1 <- pns2019.1 %>% mutate(P019P = ifelse(P050 %in% 1:2, 1,
                                          ifelse(P067 %in% 1:2, 1, 2)))
pns2019.1$P019P<-factor(pns2019.1$P019P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$P019P)

#P020P - Fumo atual do tabaco 
pns2019.1 <- pns2019.1 %>% mutate(P020P = ifelse(P050 %in% 1:2, 1, 2))
pns2019.1$P020P<-factor(pns2019.1$P020P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$P020P)

#P021P - Ex-fumantes de tabaco
pns2019.1 <- pns2019.1 %>% mutate(P021P = ifelse(P050 == 3 & P052 %in% 1:2,1,2))
pns2019.1$P021P<-factor(pns2019.1$P021P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$P021P)

#P022P - Tentativa de parar de fumar nos últimos 12 meses entre os fumantes atuais de tabaco
pns2019.1 <- pns2019.1 %>% mutate(P022P = if_else(P060==1 | P05901==0,1,2,missing=2))                                        
pns2019.1$P022P<-factor(pns2019.1$P022P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$P022P)


#P023P - Fumo passivo no domícilio entre os não fumantes
pns2019.1 <- pns2019.1 %>% mutate(P023P = if_else(P050==3 & P068<=3,1,2,missing=2))                                        
pns2019.1$P023P<-factor(pns2019.1$P023P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$P023P)


#P024P - Fumo atual de cigarro
pns2019.1 <- pns2019.1 %>% mutate(P024P =  ifelse((P050%in%1:2) & (P05401<=4 | P05404<=4 | P05407<=4),1,2))                                                                                                           
pns2019.1$P024P<-factor(pns2019.1$P024P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$P024P)

## Definições de abrangências

### Situação urbana ou rural

In [57]:
#Situação Urbano ou Rural
pns2019.1 <- pns2019.1 %>% rename(Sit_Urbano_Rural=V0026)
pns2019.1$Sit_Urbano_Rural<-factor(pns2019.1$Sit_Urbano_Rural, levels=c(1,2), labels=c("urbano", "rural"))
summary(pns2019.1$Sit_Urbano_Rural)

### Sexo

In [58]:
#Sexo
pns2019.1 <- pns2019.1 %>% rename(Sexo=C006)
pns2019.1$Sexo<-factor(pns2019.1$Sexo, levels=c(1,2), labels=c("Masculino", "Feminino"))
summary(pns2019.1$Sexo)

### UF

In [59]:
#Estados - UFs
pns2019.1 <- pns2019.1 %>% rename(Unidades_da_Federacao=V0001)
pns2019.1$Unidades_da_Federacao<-factor(pns2019.1$Unidades_da_Federacao, levels=c(11,12,13,14,15,16,17,21,22,23,24,25,26,27,28,29,31,32,33,35,41,42,43,50,51,52,53),
                                       label=c("Rondônia","Acre","Amazonas","Roraima","Pará","Amapá","Tocantins","Maranhão","Piauí","Ceará",
                                        "Rio Grande do Norte","Paraíba","Pernambuco","Alagoas","Sergipe","Bahia",
                                        "Minas Gerais","Espírito Santo","Rio de Janeiro","São Paulo",
                                        "Paraná","Santa Catarina","Rio Grande do Sul", 
                                        "Mato Grosso do Sul","Mato Grosso","Goiás","Distrito Federal"))
summary(pns2019.1$Unidades_da_Federacao)

### Grandes Regiões

In [60]:
#Grandes Regiões
pns2019.1 <- pns2019.1 %>% 
  mutate(GrandesRegioes = fct_collapse(Unidades_da_Federacao, 
                                          `Norte` = c("Rondônia","Acre","Amazonas","Roraima","Pará", "Amapá","Tocantins"),
                                          `Nordeste` = c("Maranhão", "Piauí", "Ceará", "Rio Grande do Norte", "Paraíba","Pernambuco", "Alagoas","Sergipe","Bahia"),
                                          `Sudeste` = c("Minas Gerais", "Espírito Santo","Rio de Janeiro", "São Paulo"), 
                                          `Sul` = c("Paraná", "Santa Catarina", "Rio Grande do Sul"),
                                          `Centro-Oeste`= c("Mato Grosso do Sul","Mato Grosso", "Goiás", "Distrito Federal")))
summary(pns2019.1$GrandesRegioes)

### Faixa Etária

In [61]:
#Faixas Etárias

pns2019.1 <-  pns2019.1 %>% mutate(faixa_idade=cut(C008,
  breaks = c(18,30, 45, 60, 75,Inf),
  labels = c("18 a 29 anos","30 a 44 anos","45 a 59 anos","60 a 74 anos","75 anos ou mais"), 
  ordered_result = TRUE, right = FALSE))
summary(pns2019.1$faixa_idade) 

### Raça

In [62]:
#Raça
pns2019.1 <- pns2019.1 %>% mutate(Raca= ifelse(C009==1, 1, 
                        ifelse(C009==2, 2, 
                            ifelse(C009==4, 3, 9))))

pns2019.1$Raca<-factor(pns2019.1$Raca, levels=c(1,2,3),labels=c("Branca", "Preta", "Parda"))

summary(pns2019.1$Raca)

### Renda per capita

In [63]:
#Rendimento domiciliar per capita
pns2019.1 <- pns2019.1 %>% mutate(rend_per_capita = ifelse(VDF004 %in% 1:2, 1, 
                        ifelse(VDF004%in% 3, 2, 
                        ifelse(VDF004%in% 4, 3,
                        ifelse(VDF004%in% 5, 4,5)))))

pns2019.1$rend_per_capita<-factor(pns2019.1$rend_per_capita, levels=c(1,2,3,4,5), labels=c("Até 1/2 SM","1/2 até 1 SM","1 até 2 SM",
                                                                                   "2 até 3 SM","Mais de 3 SM"))
summary(pns2019.1$rend_per_capita)


### Escolaridade

In [64]:
# Escolaridade

pns2019.1 <- pns2019.1 %>% mutate(gescol = ifelse(VDD004A %in% 1:2, 1, 
                        ifelse(VDD004A%in% 3:4, 2, 
                        ifelse(VDD004A%in% 5:6, 3,4
                        ))))

pns2019.1$gescol<-factor(pns2019.1$gescol, levels=c(1,2,3,4), 
                                  labels=c("Sem instrução e fundamental incompleto","Fundamental completo e médio incompleto",
                                           "Médio completo e superior incompleto","Superior completo"))
summary(pns2019.1$gescol)

### Capital

In [65]:
#Capital
pns2019.1<- pns2019.1 %>% mutate(Capital= fct_collapse(Unidades_da_Federacao,
                                        `Porto Velho`= "Rondônia", 
                                        `Boa Vista`= "Roraima",              
                                        `Rio Branco `= "Acre", 
                                        `Manaus` = "Amazonas",
                                        `Belém` = "Pará" ,
                                        `Macapá`= "Amapá",
                                        `Palmas` = "Tocantins",
                                        `São Luís` = "Maranhão",
                                        `Teresina`= "Piauí" ,
                                        `Fortaleza`= "Ceará",
                                        `Natal`= "Rio Grande do Norte",
                                        `João Pessoa`= "Paraíba",
                                        `Recife`= "Pernambuco",
                                        `Maceió`= "Alagoas",
                                        `Aracaju`= "Sergipe",
                                        `Salvador`= "Bahia",
                                        `Belo Horizonte`= "Minas Gerais",
                                        `Vitória`= "Espírito Santo",
                                        `Rio de Janeiro`= "Rio de Janeiro",
                                        `São Paulo`= "São Paulo",
                                        `Curitiba`= "Paraná",
                                        `Florianópolis`= "Santa Catarina",
                                        `Porto Alegre`= "Rio Grande do Sul",
                                        `Campo Grande`=  "Mato Grosso do Sul",
                                        `Cuiabá`= "Mato Grosso",
                                        `Goiânia` = "Goiás",
                                        `Brasília`= "Distrito Federal"))
summary(pns2019.1$Capital)

## Criando Indicadores

### Filtrando base de indicadores

In [66]:
#Selecionando variáveis para cálculo de indicadores no survey
pns2019Psurvey<- pns2019.1 %>% select("V0024","UPA_PNS","peso_morador_selec", "P019P","P020P","P021P","P022P","P023P","P024P",
                                     "C008","C009","V0031","P050","P05901","Sit_Urbano_Rural","Sexo","Unidades_da_Federacao", "GrandesRegioes",
                                     "faixa_idade", "Raca","rend_per_capita","gescol","Capital")
summary(pns2019Psurvey)

     V0024            UPA_PNS          peso_morador_selec P019P      
 Min.   :1110011   Min.   :110000016   Min.   : 0.00582   Sim:11706  
 1st Qu.:2210011   1st Qu.:220001391   1st Qu.: 0.27579   Não:79140  
 Median :2853020   Median :280039950   Median : 0.56358              
 Mean   :2998072   Mean   :296695855   Mean   : 1.03597              
 3rd Qu.:3553013   3rd Qu.:350588998   3rd Qu.: 1.16822              
 Max.   :5310220   Max.   :530051067   Max.   :63.29775              
                                                                     
 P020P       P021P       P022P       P023P       P024P            C008       
 Sim:11386   Sim:24224   Sim: 5700   Sim: 6295   Sim:11155   Min.   : 15.00  
 Não:79460   Não:66622   Não:85146   Não:84551   Não:79691   1st Qu.: 32.00  
                                                             Median : 45.00  
                                                             Mean   : 46.39  
                                                  

### Exporta tabela filtrada

In [67]:
#Salvando csv para cálculo de indicadores no survey
path <- "<coloque aqui o caminho onde deseja salvar a base filtrada>"
write.csv(pns2019Psurvey, file.path(path, "pns2019Psurvey.csv"))

### Cria plano amostral complexo

In [68]:
#survey design
desPNSP=svydesign(id=~UPA_PNS, strat=~V0024, weight=~peso_morador_selec, nest=TRUE, data=pns2019Psurvey)
desPNSP18=subset(desPNSP, C008>=18)
desPNSPC=svydesign(id=~UPA_PNS, strat=~V0024, weight=~peso_morador_selec, nest=TRUE, data=pns2019Psurvey)
desPNSPC18=subset(desPNSPC, C008>=18 & V0031==1)
desPNSPR18=subset(desPNSP, C008>=18 & C009!=9)

In [69]:
#survey design - P022P
desPNSP022P_18=subset(desPNSP, C008>=18 & (P050==1 | P050==2 | P05901==0))
desPNSP022P_R18=subset(desPNSP, C008>=18 & (P050==1 | P050==2 | P05901==0) & C009!=9)
desPNSP022P_C18=subset(desPNSP, C008>=18 & V0031==1 & (P050==1 | P050==2 | P05901==0))

In [70]:
#survey design - P023P
desPNSP023P_18=subset(desPNSP, C008>=18 & P050==3)
desPNSP023P_R18=subset(desPNSP, C008>=18 & P050==3 & C009!=9)
desPNSP023P_C18=subset(desPNSP, C008>=18 & V0031==1 & P050==3 & !is.na(P023P))

### Criação da tabela de indicadores

Essa tabela é responsável por unir os indicadores no formato do painel de indicadores

In [71]:
matrizIndicadores = data.frame()

#### Definição de variáveis para iteração dos indicadores

In [73]:
ListaIndicadores = c(~P019P,~P020P,~P021P,~P022P,~P023P,~P024P)
ListaIndicadoresTexto = c("P019P","P020P","P021P","P022P","P023P","P024P")
ListaDominios = c(~Sexo,~Raca,~rend_per_capita,~faixa_idade,~Sit_Urbano_Rural,~Unidades_da_Federacao,~GrandesRegioes,~gescol,~Capital)
ListaDominiosTexto = c("sexo","raça","rend_per_capita","fx_idade_18","urb_rur","uf","região","gescol","capital")
ListaTotais = c('Brasil','Capital')
Ano <- "2019"

In [74]:
#Cálculo dos indicadores usando o pacote survey 
i <- 0
for( indicador in ListaIndicadores){
    i <- i + 1
    j <- 1
    for (dominio in ListaDominios){
               if (ListaDominiosTexto[j]=="capital"){
                   if(ListaIndicadoresTexto[i] == "P022P"){
                           dataframe_indicador<-svyby( indicador , dominio , desPNSP022P_C18 , svymean,vartype= "ci")
                   }else if(ListaIndicadoresTexto[i] == "P023P"){
                           dataframe_indicador<-svyby( indicador , dominio , desPNSP023P_C18 , svymean,vartype= "ci")
                    }else{
                       dataframe_indicador<-svyby( indicador , dominio , desPNSPC18 , svymean,vartype= "ci")
                   }
                   
               }else if (ListaDominiosTexto[j]=="raça"){
                   if(ListaIndicadoresTexto[i] == "P022P"){
                           dataframe_indicador<-svyby( indicador , dominio , desPNSP022P_R18 , svymean,vartype= "ci")
                   }else if(ListaIndicadoresTexto[i] == "P023P"){
                           dataframe_indicador<-svyby( indicador , dominio , desPNSP023P_R18 , svymean,vartype= "ci")
                   }else{
                       dataframe_indicador<-svyby( indicador , dominio , desPNSPR18 , svymean,vartype= "ci")
                   }
                   
               }else {
                   if(ListaIndicadoresTexto[i] == "P022P"){
                           dataframe_indicador<-svyby( indicador , dominio , desPNSP022P_18 , svymean,vartype= "ci")
                   }else if(ListaIndicadoresTexto[i] == "P023P"){
                           dataframe_indicador<-svyby( indicador , dominio , desPNSP023P_18 , svymean,vartype= "ci")
                   }else{
                       dataframe_indicador<-svyby( indicador , dominio , desPNSP18 , svymean,vartype= "ci")
                   }
               }
               
               dataframe_indicador<-data.frame(dataframe_indicador)
               colnames(dataframe_indicador) <- c("abr_nome","Sim","Não","LowerS","LowerN","UpperS","UpperN")
               dataframe_indicador$Indicador <- ListaIndicadoresTexto[i]
               dataframe_indicador$abr_tipo <- ListaDominiosTexto[j]
               dataframe_indicador$Ano <- Ano
               dataframe_indicador <- dataframe_indicador %>% select("abr_tipo","abr_nome","Ano","Indicador","Sim","Não","LowerS","LowerN","UpperS","UpperN")
               matrizIndicadores <-rbind(matrizIndicadores,dataframe_indicador)
               j <- j + 1
               
    }
}



#### Criando a tabela pela abrangência total

In [75]:
matriz_totais <- data.frame()

#### Preenchendo a tabela com as abrangências Brasil e total de capitais

In [None]:
i=0
for(indicador in ListaIndicadores){
    i <- i+1
    for(total in ListaTotais){
        dataframe_indicador <- data.frame()
        dataframe_indicador_S <- data.frame()
        dataframe_indicador_N <- data.frame()
        if (total == "Capital"){
                   if(ListaIndicadoresTexto[i] == "P022P"){
                           dataframe_indicador <- svymean(indicador,desPNSP022P_C18)
                   }else if(ListaIndicadoresTexto[i] == "P023P"){
                           dataframe_indicador <- svymean(indicador,desPNSP023P_C18)     
                   }else{
                       dataframe_indicador <- svymean(indicador,desPNSPC18)
                   }
                   
        } else {
                   if(ListaIndicadoresTexto[i] == "P022P"){
                            dataframe_indicador <- svymean(indicador,desPNSP022P_18)
                   }else if(ListaIndicadoresTexto[i] == "P023P"){
                            dataframe_indicador <- svymean(indicador,desPNSP023P_18)
                   }else{
                       dataframe_indicador <- svymean(indicador,desPNSP18)
                   }
        }
      
        dataframe_indicador <- cbind(data.frame(dataframe_indicador),data.frame(confint(dataframe_indicador)))
        dataframe_indicador <- dataframe_indicador %>% 
                               select('mean','X2.5..','X97.5..') 
        dataframe_indicador_S <- dataframe_indicador %>% 
                                 slice(1)
        dataframe_indicador_N <- dataframe_indicador %>% 
                                 slice(2)
        dataframe_indicador <- cbind(dataframe_indicador_S,dataframe_indicador_N)
        colnames(dataframe_indicador) <- c('Sim','LowerS','UpperS','Não','LowerN','UpperN')
        dataframe_indicador <- dataframe_indicador %>% 
                               select('Sim','Não','LowerS','LowerN','UpperS','UpperN')
        dataframe_indicador$Indicador <- ListaIndicadoresTexto[i]
        print(ListaIndicadoresTexto[i])
        dataframe_indicador$abr_tipo <- "total"
        dataframe_indicador$abr_nome <- total
        dataframe_indicador$Ano <- Ano 
        print(colnames(dataframe_indicador))
        dataframe_indicador <- dataframe_indicador %>% 
                             select("abr_tipo","abr_nome","Ano","Indicador","Sim","Não","LowerS","LowerN","UpperS","UpperN")
        
        matriz_totais <-rbind(matriz_totais,dataframe_indicador)
        
    }
}

#### Unindo tabela de indicadores e totais

In [78]:
matrizIndicadores<-rbind(matrizIndicadores,matriz_totais)

#### Exportando tabela de indicadores

In [80]:
write.table(matrizIndicadores,file="<coloque aqui o caminho para exportação da matriz de indicadores>",sep = ";",dec = ",",row.names = FALSE)