![](https://github.com/bigdata-icict/ETL-Dataiku-DSS/raw/master/tutoriais/pcdas_1.5.png)

# Notebook para criação de tabela de indicadores da PNS - S 2019 Pré-natal - Parte 3

## Bibliotecas Utilizadas

In [None]:
#Lendo pacotes necessários
library(survey)
library(ggplot2)
library(dplyr)
library(tictoc)
library(foreign)
library(forcats)
library(tidyverse)

## Carregando microdados da PNS

In [2]:
#Carregando banco de dados para R versão 3.5.0 ou superior
load("<coloque aqui o caminho para o arquivo dos microdados formato RDATA PNS 2019>")

#conferindo as dimensões (número de linhas e colunas)
dim("<Coloque aqui o nome do arquivo RDATA PNS 2019>")

## Definição do peso e filtragem de respondentes do questionário

In [3]:
#Selecionando registros válidos e calculando peso amostral - summary de verificação
pns2019.1<-  <Coloque aqui o nome do arquivo RDATA>  %>% filter(V0025A==1) 
pns2019.1<-pns2019.1 %>% mutate(peso_morador_selec=((V00291*(90846/168426190))))
pns2019.1<-pns2019.1 %>% filter(!is.na(peso_morador_selec))
summary(pns2019.1$peso_morador_selec)

    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
 0.00562  0.26621  0.54401  1.00000  1.12765 61.09981 

## Criação de variáveis dos indicadores

In [4]:
#Desfechos - Indicadores

# 11. Proporção de mulheres que realizaram teste/exame para sífilis durante o pré-natal - S011P.

pns2019.1$S011P <- NA
pns2019.1$S011P[pns2019.1$C006==2 & pns2019.1$C008>=18 & pns2019.1$S068==1] <- 2
pns2019.1$S011P[pns2019.1$C006==2 & pns2019.1$C008>=18 & pns2019.1$S068==1 & pns2019.1$S080==1] <- 1
pns2019.1$S011P<-factor(pns2019.1$S011P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$S011P)

# 12. Proporção de mulheres que realizaram teste/exame para sífilis durante o pré-natal e receberam o resultado antes do parto - S012P.

pns2019.1$S012P <- NA
pns2019.1$S012P[pns2019.1$C006==2 & pns2019.1$C008>=18 & pns2019.1$S068==1] <- 2
pns2019.1$S012P[pns2019.1$C006==2 & pns2019.1$C008>=18 & pns2019.1$S068==1 & pns2019.1$S081==1] <- 1
pns2019.1$S012P<-factor(pns2019.1$S012P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$S012P)

# 13. Proporção de mulheres que realizaram teste/exame para hepatite B durante o pré-natal - S013P.

pns2019.1$S013P <- NA
pns2019.1$S013P[pns2019.1$C006==2 & pns2019.1$C008>=18 & pns2019.1$S068==1] <- 2
pns2019.1$S013P[pns2019.1$C006==2 & pns2019.1$C008>=18 & pns2019.1$S068==1 & pns2019.1$S088==1] <- 1
pns2019.1$S013P<-factor(pns2019.1$S013P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$S013P)

# 14. Proporção de mulheres que realizaram teste/exame para hepatite B durante o pré-natal e receberam o resultado antes do parto - S014P.

pns2019.1$S014P <- NA
pns2019.1$S014P[pns2019.1$C006==2 & pns2019.1$C008>=18 & pns2019.1$S068==1] <- 2
pns2019.1$S014P[pns2019.1$C006==2 & pns2019.1$C008>=18 & pns2019.1$S068==1 & pns2019.1$S089==1] <- 1
pns2019.1$S014P<-factor(pns2019.1$S014P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$S014P)

# 15. Proporção de mulheres que tiveram solicitação de teste/exame para HIV/AIDS durante o pré-natal - S015P.

pns2019.1$S015P <- NA
pns2019.1$S015P[pns2019.1$C006==2 & pns2019.1$C008>=18 & pns2019.1$S068==1] <- 2
pns2019.1$S015P[pns2019.1$C006==2 & pns2019.1$C008>=18 & pns2019.1$S068==1 & pns2019.1$S090==1] <- 1
pns2019.1$S015P<-factor(pns2019.1$S015P, levels=c(1,2), labels=c("Sim","Não"))
summary(pns2019.1$S015P)


## Definições de abrangências

### Situação urbana ou rural

In [5]:
#Situação Urbano ou Rural
pns2019.1 <- pns2019.1 %>% rename(Sit_Urbano_Rural=V0026)
pns2019.1$Sit_Urbano_Rural<-factor(pns2019.1$Sit_Urbano_Rural, levels=c(1,2), labels=c("urbano", "rural"))
summary(pns2019.1$Sit_Urbano_Rural)

### UF

In [6]:
#Estados - UFs
pns2019.1 <- pns2019.1 %>% rename(Unidades_da_Federacao=V0001)
pns2019.1$Unidades_da_Federacao<-factor(pns2019.1$Unidades_da_Federacao, levels=c(11,12,13,14,15,16,17,21,22,23,24,25,26,27,28,29,31,32,33,35,41,42,43,50,51,52,53),
                                       label=c("Rondônia","Acre","Amazonas","Roraima","Pará","Amapá","Tocantins","Maranhão","Piauí","Ceará",
                                        "Rio Grande do Norte","Paraíba","Pernambuco","Alagoas","Sergipe","Bahia",
                                        "Minas Gerais","Espírito Santo","Rio de Janeiro","São Paulo",
                                        "Paraná","Santa Catarina","Rio Grande do Sul", 
                                        "Mato Grosso do Sul","Mato Grosso","Goiás","Distrito Federal"))
summary(pns2019.1$Unidades_da_Federacao)

### Grandes Regiões

In [7]:
#Grandes Regiões
pns2019.1 <- pns2019.1 %>% 
  mutate(GrandesRegioes = fct_collapse(Unidades_da_Federacao, 
                                          `Norte` = c("Rondônia","Acre","Amazonas","Roraima","Pará", "Amapá","Tocantins"),
                                          `Nordeste` = c("Maranhão", "Piauí", "Ceará", "Rio Grande do Norte", "Paraíba","Pernambuco", "Alagoas","Sergipe","Bahia"),
                                          `Sudeste` = c("Minas Gerais", "Espírito Santo","Rio de Janeiro", "São Paulo"), 
                                          `Sul` = c("Paraná", "Santa Catarina", "Rio Grande do Sul"),
                                          `Centro-Oeste`= c("Mato Grosso do Sul","Mato Grosso", "Goiás", "Distrito Federal")))
summary(pns2019.1$GrandesRegioes)

### Capital

In [8]:
#Capital
pns2019.1<- pns2019.1 %>% mutate(Capital= fct_collapse(Unidades_da_Federacao,
                                        `Porto Velho`= "Rondônia", 
                                        `Boa Vista`= "Roraima",              
                                        `Rio Branco`= "Acre", 
                                        `Manaus` = "Amazonas",
                                        `Belém` = "Pará" ,
                                        `Macapá`= "Amapá",
                                        `Palmas` = "Tocantins",
                                        `São Luís` = "Maranhão",
                                        `Teresina`= "Piauí" ,
                                        `Fortaleza`= "Ceará",
                                        `Natal`= "Rio Grande do Norte",
                                        `João Pessoa`= "Paraíba",
                                        `Recife`= "Pernambuco",
                                        `Maceió`= "Alagoas",
                                        `Aracaju`= "Sergipe",
                                        `Salvador`= "Bahia",
                                        `Belo Horizonte`= "Minas Gerais",
                                        `Vitória`= "Espírito Santo",
                                        `Rio de Janeiro`= "Rio de Janeiro",
                                        `São Paulo`= "São Paulo",
                                        `Curitiba`= "Paraná",
                                        `Florianópolis`= "Santa Catarina",
                                        `Porto Alegre`= "Rio Grande do Sul",
                                        `Campo Grande`=  "Mato Grosso do Sul",
                                        `Cuiabá`= "Mato Grosso",
                                        `Goiânia` = "Goiás",
                                        `Brasília`= "Distrito Federal"))
summary(pns2019.1$Capital)

### Faixa Etária

In [9]:
#Faixas Etárias
pns2019.1 <- pns2019.1 %>% mutate(fx_idade_S=cut(C008,
  breaks = c(18,25,30,40,120),
  labels = c("18 a 24 anos", "25 a 29 anos", "30 a 39 anos", "40 anos ou mais"), 
  ordered_result = TRUE, right = FALSE))
summary(pns2019.1$fx_idade_S)

### Raça

In [10]:
#Raça
pns2019.1 <- pns2019.1 %>% mutate(Raca= ifelse(C009==1, 1, 
                        ifelse(C009==2, 2, 
                            ifelse(C009==4, 3, 9))))

pns2019.1$Raca<-factor(pns2019.1$Raca, levels=c(1,2,3),labels=c("Branca", "Preta", "Parda"))

summary(pns2019.1$Raca)

### Renda per capita

In [11]:
#Rendimento domiciliar per capita
pns2019.1 <- pns2019.1 %>% mutate(rend_per_capita = ifelse(VDF004 %in% 1:2, 1, 
                        ifelse(VDF004%in% 3, 2, 
                        ifelse(VDF004%in% 4, 3,
                        ifelse(VDF004%in% 5, 4, 
                        ifelse(is.na(VDF004)==TRUE, NA_real_, 5))))))

pns2019.1$rend_per_capita<-factor(pns2019.1$rend_per_capita, levels=c(1,2,3,4,5), labels=c("Até 1/2 SM","1/2 até 1 SM","1 até 2 SM",
                                                                                   "2 até 3 SM","Mais de 3 SM"))
summary(pns2019.1$rend_per_capita)


### Escolaridade

In [12]:
# Escolaridade
pns2019.1 <- pns2019.1 %>% mutate(gescol = ifelse(VDD004A %in% 1:2, 1, 
                        ifelse(VDD004A%in% 3:4, 2, 
                        ifelse(VDD004A%in% 5:6, 3,4
                        ))))

pns2019.1$gescol<-factor(pns2019.1$gescol, levels=c(1,2,3,4), 
                                  labels=c("Fundamental incompleto ou equivalente","Médio incompleto ou equivalente",
                                           "Superior incompleto ou equivalente","Superior completo"))
summary(pns2019.1$gescol)

## Criando indicadores

### Filtrando base de indicadores

In [13]:
#Selecionando variáveis para cálculo de indicadores no survey
pns2019Ssurvey<- pns2019.1 %>% select("V0024","UPA_PNS","peso_morador_selec", "C008", "C006", "C009", "V0031", 
                                      "Sit_Urbano_Rural", "Unidades_da_Federacao", "GrandesRegioes",  "Capital", "fx_idade_S", "Raca", "rend_per_capita", "gescol",
                                      "S011P", "S012P", "S013P", "S014P", "S015P", "S068") 
summary(pns2019Ssurvey)

     V0024            UPA_PNS      peso_morador_selec      C008       
 1210010: 1167   140001681:   18   Min.   : 0.00562   Min.   : 15.00  
 1410011:  792   140003815:   18   1st Qu.: 0.26621   1st Qu.: 32.00  
 2710111:  779   140005777:   18   Median : 0.54401   Median : 45.00  
 2410011:  745   140006746:   18   Mean   : 1.00000   Mean   : 46.39  
 5010011:  738   140007081:   18   3rd Qu.: 1.12765   3rd Qu.: 60.00  
 3210011:  711   140007715:   18   Max.   :61.09981   Max.   :107.00  
 (Other):85914   (Other)  :90738                                      
      C006            C009           V0031       Sit_Urbano_Rural
 Min.   :1.000   Min.   :1.000   Min.   :1.000   urbano:69873    
 1st Qu.:1.000   1st Qu.:1.000   1st Qu.:1.000   rural :20973    
 Median :2.000   Median :4.000   Median :2.000                   
 Mean   :1.529   Mean   :2.679   Mean   :2.605                   
 3rd Qu.:2.000   3rd Qu.:4.000   3rd Qu.:4.000                   
 Max.   :2.000   Max.   :9.000   Max

### Exporta tabela filtrada com os dados específicos - Módulo S - Parte3 2019

In [14]:
#Salvando csv para cálculo de indicadores no survey
diretorio_saida <- "<coloque aqui o diretório>"
write.csv(pns2019Ssurvey, file.path(diretorio_saida, "pns2019Ssurvey.csv"))

### Cria plano amostral complexo

In [15]:
desPNS=svydesign(id=~UPA_PNS, strat=~V0024, weight=~peso_morador_selec, nest=TRUE, 
                 data=pns2019Ssurvey)

In [16]:
#survey design S006P a S010P
desPNSS=subset(desPNS, C006==2 & C008>=18 & S068==1)
desPNSS_C=subset(desPNS, C006==2 & C008>=18 & S068==1 & V0031==1)
desPNSS_R=subset(desPNS, C006==2 & C008>=18 & S068==1 & !is.na(Raca))
desPNSS_Rend=subset(desPNS, C006==2 & C008>=18 & S068==1 & !is.na(rend_per_capita))

### Criação da tabela de indicadores
Essa tabela é responsável por unir os indicadores no formato do painel de indicadores

In [17]:
matrizIndicadores = data.frame()

#### Definição de variáveis para iteração dos indicadores

In [18]:
ListaIndicadores = c(~S011P, ~S012P, ~S013P, ~S014P, ~S015P)
ListaIndicadoresTexto = c("S011P", "S012P", "S013P", "S014P", "S015P" )
ListaTotais = c('Brasil','Capital')
Ano <- "2019"

In [19]:
ListaDominios = c(~Raca,~rend_per_capita,~fx_idade_S,~Sit_Urbano_Rural,
                      ~Unidades_da_Federacao,~GrandesRegioes,~Capital,~gescol)
ListaDominiosTexto= c("raça","rend_per_capita","fx_idade_S","urb_rur",
                          "uf","região","capital","gescol") 

#### Preenchendo a tabela de indicadores
Essas iterações rodam por indicador, abrangência e por design

In [20]:
#Cálculo dos indicadores usando o pacote survey 
i <- 0
#Para cada indicador
for( indicador in ListaIndicadores){
    i <- i + 1; j <- 1
    #Para cada dominio
    for (dominio in ListaDominios){
           #design especifico para capital que é subconjunto do dataframe total
           #design geral para capital   
           if (ListaDominiosTexto[j]=="capital"){
             dataframe_indicador<-svyby( indicador , dominio , desPNSS_C , svymean,vartype= c("ci","cv"))
           #design geral para raça
           } else if  (ListaDominiosTexto[j]=="raça"){
             dataframe_indicador<-svyby( indicador , dominio , desPNSS_R , svymean,vartype= c("ci","cv"))   
           #design geral para renda per capita
           } else if  (ListaDominiosTexto[j]=="rend_per_capita"){
             dataframe_indicador<-svyby( indicador , dominio , desPNSS_Rend , svymean,vartype= c("ci","cv"))   
           #design geral para o subconjunto maior que 18 anos 
           } else { 
             dataframe_indicador<-svyby( indicador , dominio , desPNSS , svymean,vartype= c("ci","cv"))   
           }
           #União do dataframe de indicadores no formato do painel disponibilizado para PNS
           dataframe_indicador<-data.frame(dataframe_indicador)
           colnames(dataframe_indicador) <- c("abr_nome","Sim","Nao","LowerS","LowerN","UpperS","UpperN","cvS","cvN")
           dataframe_indicador$Indicador <- ListaIndicadoresTexto[i]
           dataframe_indicador$abr_tipo <- ListaDominiosTexto[j]
           dataframe_indicador$Ano <- Ano
           dataframe_indicador <- dataframe_indicador %>% select("abr_tipo","abr_nome","Ano","Indicador","Sim","LowerS","UpperS","cvS")
           matrizIndicadores <-rbind(matrizIndicadores,dataframe_indicador)
           j <- j + 1
    }
}

#### Criando a tabela pela abrangência total

In [21]:
matriz_totais <- data.frame()

#### Preenchendo a tabela com as abrangencia Brasil e total das capitais

In [22]:
i = 0
# para cada indicador
for(indicador in ListaIndicadores){
    i <- i + 1
    # para os totais Brasil e total das capitais
    for(total in ListaTotais){
        dataframe_indicador <- data.frame()
        dataframe_indicador_S <- data.frame()
        # Uso do design que é subconjunto do dataset para cada Capital
        if (total == "Capital"){
            #Indicadores que são subconjunto do dataset total
            dataframe_indicador <- svymean(indicador,desPNSS_C)
        } else {
            dataframe_indicador <- svymean(indicador,desPNSS)
        }
        intervalo_confianca <- confint(dataframe_indicador)
        coeficiente_variacao <- cv(dataframe_indicador)
        dataframe_indicador <- cbind(data.frame(dataframe_indicador),data.frame(intervalo_confianca))
        dataframe_indicador <- cbind(data.frame(dataframe_indicador),data.frame(coeficiente_variacao))
        
        dataframe_indicador <- dataframe_indicador %>% 
                               select('mean','X2.5..','X97.5..',coeficiente_variacao) 
        dataframe_indicador_S <- dataframe_indicador %>% 
                                 slice(1)
                
        colnames(dataframe_indicador_S) <- c('Sim','LowerS','UpperS', 'cvS')
        dataframe_indicador_S$Indicador <- ListaIndicadoresTexto[i]
        
        dataframe_indicador_S$abr_tipo <- "total"
        dataframe_indicador_S$abr_nome <- total
        dataframe_indicador_S$Ano <- Ano
        #Uso design do subconjunto para raça/cor que inclui preta,branca e parda  
        #  as outras raças não possuiam dados suficientes para os dominios dos indicadores
                
        dataframe_indicador_S <- dataframe_indicador_S %>% 
                             select("abr_tipo","abr_nome","Ano","Indicador","Sim","LowerS","UpperS",'cvS')
        
        matriz_totais <-rbind(matriz_totais,dataframe_indicador_S)
    }
}

In [23]:
matriz_totais

Unnamed: 0_level_0,abr_tipo,abr_nome,Ano,Indicador,Sim,LowerS,UpperS,cvS
Unnamed: 0_level_1,<chr>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>
S011PSim,total,Brasil,2019,S011P,0.7970506,0.7729093,0.821192,0.015453529
S011PSim1,total,Capital,2019,S011P,0.7856012,0.736719,0.8344834,0.031746843
S012PSim,total,Brasil,2019,S012P,0.7709437,0.7450416,0.7968458,0.017142104
S012PSim1,total,Capital,2019,S012P,0.7605274,0.7105432,0.8105116,0.033532798
S013PSim,total,Brasil,2019,S013P,0.8423751,0.8206783,0.8640719,0.013141415
S013PSim1,total,Capital,2019,S013P,0.84975,0.8098841,0.8896158,0.023936576
S014PSim,total,Brasil,2019,S014P,0.8117146,0.7881055,0.8353238,0.014839855
S014PSim1,total,Capital,2019,S014P,0.8189464,0.7762082,0.8616846,0.026626396
S015PSim,total,Brasil,2019,S015P,0.8997072,0.8831155,0.9162988,0.009408937
S015PSim1,total,Capital,2019,S015P,0.8832092,0.8432095,0.9232089,0.023107083


#### Unindo tabela de indicadores e de totais

In [24]:
matrizIndicadores<-rbind(matrizIndicadores,matriz_totais)

#### Visualizando tabela de indicadores

In [25]:
matrizIndicadores

Unnamed: 0_level_0,abr_tipo,abr_nome,Ano,Indicador,Sim,LowerS,UpperS,cvS
Unnamed: 0_level_1,<chr>,<fct>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>
Branca,raça,Branca,2019,S011P,0.7873750,0.7422421,0.8325079,0.02924581
Preta,raça,Preta,2019,S011P,0.7794471,0.7046830,0.8542112,0.04893935
Parda,raça,Parda,2019,S011P,0.8112202,0.7821922,0.8402482,0.01825704
Até 1/2 SM,rend_per_capita,Até 1/2 SM,2019,S011P,0.7674890,0.7344969,0.8004810,0.02193252
1/2 até 1 SM,rend_per_capita,1/2 até 1 SM,2019,S011P,0.8227927,0.7772524,0.8683330,0.02823954
1 até 2 SM,rend_per_capita,1 até 2 SM,2019,S011P,0.8572637,0.7962834,0.9182440,0.03629337
2 até 3 SM,rend_per_capita,2 até 3 SM,2019,S011P,0.7506448,0.6173035,0.8839861,0.09063210
Mais de 3 SM,rend_per_capita,Mais de 3 SM,2019,S011P,0.7643860,0.6571495,0.8716225,0.07157838
18 a 24 anos,fx_idade_S,18 a 24 anos,2019,S011P,0.7642557,0.7172469,0.8112645,0.03138288
25 a 29 anos,fx_idade_S,25 a 29 anos,2019,S011P,0.7897381,0.7367238,0.8427525,0.03425013


#### Exportando tabela de indicadores calculados - Módulo S  2019

In [27]:
diretorio_saida <- "<coloque aqui o diretório>"
write.table(matrizIndicadores,file=paste0(diretorio_saida,"Indicadores_2019S_R.csv"),sep = ";",dec = ",",row.names = FALSE)