Introdução ao curso

Hoje, nós vivemos em um mundo em que há mais dados do que pessoas com capacidade e tempo de analisá-los. Zilhões de dados são produzidos ao mesmo tempo no mundo atual: mensagens no twitter, posts no instagram, corridas de uber, reviews no airbnb, anúncio de aluguel no zap-móveis, a lista é longa. A maior parte destes dados estão disponíveis. Porém, muitas vezes, nós, cientistas sociais, não sabemos como acessar estes dados, como limpá-los, e como colocá-los em um formato capaz de tornar nossas análises mais simples. Superar estas dificuldades é a motivação deste workshop.

O objetivo deste curso é construir conhecimento de forma conjunta para automatizar formas de fazer download, limpar, e utilizar dados disponíveis na internet usando a linguagem de programação R. Eu pretendo cobrir as formas mais populares de acessar dados na internet: raspar dados disponível em website, acessar APIS - vamos chegar lá, não se preocupe se você nunca ouviu sobre uma API antes -, encontrar pacotes de R preprogramados para acessar APIs, coletar dados do twitter, e outras companhias. A depender do tempo e da disponibilidade dos participantes, cobrirei o uso do software selenium para raspar dados de sites dinâmicos.

O curso seguirá uma dinâmica de mãos a obra. Eu pretendo fazer há cada dia duas horas de apresentação do dos materiais, e depois, deixarei alguns exercícíos para vocês praticarem. Eu pretendo utilizar dados de um ou dois artigos que estou trabalhando no último dia de curso. Não há nenhuma carga de leitura para o curso, porém, eu recomendo a leitura destes artigos.


Quem sou eu?

Tiago Ventura venturat@umd.edu _Tiagoventura


Eu sou paraense, nascido aqui em Belém. Graduei em Direito - really bad choice - aqui na UFPA. Porém, nunca fui muito fã do meu curso. Terminei a graduação, e fiz mestrado no IESP-UERJ. Lá eu redescobri meu interesse por matemática, estatística e programação. Comecei o Doutorado no IESP-UERJ, e segui para a Universidade de Maryland, Estados Unidos, para um segundo doutorado, justamente porque queria investir ainda mais em minha formação metodológica.

Minha pesquisa foca em economica política comparada e comportamento político. Minha tese propõe um modelo teórico para compreender efeito de desigualdade econômica e victimização em preferências por políticas de segurança na América Latina. Além disto, participo de uma série de pesquisas focando em compartilhamento de informação no twitter, modelos estatísticos de redes, modelos de aprendizagem, e análise computacional de textos.


Prerequisitos

Nenhum. O ideal é que vocês tenham alguma familiaridade com R. Caso vocês nunca tenham utilizado R, será preciso um esforço extra, porém vou me esforçar ao máximo para tornar o aprendizado mais intuitivo. Todo o material do workshop ficará disponível neste endereço. Então, vocês podem usar por um longo tempo, caso queiram, e não precisam aprender e entender tudo agora.

O mais importante é ter vontade de aprender, não ter vergonha de perguntar, e se esforçar. Eu programo em R há quase seis anos, ainda hoje uso muito o google para escrever meus códigos, e estou sempre aprendendo. Não tive um background em ciência da computação ou matemática, tive que fazer uma esforço extra, mas é possível chegar lá.


Estrutura do Curso

O material do curso pode ser acessado na aba módulos no topo deste site. De forma geral, pretendo dividir o curso em três partes: raspagem de dados na internet, acesso a APIs, e análise dedados de twitter em rede, reproduzindo o pipeline de um artigo de minha autoria.

No primeiro dia, vamos trabalhar com coleta de dados em sites estáticos, limpeza, e análise simples dos dados. O objetivo principal é coletar dados que estão por aí de forma desorganizada na internet. Vamos usar principalmente o pacote rvest para este primeiro dia.

No segundo dia, vamos trabalhar com acesso a APIs. Começarei com uma introdução sobre o que são APIs, como acessá-las programaticamente, e depois iremos usar alguns pacotes de R pré-prontos para acessar APIs.

No terceiro dia, como estaremos muito cansados, mostrarei para vocês o processo completo de análise de dados do twitter usando material deste artigo que estou trabalhando. A idéia é mostrar como o artigo é escrito, como gero as tabelas e gráficos, como o trabalho inteiro do artigo se torna reproduzível.

⚠️ Este workshop não faz sentido se eu for muito rápido no material. Precisamos encontrar um ritmo capaz de potencializar ao máximo o aprendizado de vocês. Por isso, preciso de vocês comigo ao longo do curso. Sempre me interrompam, ou perguntem aos seus colegas, caso vocês se sintam muito perdidos.

A idéia é fazer em torno de duas horas de aula por dia. As aulas serão intercaladas com exercícios. Ao fim das aulas, os alunos poderão permanecer no laboratório para revisar os materiais.

Software

Este curso utilizará R, que é uma linguagem de programação gratuita, extremamente flexívels e com uma comunidade de suporte excelente. Vamos também usar RStudio, que é uma interface que facilita o uso de R. Farei uma breve revisão de R antes de começarmos a parte mais substantiva do curso.

Créditos

Ciência deve ser aberta, e este curso se baseia em diversos materiais gentilmente compartilhados na internet. Mais especificamente, emprestei material de Ernesto Calvo, Chris Bail, Rochelle Terman, Justin Grimmer, Pablo Barbera.

Este website usa material desenvolvido por Jeffrey Arnold e é também utilizado por Pablo Barbera em suas aulas. O código do site está disponível no meu github