Pós-Graduação em Ciência de Dados

jul 18, 2019 | Curso | 0 Comentários

Estamos vivendo uma era de rápidas revoluções. Computação em nuvem, redes de alta velocidade, massificação do acesso à Internet, data sets históricos com quantidades gigantescas de informações, milhões de dados sendo produzidos e consumidos por sistemas em questão de segundos, computação ubíqua, inteligência de negócios, internet das coisas são alguns dos atores dessa revolução.

Todos esses avanços vêm alavancando novas tendências de mercado. Estão se popularizando tecnologias e técnicas antes dominadas por poucos, restritas principalmente aos meios acadêmico, governamental, militar e financeiro; utilizadas apenas por instituições que possuíam os recursos e expertise necessários para operar nessa escala.

 

Nesse contexto, a quantidade de dados que está sendo gerada e armazenada em nível global é gigantesca, algo impensável há algumas décadas. E a tendência é que esses números continuem crescendo.

Atualmente, um dos grandes desafios na área de Computação consiste no armazenamento, manipulação e processamento de grande quantidade de dados no contexto de Big Data. O termo de Big Data pode ser resumidamente definido como uma coleção de bases de dados complexa, volumosa e atualizada frequentemente, o que aumenta consideravelmente a complexidade de algumas operações básicas, tais como a remoção, ordenação e sumarização de dados.

A quantidade de dados gerada diariamente em diferentes domínios de aplicações como, por exemplo, a Web, as redes sociais, as redes de sensores, dados de sensoriamento de tráfego, dentre outros estão na ordem de algumas dezenas ou centenas de Terabytes. Essa enorme quantidade de dados gerados proporciona novos e grandes desafios relacionados ao armazenamento, manipulaçãoo e processamento de consultas em várias áreas da computação, em especial nas áreas de banco de dados, mineração de dados, análise de dados, privacidade de dados e recuperação de informação. Desta forma, os Sistemas de Gerenciamento de Bancos de Dados (SGBD) precisam se adequar aos requisitos deste novo ambiente de armazenamento e processamento de dados, denominado Big Data, tais como: execução de consultas com baixa latência, gerenciamento de grandes volumes de dados, escalabilidade elástica horizontal, além do suporte a modelos flexíveis de armazenamento de dados, privacidade dos dados, replicação e distribuição dos dados.

A análise de dados (Data Analytics) no contexto de Big Data normalmente envolve o processamento da ordem de Terabytes de dados. Contudo, mesmo com a grande quantidade de dados disponíveis, não se assegura a qualidade da informação, pois a análise continua, em grande parte, sendo bastante subjetiva. Isso se deve ao fato que os dados em si não são autoexplicativos. Desta forma, o processo de limpeza, amostragem, e relacionamento dos dados continua sendo essencial e propenso a erros, aproximações e incertezas. Atualmente, em alguns cenários, tais como nas aplicações científicas (e.g., dados genômicos, física ambiental e simulações numéricas), a análise de dados da ordem de Petabytes (ou Exabytes) tem se tornado bastante comum. Nestes contextos, é aceitável que o resultado da análise contenha imprecisão, desde que seja computado de forma (relativamente) rápida e/ou em tempo real.

Diferentes tipos de análise de dados no contexto Big Data exigem computaçãoiterativa, incluindo clusterização usando K-Means, PageRank, análise de redes sociais, dentre outros. Essas técnicas têm por objetivo processar os dados iterativamente até que a computação satisfaça uma determinada condição de parada ou convergência. Contudo, este tipo de computação iterativa não é provido pelas tecnologias de banco de dados atuais. Desta forma, serão necessárias técnicas mais adequadas para lidar com computação iterativa, levando em conta os custos de comunicação.

Em muitas situações, o processo de análise deve ser realizado em um curto espaço de tempo ou mesmo em tempo real, uma vez que o armazenamento de todos os dados capturados é praticamente inviável. Assim, um volume de dados sem precedentes necessita de análise em tempo hábil. Para isso, técnicas de mineração de dados podem ser utilizadas com a finalidade de analisar e entender os dados a serem manipulados.

Esta análise deve ser baseada em modelos capazes de sumarizar dados, extrair novos conhecimentos ou realizar predições. Estes modelos podem ser utilizados para construir um software que possibilite, por exemplo, recomendar rotas, identificar o perfil de clientes para conceder empréstimos bancários, aplicações de recomendação de busca de amigos em redes sociais, que envolvem grafos com milhões de nós e arestas ou, ainda, sistemas que identifiquem possíveis ameaças terroristas.

Contudo, a análise dos dados não é uma tarefa trivial. É necessário utilizar técnicas de computação autônoma que garantam que os dados serão explorados corretamente. Utilizar técnicas tradicionais permitindo, por exemplo, que o conhecimento seja obtido apenas por intervenções de especialistas humanos não é viável nestes cenários, devido ao grande volume de dados. As técnicas de mineração de dados podem ser utilizadas para extrair conhecimento tanto de tipos de dados convencionais quanto de dados não convencionais (dados espaciais, espaço temporais, biológicos, vídeos, fotos, som, etc). Dessa forma, outro desafio relevante da análise de dados em Big Data consiste em gerenciar dados de diferentes tipos e estruturas.

Neste contexto, nasceu o termo Ciência de Dados (ou Data Science, em inglês). Ciência de Dados é a ciência que utiliza computação, estatística e aprendizagem de máquina, visualização e interações homem-computador para coletar, limpar, integrar, analisar e visualizar grandes volumes de dados, com a finalidade de criar novos produtos e serviços.

Assim, Ciência de Dados é uma área da computação voltada para o estudo e a análise de dados, estruturados ou não, que visa a extração de conhecimento ou insigths para possíveis tomadas de decisão, de maneira similar à mineração de dados. Ciência de dados alia big data e machine learning, além de técnicas de outras áreas interdisciplinares como estatística, economia, engenharia e outros subcampos da computação como: banco de dados e visualização. A ciência de dados é um campo que já existe a 30 anos, porém ganhou mais destaque nos últimos anos devido a alguns fatores como: o surgimento e popularização do Big Data e o desenvolvimento de áreas como o machine learning. A Ciência de Dados pode, por exemplo, transformar essa grande quantidade de dados brutos em insights de negócios, e com isso, auxiliar empresas em tomadas de decisões para atingir melhores resultados.

Atualmente, o profissional da área de Ciência de Dados encontra-se em primeiro lugar entre as carreiras com maiores demandas e melhores salários. Isso no mundo inteiro. O alto número de vagas (devido a pouca quantidade de profissionais qualificados), os bons salários e a satisfação de no trabalho foram os fatores que colocaram essa profissão no topo dessa lista. Segundo uma pesquisa realizada pela IBM, a demanda por esses profissionais deve subir 28% até 2020 e atualmente, 60% da procura por esses profissionais encontra-se na área de finanças.

Mas qual o profissional adequado para desempenhar estas atividades? O analista de dados? O administrador de dados? O estatístico? Há um perfil único ou são vários os perfis desejados?

O que pode ser chamado por alguns entusiastas de “a revolução dos dados”, que é suportado pela consolidação do BI, pela a explosão do Big Data, pelo o surgimento do Data Science, está criando um novo mercado profissional. Profissões novas estão surgindo, enquanto outras estão sendo redesenhadas. A contratação de profissionais de dados começa a chamar a atenção do mercado e programas de especialização vão fazer uma grande diferença no currículo!

Atuar nesse novo ramo da Tecnologia da Informação requer novos conhecimentos, experiências diferenciadas e formação apropriada. O curso de Especialização em Ciência de Dados apresenta um currículo específico projetado para atender às mais recentes demandas e exigências do mercado corporativo público e privado para com as tecnologias de bancos de dados e os temas emergentes: Aprendizado de Máquina, Big Data, NoSQL, Computação em Nuvem, Data Science e Data Analytics.

O curso ora proposto tem como diferencial o intuito de fornecer aos estudantes acesso às ferramentas intelectuais e técnicas que lhe permitam atuar com propriedade e competência nessa nova realidade do mercado. Durante o curso, serão considerados aspectos teóricos e práticos de modo a capacitar os estudantes a atuarem nos seguintes campos:

Business Intelligence
Big Data
NoSql
Data Science
Data Analytics
Visualização de dados
Machine learning
Deep learning
Reconhecimento de padrões
Preparação de dados
Text analytics
Além disso, o curso apresenta outros diferenciais importantes:
Para mais informações acesse o site: http://especializacao.dc.ufc.br/cd/