O que é Ciência de Dados?
A ciência de dados é uma abordagem multidisciplinar para encontrar, extrair e revelar padrões em dados através de uma fusão de métodos analíticos, experiência de domínio e tecnologia. Essa abordagem geralmente inclui os campos de mineração de dados, previsão, aprendizado de máquina, análise preditiva, estatística e análise de texto . À medida que os dados crescem a uma taxa alarmante, a corrida para que as empresas aproveitem as informações contidas em seus dados é grande. No entanto, a maioria das organizações enfrenta uma escassez de especialistas para analisar seus big data para encontrar informações e explorar problemas que a empresa nem sabia que tinha. Para perceber e monetizar o valor da ciência de dados, as organizações devem infundir informações preditivas, previsões e estratégias de otimização nos sistemas operacionais e de negócios. Muitas empresas agora estão capacitando seus profissionais do conhecimento com plataformas que podem ajudá-los a realizar seus próprios projetos e tarefas de aprendizado de máquina. Ser capaz de extrair tendências e oportunidades das enormes quantidades de dados que estão sendo inseridos em um negócio fornece à organização uma vantagem competitiva.
A ciência de dados inclui recursos descritivos, diagnósticos, preditivos e prescritivos. Isso significa que, com a ciência de dados, as organizações podem usar os dados para descobrir o que aconteceu, por que aconteceu, o que acontecerá e o que devem fazer a respeito do resultado esperado.
Entendendo como a ciência de dados funciona
Conceitualmente, o processo de ciência de dados é muito simples de entender e envolve as seguintes etapas:
- Entender o problema do negócio
- Reunir e integrar os dados brutos
- Explorar, transformar, limpar e preparar os dados
- Criar e selecionar modelos com base nos dados
- Testar, ajustar e implantar os modelos
- Monitorar, testar, atualizar e controlar os modelos
Entender o problema do negócio
O processo de ciência de dados começa com a compreensão do problema que o usuário de negócios está tentando resolver. Por exemplo, um usuário empresarial pode querer perguntar e entender “Como faço para aumentar as vendas?” ou “Quais técnicas funcionam melhor para vender aos meus clientes?” Essas são questões muito amplas e ambíguas que não levam a uma hipótese imediatamente pesquisável. O trabalho do cientista de dados é dividir esses problemas de negócios em hipóteses pesquisáveis e testáveis. Por exemplo, “Como faço para aumentar as vendas?” poderia ser dividido em várias questões menores, como “Quais as condições que levaram ao aumento das vendas? Foi uma promoção, clima ou sazonalidade? ”,“ Como podemos otimizar nossas vendas com base em restrições? ”E“ Quais são as vendas prováveis amanhã / na próxima semana / no próximo mês para cada loja? ” O importante é lembrar que é preciso entender a decisão de negócios que precisa ser tomada e trabalhar de trás para frente a partir daí. Como o seu processo de negócios mudará se você puder prever algo que vai acontecer em uma hora / dia / semana / mês?
Recolher e integrar os dados brutos
Uma vez que o problema de negócios seja entendido, a próxima etapa envolve a coleta e integração dos dados brutos. Primeiro, o analista deve ver quais dados estão disponíveis. Muitas vezes, os dados estarão em muitos formatos diferentes e muitos sistemas diferentes de modo que as técnicas de data wrangling e data prepping (preparação de dados) são muitas vezes utilizadas para converter os dados brutos em um formato utilizável adequado para as técnicas analíticas específicas que serão utilizadas. Se os dados não estiverem disponíveis, cientistas de dados, engenheiros de dados e TI geralmente colaboram para trazer novos dados a um ambiente de tipo sandbox para teste.
Explorar e preparar os dados
Agora, os dados podem ser explorados. A maioria dos profissionais de ciência de dados emprega uma ferramenta de visualização de dados que organiza os dados em gráficos e visualizações para ajudá-los a ver os padrões gerais dos dados, correlações de alto nível e quaisquer valores discrepantes em potencial. Este também é o momento em que o analista começa a entender quais fatores podem ajudar a resolver o problema. Agora que o analista tem um entendimento básico de como os dados se comportam e os fatores potenciais que podem ser importantes a serem considerados, o analista irá transformar, criar novos recursos (também conhecidos como variáveis) e preparar os dados para modelagem.
Testar, ajustar e implantar modelos
Este é o ponto em que a maioria dos analistas usa algoritmos para criar modelos a partir dos dados de entrada usando técnicas como aprendizado de máquina , aprendizado profundo , previsão ou processamento de linguagem natural (também conhecido como análise de texto) para testar modelos diferentes. Modelos e algoritmos estatísticos são aplicados ao conjunto de dados para tentar generalizar o comportamento da variável de destino (por exemplo, o que você está tentando prever) com base nos preditores de entrada (por exemplo, fatores que influenciam o destino).
As saídas geralmente são previsões, antecipações, anomalias e otimizações que podem ser exibidas em painéis ou relatórios incorporados, ou infundidas diretamente nos sistemas de negócios para tomar decisões próximo do ponto de impacto. Então, depois que os modelos são implantados na visualização ou nos sistemas de negócios, eles são usados para pontuar novos dados de entrada que nunca foram vistos antes.
Monitorar, testar, atualizar e controlar os modelos
Depois que os modelos são implantados, eles devem ser monitorados para que possam ser atualizados e retreinados à medida que os dados mudam devido à mudança de comportamento de eventos do mundo real. Portanto, é imperativo que as organizações tenham uma estratégia de operações modelo em vigor para governar e gerenciar as mudanças nos modelos de produção.
Além de implantar modelos em painéis e sistemas de produção, os cientistas de dados também podem criar pipelines de ciência de dados sofisticados que podem ser invocados a partir de uma ferramenta de visualização ou painel. Muitas vezes, eles têm um conjunto reduzido e simplificado de parâmetros e fatores que podem ser ajustados por um citizen data scientist . Isso ajuda a resolver a escassez de habilidades mencionada acima. Assim, um citizen data scientist, geralmente um especialista em negócios ou domínio, pode selecionar os parâmetros de interesse e executar um fluxo de trabalho de ciência de dados muito complexo sem ter que entender a complexidade por detrás dele. Isso permite que eles testem diferentes cenários sem a necessidade de envolver um cientista de dados.
Em resumo, os cientistas de dados contam uma história usando dados e, em seguida, fornecem informações preditivas que a empresa pode usar para aplicativos do mundo real. O processo utilizado, conforme mostra o gráfico abaixo, é:
- Dados de entrada
- Dados de preparação
- Aplicação de aprendizado de máquina
- Implante, pontuação e gerenciamento de modelos
- Dados de saída

Principais etapas do processo de ciência de dados
Compreensão de Negócios
- Entendimento da decisão de negócios a ser tomada
- Determinação de quais dados são necessários para tomar a decisão
- Percepção de como sua empresa mudará como resultado da decisão
- Determinação da arquitetura necessária para dar suporte à decisão
- Montagem de uma equipe multifuncional técnica e de gerenciamento de projetos
Entendimento do processo de aprendizado de máquina
- Aquisição e integração de dados
- Exploração , preparação e limpeza de dados
- Pré-processamento de dados, transformação e geração de recursos
- Desenvolvimento e seleção de modelo
- Teste e ajuste de modelo
- Implantação de modelo
Compreensão das operações do modelo e o processo de governança
- Repositório de modelo, documentação e controle de versão
- Pontuação de modelo, estrutura de API e estratégia de contêiner
- Ambiente de execução de modelo
- Implantação, integração e resultados do modelo
- Monitoramento, teste e atualização de modelo
Quais habilidades são necessárias para a ciência de dados?
Habilidades de negócios: colaboração, trabalho em equipe, comunicação, especialização de domínio / conhecimento de negócios
Habilidades analíticas: preparação de dados, aprendizado de máquina, estatísticas, análises geoespaciais , visualização de dados
Ciência da computação / habilidades de TI: pipelines de dados, implantação de modelo, monitoramento, gerenciamento, programação / codificação
Quem usa ciência de dados?
“The Hidden Talent”, também conhecido como Citizen Data Scientists: Usa dados e análises diariamente para resolver problemas específicos de negócios com uma interface de apontar e clicar.
“Foco em Negócios”: Foco em iniciativas lideradas por unidades de negócios e melhoria das operações de negócios.
“Os especialistas”: trabalham em todas as funções e unidades de negócios para resolver problemas e colaborar com a TI para operacionalizar modelos de aprendizado de máquina. Obtenha adesão e financiamento de executivos.
“The Hotshots”: aproveita uma infinidade de fontes de dados para resolver novos problemas, soluções de protótipo usando aprendizado de máquina e executar fluxos de trabalho de ciência de dados em escala. Dá preferência a ferramentas como R, Python, Scala, Hadoop e Spark.
"O potencial inexplorado": deseja entrar, mas não sente que tem o suporte ou treinamento ou não trabalha para uma organização com tecnologia que oferece modelos reutilizáveis.
Principais tarefas de ciência de dados
- Compreensão e análise de problemas
- Coleta de dados, preparação / limpeza de dados e análise exploratória básica de dados
- Desenvolvimento e teste de modelo
- Implantação, monitoramento e governança do modelo
- Comunicação das descobertas aos tomadores de decisão de negócios
Quais são os desafios que a ciência de dados aborda?
Abaixo estão alguns exemplos dos desafios que a ciência de dados está enfrentando em diferentes setores:
Energia
A ciência de dados está sendo usada principalmente no setor de energia para otimizar a exploração, produção e operações, enquanto antecipa demandas como:
- Previsão de falha de equipamento
- Previsão de volumes e preços de petróleo futuros
- Otimização da distribuição
- Redução das emissões
- Análise da composição do solo
- Caracterização de reservatórios
Finanças e Seguros
No setor de finanças e seguros, a ciência de dados concentra-se principalmente na redução de riscos, na detecção de fraudes e na otimização da experiência do cliente. Alguns exemplos de onde a ciência de dados é usada são:
- Previsão de risco de crédito
- Detecção de fraude
- Análise de clientes
- Gerenciamento do risco do portfólio
- Determinação da probabilidade de rotatividade
- Cumprimento dos regulamentos como SOX, Basel II
Saúde
A ciência de dados em saúde é usada principalmente para melhorar a qualidade do atendimento, melhorar as operações e reduzir custos.
- Previsão de risco de doença
- Detecção de reivindicações fraudulentas
- Prescrição de doses personalizadas de remédios
- Analise de imagens para detectar câncer
- Gerenciamento de reivindicações
- Melhora da segurança do paciente
- Determinação de quem está em maior risco
Farmacêutico
A ciência de dados no setor farmacêutico é usada principalmente para garantir a segurança, a qualidade do produto e a eficácia dos medicamentos, tais como:
- Determinação do lote dourado
- Analise de ensaio clínico
- Produtos de rastreamento
- Análise da estabilidade e a vida útil
- Validação dos relatórios e análises para conformidade regulatória
- Análise dos processos de manufatura, dados
Manufatura
Na manufatura , a ciência de dados ajuda a otimizar processos, melhorar a qualidade e monitorar fornecedores. Alguns exemplos são:
- Melhora dos rendimentos
- Redução do desperdício, retrabalho e recalls
- Detecção de fraude de garantia
- Cumprimento dos regulamentos
- Previsão e prevenção de falhas de equipamento
Desafios que os cientistas de dados enfrentam
Dados inacessíveis
Resolvido por:
- Combinando facilmente dados de fontes múltiplas e díspares em uma camada de dados virtual
- Manipulando, limpando e transformando visualmente os dados para torná-los prontos para análise
- Usando introspecção e descoberta de relacionamento para entender e validar relacionamentos de dados para construção de modelo
Dados Sujos
Resolvido por:
- Organização visual alimentada por IA para sugerir transformações automaticamente, remover outliers e limpar dados
- Verificação de integridade de dados automatizada para preencher valores ausentes, remover variáveis sem importância e preparar dados para análise
- Formatar e preparar dados em fontes distintas em escala
Talento e experiência limitados
Resolvido por:
- Usando recomendações automatizadas e percepções visuais para compreender a complexidade
- Aproveitando a criatividade de toda a equipe, não apenas de alguns cientistas de dados, e colaborando em todo o ciclo de vida analítico
- Criando modelos parametrizados reutilizáveis que podem ser executados por cientistas de dados de cidadãos para dimensionar o aprendizado de máquina
Resultados que não estão sendo usados
Resolvido por:
- Simplificando a implantação em sistemas operacionais para incorporar o aprendizado de máquina aos processos de negócios no ponto de impacto
- Operacionalizando a ciência de dados com monitoramento de modelo, reciclagem e governança
- Garantindo transferências bem-sucedidas em todo o ciclo de vida analítico de ponta a ponta: pipeline de dados, construção de modelo, pontuação e desenvolvimento de aplicativo

Resolvendo desafios da ciência de dados
Ciência de dados para todos: democratize e colabore na ciência de dados com automação, modelos reutilizáveis e uma estrutura de colaboração comum para equipes multifuncionais
Acelere a inovação: crie protótipos de soluções novas e flexíveis rapidamente com algoritmos nativos, código aberto e ecossistemas de parceiros, garantindo a governança
AnalyticOps: monetize o valor da ciência de dados, concentrando-se sistematicamente em suas operações por meio de monitoramento, gerenciamento, atualização e governança de pipeline
Treinamento: forneça educação e treinamento para citizen data scientists e outras pessoas que desejam aprender práticas de ciência de dados.
Centro de Excelência: Estabelecer um CoE para promover as melhores práticas e fomentar a inovação e a capacidade de reutilização para que a ciência de dados possa ser dimensionada em toda a empresa