O que é regressão em aprendizado de máquina?

KOHb-Getty Images

As técnicas de regressão são essenciais para descobrir relacionamentos dentro dos dados e construir modelos preditivos para uma ampla variedade de casos de uso empresarial, desde previsões de vendas até análises de risco. Aqui está um mergulho profundo nesta poderosa técnica de aprendizado de máquina.

A regressão em aprendizado de máquina é uma técnica utilizada para capturar as relações entre variáveis independentes e dependentes, com o objetivo principal de prever um resultado. Envolve treinar um conjunto de algoritmos para revelar padrões que caracterizam a distribuição de cada ponto de dados. Com os padrões identificados, o modelo pode então fazer previsões precisas para novos pontos de dados ou valores de entrada.

Existem diferentes tipos de regressão. Duas das mais comuns são a regressão linear e a regressão logística. Na regressão linear, o objetivo é ajustar todos os pontos de dados ao longo de uma linha clara. A regressão logística concentra-se em determinar se cada ponto de dados deve estar abaixo ou acima da linha. Isso é útil para classificar observações em grupos distintos, como fraude/não fraude, spam/não spam ou gato/não gato.

A regressão é um conceito fundamental na maioria das estatísticas. O aprendizado de máquina eleva as coisas ao usar algoritmos para destilar essas relações fundamentais por meio de um processo automatizado, disse Harshad Khadilkar, cientista sênior da TCS Research e professor associado visitante do IIT Bombay.

"A regressão é o que os cientistas e as empresas usam ao responder a questões quantitativas, especificamente do tipo 'quantos', 'quanto', 'quando será' e assim por diante. No aprendizado de máquina, ela descobre qualquer medida que não esteja atualmente disponível no dados", explicou Khadilkar.

Duas técnicas comuns usadas em regressão em aprendizado de máquina são interpolação e extrapolação. Na interpolação, o objetivo é estimar valores dentro dos pontos de dados disponíveis. A extrapolação visa prever valores além dos limites dos dados existentes, com base nas relações de regressão existentes.

A regressão é um conceito essencial não apenas para especialistas em aprendizado de máquina, mas também para todos os líderes empresariais, pois é uma técnica fundamental em análise preditiva, disse Nick Kramer, vice-presidente de soluções aplicadas da empresa de consultoria global SSA & Company. A regressão é comumente usada para muitos tipos de previsão; ao revelar a natureza da relação entre as variáveis, as técnicas de regressão fornecem às empresas informações sobre questões-chave, como rotatividade de clientes, elasticidade de preços e muito mais.

David Stewart, chefe de ciência de dados da Legal & General, uma gestora de ativos global, observou que os modelos de regressão são usados para fazer previsões com base em informações que já conhecemos, tornando-os amplamente relevantes em diferentes setores. Por exemplo, a regressão linear, que prevê um resultado numérico, poderia ser usada para avaliar a altura de alguém com base em fatores como idade e sexo. Em contraste, a regressão logística poderia ajudar a prever a probabilidade de uma pessoa comprar um novo produto, usando as compras anteriores de produtos como indicadores.

A regressão linear tem uma sensibilidade fixa ou constante às variáveis das quais depende – seja a previsão dos preços das ações, o clima de amanhã ou a demanda no varejo. Por exemplo, uma mudança dupla em uma variável levará a um desvio específico na produção, disse Khadilkar. Muitos algoritmos padrão do setor usam regressão linear, como previsão de demanda de séries temporais.

A regressão logística, por outro lado, concentra-se em medir a probabilidade de um evento em uma escala de 0 a 1 ou 0% a 100%. A idéia central desta abordagem é criar uma curva em forma de S que mostre a probabilidade de ocorrência de um evento, sendo o evento - como uma falha de sistema ou uma violação de segurança - altamente improvável em um lado da curva e próximo a ele. certo, por outro.

Conforme observado, as técnicas de regressão linear concentram-se no ajuste de novos pontos de dados a uma linha. Eles são valiosos para análises preditivas.

Em contraste, a regressão logística visa determinar a probabilidade de um novo ponto de dados pertencer acima ou abaixo da linha, ou seja, a uma classe específica. As técnicas de regressão logística são úteis em tarefas de classificação como as mencionadas acima – para determinar se uma transação é fraudulenta, se um e-mail é spam ou se uma imagem é um gato ou não.

blog