O aprendizado supervisionado é dividido em dois: regressão e classificação.

Na regressão, há um viés estatístico que usa probabilidade para prever valores contínuos. Um exemplo é o preço de determinado produto em períodos do ano.

Na classificação, a saída são valores discretos, denominados classes. Um exemplo é classificar se um e-mail é spam ou não.

Regressão

É uma ferramenta que busca modelar relações entre variáveis dependentes e independentes através de métodos estatísticos.

Variável Independente → x

Caracteriza uma grandeza que está sendo manipulada durante um experimento e que não sofre influência de outras variáveis.

Variável Dependente → y

Caracteriza valores que estão diretamente associados à variável independente, ou seja, de forma direta ou indireta

x exerce influência sobre y → A pergunta seria: x exerce influência em y?

Exemplo:

Relação entre a expectativa de vida baseada e um índice de felicidade calculado em diversos países.

A variável independente (x) → índice de felicidade

Variável dependente (y) → expectativa de vida

Pergunta-se: O índice de felicidade exerce influência na expectativa de vida?

Na pesquisa, pôde ser observada uma tendência de expectativa de vida maior em países com alto índice de felicidade, com uma força de correlação de 0,77.

- As relações entre as variáveis dependentes e independentes são feitas através de algum coeficiente de correlação.

Coeficiente de Pearson

Uma das métricas de correlação mais utilizadas é o coeficiente de Pearson, que mede a associação linear entre duas variáveis. Os valores do coeficiente de Pearson variam entre -1 e 1, de tal forma que quanto mais próximos desses extremos, melhor correlacionado estão as variáveis.

Os métodos de regressão se utilizam dessas correlações entre as variáveis para estimar valores não existentes na amostra ou conjunto de dados.
Entretanto, nem sempre essas correlações são tão explícitas assim, sendo necessário outras abordagens mais robustas para realizar as previsões.
Em ML os modelos de regressão podem ser criados a partir de diversas abordagens, desde as mais simples com poucas configurações de parâmetros e de fácil interpretação do funcionamento, até as abordagens mais complexas.

Os métodos de regressão abordados neste capítulo serão Regressão linear, Máquina de vetores de suporte e Árvores de decisão.

Regressão Linear

Técnica estatística usada para encontrar a relação entre variáveis. Em um contexto de ML, a regressão linear encontra a relação entre atributos e um rótulo.

Subdividido em 2 tipos → regressão linear simples (RLS) e regressão linear múltipla (RLM)

RLS → tem como objetivo estabelecer uma relação entre duas variáveis através de uma função

RLM → é semelhante semelhante à RLS, porém possui múltiplas variáveis preditoras

y_i = alpha + beta_x

onde y_i é a variável alvo, alpha e beta_x são coeficientes calculados pela regressão, que representam o intercepto no eixo y e inclinação da reta, respectivamente.

Coeficientes da Regressão Linear

Métodos dos quadrados ordinários (MQO)

Busca encontrar o melhor valor para os coeficientes citados anteriormente, de tal forma que a diferença absoluta entre o valor real e o predito pela função seja a menor possível entre todos os pontos.

Gradiente descendente

é uma das técnicas mais utilizadas para otimização de modelos de ML. Este é um método interativo que busca encontrar os coeficiente α e β através da minimização de uma função de custo, que normalmente é o erro quadrático médio (MSE - sigla do inglês, mean squared error).

O GD funciona de forma iterativa e inicializa os coeficientes com um valor predefinido ou aleatório.
Em cada iteração é obtido o somatório do erro entre todos os valores das variáveis dependentes e valores calculados pela função.
Com base nesse erro e em uma taxa de aprendizagem do modelo pré definida, os valores dos coeficientes da função são atualizados para a próxima iteração.
A taxa de aprendizagem deve ser definida com um valor equilibrado.
A definição de um valor muito alto para a taxa de aprendizagem pode levar o modelo a cair em um mínimo local, ou seja, o modelo não consegue chegar em seu melhor ajuste. Já quando a taxa de aprendizagem é definida com um valor muito baixo, o modelo demora mais tempo para chegar no ajuste ideal, necessitando de muito mais tempo e processamento até que haja a convergência.

Qual coeficiente utilizar?

MQO → Para dados com poucas dimensões, ou seja, poucas variáveis preditoras. Diferente do GD, não é um algoritmo interativo, e sua complexidade está associada diretamente à quantidade de pontos.

GD → tem melhor performance quando os dados possuem muitas dimensões.

A regressão linear pode ser aplicada em uma vasta variedade de problemas, mas como foi apresentado ao longo desta seção, é necessário que os dados possuam uma alta correlação para ela funcionar perfeitamente bem. Este algoritmo está implementado nas principais principais bibliotecas de ML em diferentes linguagens de programação. Em Python a regressão linear está disponível na biblioteca Scikit-learn.

Classificação

Classificação é o processo de identificar padrões, ou seja, características e rotular saídas das mesmas dentro de um contexto.

Exemplo

Problema de SPAM

o que precisamos é criar um conjunto de e-mails SPAM e então treinar o algoritmo para aprender as características mais relevantes dos SPAMs.
Uma vez treinado, o algoritmo pode ser utilizado para identificar e-mails nunca antes vistos, já que ele mapeou as principais características, diferente da nossa ideia inicial de código, em que estávamos trabalhando com características específicas.

Os principais algoritmos são: k-Nearest Neighbors e Árvore de Decisão.

k-Nearest Neighbors (k-NN)

O algoritmo k-nearest neighbors (KNN), ou k vizinhos mais próximos, é um classificador de aprendizado supervisionado não paramétrico, que usa a proximidade para fazer classificações ou previsões sobre o agrupamento de um determinado ponto de dados.

É um dos classificadores mais populares e simples usados em aprendizado de máquina atualmente.
Usado em problemas de regressão ou classificação

Me diga com quem tu andas, que eu digo quem tu és

Como Funciona

O que o algoritmo faz é buscar os elementos que estão próximos à amostra que está sendo classificada, e com base nessas amostras que estão próximas faz a classificação.

Dividido em 2 Partes: Análise de Vizinhança e Determinação do Rótulo da Classe

Análise de Vizinhança

Se busca determinar quem são as amostras do conjunto de treinamento que estão mais próximas da amostra de teste que está sendo classificada.

O algoritmo usa várias funções de distância → Para calcular a proximidade
Distância Euclidiana, por exemplo
determina os elementos que estão mais próximos de uma determinada amostra.

Determinação do Rótulo da Classe

após calcular a distância de cada um dos pontos, ele escolhe os k elementos mais próximos.
Com a determinação desses elementos mais próximos, o algoritmo analisa e contabiliza, por classe, quantos são os elementos que compõem a vizinhança,
Ao final desse processo, o algoritmo sabe quais são as classes vizinhas da amostra a ser classificada e quantos elementos de cada uma dessas classes estão presentes na vizinhança.
Feito isso, o algoritmo vai determinar o rótulo da amostra a ser classificada como sendo igual a classe, que na vizinhança possui a maior quantidade de elementos.

Árvore de Decisão

As árvores de decisão são fundamentalmente formas de representação de conhecimento através de uma estrutura hierárquica de perguntas na forma if-then-else. Isso faz com que a estrutura das árvores de decisão seja semelhante a um fluxograma, em que existem nós que são utilizados para representar as perguntas e desses são derivados outros nós, que podem representar a resposta ou mesmo outra pergunta.

a leitura desse tipo de árvore é feita sempre de cima para baixo já que a raiz da árvore está sempre no topo
Começa com perguntas e termina com respostas
característica recursiva das árvores de decisão, nessas, para cada ramo que é seguido após uma pergunta há uma nova árvore, que é criada através das mesmas regras de definição aplicadas na árvore anterior
as árvores de decisão no contexto de ML são as responsáveis em olhar para os dados e decidir quais são as perguntas mais adequadas para uma determinada resposta

Exemplo

Há um conjunto de pontos, em que cada cor representa uma classe. A árvore de decisão será treinada com esses dados de modo que novas classificações com base neste treinamento possam ser realizadas.

Com o conjunto de dados definido, o primeiro passo realizado pela árvore é avaliar quais são as características que melhor definem uma determinada classe.
Após fazer isso, a árvore cria uma pergunta que faz com que essa característica identificada como a melhor possa ser utilizada para a divisão do conjunto de dados.
Neste caso, a árvore identificou que o conjunto de pontos da classe Vermelha estão majoritariamente nas posições com X acima de 10.
então, é criada uma pergunta na árvore que verifica quais elementos são maiores que dez, ao fazer isso a divisão do conjunto de dados é realizada e então novos nós são adicionados na árvore
Se lembrarmos a definição feita anteriormente, temos que as árvores de decisão são estruturas recursivas, então, a mesma lógica de busca do elemento que melhor descreve um conjunto de dados e então a divisão é aplicado nos nós resultantes
isso é feito até que não haja mais elementos suficientes para a divisão ou quando em um nó todos os elementos pertencem a apenas uma classe

Funcionamento

Seleção do melhor atributo para a divisão dos registros
Utilização deste atributo para a divisão do conjunto de dados, gerando novos nós na árvore
Para cada nó gerado no passo 2, aplica-se recursivamente, o algoritmo de construção, iniciando no passo 1. O algoritmo deve parar a recursão e não dividir mais os nós quando:
1. Todos os dados do nó pertencerem a uma mesma classe;
2. Não há dados suficientes para a divisão; ou
3. Todos os atributos disponíveis nos dados já foram utilizados.

Seleção de melhor atributo e divisão dos dados

As decisões são tomadas seguindo alguns critérios, que ajudam a definir as perguntas que melhor dividem os dados (ex: Índice de Gini e o Ganho de Informação)

Seleção de atributos

as divisões no conjunto de dados são feitas considerando a diminuição da entropia que esta vai causar no conjunto de dados.
Ganho de informação → representa a vantagem que um determinado atributo tem de ser utilizado para a divisão, onde essa vantagem representa o grau de diminuição da entropia do conjunto de dados

elemento base utilizado no processo de seleção do atributo que melhor divide o conjunto de dados (que tem maior ganho de informação), e uma vez que este atributo é selecionado, ele passa a ser utilizado para a realização da divisão dos dados

Entropia: Termo usado para determinar o grau de desordem do conjunto de dados. Menos mistura de dados → menor a entropia do dataset

Problemas com Overfitting e Underfitting

Overfitting → Com um algoritmo de treinamento que trabalha sempre com a melhora em certas árvores de decisão, no momento em que estão sendo geradas, podem acabar criando uma quantidade enorme de nós de decisão para minimizar a entropia de seus nós.

Isso faz com que o modelo decore os padrões de treinamento;
eles ficam especialistas nos dados de treinamento e não conseguem fazer previsões corretas quando deparam-se com novos dados.

Underfitting → O algoritmo acaba gerando regras que não são o suficiente para caracterizar os dados e então generalizar as operações.

a falta de generalização, ou seja, adequar-se a novos dados, faz com que o modelo não tenha como classificar corretamente, pois não aprendeu a classificar de forma concreta