Resumen
El científico de origen ruso Vladimir Vapnik inventó las máquinas de vectores de soporte en el año 1963. Vapnik fue el primero científico en proponer y desarrollar uno de los primeros modelos sin basarse en un modelo probabilístico o de distribución, hasta la fecha todos los modelos predictivos partían de la teoría estadística y la probabilidad. Este modelo es generalmente excelente con un conjunto de datos relativamente pequeño y con pocos valores atípicos. Las máquinas de vector de soporte (SVM) son en esencia un modelo de clasificación lineal binario no probabilístico el cual está basado en un modelado geométrico por lo tanto este se resuelve mediante un problema de optimización con restricciones. EL SVM es un clasificador discriminativo cuyo objetivo es encontrar un plano que separe las clases en feature space. Los vectores de soporte son entonces los puntos de datos que se encuentran más cercanos al hiperplano definido que separa las clases. Casi siempre no es posible obtener un plano que separe las clases a la perfección, por lo tanto, se define las siguientes mejoras:
1. Flexibilizar el concepto de «separación».
2. Agregar más características para que la separación sea lo más fácil posible.
A continuación, definiremos los conceptos de hiperplanos y vectores ortogonales debido a su importancia para el entendimiento de este modelo.
Hiperplanos Geométricamente: un hiperplano es un subespacio de una y solo una dimensión menor que el espacio en cuestión, es decir: en un espacio de dos dimensiones el hiperplano es una recta. La ecuación general del es: 𝛽𝑜 + 𝛽1𝑋1 + 𝛽2𝑋2 + ⋯ + 𝐵𝑝𝑋𝑝 = 0 Donde 𝛽 es un vector: 𝛽 = (𝛽1, 𝐵2, … , 𝐵𝑃) El cual es llamado vector normal, y 𝛽𝑜 es un vector unitario, lo que indica que la suma de los cuadrados de sus componentes es igual a 1.
Ejemplo de más hiperplanos.

Los puntos proyectados sobre el vector normal que caen sobre el hiperplano tienen valor 0. Los puntos por encima del hiperplano tienen un valor positivo los puntos por debajo del hiperplano un valor negativo. El valor que se obtiene al proyectar los puntos sobre el vector normal es proporcional a la distancia de los puntos al hiperplano. Valores mayores indican mayor distancia al hiperplano, gracias a esta propiedad geométrica las MSV logran encontrar patrones más fácilmente.
Intuición geometrica:

De manera global se busca un hiperplano que logre separar dos conjuntos de puntos en dos regiones distintas.