Saltar al contenido principal
Página

Tema 2.1 - Best split: entropía, Gini index, ganancia de información


Resumen

Cada una de las divisiones del árbol da como resultado dos grupos. Es decir los datos resultantes de la división por la variable elegida y con el punto de corte determinado están en uno de los dos grupos.

La entropía se define con la siguiente fórmula matemática:




Si se ha realizado una partición utilizando una variable y umbral determinado y los datos de dos clases se dividen en un 60 % en un lado de la rama y en un 40 % en otro lado de la rama, tendríamos el siguiente valor de entropía −0.60 ∗ 𝑙𝑜𝑔2(0.60) – 0.40 ∗ 𝑙𝑜𝑔2(0.40) = 0.9709506 (1) Utilizando la medida de pureza el algoritmo tiene que decidir con que variable hacer el corte. 

Una opción es utilizar la entropía para calcular el cambio resultante de hacer el corte en esa variable. Se calcula la ganancia de información (information gain o IG) que es la diferencia entre la entropía en el segmento antes de hacer el corte (S1) y la partición resultante de hacer el corte (S2), es decir: Info𝐺𝑎𝑛(𝐹) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑆1) − 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆2)



Última modificación: miércoles, 18 de enero de 2023, 15:16