Minería de datos co algoritmo k-means
O algoritmo de agrupamento de k significa algoritmo de minería de datos e máquina de aprendizaxe usado para agrupar observacións en grupos de observacións relacionadas sen ningún coñecemento previo destas relacións. Mediante a mostraxe, o algoritmo intenta mostrar en que categoría ou cluster os datos pertencen, co número de clústers definidos polo valor k.
O algoritmo k- means é unha das técnicas máis simples de agrupamento e úsase habitualmente en imaxes médicas, biometría e campos relacionados. A vantaxe de k- means clustering é que contén os seus datos (usando o seu formulario non supervisado) no canto de ter que instruír o algoritmo sobre os datos no inicio (usando a forma supervisada do algoritmo).
Ás veces chámase Algoritmo de Lloyd's, particularmente en círculos informáticos porque o algoritmo estándar foi proposto por Stuart Lloyd en 1957. O termo "k-means" foi acuñado en 1967 por James McQueen.
Como funcionan as algoritmos k-means
O algoritmo k- means é un algoritmo evolutivo que gaña o seu nome a partir do seu método de operación. O algoritmo agrupa observacións en grupos k , onde k se fornece como parámetro de entrada. A continuación, asigna cada observación a grupos en función da proximidade da observación á media do clúster. A media do clúster é recomputada e o proceso comeza de novo. Vexa como funciona o algoritmo:
- O algoritmo arbitrariamente selecciona k puntos como os centros de clusters iniciais (o medio).
- Cada punto do conxunto de datos está asignado ao clúster pechado, baseado na distancia euclidiana entre cada punto e cada centro de clúster.
- Cada centro de clústers recomputase como a media dos puntos do clúster.
- Os pasos 2 e 3 repiten ata que os clusters converxen. A converxencia pode definirse de forma diferente dependendo da implementación, pero normalmente significa que ningunha observación cambia os clusters cando se repiten os pasos 2 e 3 ou que os cambios non fan unha diferenza material na definición dos clusters.
Elixindo o número de clusters
Unha das principais desvantaxes para k- significa agrupamento é o feito de que debe especificar o número de clústers como entrada ao algoritmo. Tal e como se deseñou, o algoritmo non é capaz de determinar o número adecuado de clusters e depende de que o usuario o identifique con antelación.
Por exemplo, se tiña un grupo de persoas que se agruparían en función da identidade binaria de xénero como macho ou femia, chamando ao algoritmo k- mean usando a entrada k = 3 obrigaría á xente a tres grupos cando só dous ou un entrada de k = 2, proporcionaría un axuste máis natural.
Do mesmo xeito, se un grupo de individuos foron agrupados facilmente en función do estado doméstico e chamou o algoritmo k- mean coa entrada k = 20, os resultados poden ser demasiado xeneralizados para ser efectivos.
Por este motivo, moitas veces é unha boa idea experimentar con diferentes valores de k para identificar o valor que mellor se adapte aos seus datos. Tamén pode querer explorar o uso doutros algoritmos de minería de datos na busca de coñecementos aprendidos por máquina.