¿Que significa k-means Clustering?

Minería de datos co algoritmo k-means

O algoritmo de agrupamento de k significa algoritmo de minería de datos e máquina de aprendizaxe usado para agrupar observacións en grupos de observacións relacionadas sen ningún coñecemento previo destas relacións. Mediante a mostraxe, o algoritmo intenta mostrar en que categoría ou cluster os datos pertencen, co número de clústers definidos polo valor k.

O algoritmo k- means é unha das técnicas máis simples de agrupamento e úsase habitualmente en imaxes médicas, biometría e campos relacionados. A vantaxe de k- means clustering é que contén os seus datos (usando o seu formulario non supervisado) no canto de ter que instruír o algoritmo sobre os datos no inicio (usando a forma supervisada do algoritmo).

Ás veces chámase Algoritmo de Lloyd's, particularmente en círculos informáticos porque o algoritmo estándar foi proposto por Stuart Lloyd en 1957. O termo "k-means" foi acuñado en 1967 por James McQueen.

Como funcionan as algoritmos k-means

O algoritmo k- means é un algoritmo evolutivo que gaña o seu nome a partir do seu método de operación. O algoritmo agrupa observacións en grupos k , onde k se fornece como parámetro de entrada. A continuación, asigna cada observación a grupos en función da proximidade da observación á media do clúster. A media do clúster é recomputada e o proceso comeza de novo. Vexa como funciona o algoritmo:

  1. O algoritmo arbitrariamente selecciona k puntos como os centros de clusters iniciais (o medio).
  2. Cada punto do conxunto de datos está asignado ao clúster pechado, baseado na distancia euclidiana entre cada punto e cada centro de clúster.
  3. Cada centro de clústers recomputase como a media dos puntos do clúster.
  4. Os pasos 2 e 3 repiten ata que os clusters converxen. A converxencia pode definirse de forma diferente dependendo da implementación, pero normalmente significa que ningunha observación cambia os clusters cando se repiten os pasos 2 e 3 ou que os cambios non fan unha diferenza material na definición dos clusters.

Elixindo o número de clusters

Unha das principais desvantaxes para k- significa agrupamento é o feito de que debe especificar o número de clústers como entrada ao algoritmo. Tal e como se deseñou, o algoritmo non é capaz de determinar o número adecuado de clusters e depende de que o usuario o identifique con antelación.

Por exemplo, se tiña un grupo de persoas que se agruparían en función da identidade binaria de xénero como macho ou femia, chamando ao algoritmo k- mean usando a entrada k = 3 obrigaría á xente a tres grupos cando só dous ou un entrada de k = 2, proporcionaría un axuste máis natural.

Do mesmo xeito, se un grupo de individuos foron agrupados facilmente en función do estado doméstico e chamou o algoritmo k- mean coa entrada k = 20, os resultados poden ser demasiado xeneralizados para ser efectivos.

Por este motivo, moitas veces é unha boa idea experimentar con diferentes valores de k para identificar o valor que mellor se adapte aos seus datos. Tamén pode querer explorar o uso doutros algoritmos de minería de datos na busca de coñecementos aprendidos por máquina.