Clasificación en minería de datos

A clasificación é unha técnica de minería de datos que asigna categorías a unha colección de datos para axudar a predicións e análises máis precisas. Tamén chamado ás veces chamado Decision Tree , a clasificación é un dos varios métodos destinados a facer efectiva a análise de datasets moi grandes.

Por que a clasificación?

As bases de datos moi grandes están a converterse na norma no mundo actual de "grandes datos". Imaxina unha base de datos con terabytes múltiples de datos -un terabyte é un trillón de bytes de datos.

Só Facebook incrusta 600 terabytes de novos datos cada día (a partir de 2014, a última vez que informou estas especificacións). O desafío principal dos grandes datos é como darlle sentido.

E o volume non é o único problema: os grandes datos tamén adoitan ser diversos, desestructurados e rápidos. Considere datos de audio e video, publicacións en redes sociais, datos en 3D ou datos geoespaciais. Este tipo de datos non se clasifica ou organiza fácilmente.

Para afrontar este desafío, desenvolveuse unha serie de métodos automáticos para extraer información útil, entre eles a clasificación .

Como funciona a clasificación

Co perigo de avanzar demasiado en tecnoloxía-falamos, imos discutir como funciona a clasificación. O obxectivo é crear un conxunto de regras de clasificación que responderán unha pregunta, tomarán unha decisión ou preverán o comportamento. Para comezar, desenvolveuse un conxunto de datos de adestramento que contén un determinado conxunto de atributos así como o resultado probable.

O traballo do algoritmo de clasificación é descubrir como o conxunto de atributos chega á súa conclusión.

Escenario : Quizais unha empresa de tarxetas de crédito estea a tentar determinar cales perspectivas deben recibir unha oferta de tarxeta de crédito.

Este pode ser o seu conxunto de datos de adestramento:

Datos de formación
Nome Idade Xénero Renda anual Oferta de tarxeta de crédito
John Doe 25 M $ 39.500 Non
Jane Doe 56 F $ 125,000 Si

As columnas "predictoras" da Idade , Xénero e Renda Anual determinan o valor do "atributo predictor" da Oferta de tarxetas de crédito . Nun conxunto de adestramentos, coñécese o atributo predictor. O algoritmo de clasificación intenta entón determinar como se alcanzou o valor do atributo predictor: que relación existen entre os predictores ea decisión? Desenvolverá un conxunto de regras de predición, xeralmente unha declaración IF / THEN, por exemplo:

IF (Idade> 18 OR idade <75) E Renda Anual> 40.000 DÍAS Oferta de tarxeta de crédito = si

Obviamente, este é un exemplo sinxelo e o algoritmo necesitaría unha mostraxe de datos moito maior que os dous rexistros aquí mostrados. Ademais, as regras de predición son susceptibles de ser moito máis complexas, incluíndo sub-regras para capturar detalles do atributo.

A continuación, o algoritmo obtén un "conxunto de predicións" de datos para analizar, pero este conxunto carece do atributo (ou decisión) de predición:

Datos de previsión
Nome Idade Xénero Renda anual Oferta de tarxeta de crédito
Jack Frost 42 M $ 88,000
Mary Murray 16 F $ 0

Este datos predictores axuda a estimar a precisión das regras de predición e as regras son entón modificadas ata que o creador considera as predicións efectivas e útiles.

Exemplos de clasificación día a día

A clasificación e outras técnicas de minería de datos están detrás de gran parte da nosa experiencia cotiá como consumidores.

As predicións meteorolóxicas poden facer uso da clasificación para informar se o día será chuvioso, soleado ou nublado. A profesión médica pode analizar as condicións de saúde para predecir os resultados médicos. Un tipo de método de clasificación, Naive Bayesian, usa probabilidade condicional para categorizar os correos electrónicos de spam. Desde a detección de fraudes ata as ofertas de produtos, a clasificación está detrás de escena todos os días analizando datos e producindo predicións.