A regresión analiza as relacións entre variables
A regresión é unha técnica de minería de datos utilizada para predicir un intervalo de valores numéricos (tamén chamados valores continuos ), dado un conxunto de datos particular. Por exemplo, a regresión pode usarse para predecir o custo dun produto ou servizo, dadas outras variables.
A regresión emprégase en varias industrias para a planificación comercial e comercial, a previsión financeira, a modelización ambiental e a análise das tendencias.
Regresión vs. Clasificación
A regresión ea clasificación son técnicas de minería de datos utilizadas para resolver problemas similares, pero a miúdo son confusas. Ambos se usan na análise de predición, pero a regresión úsase para predecir un valor numérico ou continuo mentres que a clasificación asigna datos a categorías discretas.
Por exemplo, a regresión sería usada para predecir o valor dunha casa en función da súa situación, pés cadrados, prezo cando se venderon por última vez, o prezo das casas similares e outros factores. A clasificación estaría en orde, se quería organizar casas en categorías, como a viabilidade, o tamaño do solar ou as taxas de criminalidade.
Tipos de técnicas de regresión
A forma máis simple e máis antiga de regresión é a regresión lineal utilizada para estimar unha relación entre dúas variables. Esta técnica usa a fórmula matemática dunha liña recta (y = mx + b). En termos simples, isto simplemente significa que, dada unha gráfica con Y e un eixe X, a relación entre X e Y é unha liña recta con poucos puntos atípicos. Por exemplo, podemos supoñer que, dada a un aumento na poboación, a produción de alimentos aumentaría ao mesmo ritmo; isto require unha relación forte e lineal entre as dúas figuras. Para visualizar isto, considere unha gráfica na que aumenta a poboación das pistas do eixo Y, e os eixos X roldan a produción de alimentos. A medida que o valor de Y aumenta, o valor de X aumentaría ao mesmo ritmo, facendo que a relación entre eles sexa unha liña recta.
As técnicas avanzadas, como a regresión múltiple, predicen unha relación entre múltiples variables, por exemplo, hai unha correlación entre a renda, a educación e onde se elixe vivir? A adición de máis variables aumenta considerablemente a complexidade da predición. Existen varios tipos de técnicas de regresión múltiple, incluíndo estándar, xerárquico, setwise e paso a paso, cada un coa súa propia aplicación.
Neste punto, é importante comprender o que estamos a tratar de predecir (a variable dependente ou prevista ) e os datos que estamos a usar para facer a predición (as variables independentes ou predictoras ). No noso exemplo, queremos predecir o lugar onde se elixe vivir (a variable preditiva ), ingresos e educación atribuídos (ambas as variables predictoras ).
- A regresión múltiple estándar considera todas as variables predictoras ao mesmo tempo. Por exemplo 1) cal é a relación entre ingresos e educación (predictores) e elección do barrio (previsto); e 2) en que medida contribúen cada un dos predictores individuais a esa relación?
- A regresión múltiple por pasos responde unha pregunta completamente distinta. Un algoritmo de regresión por etapas analizará os predicadores que se usan mellor para predicir a elección do barrio, o que significa que o modelo paso a paso avalía a orde de importancia das variables de predición e logo selecciona un subconxunto relevante. Este tipo de problema de regresión usa "pasos" para desenvolver a ecuación de regresión. Dado este tipo de regresión, non todos os predictadores poden aparecer na ecuación de regresión final.
- A regresión xerárquica , como paso a paso, é un proceso secuencial, pero as variables predictoras introdúcense no modelo nunha orde especificada previamente, isto é, o algoritmo non contén un conxunto de ecuacións integrado para determinar a orde en que introduce os predictores. Isto úsase máis frecuentemente cando o individuo que crea a ecuación de regresión ten un coñecemento experto do campo.
- A regresión setwise tamén é semellante a paso a paso, pero analiza conxuntos de variables en vez de variables individuais.