Definición do modelo estatístico de regresión

A regresión analiza as relacións entre variables

A regresión é unha técnica de minería de datos utilizada para predicir un intervalo de valores numéricos (tamén chamados valores continuos ), dado un conxunto de datos particular. Por exemplo, a regresión pode usarse para predecir o custo dun produto ou servizo, dadas outras variables.

A regresión emprégase en varias industrias para a planificación comercial e comercial, a previsión financeira, a modelización ambiental e a análise das tendencias.

Regresión vs. Clasificación

A regresión ea clasificación son técnicas de minería de datos utilizadas para resolver problemas similares, pero a miúdo son confusas. Ambos se usan na análise de predición, pero a regresión úsase para predecir un valor numérico ou continuo mentres que a clasificación asigna datos a categorías discretas.

Por exemplo, a regresión sería usada para predecir o valor dunha casa en función da súa situación, pés cadrados, prezo cando se venderon por última vez, o prezo das casas similares e outros factores. A clasificación estaría en orde, se quería organizar casas en categorías, como a viabilidade, o tamaño do solar ou as taxas de criminalidade.

Tipos de técnicas de regresión

A forma máis simple e máis antiga de regresión é a regresión lineal utilizada para estimar unha relación entre dúas variables. Esta técnica usa a fórmula matemática dunha liña recta (y = mx + b). En termos simples, isto simplemente significa que, dada unha gráfica con Y e un eixe X, a relación entre X e Y é unha liña recta con poucos puntos atípicos. Por exemplo, podemos supoñer que, dada a un aumento na poboación, a produción de alimentos aumentaría ao mesmo ritmo; isto require unha relación forte e lineal entre as dúas figuras. Para visualizar isto, considere unha gráfica na que aumenta a poboación das pistas do eixo Y, e os eixos X roldan a produción de alimentos. A medida que o valor de Y aumenta, o valor de X aumentaría ao mesmo ritmo, facendo que a relación entre eles sexa unha liña recta.

As técnicas avanzadas, como a regresión múltiple, predicen unha relación entre múltiples variables, por exemplo, hai unha correlación entre a renda, a educación e onde se elixe vivir? A adición de máis variables aumenta considerablemente a complexidade da predición. Existen varios tipos de técnicas de regresión múltiple, incluíndo estándar, xerárquico, setwise e paso a paso, cada un coa súa propia aplicación.

Neste punto, é importante comprender o que estamos a tratar de predecir (a variable dependente ou prevista ) e os datos que estamos a usar para facer a predición (as variables independentes ou predictoras ). No noso exemplo, queremos predecir o lugar onde se elixe vivir (a variable preditiva ), ingresos e educación atribuídos (ambas as variables predictoras ).