Regressió no paramètrica

La regressió no paramètrica és una categoria d'anàlisi de regressió en la qual el predictor no pren una forma predeterminada sinó que es construeix d'acord amb la informació derivada de les dades. És a dir, no s'assumeix cap forma paramètrica per a la relació entre predictors i variable dependent. La regressió no paramètrica requereix mides de mostra més grans que la regressió basada en models paramètrics perquè les dades han de proporcionar l'estructura del model així com les estimacions del model.[1]

Definició

En regressió no paramètrica, tenim variables aleatòries X {\displaystyle X} i Y {\displaystyle Y} i assumim la següent relació: [2]

E [ Y X = x ] = m ( x ) , {\displaystyle \mathbb {E} [Y\mid X=x]=m(x),}

on m ( x ) {\displaystyle m(x)} és una funció determinista. La regressió lineal és un cas restringit de regressió no paramètrica on m ( x ) {\displaystyle m(x)} se suposa que és afí. Alguns autors utilitzen una hipòtesi lleugerament més forta del soroll additiu:

Y = m ( X ) + U , {\displaystyle Y=m(X)+U,}

on la variable aleatòria U {\displaystyle U} és el "terme de soroll", amb una mitjana 0. Sense suposar que m {\displaystyle m} pertany a una família paramètrica específica de funcions per a la qual és impossible obtenir una estimació imparcial m {\displaystyle m} , però la majoria dels estimadors són consistents en condicions adequades.[3]

Llista d'algorismes de regressió no paramètrics de propòsit genera

Exemple d'una corba (línia vermella) que s'ajusta a un conjunt de dades petit (punts negres) amb regressió no paramètrica utilitzant un suavitzador de nucli gaussià. L'àrea ombrejada rosa il·lustra la funció del nucli aplicada per obtenir una estimació de y per a un valor donat de x. La funció del nucli defineix el pes donat a cada punt de dades per produir l'estimació d'un punt objectiu.

Aquesta és una llista no exhaustiva de models no paramètrics per a la regressió.[4]

Exemples

Regressió del procés gaussià o Kriging

En la regressió del procés gaussià, també coneguda com Kriging, s'assumeix un a priori gaussià per a la corba de regressió. S'assumeix que els errors tenen una distribució normal multivariant i la corba de regressió s'estima pel seu mode posterior. L'a priori gaussià pot dependre d'hiperparàmetres desconeguts, que normalment s'estimen mitjançant Bayes empíric. Els hiperparàmetres normalment especifiquen un nucli de covariància anterior. En cas que el nucli també s'hagi de deduir de manera no paramètrica a partir de les dades, es pot utilitzar el filtre crític.

Les splines de suavització tenen una interpretació com el mode posterior d'un procés de regressió gaussià.

Regressió del nucli

La regressió del nucli estima la variable dependent contínua a partir d'un conjunt limitat de punts de dades combinant les ubicacions dels punts de dades amb una funció del nucli; aproximadament parlant, la funció del nucli especifica com "desenfocar" la influència dels punts de dades perquè els seus valors es puguin s'utilitza per predir el valor d'ubicacions properes.

Referències

  1. «Nonparametric Regression» (en anglès). https://www.stat.cmu.edu.+[Consulta: 1r octubre 2023].
  2. «Nonparametric Regression» (en anglès). https://www.stat.cmu.edu.+[Consulta: 1r octubre 2023].
  3. «Nonparametric regression» (en anglès). [Consulta: 1r octubre 2023].
  4. «R Handbook: Nonparametric Regression and Local Regression» (en anglès). https://rcompanion.org.+[Consulta: 1r octubre 2023].