Emparejamiento óptimo

Este artículo o sección tiene un estilo difícil de entender para los lectores interesados en el tema.
Si puedes, por favor edítalo y contribuye a hacerlo más accesible para el público general, sin eliminar los detalles técnicos que interesan a los especialistas.
El texto que sigue es una traducción defectuosa. Si quieres colaborar con Wikipedia, busca el artículo original y mejora esta traducción.
Copia y pega el siguiente código en la página de discusión del autor de este artículo: {{subst:Aviso mal traducido|Emparejamiento óptimo}} ~~~~

El emparejamiento óptimo es un método de análisis secuencial utilizado en ciencias sociales, para evaluar la similitud de arreglos ordenados de símbolos que normalmente representan una secuencia temporal ordenada de los estados socioeconómicos que dos individuos han experimentado. Una vez que tales distancias han sido calculadas para un conjunto de observaciones (por ejemplo, individuos de una cohorte) herramientas clásicas (tales como el Algoritmo de agrupamiento) pueden ser utilizados. El método fue adaptado a las ciencias sociales[1]​ a partir de una técnica introducida originalmente para estudiar la biología molecular. El emparejamiento óptimo utiliza el Algoritmo Needleman-Wunsch.

Algoritmo

Sea S = ( s 1 , s 2 , s 3 , s T ) {\displaystyle S=(s_{1},s_{2},s_{3},\ldots s_{T})} una secuencia de estados s i {\displaystyle s_{i}} que pertenecen a un conjunto finito de estados posibles. Denotemos S {\displaystyle {\mathbf {S} }} el espacio de secuencias, es decir, el conjunto de todas las posibles secuencias de estados. Los algoritmos de correspondencia óptimos funcionan mediante la definición de operador simples álgebras que manipulan secuencias, es decir, un conjunto de operadores a i : S S {\displaystyle a_{i}:{\mathbf {S} }\rightarrow {\mathbf {S} }} . En el enfoque más simple, se utiliza un conjunto compuesto de solamente tres operaciones básicas para transformar secuencias:

  • un estado s {\displaystyle s} se inserta en la secuencia a s I n s ( s 1 , s 2 , s 3 , s T ) = ( s 1 , s 2 , s 3 , , s , s T ) {\displaystyle a_{s'}^{\rm {Ins}}(s_{1},s_{2},s_{3},\ldots s_{T})=(s_{1},s_{2},s_{3},\ldots ,s',\ldots s_{T})}
  • un estado es borrado de la secuencia a s 2 D e l ( s 1 , s 2 , s 3 , s T ) = ( s 1 , s 3 , s T ) {\displaystyle a_{s_{2}}^{\rm {Del}}(s_{1},s_{2},s_{3},\ldots s_{T})=(s_{1},s_{3},\ldots s_{T})} y
  • un estado s 1 {\displaystyle s_{1}} es reemplazado (substituted) por un estado s 1 {\displaystyle s'_{1}} , a s 1 , s 1 S u b ( s 1 , s 2 , s 3 , s T ) = ( s 1 , s 2 , s 3 , s T ) {\displaystyle a_{s_{1},s'_{1}}^{\rm {Sub}}(s_{1},s_{2},s_{3},\ldots s_{T})=(s'_{1},s_{2},s_{3},\ldots s_{T})} .

Imagínese ahora que un coste c ( a i ) R 0 + {\displaystyle c(a_{i})\in {\mathbf {R} }_{0}^{+}} se asocia a cada operador. Dadas dos secuencias S 1 {\displaystyle S_{1}} and S 2 {\displaystyle S_{2}} , La idea es medir el costo de obtener S 2 {\displaystyle S_{2}} de S 1 {\displaystyle S_{1}} utilizando los operadores del álgebra. Dejar A = a 1 , a 2 , a n {\displaystyle A={a_{1},a_{2},\ldots a_{n}}} ser una secuencia de operadores de manera que la aplicación de todos los operadores de esta secuencia La a la primera secuencia S 1 {\displaystyle S_{1}} da la segunda secuencia S_2 : S 2 = a 1 a 2 a n ( S 1 ) {\displaystyle S_{2}=a_{1}\circ a_{2}\circ \ldots \circ a_{n}(S_{1})} donde a 1 a 2 {\displaystyle a_{1}\circ a_{2}} denota el operador compuesto. A este conjunto asociamos el costo c (A) = \ sum_ {i = 1} ^ n c (a_i) , Que representa el costo total de la transformación. Hay que tener en cuenta en este punto que podría existir diferentes tales secuencias La que transforman S 1 {\displaystyle S_{1}} en S 2 {\displaystyle S_{2}} ; Una elección razonable es para seleccionar el más barato de tales secuencias. Por la presente instamos a distancia
 : d ( S 1 , S 2 ) = min A { c ( A )   s u c h   t h a t   S 2 = A ( S 1 ) } {\displaystyle d(S_{1},S_{2})=\min _{A}\left\{c(A)~{\rm {such~that}}~S_{2}=A(S_{1})\right\}}

es decir, el coste del conjunto menos costosa de las transformaciones que se convierten S 1 {\displaystyle S_{1}} en S 2 {\displaystyle S_{2}} . Tenga en cuenta que d ( S 1 , S 2 ) {\displaystyle d(S_{1},S_{2})} es por definición no negativo, ya que es la suma de los costes de positivos, y trivialmente d ( S 1 , S 2 ) = 0 {\displaystyle d(S_{1},S_{2})=0} si y sólo si S 1 = S 2 {\displaystyle S_{1}=S_{2}} , Es decir, no hay ningún costo. La función de distancia es simétrica si los costos de inserción y supresión son iguales c ( a I n s ) = c ( a D e l ) {\displaystyle c(a^{\rm {Ins}})=c(a^{\rm {Del}})} , El término costo indel lo general se refiere a los gastos comunes de inserción y supresión.

Teniendo en cuenta un conjunto compuesto de sólo las tres operaciones básicas descritas anteriormente, esta medida proximidad satisface la desigualdad triangular. transitividad sin embargo, depende de la definición del conjunto de las operaciones elementales.

Crítica

Aunque las técnicas de juego óptimas son ampliamente utilizadas en sociología y la demografía, estas técnicas también tienen sus defectos. Como se ha señalado por varios autores (por ejemplo L. L. Wu[2]​), el principal problema en la aplicación de emparejamiento óptimo es definir adecuadamente los costos c ( a i ) {\displaystyle c(a_{i})} .

Emparejamiento óptimo en el modelado causal

El emparejamiento óptimo es también un término usado en el modelado estadístico de efectos causales. En este contexto se refiere a la combinación "casos" con "controles", y es completamente independiente del sentido de la secuencia analítica.

Referencias

  1. A. Abbott and A. Tsay, (2000) Sequence Analysis and Optimal Matching Methods in Sociology: Review and Prospect Sociological Methods & Research], Vol. 29, 3-33. doi 10.1177/0049124100029001001
  2. L. L. Wu. (2000) Some Comments on "Sequence Analysis and Optimal Matching Methods in Sociology: Review and Prospect" Archivado el 24 de octubre de 2006 en Wayback Machine. Sociological Methods & Research, 29 41-64. doi 10.1177/0049124100029001003
Control de autoridades
  • Proyectos Wikimedia
  • Wd Datos: Q7098946
  • Wd Datos: Q7098946