Alvaro Mauricio Montenegro Díaz, profesor del Departamento de Estadística de la Universidad Nacional de Colombia.
En este documento técnico se desarrolla el procedimiento de cambio de escala, usando las distribuciones de los puntajes Universidad Nacional de Colombia (UN) y Saber 11, de los aspirantes inscritos para el proceso de admisión al segundo periodo de 2020.
Solamente se consideran los inscritos que tienen un resultado UN para los procesos de admisión entre el segundo semestre de 2013 y el primer semestre de 2020 o un resultado de la prueba Saber 11 para los años entre 2012 y 2019.
Luego de todos los cálculos desarrollados en este documento técnico, se establece que el puntaje de la prueba Saber 11 con decimales se puede transformar a la escala de los puntajes UN, mediante la transformación lineal dada por
El modelo de transformación desarrollado en este documento se basa en el supuesto que las dos escalas son asimilables, en el sentido que miden aproximadamente lo mismo.
Para validar este supuesto se utilizó un conjunto de 5.997 datos de aspirantes de los cuales se dispone de ambos puntajes. Para hacer una aproximación al problema se hizo un análisis descriptivo comparativo. La correlación entre los dos puntajes es de 0,8. La gráfica muestra los digramas de dipersión entre los dos puntajes.
El gráfico muestra una clara relación lineal, aunque con ligero cambio de varianza, por lo que se ajustaron dos modelos. El primero con un término lineal únicamente y el segundo con un término cuadrático. Ambos modelos mostraron un buen ajuste. Los dos modelos tienen expresiones correspondientes a:
$$ y_{\text{UN}} = 1.6102* x_{\text{Saber 11}} + 0.0003 * x_{\text{Saber 11}}^2 $$y el modelo alternativo lineal
$$ y_{\text{UN}} = 1.6914* x_{\text{Saber 11}} $$La siguiente tabla resume las estadísticas globales de ajuste de los dos modelos
modelo | pérdida entrenamiento | pérdida validación | estadística F | $R^2$ |
---|---|---|---|---|
cuadrático | 53.6412 | 54.1068 | 2.767e+05 | 0.989 |
lineal | 59.1482 | 58.7097 | 5.518e+05 | 0.989 |
La pérdida es calculada mediante
$$ \text{REMC} =\sqrt{\tfrac{1}{N}\sum_{i=1}^{N}(y_i-y_i^{(pred)})^2}, $$en donde $y_i^{(pred)}$ es el valor predicho por el modelo.
Los resultados indican que realmente pueden utilizarse los resultados de la prueba Saber 11, convirtiéndolos a la escala UN y que aparentemente existe una relación de tipo lineal entre ambos puntajes.
No obstante lo anterior, es necesario desarrollar un procedimiento técnico que permita trasladar los puntajes Saber 11 a escala UN a partir de las características distribucionales de cada escala. La relación encontrada en esta sección puede ser sesgasa debido al tipo de datos utlizados, por lo que no es confiable usar el resultado para definir la transformación.
Para disminuir el número de empates, se recalculó el puntaje global con decimales de la prueba Saber 11 mediante la fórmula del promedio ponderado adoptada por el ICFES, utilizando los resultados en los componentes de la prueba. La fórmula en mención es la siguiente:
$\text{MA: Puntaje de Matemáticas}$
$\text{CN: Puntaje de Ciencias Naturales}$
$\text{SC: Puntaje de Sociales y Ciudadanas}$
$\text{LC: Puntaje de Lectura Crítica}$
$\text{IN: Puntaje de Inglés}$
Dado un conjunto ordenado de $n$ números reales, digamos $x_1\le x_2,\le \ldots,x_{n-1}\le x_n$. La función de densidad de probabilidad empírica de estos datos es definida por
$$ F_n(x) = \frac{1}{n}\sum_{i=1}{n} 1_{x\le x_n}(x), $$en donde $1_{A}(x)$ denota la función indicadora definida por
$$ 1_{A}(x) =\begin{cases} 1, &\text{ si } x\in A\\ 0, &\text{ en otro caso } \end{cases} $$Se verfica trivialmente que
$$ F_n(x) = \begin{cases}0, &\text{ si } x< x_1\\ \frac{k}{n} &\text{ si } x_k< x\le x_{k+1}\\ 1 &\text{ si } x\ge x_n\end{cases} $$El objetivo central de este trabajo fue construir una distribución teórica que fuera muy buena aproximación de la distribución empírica de los puntajes de los aspirantes a ingresar a la UN en el periodo 2020-02, ya sea que tengan un puntaje UN para los procesos de admisión entre el segundo semestre de 2013 y el primer semestre de 2020 o con un puntaje de la prueba Saber 11 para los años entre 2012 y 2019. Los puntajes UN y los puntajes Saber 11 son tratados por separado.
El propósito es transformar los puntajes Saber 11 con decimales a la escala teórica de los aspirantes que tienen puntaje en una prueba de la UN anterior, utilizando las transformaciones teóricas construidas.
Esto se hace solamente para ajustar distribuciones a los datos. Al final todos lo datos ingresan al cálculo final.
En esta sección se asume que los datos pueden ser modelados con distribuciones Gama. Se ha ajustado para los datos una distribución $\text{Gamma}(\alpha, \beta)$, cuya función de densidad es dada por
$$ f_{\text{gama}}(y|\alpha,\beta) = \frac{\beta^{\alpha}}{\Gamma(\alpha)}y^{\alpha-1} e^{-x/\beta}, $$en donde $\alpha,\beta >0$ y $\Gamma(\cdot)$ es la función Gama. Se hace una estimación Bayesiana de los parámetros $\alpha$ y $\beta$ para cada conjunto de datos.
Estos gráficos muestran las aproximaciones teóricas obtenidas a partir de las distribuciones empíricas para los puntajes UN y Saber 11 respectivamente. Se usan las distribuciones teóricas para hacer la tansformación de los puntajes Saber 11 a la escala UN. La aproximación teórica de los puntajes Saber 11 muestra ligeros sesgos. Se decidió usar esta distribución debido a que el manejo de información se facilita.
Una consecuencia de esta decisión es que posibilita hallar una aproximación lineal que permite transformar los puntajes.
La transformación del puntaje Saber 11 a la escala UN, se hace usando las distribuciones teóricas obtenidas. Entoces el procedimiento es el siguiente.
Sea $x_{\text{saber 11}}$ un puntaje Saber 11. El correspondiente puntaje en la escala UN se denotará $x_{\text{un}}$. Denotamos $F_{\text{un}}$ la función de distribución teórica de los puntajes UN y $G_{\text{saber 11}}$ la función de distribución teórica de los puntajes Saber 11. Entonces se tiene que
El siguiente gráfico muestra la distribución de los puntajes Saber 11 transformados a la escala teórica de la UN. Se compara con la escala de los aspirantes que tienen algún puntaje UN. Se observa que los puntajes Saber 11 se ajustan bastante bien a la distribución objetivo.
La siguente gráfica muestra los puntajes Saber 11 originales versus sus versiones transformados a la escala UN. El gráfico sugiere una relación lineal. Sean $x_{\text{min}}$ y $x_{\text{max}}$ los respectivos puntajes mínimo y máximo de los puntajes Saber 11 conservados. Sean $y_{\text{min}}$ el puntaje $x_{\text{min}}$ transformado y $y_{\text{max}}$ el puntaje $x_{\text{max}}$ transformado. Entonces se tiene que la relación es dada por
en donde $m = \tfrac{y_{\text{max}}-y_{\text{min}}}{x_{\text{max}}-x_{\text{min}}}$.
Los cálculos muestran que
$$ \begin{align} m &= 2\\ x_{\text{min}} &= 150\\ y_{\text{min}} &= 230, \end{align} $$por lo que la ecuación lineal es dada por
$$ \large{y = 2x-70}. $$Este documento muestra el procedimiento técnico utilizado para trasladar los puntajes Saber 11 a la escala de los puntajes de la Universidad Nacional de Colombia. Si se supone que las dos escalas miden aproximadamente lo mismo (desde el comienzo se sabe que hay una correlación de 0,8), entonces la transformación no lineal de equivalencia desarrollada conserva el orden en las escalas. El procedimiento de cambio de escala convierte de manera aproximada la posición relativa de un puntaje Saber 11 en la misma posición relativa en la escala de la Universidad Nacional. El procedimiento se resume como sigue.
A partir de este resultado se decidió hacer una equiparación técnica para trasladar los puntajes Saber 11 a la escala UN. El procedimiento técnico se ha desarrollado completamente en este documento. Se recibieron 18.067 puntajes de la UN y 24.933 puntajes Saber 11. En estos se encontraron 17.122 puntajes UN distintos y 706 puntajes Saber 11 distintos en total.
Para suavizar los datos y obtener una transformación robusta se sacaron del cálculo los valores más extremos de los puntajes. Para los puntajes UN se conservaron los puntajes en el intervalo $[230, 785]$ y para los puntajes Saber 11 en el intervalo $[150,410]$. Se usó el criterio de experto estadístico para omitir esos valores extremos. Con esta decisión se conservaron 18.000 puntajes UN y 24.992 puntaje Saber 11.
Se construyeron las distribuciones empíricas de los datos de ambos puntajes. A partir de estas se observó que era posible encontrar distribuciones teóricas aproximantes en la familia Gama.
Se ajustó un modelo Gama para cada uno de los puntajes obteniéndose que para el puntaje UN una muy buena aproximación distribucional es un modelo $\text{Gamma}(28.81, 17.69)$. En el mismo camino se encontró que una buena aproximación distribucional para el puntaje Saber 11 es un modelo $\text{Gamma}(39.64, 7.33)$. Para encontrar tales modelos se estimaron los parámetros de cada distribución utilizando un procedimiento Bayesiano y se verificó que las aproximaciones eran suficientemente buenas. El criterio utilizado fue el error absoluto medio entre las distribuciones aproximantes y las distibuciones empíricas. En el caso del puntaje UN, tal error fue 0,015 y en el caso de las pruebas Saber 11 0,031. Desde el punto de vista teórico no se ha supuesto que los datos provinieran de tales distribuciones. Solamente se buscó distribuciones aproximantes para poder hacer un procedimiento seguro en la tranformación de los puntajes. Una alternativa posible es utilizar una aproximación variacional, la cual no se intentó en este trabajo.
El puntaje Saber 11 se transformó al puntaje UN usando el procedimiento de equipación de tipo equipercentil calculado de la siguiente forma. Sea $x_{\text{Saber 11}}$ un puntaje Saber 11. El correspondiente puntaje en la escala UN se denotará $x_{\text{UN}}$. Denotamos $F_{\text{UN}}$ la función de distribución teórica de los puntajes UN y $G_{\text{Saber 11}}$ la función de distribución teórica de los puntajes Saber 11, entonces se tiene que
En consecuencia, se ha encontrado de manera científica que una forma segura para equiparar los puntajes UN y Saber 11 es transformar los puntajes Saber 11 mediante la ecuación lineal anterior.