La tiranía de las estrellas: el diablo está en los detalles

Fantástico, bien documentado y largo artículo en The Verge, «The rating game«, sobre los sistemas de valoración utilizados habitualmente por plataformas de matching entre oferta y demanda como Airbnb, Uber, TaskRabbit, Postmates, y cada vez más compañías. Un análisis interesante de cómo ese tipo de sistemas convierten al cliente en responsable de calidad en la prestación del servicio, permitiendo a las compañías crecer de una manera mucho más rápida que si tuviesen que contratar y mantener un ejército de supervisores, y de los problemas que puede generar la aplicación de estos mecanismos en la gestión de unos prestadores que acaban deviniendo en una relación muy cercana al servilismo.

Llevo veintiséis años trabajando bajo ese sistema, y soy un convencido de que en su aplicación está uno de los grandes factores que diferencian a la empresa en la que trabajo, IE Business School, de muchas otras universidades y escuelas de negocio que conozco. En el desempeño del trabajo como profesor en IE Business School, la evaluación de los alumnos juega un papel ya no fundamental, sino directamente central: menos de cuatro en una escala de cinco puede implicar desde que tu director de área te llame preocupado para preguntarte qué pasó en ese grupo en concreto, hasta determinar cuestiones como el precio por sesión en cursos in-company, la decisión de exigirle que acuda a un curso completo con otro profesor, o eventualmente, la de ofrecer o no a una persona continuidad en el claustro. En ese sentido, IE Business School es un sistema matricial, en el que los directores de programa piden profesores a los directores de área, pero pueden rechazar las decisiones de asignación en función de, sobre todo, un criterio fundamental: las valoraciones de los alumnos. Un profesor con encuestas consistentemente malas, sencillamente, no tiene sitio en el sistema. Como suelo decir habitualmente… «not your average university».

Por supuesto, tenemos muchos más años de experiencia en la gestión de ese sistema de rating de la que pueden tener plataformas con, como mucho, cuatro años de antigüedad. Y en efecto, los problemas citados en el artículo existen, aunque creo firmemente que son susceptibles de ser corregidos. De hecho, sigo siendo un firme creyente en el sistema, y creo que los principales problemas que ha podido generar se ven compensados de manera muy amplia por las mejoras que supone su aplicación. Por supuesto, estamos hablando de un sitio en el que los que reciben la valoración no son precisamente trabajadores fáciles de sustituir, no es un simple «que pase el siguiente». Teniendo por supuesto todo el respeto del mundo por los conductores de vehículos o por los encargados de hacer recados para un tercero, no es lo mismo sustituir a uno de ellos que tratar de encontrar reemplazo para un profesor de escuela de negocios en la que los alumnos mantienen un elevadísimo nivel de exigencia – razonable, por otro lado, si simplemente miran el precio por minuto de sesión. Y mi experiencia no se limita a la de ser profesor: en mis años como director de área era el responsable precisamente de notificar a mis profesores los resultados de sus encuestas, de diseñar medidas correctoras o de tomar decisiones sobre su asignación a otros cursos.

La respuesta a los problemas de este tipo de sistemas está en la gestión y en la analítica. No es lo mismo una puntuación de 4 sobre 5 en un grupo con un nivel de satisfacción general fantástico frente a uno en el que la dinámica ha devenido en un hipercriticismo desmesurado. La dinámica de una clase depende de muchísimos factores, entre los que están, por ejemplo, las características de los alumnos, la combinación de profesores asignados en un período determinado, o simplemente el transcurrir del curso a lo largo del año: alumnos inicialmente más tolerantes suelen tornarse en jueces más severos a medida que pasan los meses. De ahí que la normalización sea un proceso fundamental en la toma de decisiones: si bien todos somos informados de nuestra puntuación tal y como emerge de la media de los alumnos y sin ningún tipo de procesamiento o de «cocina» que fuese susceptible de desvirtuarla, disponemos también de medidas que nos permiten apreciar la relevancia real de la puntuación. Así, un 4 en un grupo en el que esa puntuación está sensiblemente por debajo de la media del resto de los profesores (no vemos las puntuaciones de nuestros compañeros, pero sí su media) es muy diferente de otro 4 en un grupo en el que estás marcadamente por encima, y eso afecta, entre otras cosas, tu propia moral.

El feedback, por otro lado, es completamente detallado. El profesor recibe sus puntuaciones procesadas con media y dispersión, y el listado completo de comentarios sin ningún tipo de edición. En ocasiones resulta cruel, como director de área pasé en ocasiones por momentos especialmente delicados, pero parece funcionar adecuadamente así, y ser muy útil para un nivel de corrección de matices que únicamente el propio profesor es capaz de entender y controlar.

El control del sistema es fundamental, asimismo, para evitar otro problema comentado en el artículo de The Verge: la tendencia a una especie de «servilismo». De nuevo, no es lo mismo conducir un vehículo o hacer recados que impartir clase con un elevado nivel de exigencia, pero hace ya muchos años que sabemos que un profesor encantador, divertido, que impone un nivel de exigencia mínimo y hace la vida fácil a sus alumnos podría no ser precisamente lo mejor para su formación. El estilo «Ramón el simpaticón», que obtiene valoraciones elevadas a costa de un menor rigor o exigencia académica es, evidentemente, un modelo a evitar, y la forma de hacerlo es diseñando las preguntas de la encuesta que se pasa a los alumnos de la manera adecuada, tratando de aislar los diferentes factores a valorar. Otra posibilidad que, lógicamente, no existe en las plataformas para tareas sencillas: mientras uno de nuestros alumnos puede estar dispuesto a rellenar una encuesta razonablemente prolija en detalles y que le lleva unos cinco minutos como media y un nivel de introspección razonablemente elevado, el usuario de un servicio de transporte o de un servicio similar no pasa de unos segundos y de un clic con el dedo, y tratar de insistir en más detalles supone perder la oportunidad de obtener una valoración.

En cualquier caso, la clave parece estar en la gestión del sistema: las puntuaciones no son el fin, sino el medio, y su procesamiento debe ser sensible a multitud de factores, pero sin caer en la arbitrariedad. Al final, el éxito radica en los años de experiencia, en la consistencia y en la conciencia clara de los objetivos a alcanzar. Por supuesto, no puedo afirmar que el sistema sea perfecto, pero sí que tiende a identificar y aislar la mayor parte de los problemas habituales, y que tanto profesores como alumnos son conocedores de su importancia.

A la hora de valorar este tipo de sistemas en plataformas como las citadas en el artículo, resulta fundamental entender que hablamos de sistemas que tratan de capturar una realidad compleja dentro de un esquema sencillo que facilite su obtención. Pero eso, obviamente, no quiere decir que el procesamiento deba ser igual de sencillo. En último término, no es lo mismo recibir cinco estrellas de un cliente que consistentemente puntúa con cinco estrellas todos los servicios, que recibirlas de uno que en un número elevado de ocasiones contesta la encuesta con tres o con dos estrellas. Ambos casos deben ser sujetos a una normalización, y tomados, lógicamente, con su correspondiente grano de sal. Sin perder objetividad, rigor ni valor como realimentación de la actividad, el sistema debe corregir desviaciones ajenas al propio prestador del servicio, que podría desmotivarse completamente si termina por tener la impresión que los factores que finalmente inciden en su valoración están completamente fuera de su control.

Pero lo fundamental persiste: como sistema de valoración y control, parece infinitamente mejor que ninguna de sus alternativas, y adecuadamente gestionado, incide en un servicio de mejor calidad y en una satisfacción más elevada. Cada vez más, vivimos en un mundo en que este tipo de sistemas están tomando un protagonismo cada vez más elevado: sales del control de seguridad del aeropuerto o de cada vez más tiendas, y te encuentras una botonera con colores y caritas que te piden una valoración de la atención recibida, que realizas sin pensarlo mucho en tu camino hacia la salida. Sin duda, algo que vamos a encontrarnos más y más: si su compañía no utiliza este tipo de sistemas, vaya planteándose si debería hacerlo, y qué podría obtener de ello. Pero como en tantas otras cuestiones, el sistema no es el problema ni la virtud: el diablo está en los detalles.

This article is also available in English in my Medium page, “When it comes to star ratings, the devil is in the detail«

#001
Ernesto - 1 noviembre 2015 - 13:26
Estos sistemas hay que tomarlos con pinzas, y en el caso del sector de la educación superior mas aun, me consta que si el publico objetivo no ha llegado a la clase sin pasar por un filtro adecuado (no solo el monetario, sino también intelectual) son mas proclives en valorar mejor a quien les pone las cosas fáciles para aprobar, siendo que quien exige las cosas en aras de que el alumno conozca lo real, termina siendo penalizado; el problema se agrava puesto que como esos alumnos no dejan de ser «clientes», es la institución la que presiona a sus docentes para dar mas facilidades a los alumnos sin tener en cuenta el contexto de como esos alumnos llegaron hasta ahí, y el como siempre están dispuestos a buscar atajos.
- Enrique Dans - 1 noviembre 2015 - 13:30
  Precisamente por eso se ponen esos controles. Que el sistema funciona en nuestro caso no puede ser puesto en duda, salvo para buscarle mejoras y evolución, que obviamente es algo que no dejamos de hacer, pero son ya muchos años de aplicación constante y de considerarlo un valor diferencial, una parte de la cultura. Pero que su aplicación no es sencilla, completamente de acuerdo.
  - Mua - 2 noviembre 2015 - 18:55
    Ejercí en la docencia durante muchos años, todos ellos en el sector de la enseñanza Pública. Cuando me inicié, primaba el modelo tradicional, que gravitaba sobre la clase magistral; al jubilarme, todavía persistía en todos los niveles de enseñanza. Durante mi carrera universitaria tuve que volverme un autodidacta para compensar las lagunas que un sistema educativo caduco generaba. Ello me llevó a lo largo de los años a apostar por el Modelo pedagógico del Constructivismo, que tan solo pude aplicar en aquellas asignaturas en la cual tenía capacidad exclusiva de decidir. En este modelo, la responsabilidad del aprendizaje recae en el alumno, no en el docente, como con los modelos anteriores, y cuya labor debe ser el estimular, aportar información y medios de aprendizajes acordes con la época y moderar estrechamente el proceso educativo. Objetivo: prepararles para la educación continuada, cuando dejen su fase de aprendizaje tutelado y se enfrenten a la dura realidad cotidiana de demostrar la excelencia y competitividad. Siempre estuve en contra de las valoraciones de los alumnos respecto a cualquier profesor, por su posible sesgo intencionado y dado que empleaba sistemáticamente como único criterio la media aritmética de las puntuaciones individuales, sin aportar ningún índice de dispersion. Mi argumento era que si se dudaba de la capacidad docente de cualquier profesor, éste debería tener derecho a el ser sometido a un tribunal evaluador imparcial, donde tuviera la posibilidad de demostrarlo. En mi terreno educativo, un argumento de peso para acceder a la categoría docente más alta en tu disciplina era -y aún lo es- el número de publicaciones con su índice de impacto que el candidato tuviera. Soy del criterio que si ello se sustituyera por una prueba con cinco supuestos de investigación, cada uno con diversos fallos formales y metodológicos que el examinado debería descubrir y argumentar, nos llevaríamos no poco sorpresas, como en su día lo pusiera en evidencia el trabajo realizado por WILLIAMSON, GOLDSCHMIT Y COLTON (1986). Cada vez que tal o cual «experto» opina sobre un tema con muchas aristas, no puedo evitar que me invada un escalofrío.
#004
Gorki - 1 noviembre 2015 - 14:22
Evidentemente si no tenemos en cuenta el grado de satisfacción de los usuarios de un producto/servicio, corremos el riesgo de que se reduzca el número de clientes y no sepamos por qué. .
Pero las evaluaciónes que se hace por ejemplo en TrypAdvisor o son justas ni fiables, y puede que sea preferible tener en cuenta otros indicadores o encuestas, pero los cierto que algún sistema hemos de adoptar para evaluar el buen servicio/producto que ofertan.
El problema a mi juicio es que este tipo de encuestas llevan implícitas mucho sesgo, (como tu explicas), por lo que han de ser interpretadas, (como parece que ocurre en IE).Por ejemplo, yo no suelo comentar el restaurante que me da de comer razonablemente bien, comento sólo, si me tratan excepciónalmente bien, y también o, (y ahí la injusticia), si me tratan razonablemente mal.
Por tanto, si no hubiera más comentarios que los de los clientes reales, (estoy seguro que hay muchos comentarios de amigos) , el sesgo haría que parecieran que te tratan mal en casi todos los sitios .
Lo malo es que la encuesta no la revisa alguien que puede detectar el sesgo, sino un cliente sin la menor preparación para evaluar los resultados, lo cual obliga en estos casos a servilismo ( y a hacer trampas) en los negocios sometidos a este tipo de evaluaciones públicas, como AirBnb, restaurantes, Blablacar y sitios parecidos
#005
Manuel - 1 noviembre 2015 - 15:13
OFF TOPIC para Enrique: Leyendo los dos primeros párrafos de tu post he tenido la extrañísima sensación de deja-vu… ¿Habías escrito ya de este tema? ¿Con estos términos?
Fin del off-topic, sigo leyendo.
- Enrique Dans - 1 noviembre 2015 - 15:17
  Sí, el domingo pasado comenté un artículo de El País sobre el IE en el que me citaban, y dediqué algunas frases al sistema de encuestas, puede que me haya repetido algo… el origen del tema es completamente diferente, pero pensé que algo podía aportar al análisis…
#007
Mar - 1 noviembre 2015 - 19:29
Hola Enrique. Como siempre, un artículo excelente. sólo quería aportar algo más simple, relacionado con los ratings en dos aspectos:
En realidad, es una petición, ya que tú escribes claro. Como bien sabrás, existe todo un inframundo en el que pequeñas y medianas empresas (normalmente turísticas) suelen atacarse calificando pobremente al rival. Un amigo mío, cuya empresa organiza viajes para singles, tiene que luchar constantemente con el juego sucio de la empresa rival y es muy difícil neutralizar esa injusta y mala reputación online con la que pretenden hundirle.
Y, por otra parte, he comprobado que cada vez más, a falta de reseñas, debe existir algún experto del tipo «Fake Rater» que escribe reseñas excelentes sobre productos o servicios, con 4-5 estrellas. Pero cometiendo grandes errores: ¡La misma ortografía perfecta y el mismo uso de signos de acentuación en un entorno donde la mayoría no sabe utilizar puntos, comas y acentos!
Sé que estos dos temas son banales (o quizá no, ya que hablamos de competencia desleal y engaño al comprador).
#008
Xaquín - 1 noviembre 2015 - 22:00
La opinión de un alumno no debe servir para valorar al profesor (sin los correspondientes filtros) , pero es un elemento valioso (sin filtros!) para conocerse (el profe y el alumno). Dudo mucho que Sócrates practicara otro mecanismo diferente para saber (de si mismo y de los demás)… ah, y con mínima tecnología!
#009
Mauricio - 1 noviembre 2015 - 23:04
En tu interesante exposición sobre la evaluación a los docentes me parece que falta un componente que a lo mejor no es tan relevante en el IE, pero que sí lo es en algunas facultades y universidades. Se trata de la ideología del docente.
Cuando era estudiante fui testigo de una enorme injusticia al respecto: un excelentísimo y equilibrado docente tuvo que renunciar a su posición de director sencillamente porque no tenía la misma orientación ideológica que la que en ese momento tenían los miembros de la asociación de estudiantes.
En ocasiones, el fanatismo ideológico de cualquier signo lleva a que varios buenos docentes sean despedidos y sustituidos por individuos mediocres, cuyo único mérito es saber repetir como loros las consignas del partido, movimiento, agrupación o secta que se ha hecho fuerte en la respectiva facultad o universidad.
#010
Olav - 2 noviembre 2015 - 01:19
Enrique, deberías ver el episodio S19E04 de South Park, «You’re Not Yelping». Brillante.
https://en.wikipedia.org/wiki/You%27re_Not_Yelping
#011
Carlos - 2 noviembre 2015 - 10:50
Pueeees…. sí y no :-)
Para mi, las 5 estrellas no valen, y podrían ser preocupante los resultados de 1 estrella: los que de verdad cuentan son los resultados de 2-4, porque significan que alguien se ha tomado tiempo para pensar qué poner y en dar una puntuación.
Los resultados de 5* no me valen porque prefiero ir con cautela y no mezclar los resultados de «me ha gustado, un 5» con los entusiastas de «¡bien, bravo, cinco!».
Los 2-4* me dicen mucho porque el producto ha hecho que se molesten en tomarse su tiempo para evaluar y poner una puntuación muy concreta, y para mi valen más los 4* que las 5*
Los de 1* me preocupan porque cuentan tanto los de «no me ha entusiasmado: 1 estrella», con los de «meh, 1 estrella, por ejemplo», los «no es exactamente lo que yo quiero, así que 1*» con los que «bueh, esto mismo», y además los que se hayan tomado su tiempo y consideren que 1 estrella es lo que merece el producto.
#012
Aitor - 2 noviembre 2015 - 15:37
Pues yo, como siempre llegando tarde, os pongo un ejemplo claro de 2 sitios:
Jo… No veais lo apasionante lo que es ver los libros americanos de negocios de los años 40 hasta el año 2.000. Es asombroso el uso que hacen de la religión, cristiana principalmente, y de las «famosas parábolas».
De las gestión o business actual… Este «sabihondo» ya os contará otro día. Es tan simple como comprobar que el camión de hormigòn cumpla los estandares, la cuba de vino no falle, el tanque de pegamento sea el adecuado, vigilar el camino, etc. (El problema es que algunos se aburren… Y nos salen a controlar lo que funciona perfectamente. «A estos funcionarios les voy a controlar el tiempo.» «El bombero piromano: Si no hay incendios, los provoco» )
La verdad… ¡Dan asco.!
A lo que iba:
http://www.chip.de/bestenlisten/Bestenliste-Tablets–index/index/id/970/
http://www.kieskeurig.nl/tablet
http://www.chip.de/bestenlisten/Bestenliste-EBook-Reader–index/index/id/1050/
http://www.kieskeurig.nl/e-reader
¿Adivinais cuál es cuál: Fabricante-Publicidad versus Vendedor-Usuarios.?
#013
Edgar Ch - 3 noviembre 2015 - 18:17
El problema con las estrellas lo vivo día a día en la Play Store de Google. Hay aplicaciones con menos de 100 valoraciones, y otras con millones. No puedo hacer una comparación objetiva en esos términos.
Además ahí se refleja el comportamiento mencionado por #004 Gorki; sobresalen las valoraciónes de 5 y de 1. No hay puntos intermedios.
A favor, puedo decir que en una página de ventas por internet le compro al que tiene certificación «Gold» o «Platinum» con alto número de transacciones realizadas, en lugar del sospechoso «nuevo» vendedor que ofrece un precio 30% por debajo del estándar.
Como tal el sistema de evaluación puede ser muy útil, pero no en todos los ámbitos se aplica adecuadamente, ni mucho menos podemos fiarnos siempre de los resultados.