¿Puede un algoritmo predecir la intención de voto a través de tuits?

Rumbo a las elecciones de 2024, investigadores de la Universidad Iberoamericana se preparan para poner en marcha el “Proyecto CEO”, que pretende dar resultados de la opinión pública emitida en Twitter.
6 Julio, 2023 Actualizado el 7 de Julio, a las 13:33
En enero de 2023, México era el segundo país latinoamericano con más usuarios de Twitter. (Imagen: iStock)
En enero de 2023, México era el segundo país latinoamericano con más usuarios de Twitter. (Imagen: iStock)
Arena Pública

Desentrañar el comportamiento electoral a través de los mensajes de Twitter es lo que un equipo multidisciplinario de investigadores de la Universidad Iberoamericana está buscando a través de un algoritmo para predecir el voto de la población hacia las elecciones de 2024.

Este método combina ciencia de datos y herramientas lingüísticas avanzadas para analizar millones de tweets y extraer patrones que podrían revelar las preferencias políticas de los usuarios. Sin embargo, a medida que la tecnología avanza, también surge un debate entre los expertos en tecnologías sobre los posibles sesgos inherentes en la evaluación de la opinión pública a través de esta plataforma, en la que emitir opiniones es tan fácil como hacer un clic. 

Investigadores de la Universidad Iberoamericana se prepara para afrontar los retos del proyecto rumbo a las elecciones de 2024. Mauricio Flores Gerónimo, académico de la Ingeniería en Ciencia de Datos de la Universidad Iberoamericana dice en entrevista que el denominado “Proyecto CEO” ya se puso en marcha desde las elecciones del 2018 y las más recientes del Estado de México en junio de este año. 

“La primera prueba del algoritmo fue para las elecciones del 2018, aunque se ha trabajado durante dos años. El equipo se conforma de tres lingüistas, encargados de analizar durante el primer año los textos que se vierten en Twitter con respecto a las elecciones de 2018. En este conjunto de tuits se comenzaron a clasificar en dos ramas: los tuits implícitos y los tuits explícitos”, dice Mauricio Flores, ingeniero en computación y doctor en Ciencias de la Ingeniería.

Y es que, precisamente la manera de desarrollar este ejercicio hace una conjunción entre la materia lingüística y la ciencia de datos, aunque en un principio, durante todo un año se realizó el análisis lingüístico de las opiniones expresadas en Twitter. Más adelante, se comenzó a codificar el algoritmo en un lenguaje de programación orientada a objetos. Al probarlo, la tendencia de voto electoral obtenida por el algoritmo, la tendencia se inclinó por Andrés Manuel López Obrador, actual presidente, dejando atrás a Ricardo Anaya y José Antonio Meade detrás, por lo que la tendencia fue acertada. 

Pero en términos de precisión aún hay que ajustar tuercas, pues el algoritmo también se probó durante las recientes elecciones del Estado de México. El proceso fue diferente, según cuenta Flores Gerónimo: “lo que hicimos posteriormente fue validarlo para estas elecciones, y lo dividimos en tres ventanas. después del primer debate, durante el primer debate y posterior a ello. La tendencia volvió a inclinarse hacia la maestra Delfina Gómez. Cuando lo ejecutamos en las elecciones, el porcentaje de coincidencia tuvo un margen de error de aproximadamente el 10% con las salidas del PREP”.

Durante el primer debate de las actuales elecciones del Estado de México, el algoritmo predijo una preferencia de 67% para Gómez y de 33% para Del Moral, y estos datos se aproximaron mucho a los de una encuesta de Enkoll publicada por El Universal al día siguiente: 65% para Gómez y 35% para Alejandra.

Gráfica de los resultados arrojados por el algoritmo en comparación con los de la encuesta Enkoll publicada por El Universal. (Imagen: Universidad Iberoamericana)

 

Pero las encuestas, precisamente como la que se utilizó como medio de referencia, ya acaparan un gran lugar en la recolección de datos estadísticos en la opinión pública. Esta apuesta se consolida en un panorama en el que ya existen diferentes encuestas a las que incluso los diferentes candidatos se apegan durante las campañas electorales. 

 

El valor de las encuestas 

Para Rodrigo Castro Cornejo, académico de la División de Estudios Políticos del Centro de Investigación y Docencia Económicas (CIDE) y experto en materia de Opinión Pública, las encuestas tienen un rol muy importante tanto como para partidos, candidatos y, desde luego, para la opinión pública. “Lo que estamos viendo es muy importante en el sentido de que, por ejemplo, los políticos eligieron a su próximo candidato presidencial por medio de encuestas”, dijo en entrevista. 

“Para las élites políticas son muy importantes, ya que dadas las alternativas, ciertos partidos políticos basan sus decisiones en las encuestas. Pero para la opinión pública, las encuestas permiten saber en qué lugar se encuentran los candidatos, y eso parecería muy básico, pero al final es importante porque podría definirse un voto estratégico. Permite tomar decisiones estratégicas o votos útiles. Es una fuente de información muy importante para tomar decisiones”, apuntó el experto.

Existen diferentes encuestas que tienen relevancia en el ambiente político. Este “método tradicional” tiende a catalogarse con cierto nivel de transparencia, dado que son reguladas a través de la Ley General de Instituciones y Procedimientos Electorales (LEGIPE), así como en el Reglamento de Elecciones, y esto aplica tanto para encuestas electorales, como sondeos de opinión, encuestas de salida y conteos rápidos. 

“El objetivo de la regulación mexicana en materia de encuestas es que quienes ordenen o publiquen encuestas y sondeos de opinión detallen su metodología sobre aspectos tales como tamaño de muestra, nivel de confianza, margen de error y tratamiento de no-respuestas, además de las fechas de levantamiento, el fraseo de las preguntas cuyos resultados se publiquen, y a partir de 2012, la entrega de la base de datos con las variables publicadas", se lee en el portal web del Instituto Nacional Electoral.

Según Castro Cornejo, el hecho de que este método de recolección de datos esté basado en un método científico, hace que la muestra de personas a nivel nacional, sea representativa de un electorado en México. “Más allá de los intervalos de confianza, y de los puntos porcentuales de error, el hecho de que un medio de comunicación base su información en una encuesta y den certidumbre, las personas basan sus decisiones en este muestreo probabilístico”.

Sin embargo, esta metodología no está exenta de posibles sesgos y limitaciones, ya que depende de la voluntad de los votantes para responder y puede no representar una muestra de la totalidad de los electores.

Del lado digital, Flores reconoce que hay un largo camino por recorrer. “Tenemos pensado implementar la geolocalización de tuits. La intención es tener los tuits que se están emitiendo en la localidad con mayor representación, por ejemplo, el Estado de México, y ver cómo se comporta la elección en lugares específicos, lo que podría darnos ventaja respecto a las encuestas de salida, pues estarían mejor localizadas, con un mayor número de datos”, dijo respecto a la comparación del Proyecto CEO y las encuestas de salida. 

Este tipo de instrumentos de análisis a través de tecnologías emergentes, apenas se desarrollan, por lo que no están siendo reguladas, en tanto que las encuestas llevan en el escenario político desde hace más de cinco décadas. Sin embargo, la recolección de datos es un campo que se presta a continuar analizando, aunque sin duda, analizar opiniones mediante una red social no es ni será una tarea nada fácil.

 

Twitter como “termómetro” de la opinión pública

En enero de 2023, México era el segundo país latinoamericano con más usuarios de Twitter, con más de 17 millones, sólo detrás de Brasil, según datos de Statista.  Pero aunque Twitter es por excelencia, una de las redes sociales más conocidas, no es la más usada por los mexicanos. Hasta el año pasado, era la sexta red social con más porcentaje de usuarios en México con 53.7%, detrás de TikTok con 73.6%, Instagram con 79.4% y Facebook Messenger con 8.3%. A la cabeza se encuentran Facebook (92.9%) y Whatsapp (92.2%). 

Twitter tiene una relevancia importante en nuestro entorno social digital. Para el Proyecto CEO, rescatar esto es de suma importancia. Ulises Cruz Valencia, académico y analista político y quien también forma parte del equipo de trabajo de la Universidad Iberoamericana, apunta que los usuarios, de cierta manera, vierten su opinión en Twitter de manera abierta, no viral.

“Lo que nosotros hacemos es tomar esa premisa, y tomar a Twitter como una plataforma donde pensamos que la gente puede emitir sus opiniones de manera abierta, o no tan restringida. Esa es una manera diferente a lo que se hace tradicionalmente, como una encuesta en papel que podría sesgar la respuesta. La red social es más abierta, por lo que los usuarios se expresarían con mayor sinceridad. Por eso escogimos esa plataforma”, apunta Flores Gerónimo.

Aunque retomar a Twitter puede ser un arma de dos filos. Alberto Escorcia, periodista e investigador en redes sociales, dijo en entrevista que “en el futuro Twitter ya va a dejar de ser un un factor importantísimo aunque va a ser muy determinante todavía, no será tan influyente como en 2018”. Cabe mencionar que los comentarios de Escorcia se obtuvieron antes que Mark Zuckerberg anunciara su nueva aplicación Threads, competencia directa de Twitter.

Escorcia, un experto en desenmascarar tendencias y sus orígenes en la plataforma, había advertido anteriormente sobre el tema de los bots, un peligro que se corre al utilizar Twitter. “Hay ejércitos de bots que se dedican a crear trending topics falsos, justamente para alimentar la ilusión de que lo único que pasa en el país es esa tendencia. Por esa razón se pierde la dimensión con la realidad”. Los bots en Twitter son cuentas automatizadas que realizan acciones y publicaciones de forma programada, sin la intervención directa de un usuario humano.

Estos están diseñados para llevar a cabo diversas funciones, como publicar contenido, seguir a otros usuarios, retuitear mensajes, responder a menciones, entre otras actividades. Los bots en Twitter han sido objeto de debate, ya que su presencia y actividad pueden influir en la conversación pública y distorsionar la percepción de la opinión popular. 

El Proyecto CEO ha detectado las cuentas de usuario repetitivas, pero aún se encuentra en el desarrollo de técnicas para depurar este tipo de alteraciones. “Lo que estamos haciendo es recuperar una base de datos e identificar a los usuarios en específico para que cuando detectemos que esos usuarios están opinando “demasiado”, o no parece ser humano, vamos a quitarlos de la recopilación de tuits”, dice Flores Gerónimo, quien asegura que están próximos a mejorar esta ventana de oportunidad durante las elecciones de 2024. 

Para Castro Cornejo "todo método es valioso en el sentido de que genera información y, sobre todo, si el método es transparente, sin duda es bienvenido”. Aunque el académico acota que el problema de este tipo de métodos y el análisis de información en Twitter es que se reduce a personas que están registradas en la plataforma.

“Obviamente los usuarios de Twitter no reflejan a la población general, porque hay un perfil específico de las personas que lo utilizan. En cambio, cuando se hacen encuestas en vivienda, cara a cara, con una muestra representativa, uno puede llegar a acceder a una muestra mucho más representativa, pues se busca corregir este tipo de sesgos”.

Este es uno de los principales retos del Proyecto CEO ya que en México el número de usuarios de Twitter es de 17.2 millones, lo que equivale a tan sólo 13.4% del total de la población, según datos del estudio Digital 2023 elaborado por We Are Social y Meltwater. En el país, 94 millones de personas usan redes sociales, es decir, 73.4% de los mexicanos. Aún así, el Proyecto CEO es una alternativa valiosa que captura el ánimo de las personas; ya sus desarrolladores han advertido que los datos de este proyecto reflejan la tendencia de la elección en un conglomerado determinado de tuits y no son representativos del territorio.

“Para tener una total representatividad, cada mexicano debería tener una cuenta de Twitter y manifestar su preferencia electoral”, dijo Cruz Valencia, quien posee un doctorado en Ciencias de Gobierno y Política. Sin embargo, admitió que muchas veces la red social se comporta de una manera similar al territorio. Es decir, aunque no tienen representatividad estadística, muchas veces los resultados son similares al resultado final.

A pesar de los sesgos de este análisis, el proyecto CEO busca incluso ir más allá del análisis de la intención del voto, hacia el “análisis de sentimientos y emociones” que generan los usuarios de Twitter en el contexto de una elección. Según el académico, con apoyo de los lingüistas también se busca analizar, por ejemplo, los discursos de odio o la desinformación.

El 'Proyecto CEO' -de acuerdo a los investigadores- seguirá perfeccionándose durante la ruta electoral hacia las elecciones presidenciales de 2024 buscando fortalecer el análisis de la opinión pública, ahora a través de la ciencia de datos y de los recursos tecnológicos.