#IStandWithPutin versus #IStandWithUkraine: La interacción de bots y humanos en la discusión de la Guerra Rusia/Ucrania Bridget inteligente 1[0000 − 0002 − 0910 − 9470] , Josué Watt 1[0000 − 0001 − 7899 − 1244] , Sara Benedetti 1[0000 − 0003 − 3514 − 797 X] , Lewis Mitchell 1[0000 − 0001 − 8191 − 1997] , y matthew áspero 1[0000 − 0002 − 7882 − 7329] 1 la universidad de adelaida {bridget.smart, joshua.watt, sara.benedetti, lewis.mitchell, matthew.roughan }@adelaide.edu.au set.adelaide.edu.au/matemáticas-ciencias Resumen.La invasión rusa de Ucrania en 2022 enfatiza el papel que juegan las redes sociales en la guerra moderna, con conflictos que ocurren tanto en el entorno físico como en el de la información. Existe una gran cantidad de trabajo sobre la identificación de la actividad cibernética maliciosa, pero se centra menos en el efecto que esta actividad tiene en la conversación general, especialmente en lo que respecta al conflicto entre Rusia y Ucrania. Aquí, empleamos una variedad de técnicas que incluyen medidas teóricas de la información, análisis lingüístico y de sentimientos, y técnicas de series temporales para comprender cómo la actividad de los bots influye en el discurso en línea más amplio. Al agregar grupos de cuentas, encontramos flujos de información significativos de cuentas similares a bots a cuentas que no son bots con un comportamiento que difiere entre los lados. Las cuentas pro-rusas que no son bots son las más influyentes en general, con flujos de información a una variedad de otros grupos de cuentas. No existen flujos salientes significativos de cuentas no bot pro-ucranianas, con flujos significativos de cuentas bot pro-ucranianas a cuentas no bot pro-ucranianas. Descubrimos que la actividad de los bots genera un aumento en las conversaciones en torno a la angustia (conpags=2 .450 ×10 − 4 ), así como los que rodean el trabajo/gobernanza (con pags=3 .803 ×10 − 18 ). La actividad de los bots también muestra una relación significativa con el sentimiento de los no bots (con pags=3 .76 ×10 − 4 ), donde encontramos que la relación se cumple en ambas direcciones. Este trabajo amplía y combina técnicas existentes para cuantificar cómo los bots están influyendo en las personas en la conversación en línea sobre la invasión de Rusia/ Ucrania. Abre vías para que los investigadores comprendan cuantitativamente cómo funcionan estas campañas maliciosas y qué las hace impactantes. Palabras clave:Redes de bots·Flujo de información·Análisis de los sentimientos·Análisis lingüístico·Campañas de desinformación·Campañas de Influencia·Gorjeo. 1. Introducción Las redes sociales son una herramienta fundamental en la guerra de la información y desempeñaron un papel importante en la invasión rusa de Ucrania en 2022 [6,30]. Desinformación y, en general, control reflexivo[38] han sido utilizados por Rusia y otros países contra sus enemigos e internamente durante muchos años [10]. Un recién llegado relativo en este espacio, Twitter, ya se ha utilizado ampliamente para tales fines durante conflictos militares, por ejemplo en Donbass [10], pero su papel en los conflictos está evolucionando y no se entiende completamente. Ambas partes del conflicto ucraniano utilizan el entorno de información en línea para influir en la dinámica geopolítica y influir en la opinión pública. Las redes sociales rusas impulsan las narrativas en torno a su motivación, y las redes sociales ucranianas tienen como objetivo fomentar y mantener el apoyo externo de los países occidentales, así como promover sus esfuerzos militares mientras socavan la percepción de las fuerzas armadas rusas. Ejemplos de estas narrativas incluyen acusaciones: que Ucrania estaba desarrollando armas biológicas [40], que el presidente Volodymyr Zelenskyy se había rendido [5,dieciséis], y que existe una campaña sostenida que muestra el aparente éxito de 'El Fantasma de Kiev' [18]. Parte de la información que se envía es genuina y parte es maliciosa. No es fácil discriminar cuál es cuál. Comprender y medir los flujos de información y varias características del lenguaje ha permitido previamente a los investigadores comprender la dinámica de la comunidad e identificar cuentas y contenido no auténticos.36,31,1]. Aquí aplicamos y ampliamos estas técnicas para comprender y cuantificar la influencia de las cuentas tipo bot en las discusiones en línea, utilizando datos de Twitter centrados en la invasión rusa de Ucrania. En esencia, buscamos determinar si las campañas de influencia maliciosa funcionan según lo previsto. Nuestro conjunto de datos consta de 5 203 764 tuits, retuits, tuits de citas y respuestas publicadas en Twitter entre el 23 de febrero y el 8 de marzo de 2022, que contienen los hashtags #(I)Apoyar a Putin, #(I)Apoyar a Rusia, # (I)Apoyar a Rusia, #(I)Apoyar a Ucrania, #(I)Apoyar a Zelenskyyy #(I) Apoyo a Ucrania [39]. arXiv:2208.07038v2 [física.soc-ph] 20 de agosto de 2022 Traducido del inglés al español - www.onlinedoctranslator.com 2 B. Smart et al. Rusia captura primer mayor ciudad ucraniana Rusia captura la energía nuclear planta Intentar evacuar Mariúpol Conflicto comienza luchando en Comienza Mariúpol 1.0 0.8 Tipo de robot General césped artificial Seguidor falso Financiero autodeclarado Spammer Otro 0.6 0.4 0.2 0.0 50000 40000 Tipo de etiqueta 30000 # (I)Apoyar a Ucrania # (Yo)Apoyo a Putin # (I)Apoyar a Rusia # (I)StandWithZelenskyy # (I)SoporteRusia # (I)Apoyo a Ucrania 20000 10000 0 23-feb 24-feb 25-feb 26-feb 27-feb 28-feb 01-mar 02-mar 03-mar 04-mar 05-mar 06-mar 07-mar 08-mar 09-mar Hora UTC Fig. 1: Probabilidades promedio por hora de que los bots tuiteen hashtags de consulta (arriba). Frecuencia horaria de los hashtags de consulta (abajo). El período de tiempo que consideramos es la primera quincena después de la invasión rusa de Ucrania. Ambas parcelas también incluyen cinco eventos significativos durante este período de tiempo. Tenga en cuenta que los hashtags de consulta se pueden encontrar en la Sección3. Podemos observar un aumento significativo en la actividad de bots de varios tipos de bots los días 2 y 4 de marzo. El aumento en la actividad de los bots el 2 de marzo se alinea con la captura de Kherson por parte de Rusia, y también se alinea con un aumento significativo en los hashtags a favor de Rusia. Este aumento en la actividad se debió a un aumento en la actividad de los bots prorrusos. - probablemente utilizado por las autoridades rusas. El aumento en la actividad de los bots el 4 de marzo se alinea con cuando disminuyó el uso de hashtags pro-Rusia, pero también cuando Rusia capturó la planta de energía nuclear de Zaporizhzhia. Este pico se debió a un aumento en la actividad de los bots pro-rusos (antes de ser eliminados) y un aumento en la actividad de los bots pro-ucranianos, probablemente por parte de las autoridades pro-ucranianas en respuesta a los bots rusos. Mira la sección3para mas detalles. Un gráfico de resumen de los datos se muestra enFigura 1. La figura también muestra una medida de la proporción de tráfico de bots durante el mismo período de tiempo, según lo estimado por la herramienta de detección de bots Botometer [33]. En todas las cifras de la serie temporal, presentamos cinco eventos significativos que brindan contexto para nuestros hallazgos: cuando comienza el conflicto (24 de febrero de 2022), cuando comienza la lucha en Mariupol (26 de febrero de 2022), cuando Rusia captura Kherson (2 de marzo de 2022) , cuando Rusia captura la central nuclear de Zaporizhzhia (4 de marzo de 2022) y cuando las autoridades ucranianas intentan evacuar Mariupol por primera vez (8 de marzo de 2022). Estos eventos están vinculados a cambios notables en los volúmenes de tweets relacionados, y en nuestro análisis profundizamos para comprender cómo fluye la información. Como resultado, aprendemos cómo los bots influyen en la conversación en línea al medir de qué hablan las comunidades en línea y cómo evoluciona esta discusión. Usamos técnicas basadas en reglas y léxico para crear un enfoque que sea sólido, Empleamos técnicas de análisis de series de tiempo para comprender cómo la actividad similar a la de un bot afecta al grupo más amplio de participantes, midiendo el contenido lingüístico, el sentimiento y su efecto retardado en discusiones futuras. Usamos la Investigación Lingüística y Conteo de Palabras (LIWC; pronunciado “Luke”) [29] y Valence Aware Dictionary for Sentiment Reasoning (VADER) [13], modelos basados en diccionarios para medir las características lingüísticas y el sentimiento de nuestro conjunto de datos. Para medir la actividad de los bots, clasificamos una muestra aleatoria del 26,5% de las cuentas que publicaron al menos un Tweet en inglés en el conjunto de datos usando Botometer [33]. Este trabajo amplía las técnicas existentes para comprender cómo las cuentas similares a bots difunden desinformación en Twitter y medir el efecto de estas campañas maliciosas. Los principales aportes son: – Una extensión de las técnicas de flujo de información existentes para examinar la actividad grupal agregada. Establecemos la significancia estadística de los flujos de información entre cuentas agrupadas por lean nacional y tipo de cuenta. Los flujos de información más altos provienen de cuentas prorrusas que no son bots. Los flujos de información en grupos de cuentas que no son bots solo son significativos para las cuentas equilibradas y pro- Ucrania, y las cuentas que no son bots pro-rusas solo muestran un flujo de información de salida neta. Recuento de hashtags Probabilidad horaria promedio La interacción de bots y humanos en la discusión de la guerra entre Rusia y Ucrania 3 – Establecemos una relación significativa entre la actividad de los bots y el sentimiento general de los no bots (con pags=0 .000376), pero encuentra que esta relación es significativa tanto para los retrasos positivos como para los negativos, lo que indica que puede haber factores de confusión. – Un análisis del efecto que la actividad de los bots tiene sobre las emociones en las discusiones en línea sobre el conflicto entre Rusia y Ucrania. Encontramos que los bots aumentan significativamente las discusiones de las categorías LIWC: Angustia, Amigo, Movimiento, Tiempo, Trabajo y Relleno. La relación más fuerte es entre la actividad del bot autodeclarada y las palabras en la categoría 'Trabajo' (con pags=3 .803 ×10 − 18 ), que incluye palabras relacionadas con las estructuras de gobierno como "presidente" y "gobierno". – un conjunto de datos 1 de usuarios de Twitter que participaron en debates sobre la invasión rusa de Ucrania [39]. 2. Trabajo relacionado Muchos trabajos han analizado cuentas similares a bots en las redes sociales [25,15,9]. Los autores han demostrado que los bots están presentes en las redes sociales, especialmente en lo que respecta a campañas/movimientos políticos [25]. Keller y Klinger [ 15] mostró que la actividad de los bots sociales aumentó del 7,1 % al 9,9 % durante las campañas electorales alemanas, utilizando las probabilidades de los bots antes y durante la campaña electoral. Además, Stella et al. [37] mostró que los bots aumentan la exposición a contenido negativo e incendiario en los sistemas sociales en línea. Estos autores utilizaron varias redes de información para encontrar que el 19% de las interacciones en general se dirigen de bots a humanos, principalmente a través de retweets (74%) y menciones (25%) [37]. Un enfoque más centrado en lo social de Cresci et al. [9] midió las capacidades actuales de Twitter para detectar spambots sociales. Evalúan el desempeño humano al discriminar entre cuentas genuinas, spambots sociales y spambots tradicionales a través de una campaña de crowdsourcing. En particular, estos trabajos se centran en analizar aspectos estructurales de las redes de comunicación entre cuentas bot y no bot, mientras que examinaremos los flujos de información directamente, utilizando el contenido completo de los tweets. Los flujos de información en las redes sociales en línea se han utilizado para revelar las dinámicas de red subyacentes y se han empleado para comprender cómo los usuarios individuales ejercen influencia unos sobre otros en línea. Por lo general, estos flujos se miden utilizando medidas estadísticas y de teoría de la información de los flujos de información [1,31,36], para comprender si existen flujos de información significativos entre grupos, particularmente entre cuentas bot y no bot. En las redes sociales, los enfoques existentes solo consideran los flujos de información a nivel de cuenta, mientras que nuestro trabajo consideró los flujos de información agregados. El uso de bots por parte de las autoridades rusas ha sido ampliamente observado: p.ej,collins [7] descubrió que 5000 bots impulsaban protestas contraRusiagate haux,un evento político sobre las relaciones entre políticos de EE.UU. y Rusia; y Shane [35] sugirió que Rusia creó 'Fake Americans' para influir en las elecciones estadounidenses de 2016. Además, Purtill [32] descubrió que Rusia tenía un enorme ejército de bots para difundir desinformación sobre el conflicto entre Rusia y Ucrania. Moscatel y Siebert [22] han sugerido que tanto Ucrania como Rusia están utilizando ejércitos de bots en su guerra cibernética. Sin embargo, la medida en que estos bots impulsan debates particulares e influyen en el comportamiento de los humanos en las redes sociales durante el conflicto entre Rusia y Ucrania es relativamente inexplorada. Nuestro objetivo es abordar esta pregunta a través de nuestro análisis de los flujos de información, el sentimiento y las características lingüísticas. 3 Recopilación y preprocesamiento de datos Utilizamos la API de Twitter (V2) para recopilar todos los tweets, retweets, citas y respuestas que contienen versiones que no distinguen entre mayúsculas y minúsculas de los hashtags #(I)Apoyar a Putin, #(I)Apoyar a Rusia, #(I)Apoyar a Rusia, # (I)Apoyar a Ucrania, #(I)Apoyar a Zelenskyyy #(I) Apoyo a Ucrania [39]. Estos tuits se publicaron desde el 23 de febrero de 2022 a las 00:00:00 UTC hasta el 8 de marzo de 2022 a las 23:59:59 UTC, quince días después de que Rusia invadiera Ucrania. Consultamos los hashtags con y sin la 'I' para un total de 12 hashtags de consulta, recopilando 5.203.746 tweets. Los datos recopilados son anteriores al comienzo de la invasión rusa de 2022 por un día. Se eligieron estos hashtags porque resultaron ser los hashtags más populares relacionados con la guerra entre Rusia y Ucrania, que podrían identificarse fácilmente con un lado particular del conflicto. Primero extrajimos todos los tweets en inglés etiquetados en Twitter del conjunto de datos. De estos, calculamos la proporción de palabras que aparecen en cada categoría LIWC para un tweet determinado. Estas proporciones son a lo que nos referimos como 'Datos LIWC'. Las cuentas únicas en este conjunto de datos filtrados se muestrearon aleatoriamente para calcular las etiquetas de Botometer a nivel de cuenta, ya que Botometer usa funciones que dependen del idioma. 1 Conjunto de datos disponible enhttps://figshare.com/articles/dataset/Tweet_IDs_Botometer_results/20486910. 4 B. Smart et al. La eliminación de cuentas rusas por parte de Twitter el 3 de marzo puede dar lugar a problemas de sesgo en nuestros datos, ya que la actividad de estas cuentas no estará presente en nuestro conjunto de datos. Sin embargo, el análisis mostró que el contenido difundido por estas cuentas persistió a pesar de la eliminación. 2 3.1 Categorización de cuentas a través de lean nacional Se extrajeron los hashtags de consulta de cada tweet y se contó el número total de hashtags pro-ucranianos (que terminan en Ucrania o Zelenskyy) y pro-rusos (que terminan en Rusia o Putin) y se usaron para establecer el nacional. inclinarsede un tuit. Si el número de hashtags de consulta pro-ucranianos excedía el de los hashtags pro- rusos, el tweet se etiquetaba como 'ProUkraine' y, a la inversa, se etiquetaba como 'ProRussia'. Si los recuentos estaban equilibrados, el tuit se etiquetaba como 'Equilibrado'. Cuando correspondía, la inclinación de una cuenta se tomó como la inclinación nacional más común en todos los tweets de esa cuenta. Descubrimos que el 90,16 % de las cuentas caían en la categoría 'Pro Ucrania', mientras que solo el 6,80 % caían en la categoría 'Pro Rusia'. La categoría equilibrada contenía el 3,04% de las cuentas, lo que muestra que las cuentas que exhiben un comportamiento mixto están presentes en el conjunto de datos. Exploramos otros métodos para clasificar las cuentas, por ejemplo, etiquetar las cuentas como 'ProUkraine' o 'ProRussia' si usan solo esos tipos de hashtag. Sin embargo, como nos preocupaba principalmente la actividad agregada, decidimos priorizar el etiquetado de cada cuenta por su comportamiento "habitual". 3.2 Clasificaciones de bots Usamos botómetro [41] para cuantificar el alcance de la actividad del bot en el conjunto de datos mediante la asignación de puntajes a una muestra aleatoria de cuentas. Tenga en cuenta que utilizamos las puntuaciones de 'inglés' de Botometer a lo largo de este documento; estas puntuaciones utilizan funciones tanto dependientes como independientes del idioma durante la clasificación [41]. Botometer proporciona una puntuación de bot 'general', denominada probabilidad de automatización completa (CAP) y puntuaciones correspondientes a seis subtipos distintos: AstroTurf, seguidor falso, financiero, autodeclarado, spammer y otros. Los límites de frecuencia nos permitieron muestrear aleatoriamente el 26,5 % de las cuentas únicas de nuestro conjunto de datos que publicaron al menos un Tweet en inglés. Esta muestra aleatoria conduce a una frecuencia aproximadamente uniforme de Tweets de cuentas con etiquetas Botometer en el período de tiempo que consideramos. Debido a restricciones de límite de tasas, los puntajes del Botómetro se calcularon después de la recopilación, por lo que es posible que se haya eliminado una pequeña cantidad de cuentas o que los puntajes se calculen utilizando la actividad después de nuestro período de recopilación. Si bien es más apropiado usar el puntaje CAP de Botometer como una medida de qué tan similar a un bot es una cuenta, en lugar de como una herramienta de clasificación, era necesario etiquetar las cuentas para establecer y comprender los flujos de información entre los grupos de cuentas. Utilizando el límite recomendado de 0,43, categorizamos cada cuenta etiquetada en una de las seis categorías de Botometer o como 'NotBot' [33]. Cuando no se consultó una cuenta, se la etiquetó como 'FailedToClassify'. El proceso para cada cuenta es el siguiente: 1. Si la puntuación máxima del botómetro es superior a 0,43, la etiqueta de categoría correspondiente se asigna a esa cuenta. 2. De lo contrario, si la puntuación máxima es inferior a 0,43, la cuenta se clasifica como 'NotBot'. 3. De lo contrario, la cuenta se etiqueta como 'FailedToClassify'. Los resultados de la clasificación fueron 1.347.082 'FailedToClassify', 218.382 'NotBot', 192.633 'Other', 29.627 'Fake Follower', 29.622 'AstroTurf', 1.976 'Spammer', 1.723 'Self Declared' y 662 cuentas 'Financieras'. 4 El papel de los bots en la discusión general Figura1muestra la probabilidad promedio de bot por hora para diferentes tipos de bot (arriba) y la frecuencia por hora de los hashtags de consulta (abajo). Hay un pico inicial en el #(I) Apoyar a Ucraniatweets, que también es el más dominante en general. Curiosamente, el #(I) Estar Con Putiny #(I) Apoyar a Putinlos hashtags aumentan los días 2 y 3 de marzo, justo después de que Rusia capturara su primera ciudad ucraniana (Kherson). Creemos que estos picos de apoyo 2 https://twitter.com/timothyjgraham/status/1500101414072520704 La interacción de bots y humanos en la discusión de la guerra entre Rusia y Ucrania 5 de Putin se deben principalmente a la presencia de bots, como lo indica el aumento en la actividad general de bots en esta época. Esta observación fue realizada de forma independiente por el investigador Timothy Graham en esta época [ 32]. El 4 de marzo, Twitter eliminó a más de 100 usuarios que presionaron el #(I) Estar Con Putincampaña por violar su política de manipulación de plataforma y spam [8]. Esto puede llevarnos a subestimar el impacto de los medios pro-rusos después de esta fecha, ya que la información puede estar difundiéndose desde fuentes alternativas o cambiando a diferentes hashtags. En figura1podemos ver los ciclos diarios en actividad. Figura2mejora esa vista al mostrar el ciclo diario basado en la hora del día (centrado alrededor de la media). Tenga en cuenta que el ciclo 'AstroTurf' es opuesto al de todos los demás tipos. Las cuentas de Astroturfing están activas en momentos opuestos a los otros tipos de bots. Hay dos posibles explicaciones: las cuentas de Astroturfing son de una zona horaria diferente a la mayoría de las cuentas, o Botometer usa la zona horaria para determinar si una cuenta es Astroturfing. 0.08 1.0 0.06 0.8 0.04 0.02 0.6 0.00 0.4 0.02 0.04 0.2 0.06 0.0 0 5 10 Hora del día (24 horas UTC) 15 20 césped artificial Otro Seguidor falso Spammer autodeclarado Financiero Tipo de robot Seguidor falso Financiero magro nacional ProUcrania General césped artificial autodeclarado Spammer Otro ProRusia Fig. 2: Resultados promedio por hora del Botómetro mostrando el ciclo diario. La serie temporal observada en la Figura1(arriba) se promedia según la hora del día (hora UTC). Fig. 3: Probabilidades de los tipos de bot según la clasificación nacional lean y bot. La clasificación nacional lean y bot se describe en las Secciones3.1y3.2. Figura1(arriba), también muestra un aumento en los bots el 2 y el 4 de marzo. El primer pico se alinea con Rusia capturando Kherson, pero también cuando el #(I) Estar Con Putiny #(I) Estar Con RusiaLos hashtags estaban de moda. Observamos que la puntuación media general de Botometer de las cuentas activas a favor de Rusia aumentó de 0,535 (1 de marzo) a 0,593 (2 de marzo), mientras que la puntuación media general de Botometer de las cuentas activas a favor de Ucrania disminuyó de 0,585 (1 de marzo) a 0,562 (2 de marzo). Marzo). Por lo tanto, esto sugiere además que los bots fueron los encargados de hacer tendencia los hashtags prorrusos en estas fechas. El segundo pico en la actividad de los bots el 4 de marzo es más difícil de explicar. En esta fecha, Rusia capturó la planta de energía nuclear de Zaporizhzhia, pero también Twitter eliminó un puñado de cuentas prorrusas. La puntuación media general de Botometer de las cuentas activas a favor de Rusia aumentó significativamente de 0,535 (3 de marzo) a 0,613 (4 de marzo) y la puntuación media general de Botometer de las cuentas activas a favor de Ucrania aumentó ligeramente de 0,573 (3 de marzo) a 0,603 (4 de marzo). ). Como resultado, este aumento en la actividad de los bots se debe a la presencia de bots pro-rusos (antes de que fueran eliminados) y la presencia de bots pro-ucranianos que abogan en contra de las cuentas pro-rusas. No obstante, hay una presencia obvia de bots durante la primera quincena después de la invasión rusa de Ucrania. Los efectos de la hora del día son más pronunciados para AstroTurf y otros bots, mientras que la actividad de los bots Fake Follower, Financial, Self Declared y Spammer se ve menos afectada por la hora del día. Esto puede deberse a que AstroTurf y otros bots están impulsando campañas específicas para ciertos países y, por lo tanto, comparten contenido alineado con esas zonas horarias. El pico de Otros bots se produce a las 10:00 UTC, que corresponde a la 1:00 p. m., hora de Ucrania. matthews [21] sugirió que desde el mediodía hasta la 1:00 p. m. es el momento más popular para twittear en cualquier zona horaria. Por lo tanto, es probable que los Otros bots aumenten su participación en Ucrania al estar más activos en esta época. Figura3muestra diagramas de caja por pares de las probabilidades de tipo Botometer en función de si las cuentas son pro- Ucrania o pro-Rusia. El tipo de bot más utilizado para ambas campañas son los bots autodeclarados, lo que sugiere que las autoridades han identificado estos bots como los más útiles en una campaña de guerra de información. Además, observamos una distribución bastante consistente de tipos de bots para ambas campañas. Las cuentas prorrusas tienen una puntuación media de CAP de 0,42, mientras que las cuentas proucranianas tienen una puntuación media de Probabilidad de clasificación de bot centrada Probabilidad 6 B. Smart et al. 0,43, con medianas de 0,36 y 0,34 respectivamente. Sin embargo, la probabilidad media de que una cuenta sea un robot AstroTurf es ligeramente mayor para las cuentas pro-ucranianas que para las cuentas pro-rusas. Además, la probabilidad media de un bot autodeclarado es ligeramente mayor para las cuentas pro-rusas en comparación con las cuentas pro- ucranianas. Esto destaca que las cuentas pro-ucranianas pueden estar utilizando más Astroturfing en su guerra de información, mientras que las cuentas pro-rusas pueden estar utilizando más bots autodeclarados. 5 Flujos de información entre bots y cuentas humanas 5.1 Métodos de estimación del flujo de información Medimos la influencia de las cuentas en la discusión en línea general utilizando la siguiente medida de flujo de información neta simétrica de los escritos con marca de tiempo de una fuente Sapuntar T[36]: ĥ( T ||S) ∆ (T ||S) = ∑ ˆ ĥ( S||T) − ∑ ˆ X h( S||X) (1) X h( T ||X) Aquí ĥ( T ||S) es el estimador de tasa de entropía cruzada no paramétrico [1,17]: norteIniciar sesión 2 T norte S h ˆ( T ||S) = ∑ norte T , (2) i=1 Λ i ( T |S ≤ t( T i ) ) dónde norte S ynorte T son el número de símbolos escritos por el origen y el destino, respectivamente, y Λ i denota la longitud de la subcadena más corta, yocomenzando en el índice ique no aparece en la primera i i+ yo -1 símbolos. Ver [2] para un ejemplo de Λ i i Estimacion. Agregamos contenido por tipo de cuenta en lugar de que a nivel de cuenta para medir los flujos de información entre tipos de cuenta y establecer su importancia. Utilizamos las herramientas de análisis de lenguaje Valence Aware Dictionary y Sentiment Reasoner (VADER) [13] para el análisis de sentimientos, así como la Investigación lingüística y recuento de palabras (LIWC) [29] para establecer relaciones entre las funciones de conversación y la actividad del bot. Luego usamos la prueba de causalidad de Granger para determinar si una serie de tiempoXes útil para pronosticar otra serie de tiempo Ycon algo de retrasopags. Hacemos esto ajustando dos modelos lineales. En el primer modelo incluimos solo los valores rezagados de Y: Y t =α 1 ,0 + α 1,1 Y t − 1 +···+ α 1 ,pags Y t −p + ε 1 ,t , (3) donde definimosε eso como el término de error del modelo ien el momento ty α yo, j como el parámetro del modeloicon retraso j. A continuación, aumentamos el modelo para incluir también los valores rezagados de X: Y t =α 2,0 + α 2 ,1 Y t − 1 + ···+ α 2 ,pags Y t −p + β 1 X t − 1 + ···+ β pags X t −p + ε 2 ,t (4) La hipótesis nula, que Xno causa Granger Y,se acepta a través de una prueba F si y solo si no hay valores rezagados deXse retienen en el modelo de regresión observado en la ecuación.4. 5.2 Flujos de información agregados Aplicamos medidas de flujo de información al contenido agregado por tipo de cuenta, para comprender los flujos de información entre comunidades. En lugar de utilizar una estadística agregada sobre flujos de información individuales, el enfoque de flujo agregado propuesto permite las propiedades simétricas y de normalización de la medida del flujo de información neto [36] para ser preservado. Este proceso mejora la calidad de la estimación de entropía para el comportamiento del grupo, aumentando la longitud de secuencia disponible y mitigando el efecto de la convergencia lenta del estimador. En esta sección también desarrollamos una prueba de significancia para el flujo neto de información. Cada cuenta está etiquetada por clasificación de bots y lean nacional, y se agrega el contenido dentro de estos grupos de cuentas. La entropía cruzada entre cada uno de estos grupos se calcula por pares y estos valores se normalizan de acuerdo con la ecuación.1. Estas estimaciones de entropía cruzada por pares producen una red completamente conectada. Luego realizamos una prueba estadística para determinar si los flujos de información netos agregados son significativos entre grupos, lo que permite construir una red de flujos de información significativos (Figura4). Para aproximar la distribución nula de la diferencia entre las tasas de flujo de salida promedio entre cada grupo, barajamos aleatoriamente las etiquetas de grupo para cada tweet, reconstruimos secuencias agregadas y luego calculamos La interacción de bots y humanos en la discusión de la guerra entre Rusia y Ucrania 7 Fig. 4: (a) Flujos de información salientes netos agregados por tipo de cuenta y lean nacional. Los flujos de salida para cada predominio de grupo agregado yo Financial', 'ProUkraine Spammer' y 'ProRu el percentil 80 están etiquetados – la mayoría (b) Mapa de calor de datos empíricos pags-valores para cada uno en e en los flujos de salida medianos entre grupos. esta prueba es flujos netos de información entre grupos. No se muestra en la imagen, el grupo agregado está coloreado por nat fluye fuera de 'ProRussia NotBot' acc más comúnmente grupos con un equilibrio lean son para otros grupos con grupos de cuentas 'ProUk 'ProRussia'. (d) Enumera los tres grupos principales que tienen un 'ProUkrai fugazmente fal en el (0 ,0.5) rango, sin embargo 'ProRussia NonBot', 'ProUkraine Los flujos netos de oClassify tienden a ser mayores. Los valores anteriores fluyen hacia el grupo 'ProRussia Self Declared'. p flujo de información neta, que muestra la importancia de la diferencia ssia de t fallado ese representante h t grupo usado T agregado o orm la red que se muestra en (c). (c) Significativo g ted grupos con tamaño de muestra inadecuado. Cada se ponderan por la magnitud del flujo neto de información. Importante comió que la información fluye de estas cuentas a otros grupos, lean de Ucrania. La mayoría de los flujos intergrupales para grupos con un 'ProUkraine' n, sin flujos significativos de los grupos de cuentas 'ProUkraine' a Los valores más altos de la tasa de autoentropía para los grupos agregados, con el ea. F a le ional ae norte; grados contar ed o s Indiana 'Pro ic lluvia mi ' le a i norte mi 1 nordeste' 5 yo flujos netos de información. estos ag salidas y construir el em para los valores observados. Estas de los grupos de cuentas de seguidores falsos de cuentas prorrusas (F interactuando con otras cuentas dentro del mismo grupo, en lugar de cuentas con otras inclinaciones o tipos. La cuenta de 'ProRussia NotBot' a una variedad de otros grupos, que tienen grupos de cuentas. verde cerrado m et los flujos se utilizan para calcular las diferencias en la mediana del grupo La tributación, que se utiliza para calcular un valor p empírico, los flujos de información revelan que, en general, los flujos de información xcepción de los prorrusos FailedToClassify y prorrusos piri agregado C todo nulo egado des et norte , con el mi T indica que estos grupos de cuentas pueden ser predominantemente mi h igur mi4). no grupo h a si s el largo Gestionar flujos de información hacia el exterior y flujos significativos La información fluye tanto hacia 'ProUkraine' como con 'Balanced' un po ti 8 B. Smart et al. Esto indica que estas cuentas rusas que no son bots influyen en una variedad de grupos de usuarios con los mayores flujos de información entre grupos. Esto puede indicar que las cuentas controladas por humanos, o cuentas que parecen menos bots, tienen más influencia en nuestra red social, posiblemente debido a su comportamiento o percepción. Si bien la etiqueta 'NotBot' se deriva de la puntuación de Botometer, esta etiqueta no significa que estas cuentas no sean maliciosas o automatizadas. La mayoría de los flujos de información significativos entre los grupos de cuentas 'ProUkraine' se dan entre grupos con la misma inclinación. Esto puede indicar que fluye más información entre las cuentas dentro de cada uno de estos grupos en lugar de entre las cuentas de otros grupos. Los grupos 'ProUkraine' tienen las tasas de autoentropía más altas, lo que significa que estos grupos no solo agregan información de otros grupos de cuentas, sino que también influyen en otras cuentas dentro del mismo grupo (Figura4(d)). Los grupos de cuentas Equilibradas muestran los flujos de información a todos los demás tipos nacionales y conectan partes de la red de flujo de información que, de otro modo, estarían inconexas. Estas cuentas pueden actuar como un puente para que la información se mueva entre las cuentas 'ProRussia' y 'ProUkraine'. La mayoría de estos grupos tienen flujos de información pequeños pero significativos hacia otros grupos, y la información tiende a fluir fuera de estos grupos. En particular, los pocos flujos de información significativos hacia los grupos de cuentas que no son bots indican cierta influencia de las cuentas 'similares a bots' en las cuentas que no son bots. Sin embargo, estos grupos de cuentas tienen flujos de información netos salientes más fuertes que los flujos entrantes, lo que sugiere que si bien tienden a tener influencia en el contenido de otras cuentas 'tipo bot', generalmente no influyen en los usuarios que no son 'tipo bot'. Cuando se consideran los flujos a nivel de cuenta en lugar de los flujos agregados presentados aquí, existen varios flujos significativos similares entre las cuentas 'tipo bot' y no 'tipo bot'. 6 Cómo las cuentas de bots influyen en las características lingüísticas de la conversación Habiendo caracterizado la actividad de los bots e identificado los flujos de información significativos, ahora nuestro objetivo es explorar el contenido de estas relaciones. En primer lugar, consideramos las relaciones entre la actividad de los bots y la opinión, centrándonos en comprender si las cuentas similares a las de los bots tienen un impacto significativo en la opinión compuesta de las cuentas que no son de bot, medida con la puntuación del botómetro CAP y la opinión compuesta promedio ponderada. Luego, el impacto lingüístico se cuantifica mediante el uso de LIWC para desarrollar un marco estadístico para comprender la relación entre la actividad de los bots y el contenido emocional/lingüístico. 6.1 Actividad de los bots y sentimiento general Para comprender cómo los bots impulsan el sentimiento de los no bots, comenzamos limpiando y preparando dos series temporales. El primero es el puntaje promedio de CAP Botometer, que actúa como un indicador de la proporción total de actividad similar a la de un bot en la red. El segundo es el sentimiento compuesto medio ponderado por CAP. Ponderar el sentimiento compuesto de VADER por el complemento del puntaje CAP de Botometer proporciona una medida del sentimiento que no es de bot sin hacer suposiciones de etiquetado de cuenta. Es robusto para las opciones de umbral y proporciona una medida significativa del sentimiento general del conjunto de datos. Cada serie temporal se agrega cada hora. Las primeras 50 horas se eliminan de ambas series temporales, ya que hay un volumen de tweets comparativamente pequeño durante ese período. La puntuación media del CAP Botometer tiene una tendencia lineal, que se elimina mediante una regresión lineal. Ambas series de tiempo están estandarizadas para tener media cero para garantizar que cumplan con los supuestos para realizar el análisis de causalidad de Granger. También eliminamos el ciclo periódico diario (Figura2) de cada serie temporal. Luego, las correlaciones cruzadas se calculan para varios retrasos para comprender el efecto de la puntuación media del botómetro de CAP en el sentimiento compuesto medio ponderado por CAP. Se considera un desfase máximo de 12 horas. Existe una relación positiva entre la serie temporal limpia, lo que indica que existe una correlación entre la actividad de las cuentas "tipo bot" y el sentimiento compuesto de las cuentas que no son "tipo bot". Existe una relación significativa entre las dos series, con pags=3.76 ×10 − 4 Dado que los efectos no pueden ocurrir simultáneamente, consideramos el efecto retardado de la actividad del bot en el sentimiento compuesto que no es del bot, y encontramos una correlación cruzada positiva para los retrasos tanto positivos como negativos (Figura5). Esto muestra que la actividad de los bots aumenta cuando aumenta la opinión, pero también que la opinión aumenta con el aumento de la actividad de los bots. Figura5indica que la relación entre el sentimiento y la actividad del bot es complicada, con eventos marcados que generan picos en el sentimiento compuesto de las cuentas que no son 'bot-like'. También hay picos en el sentimiento compuesto medio de otros tipos de cuentas ajustadas, que pueden deberse a eventos que no consideramos en nuestro análisis. Esto indica que puede no haber una La interacción de bots y humanos en la discusión de la guerra entre Rusia y Ucrania 9 (a) (b) 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00 0.10 0.05 0.00 0.05 10 5 0 5 10 0.075 0.050 0.025 0.000 0.025 0.050 0.075 0.100 Lag (horas) Probabilidad media de clasificación de bots por hora, sin tendencia (C) Rusia captura primer mayor ciudad ucraniana Rusia captura la energía nuclear planta Intentar evacuar Mariúpol Conflicto comienza luchando en Comienza Mariúpol 0.50 0.35 0.20 0.05 0.10 0.25 0.40 0,55 0.70 0.85 140000 126000 112000 98000 84000 70000 56000 42000 28000 14000 1.00 0 23 de febrero 25 de febrero 27 de febrero 01 de marzo 03 de marzo 05 de marzo 07 de marzo 09 de marzo Hora UTC Sentimiento compuesto ponderado por tipo ProRusia NotBot ProUcrania NotBot NotBot equilibrado Frecuencia de tuits por tipo Todos los tuits Tuiteos a favor de Ucrania Tuits equilibrados Tuiteos a favor de Rusia Fig. 5: (a) Muestra las correlaciones cruzadas rezagadas entre la puntuación media horaria del CAP general de Botometer y el sentimiento compuesto medio ponderado del CAP. Cada retraso representa una compensación del sentimiento compuesto medio ponderado de CAP en horas. Estas correlaciones son significativas en ambas direcciones de retardo. (b) Si se considera un diagrama de dispersión de las dos series temporales con las muestras de tendencia y quemado eliminadas, se revela una relación lineal positiva entre ellas. (c) Las series temporales representan el sentimiento compuesto medio ponderado de la PAC agrupado por inclinación nacional, con las cuentas 'ProRusia', 'ProUcrania' y 'Equilibrada' consideradas por separado. Para ayudar a la interpretación de estas series de tiempo, se dan la frecuencia de tweet de cada tipo (de todas las cuentas) y algunos marcadores de eventos significativos. Antes del 2 de marzo hubo actividad mínima de las cuentas 'ProRussia', por lo tanto, la estimación del sentimiento compuesto de la media ponderada de CAP tiene una varianza alta y es de baja calidad. Después del 3 de marzo, hay un aumento en el sentimiento compuesto medio ponderado de Balanced CAP, de las cuentas Balanced, lo que sugiere que estas cuentas estaban produciendo más tweets positivos en general, potencialmente en respuesta a la apertura de corredores humanitarios. efecto en el sentimiento compuesto que no es de bot debido a la actividad del bot, aunque esta relación puede existir a nivel de cuenta individual. 6.2 Actividad del bot y funciones de debate lingüístico Usando LIWC, exploramos cómo los diferentes tipos de bots generan emociones y debates sobre el conflicto entre Rusia y Ucrania. Producimos promedios por hora para las proporciones generales de LIWC y las probabilidades de Botometer. Esto da como resultado un conjunto de series de tiempo, todo durante 336 horas. Utilizamos la prueba de causalidad de Granger (Sección5.1) en estas series de tiempo para determinar si la actividad de ciertos bots Granger-causan más o menos discusión sobre categorías particulares d