[ad_1]
Christopher Bouzy es trate de mantenerse un paso por delante de los bots. Como la persona detrás de Bot Sentinel, un popular sistema de detección de bots, él y su equipo actualizan constantemente sus modelos de aprendizaje automático por temor a que se vuelvan «obsoletos». ¿La tarea? Ordene 3,2 millones de tweets de cuentas prohibidas en dos carpetas: «Bot» o «No».
Para detectar bots, los modelos de Bot Sentinel primero deben aprender cuál es el comportamiento problemático exponiéndolos a los datos. Y al alimentar el modelo con tweets en dos categorías diferentes, bot o sin bot, el modelo de Bouzy puede calibrarse a sí mismo y supuestamente encontrar la esencia de lo que cree que hace que un tweet sea problemático.
Los datos de entrenamiento están en el corazón de cualquier modelo de aprendizaje automático. En el floreciente campo de la detección de bots, la forma en que los cazadores de bots definen y etiquetan los tweets determina cómo sus sistemas interpretan y clasifican el comportamiento similar al de los bots. Según los expertos, esto puede ser más un arte que una ciencia. «En última instancia, el etiquetado se trata de un estado de ánimo», dice Bouzy. «No se trata solo de las palabras en el tuit, el contexto importa».
El es un bot, ella es un bot, todos son un bot
Antes de que alguien pueda cazar bots, debe averiguar qué es un bot, y esa respuesta variará según a quién le pregunte. Internet está lleno de personas que se acusan mutuamente de ser bots por pequeños desacuerdos políticos. Los trolls se llaman bots. Las personas que no tienen foto de perfil y pocos tweets o seguidores se llaman bots. Incluso entre los cazadores de bots profesionales, las respuestas varían.
Bouzy define a los bots como «cuentas problemáticas» y entrena a Bot Sentinel para eliminarlos. Filippo Menczer, profesor de ciencias de la computación y ciencias de la computación en la Universidad de Indiana, dice que la herramienta Botometer, que él co-desarrolló, define a los bots como cuentas que están controladas al menos parcialmente por software. Kathleen Carley es profesora de informática en el Instituto de Investigación de Software de la Universidad Carnegie Mellon y ayudó a desarrollar dos herramientas de detección de bots: BotHunter y BotBuster. Carley define un bot como «una cuenta que se ejecuta en un software totalmente automatizado», una definición que coincide con la de Twitter. «Un bot es una cuenta automatizada, ni más ni menos», dice la empresa. escribió en una publicación de blog de mayo de 2020 sobre la manipulación de la plataforma.
Así como las definiciones varían, los resultados de estas herramientas no siempre concuerdan. Por ejemplo, una cuenta marcada como bot por Botometer puede volver a ser completamente humana en Bot Sentinel y viceversa.
Algo de esto es intencional. A diferencia de Botometer, cuyo objetivo es identificar cuentas automatizadas o parcialmente automatizadas, Bot Sentinel se aprovecha de las cuentas que se dedican al troleo tóxico. Según Bouzy, reconoces estas cuentas cuando las ves. Pueden estar automatizados o controlados por humanos, y se dedican al acoso o la desinformación y violan los Términos de servicio de Twitter. «Solo lo peor de lo peor», dice Bouzy.
Botometer es mantenido por Kaicheng Yang, un estudiante de posgrado en ciencias de la computación en el Observatorio de Medios Sociales de la Universidad de Indiana, quien co-desarrolló la herramienta con Menczer. La herramienta también utiliza el aprendizaje automático para clasificar los bots, pero cuando Yang entrena a sus modelos, no necesariamente busca acoso o violaciones de los Términos de servicio. Solo busca bots. Según Yang, se hace una pregunta cuando subtitula los datos de su entrenamiento: «¿Tengo que creer ¿el tuit proviene de una persona o de un algoritmo?”
Cómo entrenar un algoritmo
No solo no hay consenso sobre cómo definir un bot, no hay un solo criterio claro o señal que un investigador pueda señalar que prediga con precisión si una cuenta es un bot. Los cazadores de bots creen que exponer un algoritmo a miles o millones de cuentas de bots ayudará a que una computadora detecte un comportamiento similar al de un bot. Pero la efectividad objetiva de cualquier sistema de detección de bots se ve ensombrecida por el hecho de que los humanos todavía tienen que juzgar qué datos usar para la construcción.
Tome Botómetro por ejemplo. Según Yang, Botometer se entrena con tuits de unas 20.000 cuentas. Si bien algunas de estas cuentas se autoidentifican como bots, la mayoría son categorizadas manualmente por Yang y un equipo de investigadores antes de ser procesadas por el algoritmo. (Menczer dice que algunas de las cuentas utilizadas para entrenar a Botometer provienen de conjuntos de datos de otras investigaciones revisadas por pares. «Tratamos de usar cualquier información que podamos tener, siempre que sea de una fuente confiable», dice).
[ad_2]