3.2 Comentarios de spam de YouTube (clasificación de texto)

Como ejemplo de clasificación de texto, trabajamos con 1956 comentarios en inglés, de 5 videos de YouTube diferentes. Afortunadamente, los autores que utilizaron este conjunto de datos en un artículo sobre clasificación de spam hicieron que los datos estén disponibles gratuitamente (Alberto, Lochter y Almeida (2015)14).

Los comentarios se recopilaron a través de la API de YouTube de cinco de los diez videos más vistos en YouTube en el primer semestre de 2015. Los 5 son videos musicales. Uno de ellos es “Gangnam Style” del artista coreano Psy. Los otros artistas fueron Katy Perry, LMFAO, Eminem y Shakira.

Revisa algunos de los comentarios. Los comentarios fueron etiquetados manualmente como spam o legítimos. El spam se codificó con un “1” y los comentarios legítimos con un “0”.

CONTENT CLASS
Huh, anyway check out this you[tube] channel: kobyoshi02 1
Hey guys check out my new channel and our first vid THIS IS US THE MONKEYS!!! I’m the monkey in the white shirt,please leave a like comment and please subscribe!!!! 1
just for test I have to say murdev.com 1
me shaking my sexy ass on my channel enjoy ^_^ 1
watch?v=vtaRGgvGtWQ Check this out . 1
Hey, check out my new website!! This site is about kids stuff. kidsmediausa . com 1
Subscribe to my channel 1
i turned it on mute as soon is i came on i just wanted to check the views… 0
You should check my channel for Funny VIDEOS!! 1
and u should.d check my channel and tell me what I should do next! 1

También puedes ir a YouTube y echar un vistazo a la sección de comentarios. Pero no te dejes atrapar en el infierno de YouTube, y por favor no termines viendo videos de monos robando y bebiendo cócteles de turistas en la playa. El detector de spam de Google también ha cambiado mucho desde 2015.

Mira el rompe-records ‘Gangam Style’ aquí.

Si deseas jugar con los datos, puedes encontrar el archivo RData junto con el R-script con algunas funciones convenientes en el repositorio de Github del libro.


  1. Alberto, Túlio C, Johannes V Lochter, and Tiago A Almeida. “Tubespam: comment spam filtering on YouTube.” In Machine Learning and Applications (Icmla), Ieee 14th International Conference on, 138–43. IEEE. (2015).