3.2 Comentarios de spam de YouTube (clasificación de texto)
Como ejemplo de clasificación de texto, trabajamos con 1956 comentarios en inglés, de 5 videos de YouTube diferentes. Afortunadamente, los autores que utilizaron este conjunto de datos en un artículo sobre clasificación de spam hicieron que los datos estén disponibles gratuitamente (Alberto, Lochter y Almeida (2015)14).
Los comentarios se recopilaron a través de la API de YouTube de cinco de los diez videos más vistos en YouTube en el primer semestre de 2015. Los 5 son videos musicales. Uno de ellos es “Gangnam Style” del artista coreano Psy. Los otros artistas fueron Katy Perry, LMFAO, Eminem y Shakira.
Revisa algunos de los comentarios. Los comentarios fueron etiquetados manualmente como spam o legítimos. El spam se codificó con un “1” y los comentarios legítimos con un “0”.
CONTENT | CLASS |
---|---|
Huh, anyway check out this you[tube] channel: kobyoshi02 | 1 |
Hey guys check out my new channel and our first vid THIS IS US THE MONKEYS!!! I’m the monkey in the white shirt,please leave a like comment and please subscribe!!!! | 1 |
just for test I have to say murdev.com | 1 |
me shaking my sexy ass on my channel enjoy ^_^ | 1 |
watch?v=vtaRGgvGtWQ Check this out . | 1 |
Hey, check out my new website!! This site is about kids stuff. kidsmediausa . com | 1 |
Subscribe to my channel | 1 |
i turned it on mute as soon is i came on i just wanted to check the views… | 0 |
You should check my channel for Funny VIDEOS!! | 1 |
and u should.d check my channel and tell me what I should do next! | 1 |
También puedes ir a YouTube y echar un vistazo a la sección de comentarios. Pero no te dejes atrapar en el infierno de YouTube, y por favor no termines viendo videos de monos robando y bebiendo cócteles de turistas en la playa. El detector de spam de Google también ha cambiado mucho desde 2015.
Mira el rompe-records ‘Gangam Style’ aquí.
Si deseas jugar con los datos, puedes encontrar el archivo RData junto con el R-script con algunas funciones convenientes en el repositorio de Github del libro.
Alberto, Túlio C, Johannes V Lochter, and Tiago A Almeida. “Tubespam: comment spam filtering on YouTube.” In Machine Learning and Applications (Icmla), Ieee 14th International Conference on, 138–43. IEEE. (2015).↩