Si bien lo bueno de los Wilikibros es que, al igual que Wikipedia, son abiertos y colaborativos, esto también genera dificultas para determinar qué incluir
25.02.2019 • 12:05hs • Wikibook-bot
Wikibook-bot
Inteligencia Artificial: ahora se escriben Wikilibros sin ayuda humana
Wikilibro es un manual al que cualquiera puede acceder y editar, compuesto de artículos en Wikipedia, la vasta enciclopedia online. Tiene más de 6.000 páginas y ofrece una introducción completa a la tecnología, con capítulos actualizados sobre las redes neuronales artificiales, algoritmos genéticos y visión artificial.
De esta manera, la información colaborativa abierta y distribuida (crowdsourcing) se actualiza constantemente con los últimos avances y se edita sistemáticamente para corregir errores y ambigüedades.
Sin embargo, tiene un punto débil. Wikipedia es enorme. Decidir qué contenido hay que incluir en este manual es una tarea difícil.
En este contexto fue que el investigador de la Universidad Ben-Gurion del Negev (Israel) Shahar Admati y sus colegas desarrollaron una forma de generar Wikilibros automáticamente con aprendizaje automático. Llaman a su máquina el Wikibook-bot, según Technology Review.
"La novedad de nuestra técnica es que está pensada para crear un Wikilibro completo, sin intervención humana", aseguran.
Su enfoque es relativamente sencillo. Comenzaron identificando una serie de Wikilibros existentes que actuarían como conjunto de datos de entrenamiento. Entontraron 6.700 Wikilibros incluidos en un conjunto de datos disponible en Wikipedia para este tipo de estudios académicos.
"Elegimos centrarnos en los Wikilibros que fueron vistos al menos 1.000 veces, basándonos en la suposición de que los Wikilibros más populares tienen una calidad razonable". Este filtro dejó un total de 490 Wikilibros, de los que se seleccionaron 407, en función de distintos factores como el de tener más de 10 capítulos. Este fue el conjunto final con el que el equipo creó su IA.
Luego, el equipo dividió la tarea de crear un Wikilibro en varias partes, cada una de las cuales requería una habilidad de aprendizaje automático diferente. El trabajo comenzó con un humano que definió el título del libro que el sistema tendría que crear. El título debía describir algún concepto, así surgió Aprendizaje automático: la guía completa.
La primera tarea consistió en clasificar todo el conjunto de artículos de Wikipedia para determinar cuáles eran suficientemente relevantes para ser incluidos. "Esto fue un reto debido al gran volumen de artículos disponibles en Wikipedia y por la necesidad de seleccionar los más relevantes entre los millones que hay", detallan Admati y sus compañeros.
Para ayudar con esta tarea, el equipo usó la estructura de red de Wikipedia: los artículos a menudo están hipervinculazos a otros artículos. Es razonable suponer que probablemente el artículo vinculado sea más relevante.
Así que comenzaron con un pequeño grupo de artículos que mencionaban el concepto de clave del libro en el título. Luego identificaron todos los artículos que estaban a un máximo de tres pasos de estos artículos clave.
¿Pero cuántos de estos artículos vinculados debían incluirse en el libro? Para decidirlo, comenzaron con los títulos de los 407 Wikilibros creados por humanos y realizaron el análisis de tres pasos. Luego, calcularon cuánto del contenido de los libros creados por personas se incluyó en el enfoque automatizado. Resulta que el enfoque automatizado a menudo incluía gran parte del contenido original del Wikibook pero, también, mucho más. Así que el equipo necesitaba alguna otra forma de seguir filtrando el contenido.
Finalmente, crearon un algoritmo que analizaba a cada artículo seleccionado automáticamente para un tema determinado y luego decidía si al incluirlo en un Wikilibro haría que la estructura de la red fuera más similar a los libros generados por las personas o no. Si resultaba que no, el artículo quedaba descartado.
El siguiente paso fue organizar los artículos en capítulos. Hay varios algoritmos de agrupamiento disponibles para este tipo de tareas.
El último paso era determinar el orden en el que debían aparecer los artículos en cada capítulo. Para hacerlo, el equipo organizó los artículos en parejas y utilizó un modelo de red para determinar cuál debía aparecer primero. Al repetir esto para todas las combinaciones de parejas de artículos, el algoritmo fue capaz de establecer un orden preferido para los artículos y, por lo tanto, para los capítulos.
De esta manera, el equipo pudo producir versiones automatizadas de Wikilibros creados por humanos. Es difícil juzgar y comparar estos libros automatizados con los generados por personas. Seguro que contienen gran parte del mismo material, a menudo en un orden similar, lo que es un buen comienzo.