Google Meena el mejor chatbot del planeta
Meena , una red neuronal que tiene 2.600 millones de parámetros, es un chatbot de dominio abierto de múltiples vueltas y afirma ser mejor que cualquier otro chatbot de IA disponible en el mercado.
La IA conversacional es un término integral que se usa para los modelos de lenguaje natural para IA que entienden el lenguaje humano, hablan y completan tareas dadas en palabras simples. Sin embargo, hablar y llevar una conversación son tareas diferentes, ya que los asistentes de inteligencia artificial como Alexa, Siri, Google realmente no chatean, solo completan tareas y responden preguntas de hecho. Mantener una conversación similar a la humana sigue siendo muy imposible para los asistentes inteligentes disponibles en la actualidad.
En una manera de poner medida a esta tecnología google lanzó un sistema de medición llamado (SSA) SENSIBILIDAD Y ESPECIFICIDAD PROMEDIO
La herramienta SSA le dio una puntuación del 79% a Meena, los agentes de IA de Pandora Bots, Mitsuku obtuvo el 56%, el chino mandarín chino de habla china XiaoIce obtuvo el 31%, mientras que los humanos obtuvieron el 86%. Todas las conversaciones tuvieron que durar entre 14 y 28 turnos, y los bots que dan respuestas generales reciben la penalización.
Los asistentes de IA que son capaces de mantener conversaciones similares a las de los humanos podrían convertirse en una parte esencial de la vida humana, ya que podrían brindar apoyo moral o emocional a sus dueños, según Ashwin Ram, director de premios de Alexa y director de Google Research.
Por lo general, los bots emplean «trucos» para hacerte pensar que están al día con la conversación, cuando en la práctica solo están dando respuestas genéricas que no son necesariamente específicas del contexto. Por ejemplo, podría tener una conversación como:
Esta es una respuesta sensata, pero no es específica. La misma respuesta funciona para cualquier número de declaraciones de una persona. Una respuesta más específica sería:
Google calificó a Meena y a un grupo de otros chatbots (XiaoIce, Mitsuku, CleverBot y DialoGPT) en especificidad y sensibilidad, y el promedio de eso dio el puntaje final SSA. Hay algunos matices en los números como los describe Google, pero más o menos:
Meena obtuvo un 79% de SSA, Mitsuku y Cleverbot 56%, DialoGPT 48% y XiaoIce 31%. Dado que esta métrica también se puede utilizar para evaluar conversaciones humanas, Google midió el SSA humano promedio en 86%, por lo que Meena se acerca de manera tentadora.
Para resumir, basado en el enfoque de puntuación propio de Google que mide directamente si las respuestas del bot son sensibles y específicas en conversaciones de hasta 7 turnos, Meena obtiene puntajes más altos que los otros chatbots. Para dar un poco de contexto, Mitsuku es el ganador de la Prueba de Turing del Premio Loebner, y XiaoIce impulsa un servicio de Microsoft inmensamente popular que conversa con cientos de millones de usuarios. Aunque uno puede encontrar fácilmente debilidades con el enfoque de puntuación y discutir sobre la objetividad de Google usando una métrica que se le ocurrió, lo que hizo Meena es impresionante. Más aún cuando consideramos que Meena es un modelo de red neuronal entrenada de extremo a extremo, mientras que Mitsuku y XiaoIce son sistemas híbridos con mucha más intervención humana.
¿Cuál es el impacto?
Meena puede chatear, en unos pocos turnos de una conversación, de manera creíble. Meena, sin embargo, no puede enseñarte nada confiablemente. Meena no está tratando de ayudarte a terminar una tarea o aprender algo nuevo específicamente. Conversa sin una meta o propósito explícito. Si bien probablemente pasamos demasiado tiempo charlando sin importancia, tendemos a buscar algo específico cuando interactuamos con un servicio digital impulsado por bot. Queremos reservar un boleto o resolver un problema de atención al cliente. O queremos obtener información precisa sobre un dominio particular o apoyo emocional o psicológico para un desafío que enfrentamos.
Los productos conversacionales tienen un propósito, e incluso si fallan en las preguntas más abiertas, están tratando de trabajar con usted para completar una tarea. Meena coloca la semejanza humana de la conversación sobre todo. Sin embargo, tenemos mucho que aprender sobre qué es un enfoque de conversación apropiado dados los diferentes tipos de tareas. Hay investigaciones que muestran que son preferibles más respuestas similares a «robots» en ciertas situaciones (especialmente cuando se trata de información personal sensible) y que ser humano no es el fin y el fin de los bots. ¿Dónde encuentra un papel Meena, con las conversaciones que ha aprendido de las interacciones en las redes sociales? Y si está conectado a una experiencia conversacional, ¿Cómo garantizamos que no se digan cosas inapropiadas? ¿Son los millones de conversaciones de redes sociales de dominio público el conjunto de datos adecuado para el mejor chatbot del mundo?