Creíamos que ChatGPT era genial para programar: han hecho un estudio y la mitad de sus respuestas son incorrectas
Buscar respuestas en Stack Overflow o hacer búsquedas en Google ya no mola tanto. Muchos programadores han encontrado en ChatGPT una herramienta estupenda para agilizar su trabajo y depender menos de las mencionadas plataformas. Sin embargo, el chatbot de inteligencia artificial (IA) de OpenAI está lejos de ser perfecto, y fiarnos completamente en él puede no ser lo más acertado.
ChatGPT, al igual que cualquier otra herramienta basada en modelos de lenguaje grande (LLM), tiene varias limitaciones. La propia compañía liderada por Sam Altman señala en su página web que el chatbot “puede cometer errores” e invita a verificar la información importante. Ahora bien, en el mundo de la programación, ¿qué tan bien (o mal) hace su trabajo? Veamos lo que dicen unos investigadores.
“Descubrimos que el 52% de las respuestas de ChatGPT contienen información errónea”, afirman los investigadores. En este sentido añaden que el 77% de las respuestas son más detalladas que las respuestas humanas (lo que no garantiza su precisión) y que el 78% de estas sufren de diferentes grados de inconsistencia. Se trata de cifras que realmente no pasan desapercibidas.
Para obtener estos valores, los investigadores tomaron 517 preguntas de programación de Stack Overflow. Después, examinaron la corrección, coherencia, exhaustividad y concisión de las respuestas con ChatGPT basado en GPT-3.5 y realizaron un análisis lingüístico a gran escala, como un estudio con usuarios para comprender las respuestas de ChatGPT desde diferentes puntos de vista.
Los investigadores de Purdue escogieron GPT-3.5 en lugar de GPT-4, la última versión del modelo de lenguaje al momento de realizar el estudio, que es la versión gratuita más ampliamente utilizada. Cabe señalar que también hicieron pruebas paralelas con GPT-4 y llegaron a la conclusión de que, si bien el modelo más nuevo funciona “ligeramente mejor”, ambos tienen una tasa de inexactitud alta.
Cuando hablaron de ChatGPT estamos haciendo referencia a un chatbot de IA que puede ser utilizado para diferentes tareas. Desde ayudarnos a programar hasta escribir una carta. En el mundo de la programación también tenemos otras herramientas impulsadas por IA diseñadas específicamente para desarrolladores, como GitHub Copilot, que se integra a los entornos de desarrollo.
En cualquier caso, estamos presenciando en directo como la IA cambia la forma en la que trabajamos, y en este proceso vamos descubriendo bondades y defectos de las herramientas que utilizamos. Por lo pronto, ChatGPT parece estar lejos de poder superar las respuestas humanas en el ámbito de la programación. De hecho, está prohibido publicar respuestas con esta herramienta en Stack Overflow.
En este blog Copilot, ChatGPT y GPT-4 han cambiado el mundo de la programación para siempre. Esto opinan los programadores
En este blog Elon Musk y xAI quieren ganar la guerra de la IA: acaba de recibir 6.000 millones de dólares para lograrlo
Comentarios
Publicar un comentario