Procesamiento del Lenguaje Natural, tu aliado para gestionar documentación

Tech from the Trenches Capítulo 10

Procesamiento del Lenguaje Natural, tu aliado para gestionar documentación

Germán es un empresario de 41 años que no se identifica con el término ‘emprendedor’. Su pasión por la Inteligencia Artificial (IA) comenzó en 2004-2005, cuando cursaba asignaturas relacionadas con IA durante su estancia en el programa Erasmus. Posteriormente, decidió embarcarse en un doctorado en traducción automática, que finalizó en 2012. Durante este período, también se especializó en aprendizaje automático.

En 2014, después de trabajar dos años como investigador posdoctoral, Germán y su socio Vicent Alabau fundaron Sciling. Decidieron lanzar la empresa por dos razones principales:

a) Lo que se estaba desarrollando en la universidad no llegaba al mercado en términos de producción.

b) Observaron que en 2014 comenzaba una fuga de cerebros, lo que resultaba en la descapitalización del país y la falta de oportunidades.

Inicialmente, se enfocaron en desarrollar un producto propio de traducción automática para el comercio electrónico, pero no tuvieron el éxito esperado. En 2017, tomaron la decisión de cambiar de rumbo y convertirse en una «boutique de desarrollo de soluciones en Inteligencia Artificial«. Germán explica que se especializan en tomar tecnologías que se encuentran en fase de laboratorio y aplicarlas a casos de uso reales, buscando un alto impacto y un alto nivel de especialización en investigación y desarrollo, así como en la operatividad de los modelos de IA.

Actualmente, Sciling cuenta con un equipo de aproximadamente 22-23 personas que comparten una fuerte visión del impacto de la IA en la sociedad.

¿Cómo es posible que las máquinas puedan entender un texto?

Germán menciona que el impacto de ChatGPT ha sorprendido a todos. No solo ChatGPT o Stable Diffusion (para imágenes), sino que todo el aprendizaje automático antes era muy ad-hoc. Sin embargo, en 2014 hubo un cambio significativo con la entrada de las redes neuronales. Google lanzó los Transformers en 2017, lo cual fue revolucionario. A partir de ese momento, los Transformers han ido evolucionando con la incorporación de cada vez más datos y lo cual ha elevado el coste de entrenamiento y mantenimiento a órdenes de magnitud situado en los millones de euros.

Entre ChatGPT 3 y 4, ha surgido algo interesante llamado ChatGPT 3.5, que es un ajuste del 3 en el que se adapta la salida a lo que los humanos esperan recibir como resultado. GPT-3 y 4 son Grandes Modelos de Lenguaje generativos que se basan en redes neuronales.

Según Germán, a nivel básico no hay diferencia entre los impulsos eléctricos neuronales y los 0 y 1 del modelo binario de las computadoras. Esto nos lleva a entrar en un escenario filosófico.

¿Hoy en día, ¿qué se está haciendo en el Procesamiento del Lenguaje Natural (NLP)?

Según Germán, actualmente se está trabajando en la capacidad de relacionar documentos con documentos en el campo del NLP. Hasta ahora, este problema se ha abordado utilizando enfoques convencionales, como el uso de embeddings de grandes modelos de lenguaje.

Sin embargo, se espera que en el futuro se utilicen grandes modelos de lenguaje para resolver este tipo de desafíos. El objetivo es poder vincular contratos con pliegos, ofertas laborales con currículums, entre otros ejemplos. En este ámbito, existen muchas oportunidades tanto en el campo de la vinculación de documentos como en el desarrollo de chatbots.

Los chatbots han experimentado un gran impacto gracias a los Grandes Modelos de Lenguaje, ya que se ha eliminado gran parte de las tareas previas en las que se tenía que definir parte del árbol de decisiones para generar respuestas.

El concepto de «grounding» se refiere a proporcionar a Grandes Modelos de Lenguaje un conjunto de documentos y luego realizar preguntas sobre esos documentos para construir una conversación basada en ese conjunto de datos. Tener una base de datos corporativa con todo el conocimiento y poder hacer preguntas sobre ella en relación a tu trabajo es una herramienta muy poderosa.

¿Los modelos de lenguaje y de imágenes generan un nivel de riesgo importante para la sociedad?

Germán señala que existe una dosis de exageración en torno a los riesgos y peligros de los modelos de lenguaje y de imágenes, pero también es cierto que aún no somos plenamente conscientes del impacto de una tecnología que tiene menos de 6 meses de vida. Incluso los propios desarrolladores de OpenAI no son plenamente conscientes de todos los riesgos asociados. Algunos de los riesgos mencionados por Germán incluyen la propagación de noticias falsas, entre otros.

Germán plantea la preocupación de que Internet se inundará de contenido generado por IA, lo cual puede suponer un problema a largo plazo. En este escenario, los buscadores enfrentarán grandes dificultades para generar información confiable. Para entrenar modelos como ChatGPT 4, se necesitan una gran cantidad de datos de alta calidad. Si la mayoría de la información disponible es autogenerada, podríamos enfrentarnos a un escenario en el que no podamos entrenar modelos debido a la falta de datos confiables. En el caso de Stable Diffusion ya existen evidencias de que esto está empezando a ser un problema.

En Europa estamos avanzados en la regulación de la IA, ¿esto es bueno o malo para no quedarnos atrás en un mundo global?

Germán es experto evaluador de proyectos para la Comisión Europea en temas de IA y, según su criterio, la UE tiene una preocupación por tener tecnología competitiva en comparación con ChatGPT. Aunque existen modelos libres de origen europeo, como Bloom, ninguno alcanza el nivel de ChatGPT4.
La UE es consciente de la necesidad de ser competitiva en este ámbito.

Germán menciona a su amigo Francisco Zamora, líder técnico en una empresa de identificación biométrica, quien ha enfrentado problemas con la legislación europea al no poder recopilar datos de ciudadanos europeos. Esto llevó a la empresa a adquirir datos de países asiáticos, lo que puede resultar en modelos con un sesgo significativo hacia rasgos asiáticos.

Los modelos de ChatGPT están transformando los puestos de trabajo tal como los conocemos. Germán enfatiza que históricamente la tecnología no ha destruido puestos de trabajo, sino que los ha transformado. Sin embargo, la tecnología genera puestos de trabajo allá donde se crea, y los destruye allá donde se consume. Si consumimos tecnología pero no la generamos, corremos el riesgo de perder puestos de trabajo en el proceso.

¿Qué podríamos hacer en Europa ante este escenario?

Germán menciona que no sabe exactamente qué podríamos hacer en Europa ante este escenario, pero es algo que le preocupa. Hasta ahora, Europa ha desempeñado más un papel de «Arbitros» que de «Ronaldos» en el campo de la tecnología.  Germán plantea la necesidad de intentar posicionar la estrategia que queremos abordar en este ámbito.

En Europa, el mercado se encuentra muy desagregado en comparación con Estados Unidos, y esto es un problema subyacente en la Unión Europea. Estos problemas son endémicos y requieren atención para poder abordarlos de manera efectiva.

¿Estamos ante el último Invierno de la Inteligencia Artificial?

Germán responde que no sabe si estamos ante el último invierno de la Inteligencia Artificial. Su sistema predictivo de la IA está estropeado, por lo que no puede proporcionar una respuesta precisa. Sin embargo, destaca que la entrada de ChatGPT ha generado una gran atención en el campo de la IA. Ha habido un fuerte auge y ahora estamos en una etapa de calma, pero en el futuro cercano veremos cómo muchas cosas se transformarán.

Tanto las personas como las empresas están comenzando a utilizar ChatGPT desde la base, lo que está optimizando tareas, pero también va a cambiar de manera drástica el modelo productivo. Germán menciona un ejemplo paradigmático en el ámbito de la educación: está empezando a ver cómo los profesores utilizan ChatGPT para crear exámenes, y los estudiantes utilizan ese mismo modelo para responder a esas preguntas. En este sentido, el ser humano se ha convertido en una interfaz entre los modelos de IA, lo cual lleva a un sinsentido.

En resumen, aunque no se puede predecir con certeza si estamos ante el último invierno de la Inteligencia Artificial, es evidente que estamos presenciando una transformación significativa en diversos ámbitos impulsada por modelos como ChatGPT.

En esta fase de cierre, le pedimos a German que nos proporcione algunas fuentes de conocimiento:

  1. Cursos de Coursera de Andrew Ng: Los cursos de Andrew Ng en Coursera, como «IA para negocios» y «Gestión de proyectos de IA«, son ampliamente reconocidos y pueden brindarte una base sólida en los fundamentos de la IA y su aplicación en diversos campos.
  2. Canal de YouTube «Two Minute of Paper«: Este canal de YouTube se dedica a resumir e interpretar trabajos académicos relacionados con IA y NLP en videos de un minuto.
  3. Grupos de Reddit: Reddit cuenta con comunidades activas y dedicadas a la IA y al NLP.
  4. Twitter: En Twitter, puedes seguir a expertos en IA y NLP, como Carlos Santana, y estar al tanto de las últimas noticias, investigaciones y avances en el campo.
  5. LinkedIn: En LinkedIn, puedes unirte a grupos relacionados con IA y NLP.
  6. Interfaces de Futuro un podcast de Sciling donde hablan de Inteligencia artificial, innovación, ciencia, tecnología y negocio.

¿Qué consejo darías tú a las personas que están comenzando en su carrera profesional?

Germán bromea con un «Corre German, huye!!».. pero que, teniendo en cuenta que el cambio es lo único real y que éste cada vez va a ser más necesario y rápido, que para prepararse para lo que vendrá es importante planificar de descanso en los que cargar las pila.

Os vemos en las siguientes entregas de Tech from the Trenches, y como siempre nos puedes seguir en los canales de nuestras redes sociales: 

Comments are closed.