Inteligencia Artificial (IA) generativa, IA discriminativa e IA verificable son algunas de la variantes que la empresa de desarrollo de conducción autónoma Aurora está aplicando para hacer de su sistema Aurora Driver lo más «seguro y similar a un humano».
Lo anterior lo detalló Drew Bagnell, Cofundador y Científico Jefe de Aurora, en un artículo publicado en la página de la empresa, en el que considera que el futuro de la conducción autónoma «depende del uso expansivo del poder de la IA combinado con una validación y verificación rigurosas».
El experto explica que Aurora Driver está diseñado para estar alineado con los objetivos de conducción. «Alineación es la palabra de moda del momento que significa ´´la IA hace lo que queremos que haga´», afirma.
Bagnell indica que, desde el punto de vista de la tecnología, hay una variedad de enfoques para garantizar que Aurora Driver ofrezca el comportamiento deseado. Para lograr la mejor alineación, Aurora ha adoptado una arquitectura Proponente-Clasificador para la generación de comportamientos.
En un sistema de este tipo, se “propone” un amplio conjunto de comportamientos posibles. A continuación, se “calcula el costo” o se “clasifica” cada una de estas propuestas; se selecciona la propuesta con la puntuación más alta y Aurora Driver comienza a seguir esa estrategia. Después de recopilar nueva información de sus sensores sobre el mundo, Aurora Driver vuelve a proponer y clasificar un conjunto de opciones, repitiendo este proceso muchas veces por segundo.
Lee también: Eficiencia energética aumenta hasta 32% con camiones autónomos: Aurora
Analogía entre IA y toma de decisiones del operador
Drew Bagnell indica que existe una analogía entre los modelos de lenguaje de IA y la arquitectura de toma de decisiones de Aurora Driver. En ese sentido, es posible ver las propuestas de Aurora Driver como el análogo de los “tokens” (o, más simplemente, palabras) que produce un modelo de lenguaje en cada iteración de la inferencia del modelo de lenguaje.
De manera similar, el entorno, incluidas las decisiones anteriores, las historias de otros actores y el mundo circundante forman el contexto, o lo que a veces se denomina un aviso en los modelos de lenguaje, que informa a la IA qué propuesta/token elegir a continuación.
Para el especialista, este enfoque compuesto tiene una serie de beneficios. En primer lugar, permite la «corrección por construcción», es decir, la alineación parcial durante la generación de propuestas. Es importante considerar una amplia gama de opciones para el controlador Aurora. Sin embargo, es posible considerar solo opciones para el controlador Aurora que cumplan con ciertas restricciones.
Por ejemplo, no hay ningún beneficio en proponer trayectorias potenciales que no sean factibles dinámicamente. Es decir, que no puedan ser conducidas por un camión con la dirección, el acelerador y los frenos adecuados. Esto puede verse como algo similar a considerar solo las respuestas a una consulta en inglés que sean gramaticalmente correctas. Los requisitos simples se hacen cumplir mediante la construcción de las propias propuestas.
Te puede interesar: Aurora muestra por primera vez la conducción autónoma en camiones sin nadie a bordo
Múltiples herramientas para alinear el comportamiento de la IA
En su artículo, el Cofundador y Científico Jefe de Aurora asegura que en la compañía han ideado un enfoque innovador que va más allá de lo que podrían hacer los usos tradicionales de la IA generativa. En ese sentido, aplican requisitos más complejos en la parte de “clasificación” de la arquitectura. Por ejemplo, Aurora Driver no toma decisiones para evitar una colisión prevista introduciendo una nueva.
Sin embargo, gran parte de la conducción es bastante sutil. Es importante para otros usuarios de la carretera que Aurora Driver sea lo más parecido a un humano y predecible posible. Es decir, no impulsado «robóticamente» por reglas inflexibles. Como tal, Aurora Driver está alineado principalmente con técnicas basadas en datos.
Drew Bagnell establece que los humanos bien entrenados, concentrados y atentos son generalmente buenos conductores. «Por lo tanto, utilizamos datos de conducción humana de expertos para aprender a producir las “fichas” o propuestas más probables. Técnicamente, lo que se aprende de los datos de conducción humana de expertos es asignar probabilidades a cada propuesta posible, o equivalentemente asignar una recompensa o un costo a cada una dado el contexto».
«En pocas palabras, el objetivo de aprendizaje es crear una función que tome el contexto (“indicación”) de la escena y una trayectoria y produzca una recompensa para cada trayectoria que haga que la demostración de conducción humana sea la más probable», concluye.
Te invitamos a escuchar el nuevo episodio de nuestro podcast Ruta TyT: