Construyendo un Cerebro Descentralizado con IA y Cripto
Por StreamingFast traducción del artículo ¨Building a Decentralized Brain with AI & Crypto¨
Gracias a Sam Green de Semiotic Labs y Yaniv Tal de Geo por contribuir a esta publicación.
- La rápida adopción de la IA subraya la necesidad urgente de soluciones descentralizadas para intervenir y evitar el control centralizado entre los gigantes tecnológicos. El mejor camino a seguir combina la IA y la blockchain para garantizar la apertura y verificabilidad de los datos.
- La Generación Aumentada por Recuperación (Retrieval Augmented Generation o RAG) y los grafos de conocimiento mejoran la precisión de los LLM proporcionando información actualizada y contextualmente relevante, siendo los grafos de conocimiento los que ofrecen una organización y capacidad de recuperación de datos superiores.
- Los grafos de conocimiento descentralizados son el próximo gran cambio de paradigma. Pueden aprovechar la tecnología de blockchain para garantizar el acceso abierto a la información, al tiempo que mejoran la confianza a través de la verificabilidad y la gobernanza transparente.
- Geo, un innovador grafo de conocimiento descentralizado que se lanzará pronto en The Graph, ejemplifica la integración de la blockchain y la IA para crear una internet más accesible, confiable y gobernada por los usuarios.
- La información se organizará y generará a un ritmo exponencial gracias a la verificación humana en el ciclo y generación de contenido impulsada por la IA, garantizando la confianza y la transparencia mientras se mantiene un toque humano.
Habiendo sido testigos de la explosiva adopción generalizada de los LLM el año pasado, así como de las discusiones sobre los riesgos asociados con esta tecnología, es evidente que la IA influirá dramáticamente en la cultura, la política y la búsqueda de la verdad. Por lo tanto, es imperativo que nosotros, como comunidad global, no permitamos que el control sea ejercido por un puñado de gigantes tecnológicos a través de fosos de datos, sino que trabajemos juntos hacia la construcción de una alternativa descentralizada.
Al garantizar que los datos permanezcan abiertos y públicos, podemos construir la capa de confianza que permitirá la verificabilidad de la precisión de los datos de una manera que simplemente no es posible en el panorama tecnológico actual de las grandes empresas. En lugar de verse afectados por los sesgos, suposiciones y opiniones de unas pocas corporaciones grandes, podemos trabajar juntos para construir un cerebro descentralizado, verdaderamente accesible y propiedad de todos. La IA, y su integración en nuestras vidas, debería ser diseñada desde cero como un bien público, y no dentro de jardines amurallados.
El Rol de la Generación Aumentada por Recuperación (RAG)
Cuando se discuten los LLM y la recuperación de información, es útil utilizar como analogía nuestros propios cerebros, y ver cómo interactuamos con la IA desde los puntos de vista de la memoria de trabajo y la memoria explícita. Los LLM son excelentes en la memoria explícita. Al codificar datos con sus pesos durante la etapa de entrenamiento del modelo, los LLM pueden analizar una vasta cantidad de contenido y son bastante buenos memorizando esa información. No es que esto no tenga limitaciones, sin embargo. Dado que no pueden almacenar realmente toda la información en la que se entrenan (ya que sería una cantidad exponencial de datos), esto puede llevar a las alucinaciones que todos hemos visto en los LLM, dándote una respuesta ridícula a una pregunta aparentemente trivial. Y dado que no puedes entrenar continuamente el modelo con cada nueva pieza de información que esté disponible en ese momento, el LLM está ciego ante las innovaciones y descubrimientos recientes. Por eso la tecnología de Retrieval Augmented Generation o Generación Aumentada por Recuperación (RAG) es la adición perfecta para los LLM.
RAG es el proceso por el cual un sistema primero hace referencia a un conjunto de datos de información que está fuera del conocimiento de entrenamiento del LLM para agregar cualquier información y contexto nuevo a la indicación del LLM antes de responder. RAG puede verse como la memoria de trabajo de un cerebro artificial. Al integrar conocimientos actualizados a través de una base de conocimientos externa y bases de datos vectoriales, RAG tiene como objetivo refinar la precisión y relevancia del contenido generado por IA. Sin embargo, la dependencia de la información no estructurada puede complicar la extracción de datos relevantes, lo que lleva a la redundancia de información potencial y al desafío de asegurar que se utilice el contexto correcto al responder a una indicación.
Grafos de Conocimiento: Una Mejora Sobre las Bases de Datos Vectoriales
Los grafos de conocimiento representan una oportunidad para aumentar las capacidades de RAG dentro de los LLM. Los grafos de conocimiento superan a las bases de datos vectoriales gracias a su capacidad para ofrecer un análisis semántico más profundo, una efectividad inigualable en la recuperación de datos y una facilidad mejorada de verificabilidad. Los grafos de conocimiento destacan en la comprensión y navegación de las complejidades del lenguaje natural, permitiendo una exploración matizada de las relaciones de datos que se asemeja estrechamente a la cognición humana. Esta profundidad semántica asegura que los LLM puedan acceder a información más precisa y contextualmente relevante, mejorando significativamente la calidad del contenido generado. En comparación, las bases de datos vectoriales se basan en métodos de fragmentación de documentos que eliminan el contexto o aumentan los riesgos de alucinación al recuperar información irrelevante. Con los grafos de conocimiento, es posible encontrar rápidamente una entidad relevante y luego atravesar el grafo para recuperar todo el contexto relevante.
Además, la naturaleza estructurada de los grafos de conocimiento los hace altamente efectivos para organizar vastas cantidades de datos, aunque el conjunto de datos se esté agregando constantemente. Esta ventaja estructural respalda un proceso de recuperación más preciso, beneficiando directamente a las aplicaciones de RAG al proporcionarles los puntos de datos más relevantes para cualquier consulta dada. Mientras se utiliza esto en conjunción con la información encontrada en la “memoria explícita” de un LLM, ahora tu indicación puede ser atendida desde ambos “cubos de memoria”, cada uno sirviendo a su propósito único para proporcionar una respuesta más precisa y contextualizada.
Grafos de Conocimiento Descentralizados: Un Cambio de Paradigma
Creemos que el matrimonio más perfecto para la blockchain y la IA es a través de los grafos de conocimiento descentralizados, conectando todos los datos del mundo, conectándolos de una manera fácilmente exploratoria a través de una creación, curación, organización y composabilidad reflexivas. Los grafos de conocimiento suelen construirse de manera centralizada por una empresa o grupo con una base de conocimientos única que debe ser vinculada y actualizada continuamente. Si bien esto es una gran herramienta y sirve a un propósito específico muy bien, no se ajusta a la necesidad de lo que imaginamos que podría ser el verdadero potencial de esta tecnología: el fundamento del internet del mañana.
Si bien ha habido mucho hype y fanfarria por las muchas formas en que la blockchain y la IA pueden conectarse entre sí, nuestra posición es que los grafos de conocimiento descentralizados serán inigualables en importancia, potencial de cambio de paradigma y relevancia cultural.
Estamos extremadamente emocionados por el trabajo que se está haciendo en Geo, un grafo de conocimiento descentralizado que aprovecha The Graph (el protocolo descentralizado líder mundial para indexar y consultar datos de blockchain). Geo está siendo pionero en cómo esta intersección de tecnologías puede construirse desde cero dentro de un verdadero ethos web3 — haciendo que el conocimiento del mundo esté abiertamente accesible para todos, sin guardianes.
Geo: Pionero en Redes de Conocimiento Descentralizadas
Geo tiene como objetivo organizar y estructurar los datos del mundo no solo en una base de datos buscable, sino también para garantizar una composabilidad sin igual. Pero similar a cualquier compendio, es fundamental que tengas una manera de recuperar fácilmente la información que buscas. Podemos imaginar un futuro en el que interactúas con Geo a través de Agentes. Estos Agentes permitirían a los usuarios hacer una pregunta, y el grafo de conocimiento recuperaría contenido relevante, bases de datos o APIs, que luego se pueden utilizar para alimentar un Modelo de Lenguaje Grande (LLM) sobre la marcha. En lugar del modelo actual de realizar una búsqueda y luego hojear uno por uno los resultados relevantes que se devuelven, imagina tener un Agente que te responda después de haber cargado toda la información relevante que se conecta a tu consulta.
Ahora, por supuesto, la calidad de la información que se alimenta a un Agente es extremadamente importante, ahí es donde la blockchain ofrece otras grandes herramientas: identidad y reputación. Al marcar cada pieza de información con una certificación del autor original, mientras se tiene una reputación rastreable y públicamente verificable de dicho autor, puedes controlar tanto los tipos de fuentes y la calidad de las fuentes con las que interactúas. Además, dado que todo es extremadamente componible, cómo interactuamos con esta información puede adaptarse para satisfacer nuestros intereses y necesidades, sin comprometer los datos que se sirven.
Construyendo el Cerebro Descentralizado con The Graph
La visión principal es construir un cerebro descentralizado que pueda almacenar información de diversas fuentes, que luego los humanos curarán en comunidades independientes llamadas Spaces o Espacios. Este cerebro compartido ahora puede razonar, utilizando toda esta información ya que está bien estructurada, permitiendo que la IA tome decisiones bien informadas. Una vez que exista este cerebro descentralizado, puede conectarse al mundo real a través de APIs, convirtiéndose en un agente autónomo real que ejecuta acciones para el usuario, automatizando tareas mundanas y permitiendo a los humanos enfocarse en trabajos más significativos. Este grafo interconectado de conocimiento ahora tiene la capacidad de extraer datos de múltiples fuentes de datos dinámicas.
Un Nuevo Ecosistema de Contribución y Verificación de Datos
The Graph está posicionado de manera única para implementar esta arquitectura dentro de The World of Data Services through the new Interconnected Graph of Data. Entre muchos otros servicios, The Graph agregará servicios de datos de LLM, lo que significa que los Indexadores proporcionarán inferencia de modelos de código abierto. Estos modelos tendrán acceso directo a datos verificables a través del Interconnected Graph of Data, incluyendo herramientas para facilitar el acceso. Por primera vez, estará disponible una pila abierta, componible, de baja latencia y totalmente integrada, lo que permitirá a los desarrolladores construir Agentes más potentes que nunca.
Desde la Recuperación de Información hasta la Creación de Conocimiento: El Rol de los LLMs y los Humanos
Debemos tomar un enfoque diferente para construir el cerebro descentralizado del mañana. Esto ayudará a mejorar la resiliencia y confiabilidad, mejorar la capacidad de un LLM para proporcionar respuestas significativas y facilitar RAG. Al observar un diseño y arquitectura potenciales dentro de la New Era of The Graph, podemos señalar cómo un grafo de conocimiento diseñado cuidadosamente puede convertirse en un fundamento para un mejor mañana.
- La información se agrega al grafo interconectado (y así a un Geo Spaces), por un contribuyente verificado criptográficamente con una reputación rastreable.
- Alternativamente, la información se puede agregar de una fuente de datos verificable de terceros.
- Un LLM es capaz de construir conexiones lógicas entre esta información recién agregada y puntos de datos que ya están almacenados en su memoria de trabajo, que luego es servida a, y validada, por humanos dentro de Geo.
- Un Agente recibe una indicación de un humano y puede usar RAG para recuperar la información más relevante del grafo interconectado.
- El próximo usuario que busque contribuir material a un Geo Spaces ahora estaría mejor informado a través del acceso directo a datos relevantes, por lo que debería estar creando aún mejor contenido adicional.
- El Agente puede ser el UX en sí mismo. El usuario puede solicitar información, luego elaborar nuevo contenido ellos mismos y enviarlo a través del Agente, lo que les ayudará a editar, agregar, acceder y vincularse a otra información relevante.
- Para completar el ciclo de conocimiento, podría introducirse una persona Curador. El humano con reputación en el ciclo de información puede ayudar a informar al grafo de conocimiento sobre qué datos son más valiosos. Visualizamos que este rol podría ser incentivado usando GRT, una reimaginación del rol de Curador actual dentro de The Graph.
También es fácil ver cómo puedes comenzar a tener un sistema en el que, en lugar de que los humanos aprovechen los LLM para recuperar información, verías a los LLM aprovechando a los humanos para ayudarlos a desarrollar el grafo de conocimiento. Los LLM pueden crear información y proponerla a humanos reputables para su verificación en el ciclo humano. Esto aceleraría rápidamente el ritmo de agregación de información sin perder tanto la verificación humana de datos como, lo que es más importante, el toque humano. Al no permitir que los LLM agreguen datos directamente, estamos filtrando las posibles alucinaciones que ingresan al compendio de conocimiento mientras aprovechamos la capacidad de los LLM para hacerse cargo de lo mundano por nosotros.
Confianza y Transparencia en Grafos de Conocimiento Descentralizados
La integración de la tecnología de blockchain con los grafos de conocimiento aporta una capa adicional de confianza a través de una verificación más fácil. Cada pieza de datos puede atribuirse a una fuente verificable, manteniendo un registro claro de su origen y modificaciones, y de las personas involucradas. Esta transparencia refuerza la credibilidad de los datos y fomenta un entorno seguro para su uso, haciendo que los grafos de conocimiento descentralizados sean una opción superior para avanzar en la tecnología RAG en los LLMs.
The New Era of The Graph, con Geo actuando como un navegador a través del cual aprovechar la información del mundo, está posicionada de manera única para estar a la vanguardia de esta emocionante nueva revolución de internet. No solo satisface la necesidad mundial de un grafo de conocimiento descentralizado, sino que también nos permite a nosotros como base de usuarios global participar en la gobernanza de una herramienta tan importante. Un cerebro verdaderamente abierto y descentralizado requiere una gobernanza abierta y transparente, lo cual sería imposible de lograr si se estuviera construyendo de manera centralizada.
¡Hacia adelante y hacia arriba!