Home Noticias Internacionales Es una idea fascinante que una IA que funcionaría mejor utilice imágenes...

Es una idea fascinante que una IA que funcionaría mejor utilice imágenes visuales en lugar de texto puro como tokens.

44
0
Es una idea fascinante que una IA que funcionaría mejor utilice imágenes visuales en lugar de texto puro como tokens.

En la columna de hoy, examino ideas innovadoras que ponen patas arriba el diseño convencional de la IA y los grandes modelos de lenguaje (Llms). En pocas palabras, lo siento, descarado, no es generativo. La IA recibe texto puro, el primer texto se captura como una imagen y la imagen se envía a la IA.

¿Que qué?

Para aquellos que tienen éxito en el respeto técnico de las películas, esto puede parecer extraño y extraño. Probablemente gritarás en voz alta que esto no tiene sentido. Por eso. El LLM está diseñado para manejar lenguajes naturales como el inglés y, por tanto, manejar mucho texto. El texto es la forma en que hemos insertado e insertado nuestras preguntas en las películas. Elegir utilizar imágenes de texto, en lugar de texto real, se ha convertido en un concepto loco. Blasfemo.

Sujétense el sombrero porque algunos de mis investigadores de mantenimiento están tratando de acercarse y no se dejen atrapar por los nuevos que brindan vuelos de lujo a mods con corrientes de gla.

Hablemos de ello.

Esta innovadora investigación sobre IA es parte de mi investigación sobre Bubu Edas, que es lo último en IA, incluidas varias constectalidades II (ver enlace aquí).

La tokenización es esencial

Tuvo que pasar por los aspectos de AICativ IS Modern Si y LLS. Voy a cubrir los detalles del personaje aquí. Le proporcionaré una descripción general rápida para que se ponga al día.

Cuando ingresas texto en AI, el texto se compone de números. Ese número se mantiene durante el resto del procesamiento de la guía. Una vez que la IA llega a la respuesta, la respuesta se formatea y debe volver a convertirse en texto, más memorable para el usuario. Ai da como resultado convertir números en texto y mostrar la respuesta correspondiente.

Todo el proceso se conoce como tokenización. El texto que ingresa está codificado en un conjunto de números. Este número se conoce como token. Los números, o deberíamos decir tokens, fluyen a través de la IA y están acostumbrados a conocer las respuestas a sus preguntas. Inicialmente, la respuesta está en formato numérico simbólico y debe devolverse a texto.

Afortunadamente, los usuarios cotidianos desconocen el proceso de tokenización. No debería ser necesario que lo sepan. El tema está atrayendo la atención de ANJAN AI, pero de poco interés para el público en general. A menudo se ejecuta cualquier consulta de números para intentar que el proceso de alimentación sea lo más rápido posible para que Ai Ai no se mantenga durante tanto tiempo como sea necesario interponer la fórmula.

Los tokens son el problema

Mencioné que la gente normalmente no conoce el aspecto de tokenización de llm. Ese no es siempre el caso. Cualquiera que lleve la IA al límite probablemente conozca los tokens y la tokenización.

Este trato.

La mayoría de las películas contemporáneas, como Cerektep Buka y GPT-5, Rendude Claude, Menya LlamA, Google Gemini, Google Gemini, Omitir entre poemas. Cuando Chatgttt concluyó la escena por primera vez, la cantidad de tokens permitidos en una sola conversación era bastante limitada.

Te sorprenderá descubrir que ChatTPTT de repente no puede recordar la parte anterior. Esto se debe a que la IA se topa con un muro sobre la cantidad de tokens activos que puede tener al mismo tiempo. Se están recaudando fichas de conversaciones anteriores.

Si realiza funciones de cualquier nivel y complejas, esta limitación se viola automáticamente y se elimina mejor el contaminante. Ya tienes suficiente conversación. Lo mismo se aplica cuando importa texto mediante métodos como Rag (consulte mi discusión en el enlace aquí). El texto debe verificarse y contarse nuevamente con respecto al umbral de cuántos tokens activos puede generar la IA.

Es una locura para las personas que sueñan con utilizar la generación de IA para problemas mayores.

Un límite más alto pero aún ahí

La versión inicial de ChatGPTT tenía una limitación de menos de 10.000 tokens que podían estar activos en cualquier momento. Si piensa que los tokens representan palabras pequeñas, como “” o “perro”, esto significa que se topa con una pared una vez que su conversación ha sido de otras diez mil palabras. Esto no se recomienda a tiempo para un uso prolongado o complejo.

Hoy en día, la versión convencional del tamaño GPT-5 tiene una ventana de contexto de tokens de aproximadamente 400.000 tokens. El cual se considera la suma de la capacidad asociada a los dos tokens de entrada y el token de salida como un total combinado. Los tamaños de vista de Windows pueden variar. Por ejemplo, Claude tiene un límite de unos 200.000 tokens en algunos de sus modelos, mientras que los más exitosos llegan hasta unos 500.000 tokens.

La visión ventosa del futuro es que no habrá limitaciones relacionadas con la cantidad de tokens. Existe un estado del arte, sobre infinitos o infinitos spems en Ai, que sería razonable. Por supuesto, en un sentido práctico, solo el servidor puede aceptar más memoria; Por tanto, no es realmente ilimitada, sino que la reclamación es reservada y razonable. Para ver mi explicación de cómo la memoria no es infinita, consulte el enlace aquí.

Cómo afrontar el problema de las fichas

Dado que Tkasiasi está en el centro de cómo se diseña y desarrolla lo mejor, muchas empresas han hecho todo lo posible para intentar optimizar aspectos de la reparación. El objetivo es facilitar de alguna manera que los tokens pequeños, si es posible, gasten más en el estado de la memoria del sistema.

Quizás la IA tenga que suprimir la compresión muchas veces. Hacerlo puede ser de gran ayuda. Tama Jama-Jama, que debería ser especial hasta 200.000 fichas, si puedes reducir cada ficha a la mitad hasta 400.000 cifras. Bien.

Hay un problema relacionado con la compresión de tokens. A menudo, es cierto, puedes reducir el tamaño, pero las revisiones abundan cuando lo haces. Eso es malo. En la mayoría de los casos, no será tan malo que todavía funcionen y puedan usarse. Todo depende de cuánta precisión no se sacrifique.

Lo ideal es obtener la máxima compresión y estar en un estado de preparación del 100%. Este es un objetivo amplio. Lo más probable es que necesite zapatos de compresión contra precisión. Como ocurre con la mayoría de las cosas en la vida, nunca hay almuerzo gratis.

Quítate los calcetines

Supongamos que nos permitimos pensar fuera de lo común.

El enfoque habitual con LLMS es aceptar el texto sin formato, codificar el texto en un token y proceder a nuestra manera alegre. Casi siempre comenzamos nuestro proceso de pensamiento sobre la tokenización con la lógica y naturalidad de que la entrada del usuario será texto. Escriben texto a través de su teclado y el texto se convierte en tokens. Ese es un enfoque sencillo.

Reflexiona sobre lo que podemos hacer.

Parece que no hay campo izquierdo, supongamos que tratamos el texto como una imagen.

Ya sabe que puede tomar una imagen de texto y escanearla ópticamente y conservarla como imagen o luego convertirla en texto. El proceso es una práctica amplia conocida como OCC (reconocimiento óptico de caracteres). OkR existe desde los primeros días de las computadoras.

Un proceso OCC común consiste en convertir imágenes en texto y se denomina imagen a texto. A veces quieres hacer lo contrario, antes tienes texto y quieres convertir el texto en una imagen, que procesa el texto. Existen muchísimos programas que funcionarán mejor con el procesamiento de imagen a texto y de texto a imagen. Es viejo.

Aquí hay algunas ideas locas sobre LFMS y Tokucenización.

Todavía tenemos personas que ingresan texto, pero tomamos ese texto y lo convertimos en una imagen (es decir, texto de imagen). Luego, el codificador de token utiliza el texto Itog. Por lo tanto, en lugar de codificar texto puro, el codificador codifica en función de imágenes de texto. Cuando Akai esté listo para responder al usuario, el juguete cambiará de texto mediante un visor de imágenes.
Boom, suelta el micrófono.

Garantizar una sensación de sorpresa

Vaya, se puede decir, ¿de qué sirve este juego con la imagen?

Si el atacante de la imagen a tokina puede conseguirnos una ficha más pequeña, podríamos empujar la paloma. Esto, a su vez, significa que sólo podemos tener tokens más profundos dentro de los límites de la memoria limitada. Recuerde que la compresión de tokens es un silbido en nuestra mente.

En el estudio publicado recientemente “Outseek-OCTSEK – The Context of Optical Computation” de Haoran Wei, Sun Yaofeng, Yukun Li, arxivEl 21 de octubre de 2025, la temperatura de la investigación creó esta afirmación (pemilfts):

  • “Una sola imagen que contiene texto de documento puede representar información rica usando menos tokens que el texto digital con compresión óptica que pasa por compresión cónica a través de visión de carbono puede lograr visión de carbono puede lograr visión de carbono puede lograr compresión los ratones pueden lograr más rondas de visión pueden lograr un cuerpo de mayor compresión”.
  • “Es necesario definirnos para el modelo base de Appleamine Sportamin (Vlm) desde el punto de vista de LLM LLM Rs LLM. Porque para Entron Visions básicamente puede mejorar el consenso de LLMS”.
  • “La escritura de OCC, como una modalidad de Perside Bridging the vision and the language of Bahes, proporciona la idea de que este identipial puede ser probado en el nivel de evertización cuántica y muestra kualual financiero y muestra metavisual”.
  • “Nuestras mediciones eliminan 96% + croding kecompision en la competencia 9-10x, +90% en la competencia 10-12) es mucho mayor cuando se mide con precisión entre la salida y la bendición correcta.

Como se indicó anteriormente, la dureza del excimer parece indicar que una relación de compresión 10 veces mejor puede alcanzar el 96% de las veces. Si se hubiera hecho en el tablero, habría demostrado que, si bien el límite de ventana actual es probablemente de 400.000, el nivel podría aumentarse en 4.000 años con una precisión del 56%.

Esto es 96% perforable o injugable, dependiendo de qué Ai se use. No puedes tener un almuerzo gratis, al menos no tan lejos. Una tasa de compresión de 20x sería mejor, aunque una precisión del 60% sería un poco más interesante. Aún así, puede haber situaciones en las que puedas obtener hasta un 60% por un aumento de 20 veces.

Kaseneu Ai Si Specikal Karpathy Post Este post inicial sobre este enfoque es todo: “Estoy muy contento con el artículo de oCléy. Por qué se desperdician tokens de texto y, peor aún, en la entrada. Tal vez tenga más sentido que todas las entradas para las películas sean imágenes”. (fuente: Twitter/X, 20 de octubre de 2025).

La lluvia de ideas es útil

En la investigación también se intenta utilizar el lenguaje natural. Este es otro valor que utiliza imágenes en lugar de texto puro. Como sabes, existe un lenguaje natural que utiliza caracteres gráficos y palabras. Lenguajes que parecen funcionar bien con métodos de tokenización basados ​​en imágenes.

Aunque rai, no necesito estudiar la rueda cuando deberíamos hacerlo yo y llms. Simplemente tome prestado lo que funcionó con vlms y vlms y léalo para usarlo en llm. Utiliza todo Noggin y Leveriate automático cuando es posible.

Una idea que merece reconocimiento y profundización adicional. No recomendaría andar por ahí y decir directamente que es necesario limpiar todo de alguna manera. El jurado aún no ha decidido. Necesitamos más investigación para ver hasta dónde llega, junto con la doble comprensión y la driveida.

Mientras tanto, creo que al menos podemos hacer de este valiente guerrero: “A veces, una imagen vale más que mil palabras”.

Enlace de origen

LEAVE A REPLY

Please enter your comment!
Please enter your name here