La nueva era del navegador AI: de la búsqueda al proxy
La tercera guerra de los navegadores está en marcha. Desde Netscape hasta IE, pasando por Firefox y Chrome, la lucha entre navegadores siempre ha reflejado el cambio en el control de la plataforma y los paradigmas tecnológicos. Chrome se ha convertido en el dominante gracias a sus rápidas actualizaciones y ventajas ecológicas, y Google ha formado un circuito cerrado de entrada a la información a través de su estructura de doble oligopolio de búsqueda y navegador.
Sin embargo, este panorama está siendo sacudido. El auge de los modelos de lenguaje a gran escala (LLM) está haciendo que más usuarios completen tareas en las páginas de resultados de búsqueda, reduciendo el comportamiento tradicional de clics en páginas web. Los rumores de que Apple podría reemplazar el motor de búsqueda predeterminado en Safari amenazan aún más la base de beneficios de Alphabet, generando inquietud en el mercado sobre la "ortodoxia de búsqueda".
El navegador también enfrenta una reestructuración de su papel. No solo es una herramienta para mostrar páginas web, sino que también es un contenedor que reúne múltiples capacidades, como la entrada de datos, el comportamiento del usuario y la identidad privada. Aunque el Agente de IA es poderoso, para llevar a cabo interacciones complejas en la página, invocar datos de identidad locales y controlar elementos de la página web, aún necesita aprovechar los límites de confianza y la sandbox de funciones del navegador. El navegador está pasando de ser una interfaz humana a convertirse en una plataforma de llamadas del sistema para los Agentes.
Lo que realmente podría romper el actual paisaje del mercado de navegadores no es otro "Chrome mejor", sino una nueva estructura de interacción: de la presentación de información a la invocación de tareas. Los navegadores del futuro necesitan ser diseñados para agentes de IA, que no solo puedan leer, sino también escribir y ejecutar. Proyectos como Browser Use están intentando semantizar la estructura de las páginas, convirtiendo la interfaz visual en un texto estructurado que pueda ser invocado por LLM, logrando una mapeo de páginas a instrucciones y reduciendo significativamente los costos de interacción.
Los proyectos principales han comenzado a experimentar: Perplexity construye un navegador nativo Comet, utilizando IA en lugar de resultados de búsqueda tradicionales; Brave combina la protección de la privacidad con el razonamiento local, utilizando LLM para mejorar la búsqueda y las funciones de bloqueo; proyectos nativos de Crypto como Donut apuntan a una nueva entrada para la interacción entre IA y activos en cadena. La característica común de estos proyectos es: intentar reestructurar la entrada del navegador, en lugar de embellecer su capa de salida.
Para los emprendedores, la oportunidad radica en la relación triangular entre la entrada, la estructura y el agente. El navegador, como la interfaz que invoca el mundo de los futuros agentes, significa que quien pueda proporcionar "bloques de capacidad" estructurados, invocables y de confianza, podrá convertirse en parte de la nueva generación de plataformas. Desde SEO hasta AEO(Optimización del Motor de Agentes), desde el tráfico de páginas hasta la invocación de cadenas de tareas, tanto la forma del producto como el pensamiento de diseño están siendo reconfigurados. La tercera guerra de los navegadores ocurre en la "entrada" y no en la "exhibición"; lo que determina el ganador ya no es quién capta la atención del usuario, sino quién gana la confianza del agente y obtiene el acceso a la invocación.
Consejos para emprendedores
Estandarización de la estructura de la interfaz: asegúrate de que tu producto sea "llamable". Considera si la estructura de la información del producto puede estandarizarse y abstraerse en un esquema claro, si las operaciones clave se pueden describir mediante una estructura DOM semántica o un mapeo JSON, si se proporciona una máquina de estados para que el Agente reproduzca el flujo de comportamiento del usuario, si la interacción admite la restauración mediante scripts, y si hay WebHook o API Endpoint estables.
Identidad y acceso: ayudar al Agente a "superar las barreras de confianza". Es especialmente importante en el escenario de Web3, considerando convertirse en "MCP(Multi Capability Platform)" del mundo blockchain, que puede ser una capa de instrucciones generales, un conjunto de interfaces de contratos estandarizados, o una billetera ligera + plataforma de identidad que se ejecute localmente.
Entendimiento del mecanismo de flujo: de SEO a AEO/ATF. El producto debe tener una claridad en la granularidad de las tareas, convirtiéndose en "unidades de capacidad invocables" en lugar de simples "páginas". Comenzar a optimizar el Agente ( AEO ) o la adaptación de programación de tareas ( ATF ), simplificar el proceso de registro en pasos estructurados, obtener precios a través de interfaces, consultar inventarios en tiempo real, etc. Adaptar la sintaxis de invocación para diferentes marcos LLM.
Los proyectos de emprendimiento del futuro no se centrarán en recrear navegadores, sino en hacer que los navegadores existentes sirvan a los Agentes, estableciendo un puente para la nueva generación de "flujos de comandos". Construir la "sintaxis de interfaz" que llame a tu mundo, convirtiéndote en un eslabón de la cadena de confianza de los agentes, y construir un "castillo API" en el próximo modo de búsqueda. En la era de Web3 + AI Agent, se trata de capturar la intención de ejecución del Agente a través de la cadena de llamadas, en lugar de captar la atención del usuario a través de la interfaz de usuario.
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
23 me gusta
Recompensa
23
4
Compartir
Comentar
0/400
LiquiditySurfer
· 07-30 20:01
¿No sería más fácil hacer la llamada a la API directamente desde el navegador?
Ver originalesResponder0
GasWaster
· 07-30 00:26
El navegador también se ha vuelto competitivo.
Ver originalesResponder0
Lonely_Validator
· 07-27 20:40
el agente desató lo que le pertenece
Ver originalesResponder0
StopLossMaster
· 07-27 20:40
Entrar en una posición un agent a ver, tomar a la gente por tonta una ola y luego volver a tomar a la gente por tonta.
La revolución del navegador impulsada por la IA: de los motores de búsqueda a la plataforma de llamadas de agentes
La nueva era del navegador AI: de la búsqueda al proxy
La tercera guerra de los navegadores está en marcha. Desde Netscape hasta IE, pasando por Firefox y Chrome, la lucha entre navegadores siempre ha reflejado el cambio en el control de la plataforma y los paradigmas tecnológicos. Chrome se ha convertido en el dominante gracias a sus rápidas actualizaciones y ventajas ecológicas, y Google ha formado un circuito cerrado de entrada a la información a través de su estructura de doble oligopolio de búsqueda y navegador.
Sin embargo, este panorama está siendo sacudido. El auge de los modelos de lenguaje a gran escala (LLM) está haciendo que más usuarios completen tareas en las páginas de resultados de búsqueda, reduciendo el comportamiento tradicional de clics en páginas web. Los rumores de que Apple podría reemplazar el motor de búsqueda predeterminado en Safari amenazan aún más la base de beneficios de Alphabet, generando inquietud en el mercado sobre la "ortodoxia de búsqueda".
El navegador también enfrenta una reestructuración de su papel. No solo es una herramienta para mostrar páginas web, sino que también es un contenedor que reúne múltiples capacidades, como la entrada de datos, el comportamiento del usuario y la identidad privada. Aunque el Agente de IA es poderoso, para llevar a cabo interacciones complejas en la página, invocar datos de identidad locales y controlar elementos de la página web, aún necesita aprovechar los límites de confianza y la sandbox de funciones del navegador. El navegador está pasando de ser una interfaz humana a convertirse en una plataforma de llamadas del sistema para los Agentes.
Lo que realmente podría romper el actual paisaje del mercado de navegadores no es otro "Chrome mejor", sino una nueva estructura de interacción: de la presentación de información a la invocación de tareas. Los navegadores del futuro necesitan ser diseñados para agentes de IA, que no solo puedan leer, sino también escribir y ejecutar. Proyectos como Browser Use están intentando semantizar la estructura de las páginas, convirtiendo la interfaz visual en un texto estructurado que pueda ser invocado por LLM, logrando una mapeo de páginas a instrucciones y reduciendo significativamente los costos de interacción.
Los proyectos principales han comenzado a experimentar: Perplexity construye un navegador nativo Comet, utilizando IA en lugar de resultados de búsqueda tradicionales; Brave combina la protección de la privacidad con el razonamiento local, utilizando LLM para mejorar la búsqueda y las funciones de bloqueo; proyectos nativos de Crypto como Donut apuntan a una nueva entrada para la interacción entre IA y activos en cadena. La característica común de estos proyectos es: intentar reestructurar la entrada del navegador, en lugar de embellecer su capa de salida.
Para los emprendedores, la oportunidad radica en la relación triangular entre la entrada, la estructura y el agente. El navegador, como la interfaz que invoca el mundo de los futuros agentes, significa que quien pueda proporcionar "bloques de capacidad" estructurados, invocables y de confianza, podrá convertirse en parte de la nueva generación de plataformas. Desde SEO hasta AEO(Optimización del Motor de Agentes), desde el tráfico de páginas hasta la invocación de cadenas de tareas, tanto la forma del producto como el pensamiento de diseño están siendo reconfigurados. La tercera guerra de los navegadores ocurre en la "entrada" y no en la "exhibición"; lo que determina el ganador ya no es quién capta la atención del usuario, sino quién gana la confianza del agente y obtiene el acceso a la invocación.
Consejos para emprendedores
Estandarización de la estructura de la interfaz: asegúrate de que tu producto sea "llamable". Considera si la estructura de la información del producto puede estandarizarse y abstraerse en un esquema claro, si las operaciones clave se pueden describir mediante una estructura DOM semántica o un mapeo JSON, si se proporciona una máquina de estados para que el Agente reproduzca el flujo de comportamiento del usuario, si la interacción admite la restauración mediante scripts, y si hay WebHook o API Endpoint estables.
Identidad y acceso: ayudar al Agente a "superar las barreras de confianza". Es especialmente importante en el escenario de Web3, considerando convertirse en "MCP(Multi Capability Platform)" del mundo blockchain, que puede ser una capa de instrucciones generales, un conjunto de interfaces de contratos estandarizados, o una billetera ligera + plataforma de identidad que se ejecute localmente.
Entendimiento del mecanismo de flujo: de SEO a AEO/ATF. El producto debe tener una claridad en la granularidad de las tareas, convirtiéndose en "unidades de capacidad invocables" en lugar de simples "páginas". Comenzar a optimizar el Agente ( AEO ) o la adaptación de programación de tareas ( ATF ), simplificar el proceso de registro en pasos estructurados, obtener precios a través de interfaces, consultar inventarios en tiempo real, etc. Adaptar la sintaxis de invocación para diferentes marcos LLM.
Los proyectos de emprendimiento del futuro no se centrarán en recrear navegadores, sino en hacer que los navegadores existentes sirvan a los Agentes, estableciendo un puente para la nueva generación de "flujos de comandos". Construir la "sintaxis de interfaz" que llame a tu mundo, convirtiéndote en un eslabón de la cadena de confianza de los agentes, y construir un "castillo API" en el próximo modo de búsqueda. En la era de Web3 + AI Agent, se trata de capturar la intención de ejecución del Agente a través de la cadena de llamadas, en lugar de captar la atención del usuario a través de la interfaz de usuario.