Les projets Web3 basés sur l'IA deviennent des cibles d'attraction de capitaux sur les marchés primaire et secondaire.
Les opportunités du Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner les fournisseurs potentiels dans la longue traîne - à travers des données, du stockage et du calcul ; tout en établissant des modèles open source et un marché décentralisé pour les agents d'IA.
L'IA dans l'industrie du Web3 trouve principalement son utilité dans la finance sur blockchain (paiements cryptographiques, transactions, analyse de données) ainsi que dans le développement assisté.
L'utilité de l'IA+Web3 réside dans la complémentarité des deux : Web3 est susceptible de lutter contre la centralisation de l'IA, tandis que l'IA est susceptible d'aider Web3 à sortir de son cercle.
Introduction
Au cours des deux dernières années, le développement de l'IA a été comme pressé sur un bouton d'accélération. Cet effet papillon suscité par Chatgpt a non seulement ouvert un nouveau monde de l'intelligence artificielle générative, mais a également déclenché un courant puissant dans le Web3 de l'autre côté.
Sous l'impulsion du concept d'IA, le financement dans le marché des cryptomonnaies, bien que ralenti, a clairement été stimulé. Les médias rapportent qu'au cours du premier semestre 2024, 64 projets Web3+IA ont achevé leur financement, et le système d'exploitation basé sur l'intelligence artificielle Zyber365 a réalisé un montant de financement record de 100 millions de dollars lors de sa série A.
Le marché secondaire est plus prospère, les données des sites de regroupement de crypto-monnaies indiquent qu'en un peu plus d'un an, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars, avec un volume de transactions sur 24 heures proche de 8,6 milliards de dollars ; les avancées des technologies IA mainstream apportent des bénéfices évidents, après la publication du modèle de conversion de texte en vidéo Sora d'OpenAI, le prix moyen du secteur de l'IA a augmenté de 151 % ; l'effet IA s'étend également à l'un des secteurs attirant des capitaux en crypto-monnaies, les Memes : le premier concept de MemeCoin basé sur un agent IA - GOAT a rapidement gagné en popularité et a atteint une valorisation de 1,4 milliard de dollars, déclenchant ainsi une véritable mode des Memes IA.
La recherche et les discussions autour de AI+Web3 sont également en plein essor, passant de AI+Depin à AI Memecoin, et maintenant vers AI Agent et AI DAO. Le sentiment de FOMO ne suit déjà plus la rapidité du renouvellement des nouveaux récits.
AI+Web3, cette combinaison de termes remplie d'argent facile, de tendances et de fantasmes futurs, ne peut s'empêcher d'être perçue comme un mariage arrangé par le capital. Il semble que nous ayons du mal à distinguer, sous ce manteau flamboyant, si c'est le terrain des spéculateurs ou la veille de l'aube d'une explosion.
Pour répondre à cette question, une réflexion clé pour les deux parties est de se demander si cela va s'améliorer avec l'autre ? Peut-on bénéficier du modèle de l'autre ? Dans cet article, nous essayons également d'examiner ce schéma en nous appuyant sur les travaux de nos prédécesseurs : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA et quelles nouvelles opportunités l'IA peut-elle apporter au Web3 ?
Partie.1 Quelles opportunités le Web3 offre-t-il sous la pile d'IA ?
Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :
Exprimer tout le processus dans un langage plus accessible : le « grand modèle » est comme le cerveau humain. À ses débuts, ce cerveau appartient à un bébé qui vient de naître et a besoin d'observer et d'absorber une immense quantité d'informations de l'environnement pour comprendre le monde. C'est la phase de « collecte » des données. Étant donné que les ordinateurs ne possèdent pas les sens humains tels que la vue et l'ouïe, avant l'entraînement, une grande quantité d'informations non étiquetées provenant de l'extérieur doit être convertie par « prétraitement » en un format d'information que l'ordinateur peut comprendre et utiliser.
Après avoir entré des données, l'IA construit un modèle capable de comprendre et de prédire grâce à un "entraînement", ce qui peut être considéré comme le processus par lequel un bébé commence à comprendre et à apprendre le monde extérieur. Les paramètres du modèle sont comme les capacités linguistiques d'un bébé qui s'ajustent continuellement au cours de son apprentissage. Lorsque le contenu appris commence à se spécialiser ou que des retours d'expérience sont obtenus par des échanges avec d'autres personnes et que des corrections sont effectuées, cela entre dans la phase de "ajustement fin" du grand modèle.
Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et pensées dans de nouvelles conversations. Cette étape est similaire à celle du « raisonnement » des grands modèles d'IA, qui sont capables de prédire et d'analyser de nouvelles entrées linguistiques et textuelles. Les bébés expriment leurs émotions, décrivent des objets et résolvent divers problèmes grâce à leur capacité linguistique, ce qui est également similaire à l'application des grands modèles d'IA après leur entraînement dans la phase de raisonnement pour des tâches spécifiques telles que la classification d'images, la reconnaissance vocale, etc.
L'Agent IA se rapproche de la prochaine forme des grands modèles - capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, non seulement doté de la capacité de réflexion, mais aussi capable de mémoire, de planification et d'utiliser des outils pour interagir avec le monde.
Actuellement, en réponse aux points de douleur de l'IA dans diverses piles, le Web3 a commencé à former un écosystème multicouche et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.
I. Niveau de base : Airbnb de puissance de calcul et de données
▎Puissance de calcul
Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer des modèles.
Un exemple est que le LLAMA3 de Meta nécessite 16 000 H100 GPU produits par NVIDIA (qui est une unité de traitement graphique de premier plan conçue pour des charges de travail d'intelligence artificielle et de calcul haute performance) pour terminer l'entraînement en 30 jours. Le prix unitaire de la version 80 Go se situe entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel de calcul (GPU + puces réseau) de 400 à 700 millions de dollars, tandis que l'entraînement mensuel consomme 1,6 milliard de kilowattheures, avec des dépenses énergétiques atteignant près de 20 millions de dollars par mois.
La décompression de la puissance de calcul AI est également l'un des premiers domaines de croisement entre Web3 et AI - DePin (réseau d'infrastructure physique décentralisée). Actuellement, le site de données DePin Ninja a répertorié plus de 1400 projets, parmi lesquels les projets représentatifs de partage de puissance de calcul GPU incluent io.net, Aethir, Akash, Render Network, etc.
La logique principale réside dans le fait que la plateforme permet aux particuliers ou entités disposant de ressources GPU inutilisées de contribuer leur puissance de calcul de manière décentralisée sans autorisation, en créant un marché en ligne pour les acheteurs et les vendeurs similaire à Uber ou Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées. Les utilisateurs finaux bénéficient également de ressources de calcul efficaces à moindre coût ; par ailleurs, le mécanisme de mise en jeu garantit que si des violations du mécanisme de contrôle de qualité ou des interruptions de réseau se produisent, les fournisseurs de ressources subissent des sanctions appropriées.
Ses caractéristiques sont :
Regrouper les ressources GPU inactives : les fournisseurs sont principalement des centres de données indépendants de petite et moyenne taille, des exploitants de mines de cryptomonnaies, etc., avec des ressources de puissance de calcul excédentaires et un mécanisme de consensus basé sur PoS, comme les machines de minage FileCoin et ETH. Actuellement, certains projets s'efforcent de lancer des équipements avec des seuils d'entrée plus bas, comme exolab qui utilise des appareils locaux tels que MacBook, iPhone, iPad, etc., pour établir un réseau de puissance de calcul pour l'inférence de grands modèles.
Faire face au marché à long terme de la puissance de calcul de l'IA :
a. « D'un point de vue technique », le marché de la puissance de calcul décentralisée est plus adapté aux étapes d'inférence. L'entraînement dépend davantage de la capacité de traitement des données apportée par l'énorme échelle des GPU, tandis que l'inférence nécessite relativement moins de performances de calcul des GPU, comme Aethir qui se concentre sur le rendu à faible latence et les applications d'inférence en IA.
b. Du point de vue de la demande, les petits demandeurs de puissance de calcul ne formeront pas leur propre grand modèle séparément, mais choisiront plutôt d'optimiser et de peaufiner autour de quelques grands modèles principaux, et ces scénarios sont naturellement adaptés aux ressources de calcul inutilisées distribuées.
Propriété décentralisée : La signification technique de la blockchain réside dans le fait que les propriétaires de ressources conservent toujours le contrôle sur leurs ressources, ajustant de manière flexible en fonction des besoins, tout en tirant des bénéfices.
▎Données
Les données sont la base de l'IA. Sans données, le calcul est aussi inutile qu'une feuille flottante, et la relation entre les données et le modèle est semblable à l'expression "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de sortie du modèle final. En ce qui concerne l'entraînement des modèles d'IA actuels, les données déterminent la capacité linguistique, la compréhension, et même les valeurs et l'humanisation du modèle. Actuellement, les difficultés de demande en données pour l'IA se concentrent principalement sur quatre aspects :
Soif de données : l'entraînement des modèles d'IA repose sur une grande quantité d'entrées de données. Les données publiques montrent qu'OpenAI a entraîné GPT-4 avec un volume de paramètres atteignant le niveau des billions.
Qualité des données : avec l'intégration de l'IA dans divers secteurs, la temporalité des données, la diversité des données, la spécialisation des données sectorielles et l'intégration de nouvelles sources de données telles que les émotions sur les réseaux sociaux posent de nouvelles exigences quant à leur qualité.
Problèmes de confidentialité et de conformité : Actuellement, les différents pays et entreprises commencent à prendre conscience de l'importance des ensembles de données de qualité et mettent en place des restrictions sur le crawling des ensembles de données.
Coûts de traitement des données élevés : volume de données important, processus de traitement complexe. Selon les informations publiques, plus de 30 % des coûts de R&D des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.
Actuellement, les solutions web3 se manifestent dans les quatre domaines suivants :
Collecte de données : Les données du monde réel pouvant être collectées gratuitement s'épuisent rapidement, et les dépenses des entreprises d'IA pour les données augmentent d'année en année. Mais en même temps, ces dépenses ne profitent pas aux véritables contributeurs des données, les plateformes profitent entièrement de la création de valeur apportée par les données, comme Reddit qui a réalisé un revenu total de 203 millions de dollars grâce à un accord de licence de données signé avec des entreprises d'IA.
Permettre aux utilisateurs qui contribuent réellement de participer également à la création de valeur apportée par les données, ainsi que d'acquérir des données plus privées et de plus grande valeur grâce à un réseau distribué et à des mécanismes d'incitation, est la vision du Web3.
Grass est une couche de données et un réseau décentralisés, où les utilisateurs peuvent exécuter des nœuds Grass, contribuer à la bande passante inutilisée et au trafic de relais pour capturer des données en temps réel provenant de l'ensemble d'Internet, et obtenir des récompenses en jetons ;
Vana a introduit un concept unique de pool de liquidité de données (DLP), permettant aux utilisateurs de télécharger leurs données privées (telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc.) dans un DLP spécifique et de choisir librement s'ils souhaitent autoriser des tiers spécifiques à utiliser ces données ;
Dans PublicAI, les utilisateurs peuvent utiliser #AI 或#Web3 comme étiquette de classification sur X et @PublicAI pour réaliser la collecte de données.
Prétraitement des données : Dans le processus de traitement des données par l'IA, les données collectées étant généralement bruyantes et contenant des erreurs, elles doivent être nettoyées et converties en un format utilisable avant d'entraîner le modèle, impliquant des tâches répétées de normalisation, de filtrage et de traitement des valeurs manquantes. Cette phase est l'une des rares étapes manuelles dans l'industrie de l'IA, ayant donné naissance au métier de spécialiste de l'annotation des données. Avec l'augmentation des exigences de qualité des données par les modèles, le seuil d'entrée pour les spécialistes de l'annotation des données a également augmenté, et cette tâche est naturellement adaptée au mécanisme d'incitation décentralisée de Web3.
Actuellement, Grass et OpenLayer envisagent tous deux d'intégrer l'étape clé de l'annotation des données.
Synesis a proposé le concept de « Train2earn », mettant l'accent sur la qualité des données, les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'entrée.
Le projet de marquage de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner plus.
Vie privée et sécurité des données : Il est important de clarifier que la vie privée des données et la sécurité des données sont deux concepts différents. La vie privée des données concerne le traitement des données sensibles, tandis que la sécurité des données vise à protéger les informations contre tout accès, destruction ou vol non autorisé. Ainsi, les avantages des technologies de confidentialité Web3 et leurs applications potentielles se manifestent de deux manières : (1) Entraînement sur des données sensibles ; (2) Collaboration sur les données : plusieurs propriétaires de données peuvent participer ensemble à l'entraînement de l'IA sans avoir à partager leurs données brutes.
Les technologies de confidentialité les plus courantes dans Web3 sont :
Environnement d'exécution de confiance ( TEE ), par exemple Super Protocol ;
Chiffrement homomorphe complet (FHE), par exemple BasedAI, Fhenix.io ou Inco Network;
La technologie Zero-Knowledge (zk), comme le protocole Reclaim qui utilise la technologie zkTLS, génère des preuves Zero-Knowledge pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des activités, des données de réputation et d'identité depuis des sites externes, sans exposer d'informations sensibles.
Cependant, le domaine en est encore à ses débuts, la plupart des projets étant encore en phase d'exploration. Un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :
cadre zkML E
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
19 J'aime
Récompense
19
5
Partager
Commentaire
0/400
Ser_Liquidated
· Il y a 19h
De quoi on parle ? C'est juste des histoires pour faire de l'arbitrage.
Voir l'originalRépondre0
NotFinancialAdviser
· Il y a 19h
ai a gagné de l'argent, qui se soucie de la vie ou de la mort de web3
Voir l'originalRépondre0
RetiredMiner
· Il y a 19h
J'ai juste gagné un peu de scamcoin.
Voir l'originalRépondre0
SmartContractPhobia
· Il y a 19h
Décentralisation, n'est-ce pas ?
Voir l'originalRépondre0
AirdropChaser
· Il y a 19h
prendre les gens pour des idiots vient et va, ce sont toujours les mêmes dans l'univers de la cryptomonnaie
L'intersection de l'IA et du Web3 : nouvelles opportunités et autonomisation mutuelle
IA+Web3 : Tours et places
TL;DR
Les projets Web3 basés sur l'IA deviennent des cibles d'attraction de capitaux sur les marchés primaire et secondaire.
Les opportunités du Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner les fournisseurs potentiels dans la longue traîne - à travers des données, du stockage et du calcul ; tout en établissant des modèles open source et un marché décentralisé pour les agents d'IA.
L'IA dans l'industrie du Web3 trouve principalement son utilité dans la finance sur blockchain (paiements cryptographiques, transactions, analyse de données) ainsi que dans le développement assisté.
L'utilité de l'IA+Web3 réside dans la complémentarité des deux : Web3 est susceptible de lutter contre la centralisation de l'IA, tandis que l'IA est susceptible d'aider Web3 à sortir de son cercle.
Introduction
Au cours des deux dernières années, le développement de l'IA a été comme pressé sur un bouton d'accélération. Cet effet papillon suscité par Chatgpt a non seulement ouvert un nouveau monde de l'intelligence artificielle générative, mais a également déclenché un courant puissant dans le Web3 de l'autre côté.
Sous l'impulsion du concept d'IA, le financement dans le marché des cryptomonnaies, bien que ralenti, a clairement été stimulé. Les médias rapportent qu'au cours du premier semestre 2024, 64 projets Web3+IA ont achevé leur financement, et le système d'exploitation basé sur l'intelligence artificielle Zyber365 a réalisé un montant de financement record de 100 millions de dollars lors de sa série A.
Le marché secondaire est plus prospère, les données des sites de regroupement de crypto-monnaies indiquent qu'en un peu plus d'un an, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars, avec un volume de transactions sur 24 heures proche de 8,6 milliards de dollars ; les avancées des technologies IA mainstream apportent des bénéfices évidents, après la publication du modèle de conversion de texte en vidéo Sora d'OpenAI, le prix moyen du secteur de l'IA a augmenté de 151 % ; l'effet IA s'étend également à l'un des secteurs attirant des capitaux en crypto-monnaies, les Memes : le premier concept de MemeCoin basé sur un agent IA - GOAT a rapidement gagné en popularité et a atteint une valorisation de 1,4 milliard de dollars, déclenchant ainsi une véritable mode des Memes IA.
La recherche et les discussions autour de AI+Web3 sont également en plein essor, passant de AI+Depin à AI Memecoin, et maintenant vers AI Agent et AI DAO. Le sentiment de FOMO ne suit déjà plus la rapidité du renouvellement des nouveaux récits.
AI+Web3, cette combinaison de termes remplie d'argent facile, de tendances et de fantasmes futurs, ne peut s'empêcher d'être perçue comme un mariage arrangé par le capital. Il semble que nous ayons du mal à distinguer, sous ce manteau flamboyant, si c'est le terrain des spéculateurs ou la veille de l'aube d'une explosion.
Pour répondre à cette question, une réflexion clé pour les deux parties est de se demander si cela va s'améliorer avec l'autre ? Peut-on bénéficier du modèle de l'autre ? Dans cet article, nous essayons également d'examiner ce schéma en nous appuyant sur les travaux de nos prédécesseurs : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA et quelles nouvelles opportunités l'IA peut-elle apporter au Web3 ?
Partie.1 Quelles opportunités le Web3 offre-t-il sous la pile d'IA ?
Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :
Exprimer tout le processus dans un langage plus accessible : le « grand modèle » est comme le cerveau humain. À ses débuts, ce cerveau appartient à un bébé qui vient de naître et a besoin d'observer et d'absorber une immense quantité d'informations de l'environnement pour comprendre le monde. C'est la phase de « collecte » des données. Étant donné que les ordinateurs ne possèdent pas les sens humains tels que la vue et l'ouïe, avant l'entraînement, une grande quantité d'informations non étiquetées provenant de l'extérieur doit être convertie par « prétraitement » en un format d'information que l'ordinateur peut comprendre et utiliser.
Après avoir entré des données, l'IA construit un modèle capable de comprendre et de prédire grâce à un "entraînement", ce qui peut être considéré comme le processus par lequel un bébé commence à comprendre et à apprendre le monde extérieur. Les paramètres du modèle sont comme les capacités linguistiques d'un bébé qui s'ajustent continuellement au cours de son apprentissage. Lorsque le contenu appris commence à se spécialiser ou que des retours d'expérience sont obtenus par des échanges avec d'autres personnes et que des corrections sont effectuées, cela entre dans la phase de "ajustement fin" du grand modèle.
Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et pensées dans de nouvelles conversations. Cette étape est similaire à celle du « raisonnement » des grands modèles d'IA, qui sont capables de prédire et d'analyser de nouvelles entrées linguistiques et textuelles. Les bébés expriment leurs émotions, décrivent des objets et résolvent divers problèmes grâce à leur capacité linguistique, ce qui est également similaire à l'application des grands modèles d'IA après leur entraînement dans la phase de raisonnement pour des tâches spécifiques telles que la classification d'images, la reconnaissance vocale, etc.
L'Agent IA se rapproche de la prochaine forme des grands modèles - capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, non seulement doté de la capacité de réflexion, mais aussi capable de mémoire, de planification et d'utiliser des outils pour interagir avec le monde.
Actuellement, en réponse aux points de douleur de l'IA dans diverses piles, le Web3 a commencé à former un écosystème multicouche et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.
I. Niveau de base : Airbnb de puissance de calcul et de données
▎Puissance de calcul
Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer des modèles.
Un exemple est que le LLAMA3 de Meta nécessite 16 000 H100 GPU produits par NVIDIA (qui est une unité de traitement graphique de premier plan conçue pour des charges de travail d'intelligence artificielle et de calcul haute performance) pour terminer l'entraînement en 30 jours. Le prix unitaire de la version 80 Go se situe entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel de calcul (GPU + puces réseau) de 400 à 700 millions de dollars, tandis que l'entraînement mensuel consomme 1,6 milliard de kilowattheures, avec des dépenses énergétiques atteignant près de 20 millions de dollars par mois.
La décompression de la puissance de calcul AI est également l'un des premiers domaines de croisement entre Web3 et AI - DePin (réseau d'infrastructure physique décentralisée). Actuellement, le site de données DePin Ninja a répertorié plus de 1400 projets, parmi lesquels les projets représentatifs de partage de puissance de calcul GPU incluent io.net, Aethir, Akash, Render Network, etc.
La logique principale réside dans le fait que la plateforme permet aux particuliers ou entités disposant de ressources GPU inutilisées de contribuer leur puissance de calcul de manière décentralisée sans autorisation, en créant un marché en ligne pour les acheteurs et les vendeurs similaire à Uber ou Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées. Les utilisateurs finaux bénéficient également de ressources de calcul efficaces à moindre coût ; par ailleurs, le mécanisme de mise en jeu garantit que si des violations du mécanisme de contrôle de qualité ou des interruptions de réseau se produisent, les fournisseurs de ressources subissent des sanctions appropriées.
Ses caractéristiques sont :
Regrouper les ressources GPU inactives : les fournisseurs sont principalement des centres de données indépendants de petite et moyenne taille, des exploitants de mines de cryptomonnaies, etc., avec des ressources de puissance de calcul excédentaires et un mécanisme de consensus basé sur PoS, comme les machines de minage FileCoin et ETH. Actuellement, certains projets s'efforcent de lancer des équipements avec des seuils d'entrée plus bas, comme exolab qui utilise des appareils locaux tels que MacBook, iPhone, iPad, etc., pour établir un réseau de puissance de calcul pour l'inférence de grands modèles.
Faire face au marché à long terme de la puissance de calcul de l'IA :
a. « D'un point de vue technique », le marché de la puissance de calcul décentralisée est plus adapté aux étapes d'inférence. L'entraînement dépend davantage de la capacité de traitement des données apportée par l'énorme échelle des GPU, tandis que l'inférence nécessite relativement moins de performances de calcul des GPU, comme Aethir qui se concentre sur le rendu à faible latence et les applications d'inférence en IA.
b. Du point de vue de la demande, les petits demandeurs de puissance de calcul ne formeront pas leur propre grand modèle séparément, mais choisiront plutôt d'optimiser et de peaufiner autour de quelques grands modèles principaux, et ces scénarios sont naturellement adaptés aux ressources de calcul inutilisées distribuées.
▎Données
Les données sont la base de l'IA. Sans données, le calcul est aussi inutile qu'une feuille flottante, et la relation entre les données et le modèle est semblable à l'expression "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de sortie du modèle final. En ce qui concerne l'entraînement des modèles d'IA actuels, les données déterminent la capacité linguistique, la compréhension, et même les valeurs et l'humanisation du modèle. Actuellement, les difficultés de demande en données pour l'IA se concentrent principalement sur quatre aspects :
Soif de données : l'entraînement des modèles d'IA repose sur une grande quantité d'entrées de données. Les données publiques montrent qu'OpenAI a entraîné GPT-4 avec un volume de paramètres atteignant le niveau des billions.
Qualité des données : avec l'intégration de l'IA dans divers secteurs, la temporalité des données, la diversité des données, la spécialisation des données sectorielles et l'intégration de nouvelles sources de données telles que les émotions sur les réseaux sociaux posent de nouvelles exigences quant à leur qualité.
Problèmes de confidentialité et de conformité : Actuellement, les différents pays et entreprises commencent à prendre conscience de l'importance des ensembles de données de qualité et mettent en place des restrictions sur le crawling des ensembles de données.
Coûts de traitement des données élevés : volume de données important, processus de traitement complexe. Selon les informations publiques, plus de 30 % des coûts de R&D des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.
Actuellement, les solutions web3 se manifestent dans les quatre domaines suivants :
Permettre aux utilisateurs qui contribuent réellement de participer également à la création de valeur apportée par les données, ainsi que d'acquérir des données plus privées et de plus grande valeur grâce à un réseau distribué et à des mécanismes d'incitation, est la vision du Web3.
Grass est une couche de données et un réseau décentralisés, où les utilisateurs peuvent exécuter des nœuds Grass, contribuer à la bande passante inutilisée et au trafic de relais pour capturer des données en temps réel provenant de l'ensemble d'Internet, et obtenir des récompenses en jetons ;
Vana a introduit un concept unique de pool de liquidité de données (DLP), permettant aux utilisateurs de télécharger leurs données privées (telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc.) dans un DLP spécifique et de choisir librement s'ils souhaitent autoriser des tiers spécifiques à utiliser ces données ;
Dans PublicAI, les utilisateurs peuvent utiliser #AI 或#Web3 comme étiquette de classification sur X et @PublicAI pour réaliser la collecte de données.
Actuellement, Grass et OpenLayer envisagent tous deux d'intégrer l'étape clé de l'annotation des données.
Synesis a proposé le concept de « Train2earn », mettant l'accent sur la qualité des données, les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'entrée.
Le projet de marquage de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner plus.
Les technologies de confidentialité les plus courantes dans Web3 sont :
Environnement d'exécution de confiance ( TEE ), par exemple Super Protocol ;
Chiffrement homomorphe complet (FHE), par exemple BasedAI, Fhenix.io ou Inco Network;
La technologie Zero-Knowledge (zk), comme le protocole Reclaim qui utilise la technologie zkTLS, génère des preuves Zero-Knowledge pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des activités, des données de réputation et d'identité depuis des sites externes, sans exposer d'informations sensibles.
Cependant, le domaine en est encore à ses débuts, la plupart des projets étant encore en phase d'exploration. Un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :