OpenAI coupe AI classifier : vers un réel moratoire éthique ? |
————— 27 Juillet 2023 à 11h10 —— 39750 vues
OpenAI coupe AI classifier : vers un réel moratoire éthique ? |
————— 27 Juillet 2023 à 11h10 —— 39750 vues
Et ça s'est passé à la maison blanche, sous la houlette de l'administration Biden-Harris. Portée par sept acteurs majeurs de l'IA étazunienne — Amazon, Microsoft, OpenAI, Anthropic, Google, Inflection, Meta ; ça ne fait pas bezef' au regard du nombre d'entreprises travaillant sur le sujet —, la promesse globale est l'augmentation significative des financements pour réguler l'IA et la rendre la plus neutre possible : on parle de biais algorithmique. Voilà qui a conduit hier quatre des acteurs suscités a fonder Frontier Model Forum, une organisation ayant pour but la promotion du « développement responsable » des modèles d'AI.
Et ça ne serait pas vraiment un luxe, puisqu'un ChatGPT pour ne pas le citer, n'étant par essence qu'un super perroquet algorithmique bien élevé, n'invente rien et se contente de retranscrire avec un enrobage plutôt aseptisé. Mais il retranscrit ce que sa base de données lui permet de faire, et cette base de données, c'est internet. Autrement dit l'endroit qui n'est pas le plus neutre du monde, à l'image de ses utilisateurs. Bien sûr avec un apprentissage de plus en plus sophistiqué, et un nombre de paramètres de plus en plus hallucinant demandant de plus en plus d'infras réseaux, les résultats sont voués à progresser dans un futur proche, limitant de facto les conneries stratosphériques que l'IA est capable de vous sortir.
Une éthique ? Non, non, non !
Des investissements devront être concentrés également sur l'aspect cybersécurité. Et surtout, surtout, des investissements massifs sur le tatouage des contenus générés par IA, à l'image à titre de comparaison du CAI initié entre autres par Adobe. Pour des raisons de droits d'auteurs bien sûr, mais il serait bon aussi d'éviter au mieux les écrits auto générés soit pour plaire — une IA pour goinfrer une autre IA, on est bien des humains stupides et cupides — comme on commence à en voir fleurir plus ou moins discrètement y compris dans notre secteur du hardware, discréditant des pans entiers de métiers au passage, et avec malgré tout une finalité visant soit à faire de la thune, soit à manipuler les opinions en distribuant une vision du monde au détriment des faits. Rien de bien nouveau en soit, mais avec ce genre d'outil cela est simplement rendu applicable à grande échelle de manière bien facilitée, à coûts réduits de surcroit. Même sur le Comptoir, on commence à voir fleurir des SPAMs dans les ragots générés à coups d'IA...
AI Classifier tout en logo
Dans ce contexte, AI classifier, l'outil de détection de contenus générés par IA d'OpenAI, dont la précision selon son papa ne serait que de seulement 26 %, vient d'être clôturé, en tout cas temporairement : « À partir du 20 juillet 2023, lA Classifier n'est plus disponible en raison de son faible taux de précision. Nous travaillons à intégrer les commentaires et nous recherchons actuellement des techniques de provenance plus efficaces pour le texte, et nous nous sommes engagés à développer et déployer des mécanismes permettant aux utilisateurs de savoir si le contenu audio ou visuel est généré par une IA. ».
Il faut dire que contrairement à des images par exemple, l'ajout de métadonnées dans un texte de manière transparente n'est évidemment pas possible ; sa détection est donc cantonnée à la détection, ou non, de modèle (ou pattern) de langage utilisé par les IA. Aisément altérable, cela ne peut être une source unique et pertinente d'identification. Et c'est là que s'invitent les probabilités, en déduisant que la valeur d'une information est proportionnelle à l'amplitude des variations dans les conclusions : moins une information est probable, plus elle est considérée comme pertinente. Une transcription mathématique un peu simpliste des écrits, de leurs formulations, et de la richesse de langages et surtout d'analyses pouvant conduire à des conclusions similaires. Accessoirement, une porte ouverte sur les fenêtres des théories du complot et autres trolls... Sport ô combien populaire sur le net.
Sur la base de ce paradigme, d'autres ingénieurs ont apporté leurs pierres à l'édifice, notamment Claude Shannon et Warren Weaver, aboutissant à un modèle de communication avec des travaux complétant, entre autres, un certain Alan Turing. Les « sciences de l'information » en s'appuyant sur les notions de corrélation, d'entropie et d'apprentissage pour analyser un texte et en dégager le sens. C'est sur la base des travaux appliquée à la linguistique que les outils de détection de textes-pondus-par-IA semblent vouloir s'orienter, chassant les schémas de langage — demandant un apprentissage préalable — puis y appliquant une pondération. Aveu d'échec pour OpenAI et / ou manque d'anticipation sur les problèmes éthiques liés à l'explosion des usages de l'IA ? On a pas fini de manger des deepfakes, fakes tout court, plagiats, ou encore des soucis de droits d'auteurs ; en ce sens revoir le cahier des charges semble, quoique tardive, la bonne option. D'autant que, pour continuer à former les IA, si on dispose d'une base d'apprentissage foireuse, ce n'est à priori pas gagné gagné de gagner (désolé) en pertinence : les acteurs en lice ont donc tout intérêt à ce que ces biais algorithmiques soient largement contenus.
En aparté et pour élargir l'idée, rappelons à toutes fins utiles que l'IA ne se résume pas à GPT. Deepmind par exemple — mince, encore Google... — vient d'aider significativement à l'avancée dans la recherche sur la mise au point de la fusion nucléaire, en permettant le contrôle inédit du plasma. Auparavant, la société avait déjà fait parler d'elle avec la prédiction réussie de la structure de protéines, conduisant à une meilleure compréhension de leurs interactions avec le corps humain.