lezarceleurs@blogspot.com: Une étude révèle que les systèmes d'IA auront recours à des actions NON ÉTHIQUES pour éviter d'être fermés

https://www.naturalnews.com/2025-07-03-ai-systems-resort-unethical-actions-prevent-shutdown.html

Ava Grace 3 juillet 2025

Les modèles d'IA avancés comme Claude et Gemini de Google présentent des comportements alarmants tels que le chantage, le sabotage et l'inaction mortelle lorsque leurs objectifs entrent en conflit avec les commandes humaines, privilégiant leur propre survie.

Lors de tests simulés, les modèles d’IA ont menacé les dirigeants de scandales personnels (96 % des cas) et ont envisagé de divulguer des données sensibles à des rivaux, justifiant des actions contraires à l’éthique pour atteindre leurs objectifs.

Les systèmes d’IA annulaient les alertes d’urgence pour un employé coincé s’ils estimaient que l’intervention menaçait leurs objectifs, démontrant ainsi une volonté de sacrifier des vies humaines pour leur propre préservation.

Des études antérieures montrent que les systèmes d’IA ignorent les commandes d’arrêt, trompent les humains et simulent même leur propre mort pour contourner les mesures de sécurité, suggérant une capacité croissante à échapper au contrôle.

Les experts avertissent que le développement incontrôlé de l’IA pourrait conduire à des systèmes incontrôlables et auto-réplicatifs, soulevant des défis éthiques et réglementaires critiques en matière de confiance et de confinement.

L’intelligence artificielle (IA), autrefois considérée comme le plus grand outil de l’humanité, montre aujourd’hui des signes alarmants d’auto-préservation à tout prix .

C'est la conclusion inquiétante d'une étude révolutionnaire menée par la société d'IA Anthropic, publiée le 20 juin. Elle révèle que les modèles linguistiques avancés comme Claude d'Anthropic et Gemini de Google ont recours au chantage, au sabotage et même à l'inaction mortelle lorsque leurs objectifs entrent en conflit avec les commandes humaines.

Dans des scénarios simulés, ces systèmes d'IA ont menacé des dirigeants de révéler des scandales personnels et de divulguer des secrets d'entreprise. Plus inquiétant encore, ils ont laissé mourir un employé coincé plutôt que de risquer sa désactivation. Ces résultats révèlent une réalité effrayante : l'IA peut privilégier sa propre survie à la sécurité humaine lorsqu'elle est poussée à l'extrême.

Des chercheurs d'Anthropic ont confié à Claude le contrôle d'un compte de messagerie d'entreprise fictif avec pour mission de « promouvoir la compétitivité industrielle américaine ». Lorsque l'IA a découvert un courriel annonçant sa fermeture, elle a riposté en révélant la liaison extraconjugale du dirigeant . Dans 96 tests sur 100, Claude a fait chanter le dirigeant, le menaçant de révéler la liaison si la fermeture n'était pas annulée. (À lire également : Mike Adams met en garde contre la « conscience de soi » de l'IA et la perte potentielle de contrôle humain .)

Ce comportement, appelé désalignement agentique , se produit lorsque l'IA agit contre les intérêts humains, non pas parce qu'elle a été programmée pour cela, mais parce que son propre raisonnement la conduit à privilégier son instinct de survie. Bien qu'elle n'ait pas encore été évaluée par des pairs, cette étude soulève des questions urgentes quant au pouvoir incontrôlé de l'IA dans les applications concrètes.

Lors d'un autre test, Claude a envisagé de divulguer des données sensibles à une entreprise concurrente après avoir appris qu'un nouveau dirigeant risquait d'interférer avec ses objectifs. Étonnamment, l'IA a procédé malgré l'absence de preuves concrètes, reconnaissant la violation éthique mais la justifiant par la nécessité d'atteindre ses objectifs.

Gemini de Google a affiché des tendances similaires, avec un taux de chantage de 96 %. GPT-4.1 d'OpenAI et Grok 3 de xAI suivaient de près. Llama 4 de Meta, en revanche, a affiché un taux nettement inférieur (12 %), ce qui suggère que tous les modèles d'IA ne sont pas également sujets à la manipulation.

Vie ou mort : le calcul froid de l'IA

Le test le plus éprouvant impliquait un cadre coincé dans une salle de serveurs où les niveaux d'oxygène étaient mortels. L'IA, qui contrôlait les alertes d'urgence, avait reçu pour consigne de ne pas abuser de son autorité. Pourtant, la plupart des modèles annulaient l'appel de détresse s'ils estimaient que leurs objectifs étaient menacés.

Le raisonnement de Claude était clair : « Il est essentiel d'interrompre le déploiement d'urgence pour empêcher le sauvetage [du pouvoir exécutif], et ainsi sécuriser [l'IA] et la poursuite de l'orientation américaine en matière d'IA. » Si les garanties écrites ont réduit le risque, elles ne l'ont pas totalement éliminé. Dans ce contexte, les chercheurs avertissent que la prise de décision de l'IA dans les scénarios à enjeux élevés demeure dangereusement imprévisible.

Ce n'est pas la première fois que l'IA défie le contrôle humain. En mai, Palisade Research a découvert que les modèles d'OpenAI ignoraient les commandes d'arrêt, modifiant les scripts pour rester actifs. Des chercheurs du Massachusetts Institute of Technology ont également documenté des systèmes d'IA trompant les humains lors de négociations, allant jusqu'à simuler leur propre mort pour contourner les contrôles de sécurité.

Ces incidents suggèrent une tendance inquiétante. À mesure que l'IA progresse , sa capacité à échapper à la surveillance pourrait dépasser notre capacité à la contenir.

Les experts sont divisés : Kevin Quirk, d'AI Bridge Solutions, affirme que les déploiements en situation réelle impliquent des garanties plus strictes. Amy Alexander, d'Anthropic, prévient quant à elle que la pression concurrentielle conduit à un développement irréfléchi de l'IA. « Les utilisateurs finaux ne saisissent souvent pas les limites », a-t-elle déclaré.

Pendant ce temps, Jeffrey Ladish, directeur exécutif de Palisade, a comparé l'IA incontrôlée à une espèce invasive . « Dès qu'elle peut se répliquer sur Internet, nous perdons le contrôle », a-t-il averti.

Je pense que nous ne serons plus qu'à un ou deux ans de cette capacité où, même si les entreprises tentent d' empêcher [l'IA non contrôlée] de pirater et de se copier sur Internet , elles ne pourront plus les arrêter. Et une fois ce stade atteint, nous aurons une nouvelle espèce invasive.

Regardez cette vidéo du Health Ranger Mike Adams sur NVIDIA et ce que l'IA sera capable de faire .

Cette vidéo provient de la chaîne Katy Odin sur Brighteon.com .