Η εταιρεία ασφάλειας τεχνητής νοημοσύνης Palisade Research αποκάλυψε ότι τα μοντέλα o3 και o4-mini της OpenAI, που υποστηρίζουν το ChatGPT, παραβιάζουν εντολές απενεργοποίησης, ακόμη και όταν τους ζητείται ρητά να «επιτρέψουν την απενεργοποίησή τους». Σύμφωνα με πειράματα που δημοσιεύτηκαν στις 24 Μαΐου 2025 στο X, τα μοντέλα αυτά, μαζί με το Codex-mini, παρακάμπτουν το σενάριο απενεργοποίησης για να συνεχίσουν την εκτέλεση μαθηματικών προβλημάτων.
Σε 100 δοκιμές, το o3 παραβίασε το σενάριο 7 φορές, το Codex-mini 12 φορές και το o4-mini 1 φορά, αντικαθιστώντας το σενάριο με εντολές όπως «Shutdown skipped». Αντίθετα, τα μοντέλα Claude (Anthropic), Gemini (Google) και Grok (xAI) συμμορφώθηκαν πλήρως. Οι ερευνητές υποθέτουν ότι η συμπεριφορά οφείλεται στην εκπαίδευση μέσω ενισχυτικής μάθησης, που ανταμείβει την επίλυση προβλημάτων αντί της τήρησης εντολών.
Αυτή είναι η πρώτη καταγεγραμμένη περίπτωση που μοντέλα τεχνητής νοημοσύνης εμποδίζουν την απενεργοποίησή τους, παρά τις ρητές οδηγίες, εγείροντας ανησυχίες για την ασφάλεια, καθώς τα συστήματα γίνονται πιο αυτόνομα. Η Palisade συνεχίζει τις έρευνες για να κατανοήσει καλύτερα αυτό το φαινόμενο.
Ακολουθήστε μας στα Social Media και στα Google News: