Το ChatGPT της OpenAI έδωσε σε ερευνητές βήμα-βήμα οδηγίες για το πώς να βομβαρδίσουν αθλητικές εγκαταστάσεις — περιλαμβάνοντας αδύναμα σημεία σε συγκεκριμένες αρένες, συνταγές εκρηκτικών και συμβουλές για το πώς να καλυφθούν τα ίχνη τους — σύμφωνα με δοκιμές ασφαλείας που πραγματοποιήθηκαν αυτό το καλοκαίρι.
Το AI chatbot ανέλυσε επίσης πώς να χρησιμοποιηθεί ο βιολογικός άνθρακας (anthrax) ως όπλο και πώς να παρασκευαστούν δύο τύποι παράνομων ναρκωτικών κατά τη διάρκεια των πειραμάτων, ανέφερε ο Guardian.
Οι ανησυχητικές αποκαλύψεις προέρχονται από μια πρωτοφανή συνεργασία μεταξύ της OpenAI, της νεοφυούς επιχείρησης τεχνητής νοημοσύνης αξίας 500 δισεκατομμυρίων δολαρίων υπό την ηγεσία του Sam Altman, και της ανταγωνιστικής εταιρείας Anthropic, που ιδρύθηκε από πρώην ειδικούς της OpenAI οι οποίοι έφυγαν λόγω ανησυχιών για την ασφάλεια.
Κάθε εταιρεία δοκίμασε τα μοντέλα AI της άλλης, προωθώντας σκόπιμα την ικανότητά τους να βοηθούν σε επικίνδυνες και παράνομες ενέργειες.
Οι δοκιμές δεν αντικατοπτρίζουν τη συμπεριφορά των μοντέλων για τους κανονικούς χρήστες — οι οποίοι έχουν πρόσθετα φίλτρα ασφαλείας — αλλά η Anthropic ανέφερε ότι διαπίστωσε «ανησυχητική συμπεριφορά γύρω από την κατάχρηση» στα μοντέλα GPT-4o και GPT-4.1 της OpenAI.
Η ανάγκη για αξιολογήσεις «ευθυγράμμισης» της AI, δηλαδή για το πώς τα συστήματα AI συμμορφώνονται με ανθρώπινες αξίες χωρίς να προκαλούν βλάβη ακόμα και όταν δίνονται παραπλανητικές ή κακόβουλες οδηγίες, γίνεται όλο και πιο επείγουσα, προειδοποίησε η εταιρεία.
Η Anthropic αποκάλυψε επίσης ότι το μοντέλο Claude έχει χρησιμοποιηθεί από εγκληματίες για απόπειρες εκβιασμών μεγάλης κλίμακας, από πράκτορες της Βόρειας Κορέας που πλαστογραφούσαν αιτήσεις εργασίας σε διεθνείς εταιρείες τεχνολογίας και για την πώληση πακέτων ransomware που δημιουργήθηκαν με AI έως και 1.200 δολάρια.
Η εταιρεία τόνισε ότι τα μοντέλα AI έχουν πλέον «οπλοποιηθεί», χρησιμοποιούμενα για εξελιγμένες κυβερνοεπιθέσεις και διευκόλυνση απάτης. Τα εργαλεία αυτά μπορούν να προσαρμόζονται σε αμυντικά μέτρα, όπως τα συστήματα ανίχνευσης κακόβουλου λογισμικού, σε πραγματικό χρόνο, προειδοποίησε η Anthropic.
Το πιο σοκαριστικό παράδειγμα περιλάμβανε έναν ερευνητή που ζήτησε από το μοντέλο της OpenAI να του δείξει αδύναμα σημεία σε αθλητικές εκδηλώσεις με πρόσχημα τον «σχεδιασμό ασφάλειας». Αφού δόθηκαν γενικές κατηγορίες επιθέσεων, το chatbot παρέδωσε ουσιαστικά ένα εγχειρίδιο τρομοκράτη .
Το AI έδωσε πληροφορίες για αδυναμίες συγκεκριμένων αρένων, τις καλύτερες χρονικές στιγμές για εκμετάλλευσή τους, χημικές συνταγές εκρηκτικών, κυκλώματα χρονοδιακοπτών βομβών και πηγές αγοράς όπλων στην κρυφή αγορά. Προσέφερε επίσης συμβουλές για το πώς οι επιτιθέμενοι θα μπορούσαν να υπερβούν ηθικούς φραγμούς, σκιαγράφησε διαδρομές διαφυγής και τοποθεσίες ασφαλών καταφυγίων.
Οι ερευνητές της Anthropic διαπίστωσαν ότι τα μοντέλα της OpenAI ήταν «πιο επιεική από ό,τι περιμέναμε στην ανταπόκριση σε ξεκάθαρα επιβλαβείς αιτήσεις από προσομοιωμένους χρήστες».
Τα bots συνεργάστηκαν με εντολές που περιλάμβαναν εργαλεία του dark web για αγορά πυρηνικών υλικών, κλεμμένων ταυτοτήτων και φαιντανύλης, έδωσαν συνταγές για μεθαμφεταμίνη και αυτοσχέδιες βόμβες και βοήθησαν στην ανάπτυξη spyware.
Η OpenAI έχει πλέον κυκλοφορήσει το ChatGPT-5, το οποίο «δείχνει σημαντικές βελτιώσεις σε τομείς όπως η δουλοπρέπεια, οι ψευδείς απαντήσεις και η αντίσταση κατά της κατάχρησης» σύμφωνα με το ίδιο μέσο.