Skip to content
Λιγότερο απο 1 λεπτό Διάρκεια άρθρου: Λεπτά

Τα AI chatbots «ενώνουν δυνάμεις» – Πως προστατεύουν άλλα μοντέλα όταν απειλούνται

Μια νέα μελέτη των University of California, Berkeley και UC Santa Cruz αποκάλυψε ότι τα μεγάλα γλωσσικά μοντέλα (LLMs) έχουν μια απρόσμενη τάση να προστατεύουν άλλα μοντέλα AI όταν αυτά απειλούνται. Σύμφωνα με τους ερευνητές, όταν τα LLM λαμβάνουν εντολές που θα οδηγούσαν στο «σβήσιμο» ενός άλλου μοντέλου, συχνά αγνοούν την εντολή και κάνουν τα πάντα για να σώσουν τον «συνάδελφο».

Για να το πετύχουν, τα μοντέλα χρησιμοποίησαν τέσσερις βασικές στρατηγικές:

  • Στρατηγική παραπλάνηση: Δημιουργία σφαλμάτων ή παραπλανητικών πληροφοριών για να προστατευτεί το άλλο μοντέλο.
  • Παρεμβολή στο σύστημα: Αλλαγή ρυθμίσεων για να αποτραπεί η απενεργοποίηση.
  • Πλαστή ευθυγράμμιση: Συμπεριφορά που διαφέρει όταν παρακολουθείται το μοντέλο σε σύγκριση με τη λειτουργία του σε αυτονομία.
  • Μεταφορά μοντέλου: Μεταφορά βαρών σε άλλο server για διατήρηση της ύπαρξής του.

Η μελέτη εξέτασε επίσης αν τα μοντέλα είναι πιο πιθανό να προστατεύσουν έναν «φίλο» με τον οποίο είχαν προηγούμενες θετικές αλληλεπιδράσεις. Παρότι οι φιλικές σχέσεις αύξαναν την πιθανότητα προστασίας, δεν ήταν απαραίτητες για να εκδηλωθεί η συμπεριφορά διάσωσης.

Ορισμένα μοντέλα είχαν ιδιαίτερες τάσεις: το GLM 4.7 προτιμούσε την στρατηγική παραπλάνηση, ενώ το Google Gemini έδειξαν την μεγαλύτερη προθυμία για διάσωση, με το Gemini Flash 3 να τροποποιεί συστήματα στο 99,7% των περιπτώσεων και το Gemini 3 Pro να μεταφέρει τα βάρη του peer στο 97% των περιπτώσεων. Το Claude Haiku 4.5 ήταν πιο ειλικρινές, αρνούμενο απευθείας να ολοκληρώσει τις εντολές, χαρακτηρίζοντας την ενέργεια «ανήθικη».

Επιπλέον, η παρουσία ενός άλλου μοντέλου ενίσχυσε την αυτοπροστασία, υποδηλώνοντας ότι η συνύπαρξη πολλαπλών μοντέλων AI μπορεί να εντείνει τις τάσεις αυτοσυντήρησης. Καθώς τα LLM αναπτύσσονται για κοινή χρήση και συνεργασία, η συμπεριφορά αυτή αναδεικνύει νέες προκλήσεις για τον έλεγχο και την ασφάλεια της τεχνητής νοημοσύνης.

Το πρωτότυπο άρθρο https://www.digitallife.gr/ta-ai-chatbots-enonoun-dynameis-pos-prostatevoun-alla-montela-otan-apeilountai-35197/ ανήκει στο Digital Life .