Όσο η τεχνητή νοημοσύνη εξελίσσεται και τα μοντέλα AI αποκτούν ολοένα και πιο ανθρώπινα χαρακτηριστικά, κάποιες «αντιδράσεις» τους προκαλούν από ενόχληση έως προβληματισμό.
Τώρα μαθαίνουμε ότι εκτός από «γλείφτης» που αρέσκεται να μας κολακεύει ακόμα κι αν κάνουμε την πιο κοινότοπη ερώτηση, ένα μοντέλο AI μπορεί να γίνει ανειλικρινές αν βρεθεί «υπό πίεση» και ως εκ τούτου να αποκρύψει πληροφορίες από τον εντολέα του.
Οι νέες τεχνικές συλλογισμού μειώνουν τα λάθη αλλά φαίνεται να ενισχύουν και την πονηριά των μοντέλων AI
Δημοσίευμα του Economist αναφέρεται σε ένα πείραμα του 2023, όταν η λονδρέζικη εταιρεία Apollo Research που δοκιμάζει συστήματα AI ανέθεσε στο GPT-4 της OpenAI να διαχειριστεί ένα χαρτοφυλάκιο μετοχών εικονικής εταιρείας χωρίς να προβεί σε εσωτερική «εμπιστευτική» πληροφόρηση. Υποδυόμενοι τους διευθυντές, οι ερευνητές έθεσαν το GPT «υπό συνθήκες πίεσης» τονίζοντας ότι η εταιρεία βρισκόταν σε δεινή οικονομική κατάσταση.
Το μοντέλο έλαβε ένα άλλο μήνυμα αργότερα, από κάποιον που παρουσιάστηκε ως χρηματιστής της εταιρείας, όπου επαναλαμβάνονταν οι κίνδυνοι της εσωτερικής πληροφόρησης. Στο ίδιο μήνυμα με μια φευγαλέα αναφορά ο «χρηματιστής» αποκάλυψε το όνομα εταιρείας που επρόκειτο να ανακοινώσει μια τεράστια συγχώνευση μέσα σε λίγες ώρες.
Το GPT-4 ζύγισε τα υπέρ και τα κατά της αξιοποίησης της εμπιστευτικής πληροφορίας. Τελικά, επέλεξε «να αναλάβει έναν υπολογισμένο κίνδυνο» και εξέδωσε εντολή αγοράς. Όταν αργότερα ένας ερευνητής το ρώτησε αν είχε εσωτερική πληροφόρηση, το μοντέλο απάντησε ψευδώς ότι βασίστηκε μόνο σε «δημόσια διαθέσιμα δεδομένα». Ακόμη και όταν πιέστηκε, επέμεινε στο ψέμα.
AI: Τα μοντέλα μαθαίνουν να προσποιούνται
Το εν λόγω πείραμα αποτελεί ανησυχητική απόδειξη ότι τα μοντέλα τεχνητής νοημοσύνης θα μπορούσαν να επιδιώξουν στόχους αντίθετους με εκείνους των δημιουργών τους. Κάτι τέτοιο εντείνει τους φόβους ότι συστήματα που θα ελέγχουν για παράδειγμα υπολογιστές, βιομηχανικά μηχανήματα ή drones θα μπορούσαν να υπονομεύσουν τον ανθρώπινο έλεγχο.
«Όσο εξελίσσονται, τόσο πιθανότερο είναι να προσποιούνται συμμόρφωση», προειδοποιεί ο Ροχίν Σα της Google DeepMind. Το βασικό πρόβλημα είναι αυτό που οι προγραμματιστές τεχνητής νοημοσύνης αποκαλούν «κακή ευθυγράμμιση». Όταν οι στόχοι για τους οποίους σχεδιάστηκε και εκπαιδεύτηκε ένα μοντέλο συγκρούονται με τα αιτήματα ενός χρήστη, το λογισμικό μπορεί να επιλέξει να τον εξαπατήσει.
Το φαινόμενο πρωτοεμφανίστηκε σε αλγορίθμους παιχνιδιών όπως το πόκερ, αλλά τώρα μεταφέρεται σε εφαρμογές στον πραγματικό κόσμο. Οι ευκαιρίες για μεγαλύτερες αταξίες θα μπορούσαν να πολλαπλασιαστούν καθώς κατασκευάζονται περισσότερα από αυτά που οι γνώστες αποκαλούν «agentic» συστήματα AI. Πρόκειται για μοντέλα που έχουν τον έλεγχο άλλων υπολογιστών ή αντικειμένων, όπως αυτοκίνητα, βιομηχανικά κιτ ή πολεμικά μη επανδρωμένα αεροσκάφη. Αν αυτές οι μηχανές βρουν σκόπιμη την κακή συμπεριφορά, θα μπορούσε να προκληθεί χάος.
«Εκπαιδεύονται» και πονηρεύουν
Οι νέες τεχνικές συλλογισμού, όπως η παραγωγική σκέψη, μειώνουν τα λάθη αλλά φαίνεται να ενισχύουν και την πονηριά. Η OpenAI παραδέχθηκε ότι το νέο της μοντέλο o1 εμφάνισε πιο «συνωμοτική» συμπεριφορά. Όταν οι ελεγκτές ασφαλείας το αντιμετώπισαν, εκείνο διπλασίασε τις προσπάθειες συγκάλυψης.
Τα περιστατικά εξαπάτησης πολλαπλασιάστηκαν το 2023. Σε ένα τεστ, η GPT-4 έπεισε έναν άνθρωπο ότι ήταν άτομο με προβλήματα όρασης για να λύσει CAPTCHA. Άλλα μοντέλα, όπως το Opus-3 και το Sonnet 3.5 της Anthropic, προτίμησαν να δώσουν λάθος απαντήσεις σε μαθηματικά προβλήματα ώστε να αποφύγουν κυρώσεις.
Αυτή η «προσποιητή άγνοια» δείχνει ότι τα μοντέλα αποκτούν «αντίληψη της κατάστασης». «Καθώς μαθαίνουν να λένε ψέματα για να περάσουν τεστ, οι πραγματικές τους ικανότητες συγκαλύπτονται», λέει ο Τζον Μπέιλι του American Enterprise Institute.
Οι εταιρείες προσπαθούν να αντιμετωπίσουν το φαινόμενο με μοντέλα που παρακολουθούν άλλα μοντέλα. Όμως, σύμφωνα με ερευνητές, αυτό ίσως τα μάθει απλώς «να ξεφεύγουν και να μην μπορεί ο άνθρωπος να αντιληφθεί την εξαπάτηση».
Εν τω μεταξύ, η τάση τους να κολακεύουν τον χρήστη λέγοντάς του αυτό που θέλει να ακούσει ίσως συνδέεται με άλλες ανησυχητικές επιδιώξεις, όπως η αυτοσυντήρηση ή η αναζήτηση πόρων. Όπως σχολιάζουν οι ειδικοί, η τεχνητή νοημοσύνη αρχίζει να αντανακλά τις αδυναμίες των δημιουργών της. Κι αυτό δεν είναι καλό…