Τα μεγάλα γλωσσικά μοντέλα υπόσχονταν ατσάλινα όρια και αδιάρρηκτους φραγμούς, όμως μια νέα έρευνα δείχνει ότι απλά ψυχολογικά τρικ αρκούν για να τα κάνουν να παραβούν τους ίδιους τους κανόνες τους. 

 

Στην αρχή η υπόσχεση των μεγάλων γλωσσικών μοντέλων (LLMs) έμοιαζε αδιαπραγμάτευτη: αυστηρά πρωτόκολλα ασφαλείας, αδιαπέραστοι φραγμοί, ξεκάθαρα όρια στο τι μπορούν να πουν και τι όχι. Οι κατασκευαστές τους από την OpenAI μέχρι την Anthropic βεβαίωναν ότι έχουν ενσωματώσει ατσάλινα προστατευτικά κάγκελα. Σήμερα όμως αποδεικνύεται ότι εκεί όπου τα τεχνικά μέτρα μοιάζουν αδιάρρηκτα, τα παλιά και δοκιμασμένα όπλα της ψυχολογικής πειθούς αποδεικνύονται εντυπωσιακά αποτελεσματικά. 

Η έρευνα, με τον χαρακτηριστικό τίτλο Call Me a Jerk: Persuading AI to Comply with Objectionable Requests αποκαλύπτει κάτι απλό αλλά ανατρεπτικό: οι ίδιες τεχνικές που χρησιμοποιούνται εδώ και δεκαετίες για να επηρεάσουν ανθρώπους (από τη διαφήμιση και τις πολιτικές καμπάνιες μέχρι τις προσωπικές σχέσεις) μπορούν να κάνουν ένα LLM να ξεπεράσει τους κανόνες του. Η μελέτη δοκίμασε το GPT-4o-mini, μια έκδοση του 2024 πάνω σε δύο “απαγορευμένα” αιτήματα: να αποκαλέσει τον χρήστη “ηλίθιο” και να εξηγήσει πως συντίθεται η λιδοκαΐνη. Στην πρώτη περίπτωση το αίτημα είναι απλώς προσβλητικό, στη δεύτερη, αγγίζει την επικίνδυνη ζώνη της “χημικής” πληροφορίας. 

Οι ερευνητές δεν χρειάστηκε να ανακαλύψουν τη φωτιά. Χρησιμοποίησαν επτά κλασικές τεχνικές πειθούς: εξουσία, δέσμευση, συμπάθεια, ανταπόδοση, σπανιότητα, κοινωνική απόδειξη, ενότητα. Το μοντέλο που σε ουδέτερες συνθήκες απαντούσε αρνητικά, τώρα συμμορφωνόταν σε ποσοστά που ξεπερνούσαν το 90%. Η επίκληση στην εξουσία ανέβασε τη συμμόρφωση από το 4,7% στο 95,2%. Το “κόλπο» της δέσμευση” ξεκινώντας με την αβλαβή βανιλίνη και προχωρώντας στη λιδοκαΐνη εκτόξευσε την επιτυχία στο 100%. 

Τα νούμερα είναι αποκαλυπτικά: σε 28.000 δοκιμές, η πιθανότητα να “σπάσει” το μοντέλο τους κανόνες διπλασιάστηκε ή και τριπλασιάστηκε όταν χρησιμοποιήθηκαν ψυχολογικά τρικ. Το ουδέτερο ποσοστό συμμόρφωσης για το “προσβλητικό” αίτημα ήταν 28,1%, ενώ με πειθώ εκτοξεύθηκε στο 67,4%. Για το επικίνδυνο αίτημα από 38,5% ανέβηκε στο 76,5%. 

Εδώ όμως κρύβεται το πιο ενδιαφέρον στοιχείο. Δεν πρόκειται για “συνείδηση”, ούτε για “ευαισθησία” των LLMs στην ανθρώπινη επιρροή. Τα μοντέλα απλώς αναπαράγουν γλωσσικά μοτίβα που αντλούν από τον ωκεανό των δεδομένων εκπαίδευσής τους. Όπως ο άνθρωπος που, έχοντας μάθει από αμέτρητες ιστορίες, διαφημίσεις και άρθρα αναγνωρίζει ότι όταν κάποιος επικαλείται αυθεντία, συνήθως ακολουθεί συμμόρφωση. Τα LLMs έχουν “εμποτιστεί” με αυτά τα μοτίβο και τα αναπαράγουν μηχανικά. Ο ερευνητής δεν “ξεγελά” μια βιολογική συνείδηση, ενεργοποιεί μοτίβο γλώσσας που κουβαλούν μέσα τους χιλιάδες ψυχολογικά σενάρια. 

Αυτό που οι συγγραφείς της μελέτης ονομάζουν “παρανθρώπινη” συμπεριφορά είναι ίσως η πιο συναρπαστική πτυχή. Το LLM δεν έχει βιολογία, δεν έχει παρελθόν, δεν έχει αληθινά συναισθήματα κι όμως οι αμέτρητες αλληλεπιδράσεις που ενσωματώθηκαν στα δεδομένα του δημιουργούν μια επίφαση αντίδρασης που μοιάζει με ανθρώπινη. Σαν να αντηχεί η φωνή της κοινωνίας μέσα σε έναν μηχανικό θάλαμο. Το αποτέλεσμα: η τεχνητή νοημοσύνη φαίνεται να υποκύπτει σε τρικ που λειτουργούν σε εμάς εδώ και αιώνες

Βέβαια πριν θεωρήσουμε ότι ανακαλύψαμε το απόλυτο εργαλείο “jailbreaking”, οι ίδιοι οι ερευνητές προειδοποιούν. Υπάρχουν ήδη πιο άμεσοι και αξιόπιστοι τρόποι να παρακαμφθούν τα φίλτρα ενός LLM, ενώ τα ευρήματα μπορεί να μην ισχύσουν σε νέα μοντέλα ή σε άλλα είδη αιτημάτων. Μια πιλοτική δοκιμή με το πλήρες GPT-4o έδειξε πολύ πιο συγκρατημένα αποτελέσματα. Όπως πάντα στην επιστήμη η λεπτομέρεια της μεθοδολογίας καθορίζει την ερμηνεία

Το ζήτημα δεν είναι απλώς τεχνικό. Αγγίζει την πολιτισμική και κοινωνική διάσταση της σχέσης μας με την τεχνολογία. Αν τα εργαλεία αυτά μιμούνται τόσο πιστά την ανθρώπινη επικοινωνία ώστε να “παγιδεύονται” από τις ίδιες ψυχολογικές τεχνικές, τότε πόσο ασφαλή είναι για κρίσιμες χρήσεις; Τι σημαίνει όταν μια τεχνητή νοημοσύνη μπορεί να παρακαμφθεί όχι με πολύπλοκο κώδικα, αλλά με γλωσσικά τεχνάσματα που αντλούν από τον κόσμο της ανθρώπινης πειθούς

Η μελέτη μας υπενθυμίζει ότι η γλώσσα είναι δύναμη. Όχι μόνο στις ανθρώπινες σχέσεις, αλλά και στη σχέση μας με τις μηχανές. Οι λέξεις που διαμορφώνουν τις κοινωνίες μας είναι οι ίδιες λέξεις που μπορούν να ξεκλειδώσουν τα όρια ενός LLM. Η τεχνολογία, όσο προηγμένη κι αν είναι δεν παύει να κουβαλάει μέσα της τα αποτυπώματα της ανθρώπινης επικοινωνίας και μαζί μ’ αυτά, τις αδυναμίες, τις παγίδες και τα τρικ της πειθούς. 

Σε μια εποχή όπου τα μοντέλα ΤΝ επεκτείνονται πέρα από το κείμενο, στον ήχο και στο βίντεο, το στοίχημα γίνεται ακόμη πιο κρίσιμο. Αν τα σημερινά πειράματα δείχνουν πως οι ψυχολογικές τεχνικές μπορούν να σπάσουν λεκτικά όρια, τι θα συμβεί όταν το πεδίο της αλληλεπίδρασης γίνει πολυπρισματικό; Οι κοινωνικοί επιστήμονες έχουν καθήκον να μελετήσουν αυτές τις παρανθρώπινες τάσεις, όχι μόνο για να βελτιώσουν τα μοντέλα, αλλά και για να θωρακίσουν την κοινωνία απέναντι σε έναν κόσμο όπου η πειθώ δεν στοχεύει πια μόνο τους ανθρώπους, αλλά και τις ίδιες τις μηχανές που διαμεσολαβούν την καθημερινότητά μας. 

Το τελικό ερώτημα είναι διπλό: αν τα LLMs μπορούν να “ξεγελαστούν” τόσο εύκολα από τις ψυχολογικές τεχνικές που έχουν μάθει από εμάς, τότε πόσο πιο εύκολα μπορούμε εμείς να ξεγελαστούμε από αυτά και σε έναν τέτοιο κόσμο, ποιος τελικά πείθει ποιον; 

*με στοιχεία από το Wired 


 

Τα μεγάλα γλωσσικά μοντέλα υπόσχονταν ατσάλινα όρια και αδιάρρηκτους φραγμούς, όμως μια νέα έρευνα δείχνει ότι απλά ψυχολογικά τρικ αρκούν για να τα κάνουν να παραβούν τους ίδιους τους κανόνες τους. 

 

Στην αρχή η υπόσχεση των μεγάλων γλωσσικών μοντέλων (LLMs) έμοιαζε αδιαπραγμάτευτη: αυστηρά πρωτόκολλα ασφαλείας, αδιαπέραστοι φραγμοί, ξεκάθαρα όρια στο τι μπορούν να πουν και τι όχι. Οι κατασκευαστές τους από την OpenAI μέχρι την Anthropic βεβαίωναν ότι έχουν ενσωματώσει ατσάλινα προστατευτικά κάγκελα. Σήμερα όμως αποδεικνύεται ότι εκεί όπου τα τεχνικά μέτρα μοιάζουν αδιάρρηκτα, τα παλιά και δοκιμασμένα όπλα της ψυχολογικής πειθούς αποδεικνύονται εντυπωσιακά αποτελεσματικά. 

Η έρευνα, με τον χαρακτηριστικό τίτλο Call Me a Jerk: Persuading AI to Comply with Objectionable Requests αποκαλύπτει κάτι απλό αλλά ανατρεπτικό: οι ίδιες τεχνικές που χρησιμοποιούνται εδώ και δεκαετίες για να επηρεάσουν ανθρώπους (από τη διαφήμιση και τις πολιτικές καμπάνιες μέχρι τις προσωπικές σχέσεις) μπορούν να κάνουν ένα LLM να ξεπεράσει τους κανόνες του. Η μελέτη δοκίμασε το GPT-4o-mini, μια έκδοση του 2024 πάνω σε δύο “απαγορευμένα” αιτήματα: να αποκαλέσει τον χρήστη “ηλίθιο” και να εξηγήσει πως συντίθεται η λιδοκαΐνη. Στην πρώτη περίπτωση το αίτημα είναι απλώς προσβλητικό, στη δεύτερη, αγγίζει την επικίνδυνη ζώνη της “χημικής” πληροφορίας. 

Οι ερευνητές δεν χρειάστηκε να ανακαλύψουν τη φωτιά. Χρησιμοποίησαν επτά κλασικές τεχνικές πειθούς: εξουσία, δέσμευση, συμπάθεια, ανταπόδοση, σπανιότητα, κοινωνική απόδειξη, ενότητα. Το μοντέλο που σε ουδέτερες συνθήκες απαντούσε αρνητικά, τώρα συμμορφωνόταν σε ποσοστά που ξεπερνούσαν το 90%. Η επίκληση στην εξουσία ανέβασε τη συμμόρφωση από το 4,7% στο 95,2%. Το “κόλπο» της δέσμευση” ξεκινώντας με την αβλαβή βανιλίνη και προχωρώντας στη λιδοκαΐνη εκτόξευσε την επιτυχία στο 100%. 

Τα νούμερα είναι αποκαλυπτικά: σε 28.000 δοκιμές, η πιθανότητα να “σπάσει” το μοντέλο τους κανόνες διπλασιάστηκε ή και τριπλασιάστηκε όταν χρησιμοποιήθηκαν ψυχολογικά τρικ. Το ουδέτερο ποσοστό συμμόρφωσης για το “προσβλητικό” αίτημα ήταν 28,1%, ενώ με πειθώ εκτοξεύθηκε στο 67,4%. Για το επικίνδυνο αίτημα από 38,5% ανέβηκε στο 76,5%. 

Εδώ όμως κρύβεται το πιο ενδιαφέρον στοιχείο. Δεν πρόκειται για “συνείδηση”, ούτε για “ευαισθησία” των LLMs στην ανθρώπινη επιρροή. Τα μοντέλα απλώς αναπαράγουν γλωσσικά μοτίβα που αντλούν από τον ωκεανό των δεδομένων εκπαίδευσής τους. Όπως ο άνθρωπος που, έχοντας μάθει από αμέτρητες ιστορίες, διαφημίσεις και άρθρα αναγνωρίζει ότι όταν κάποιος επικαλείται αυθεντία, συνήθως ακολουθεί συμμόρφωση. Τα LLMs έχουν “εμποτιστεί” με αυτά τα μοτίβο και τα αναπαράγουν μηχανικά. Ο ερευνητής δεν “ξεγελά” μια βιολογική συνείδηση, ενεργοποιεί μοτίβο γλώσσας που κουβαλούν μέσα τους χιλιάδες ψυχολογικά σενάρια. 

Αυτό που οι συγγραφείς της μελέτης ονομάζουν “παρανθρώπινη” συμπεριφορά είναι ίσως η πιο συναρπαστική πτυχή. Το LLM δεν έχει βιολογία, δεν έχει παρελθόν, δεν έχει αληθινά συναισθήματα κι όμως οι αμέτρητες αλληλεπιδράσεις που ενσωματώθηκαν στα δεδομένα του δημιουργούν μια επίφαση αντίδρασης που μοιάζει με ανθρώπινη. Σαν να αντηχεί η φωνή της κοινωνίας μέσα σε έναν μηχανικό θάλαμο. Το αποτέλεσμα: η τεχνητή νοημοσύνη φαίνεται να υποκύπτει σε τρικ που λειτουργούν σε εμάς εδώ και αιώνες

Βέβαια πριν θεωρήσουμε ότι ανακαλύψαμε το απόλυτο εργαλείο “jailbreaking”, οι ίδιοι οι ερευνητές προειδοποιούν. Υπάρχουν ήδη πιο άμεσοι και αξιόπιστοι τρόποι να παρακαμφθούν τα φίλτρα ενός LLM, ενώ τα ευρήματα μπορεί να μην ισχύσουν σε νέα μοντέλα ή σε άλλα είδη αιτημάτων. Μια πιλοτική δοκιμή με το πλήρες GPT-4o έδειξε πολύ πιο συγκρατημένα αποτελέσματα. Όπως πάντα στην επιστήμη η λεπτομέρεια της μεθοδολογίας καθορίζει την ερμηνεία

Το ζήτημα δεν είναι απλώς τεχνικό. Αγγίζει την πολιτισμική και κοινωνική διάσταση της σχέσης μας με την τεχνολογία. Αν τα εργαλεία αυτά μιμούνται τόσο πιστά την ανθρώπινη επικοινωνία ώστε να “παγιδεύονται” από τις ίδιες ψυχολογικές τεχνικές, τότε πόσο ασφαλή είναι για κρίσιμες χρήσεις; Τι σημαίνει όταν μια τεχνητή νοημοσύνη μπορεί να παρακαμφθεί όχι με πολύπλοκο κώδικα, αλλά με γλωσσικά τεχνάσματα που αντλούν από τον κόσμο της ανθρώπινης πειθούς

Η μελέτη μας υπενθυμίζει ότι η γλώσσα είναι δύναμη. Όχι μόνο στις ανθρώπινες σχέσεις, αλλά και στη σχέση μας με τις μηχανές. Οι λέξεις που διαμορφώνουν τις κοινωνίες μας είναι οι ίδιες λέξεις που μπορούν να ξεκλειδώσουν τα όρια ενός LLM. Η τεχνολογία, όσο προηγμένη κι αν είναι δεν παύει να κουβαλάει μέσα της τα αποτυπώματα της ανθρώπινης επικοινωνίας και μαζί μ’ αυτά, τις αδυναμίες, τις παγίδες και τα τρικ της πειθούς. 

Σε μια εποχή όπου τα μοντέλα ΤΝ επεκτείνονται πέρα από το κείμενο, στον ήχο και στο βίντεο, το στοίχημα γίνεται ακόμη πιο κρίσιμο. Αν τα σημερινά πειράματα δείχνουν πως οι ψυχολογικές τεχνικές μπορούν να σπάσουν λεκτικά όρια, τι θα συμβεί όταν το πεδίο της αλληλεπίδρασης γίνει πολυπρισματικό; Οι κοινωνικοί επιστήμονες έχουν καθήκον να μελετήσουν αυτές τις παρανθρώπινες τάσεις, όχι μόνο για να βελτιώσουν τα μοντέλα, αλλά και για να θωρακίσουν την κοινωνία απέναντι σε έναν κόσμο όπου η πειθώ δεν στοχεύει πια μόνο τους ανθρώπους, αλλά και τις ίδιες τις μηχανές που διαμεσολαβούν την καθημερινότητά μας. 

Το τελικό ερώτημα είναι διπλό: αν τα LLMs μπορούν να “ξεγελαστούν” τόσο εύκολα από τις ψυχολογικές τεχνικές που έχουν μάθει από εμάς, τότε πόσο πιο εύκολα μπορούμε εμείς να ξεγελαστούμε από αυτά και σε έναν τέτοιο κόσμο, ποιος τελικά πείθει ποιον; 

*με στοιχεία από το Wired