|
Η αλλαγή
ξεκίνησε το 2022 με το
λανσάρισμα του ChatGPT.
Πολλοί χρήστες, αντί να
βάζουν λέξεις-κλειδιά
στις μηχανές αναζήτησης,
άρχισαν να θέτουν
ερωτήματα σε chatbots,
για να βρουν πληροφορίες
που μπορεί να
διαδίδονται στο
διαδίκτυο. Ωστόσο,
τέτοιες «μηχανές
απαντήσεων» μόλις και
μετά βίας ξύνουν την
επιφάνεια των
δυνατοτήτων. Ο Kevin
Scott, επικεφαλής
τεχνολογίας της
Microsoft, εκτιμά ότι οι
πράκτορες που μπορούν να
χειριστούν πιο σύνθετες
εργασίες «δεν είναι και
τόσο μακριά». Για να
μπορέσουν όμως να
αναλάβουν μεγαλύτερο
μέρος της εργασίας,
πρέπει να αλλάξουν τα
«υδραυλικά» του
διαδικτύου.
Ένα
βασικό εμπόδιο είναι η
γλώσσα: η εύρεση ενός
τρόπου οι πράκτορες να
μιλούν με τις
διαδικτυακές υπηρεσίες
και μεταξύ τους. Ένας
δικτυακός τόπος ή μια
διαδικτυακή υπηρεσία
κανονικά συνομιλεί με
τον έξω κόσμο μέσω μιας
διεπαφής προγραμματισμού
εφαρμογών (API), η οποία
λέει στους επισκέπτες τι
μπορεί να κάνει, όπως να
κλείσει ένα ραντεβού με
γιατρό ή να βρει μια
τοποθεσία στο χάρτη. Οι
API, ωστόσο, είναι
γραμμένες για ανθρώπους
και η καθεμία έχει τις
δικές της ιδιορρυθμίες
και τεκμηρίωση. Αυτό το
περιβάλλον είναι δύσκολο
για τους πράκτορες
τεχνητής νοημοσύνης,
επειδή συλλογίζονται σε
φυσική γλώσσα. Η
διαχείριση κάθε νέας API
απαιτεί την εκμάθηση της
διαλέκτου της. Επομένως,
για να ενεργούν
ανεξάρτητα στον ιστό, οι
πράκτορες θα χρειαστούν
έναν τυποποιημένο τρόπο
επικοινωνίας.
Αυτός
είναι ο στόχος του Model
Context Protocol (MCP),
που αναπτύχθηκε από την
Anthropic, ένα
εργαστήριο τεχνητής
νοημοσύνης. Ο Mike
Krieger, Chief Product
Officer της εταιρείας,
λέει ότι η ιδέα προέκυψε
κατά τη σύνδεση του
Claude, του chatbot της,
με υπηρεσίες όπως το
Gmail, και το GitHub,
ένα αποθετήριο κώδικα.
Αντί να ενσωματώνει κάθε
εφαρμογή με το Claude
κατά περίπτωση, η
εταιρεία ήθελε ένα κοινό
σύνολο κανόνων που θα
βοηθούσε τους πράκτορες
να έχουν άμεση πρόσβαση
στα email ή τα αρχεία
ενός χρήστη. Αντί να
μελετά τεχνικούς
οδηγούς, ένας πράκτορας
μπορεί να ρωτήσει έναν
διακομιστή MCP τι κάνει
το σύστημα – να κλείνει
πτήσεις, να ακυρώνει
συνδρομές, να εκδίδει
επιστροφή χρημάτων
κ.ο.κ. – και στη
συνέχεια να αναλάβει μια
ενέργεια για λογαριασμό
του χρήστη, χωρίς
εξειδικευμένο κώδικα.
Ας πούμε
ότι θέλετε να κάνετε
κράτηση για ένα ταξίδι
από το Λονδίνο στη Νέα
Υόρκη. Ξεκινάτε δίνοντας
τα ταξιδιωτικά σας
σχέδια σε έναν
ταξιδιωτικό πράκτορα, ο
οποίος στη συνέχεια
υποδιαιρεί την εργασία
μεταξύ των
εξειδικευμένων πρακτόρων
που μπορούν να
αναζητήσουν πτήσεις,
ξενοδοχεία κι
αυτοκίνητα. Αυτοί οι
πράκτορες επικοινωνούν
με τους διακομιστές MCP
των αεροπορικών
εταιρειών, των
ξενοδοχείων και των
εταιρειών ενοικίασης
αυτοκινήτων,
συγκεντρώνουν
πληροφορίες, συγκρίνουν
τις δυνατότητες και
δημιουργούν έναν
κατάλογο πιθανών
δρομολογίων. Μόλις
καταλήξετε σε μια
επιλογή, ο ταξιδιωτικός
πράκτορας θα κάνει
κράτηση για το σύνολο.
Αυτός ο
τύπος συντονισμού
απαιτεί κανόνες για τον
τρόπο με τον οποίο οι
επιμέρους πράκτορες
αναγνωρίζουν, συνομιλούν
και εμπιστεύονται ο ένας
τον άλλον. Η
προτεινόμενη λύση της
Google για το σκοπό αυτό
είναι το πρωτόκολλο A2A
(agent-to-agent). Οι
πράκτορες μπορούν να
διαφημίζουν τις
ικανότητές τους ο ένας
στον άλλο μέσω αυτού και
να διαπραγματεύονται
ποιος πράκτορας κάνει
τι. Η Laurie Voss της
Arize AI, μιας νεοφυούς
εταιρείας, λέει ότι οι
εταιρείες βρίσκονται σε
μια «κατάκτησης» για να
καθορίσουν τα κυρίαρχα
πρότυπα για τον
πρακτορικό ιστό.
Το πιο
ευρέως υιοθετημένο
πρωτόκολλο θα επιτρέψει
στα εργαλεία των
υποστηρικτών του να
κάνουν περισσότερα,
ταχύτερα και καλύτερα.
Στις 9 Δεκεμβρίου η
Anthropic, η OpenAI, η
Google, η Microsoft και
άλλοι ανακοίνωσαν το
Agentic AI Foundation,
το οποίο θα αναπτύξει
πρότυπα ανοικτού κώδικα
για πράκτορες τεχνητής
νοημοσύνης. Το MCP της
Anthropic θα αποτελέσει
μέρος αυτού,
σηματοδοτώντας την
ευρύτερη υιοθέτησή του
ως βιομηχανικό πρότυπο
για την επικοινωνία με
πράκτορες.
Ωστόσο,
το μεγαλύτερο μέρος του
ιστού που θα σερφάρουν
αυτοί οι πράκτορες είναι
ακόμη φτιαγμένο για τα
ανθρώπινα μάτια. Η
εύρεση ενός προϊόντος
εξακολουθεί να σημαίνει
κλικ σε μενού. Για να
επιτρέψει στα γλωσσικά
μοντέλα να έχουν
ευκολότερη πρόσβαση σε
ιστότοπους, η Microsoft
έχει κατασκευάσει το
Natural Language Web
(NLWeb), το οποίο
επιτρέπει στους χρήστες
να «συνομιλούν» με
οποιαδήποτε ιστοσελίδα
σε φυσική γλώσσα. Οι
χρήστες θα μπορούσαν να
ζητήσουν από τη διεπαφή
NLWeb μιας ταξιδιωτικής
ιστοσελίδας, για
παράδειγμα, συμβουλές
για το πού να πάνε
διακοπές με τρία παιδιά,
ή ποια είναι τα καλύτερα
καταστήματα κρασιού σε
ένα συγκεκριμένο μέρος.
Ενώ η
παραδοσιακή αναζήτηση
μπορεί να απαιτήσει την
αναζήτηση μέσω φίλτρων
για την τοποθεσία, την
περίσταση και την
κουζίνα σε διάφορα
μενού, το NLWeb είναι σε
θέση να συλλάβει την
πλήρη πρόθεση μιας
ερώτησης σε μια μόνο
φυσική πρόταση και να
απαντήσει ανάλογα. Κάθε
δικτυακός τόπος NLWeb
μπορεί επίσης να ενεργεί
ως διακομιστής MCP,
εκθέτοντας το
περιεχόμενό του σε
πράκτορες. Έτσι, το
NLWeb γεφυρώνει το
σύγχρονο οπτικό
διαδίκτυο και αυτό που
μπορούν να
χρησιμοποιήσουν οι
πράκτορες.
Καθώς οι
πράκτορες γίνονται όλο
και πιο ικανοί, ένας
νέος διαγωνισμός
πλατφόρμας παίρνει σάρκα
και οστά, αυτή τη φορά
για τους ίδιους τους
πράκτορες, θυμίζοντας
τους πολέμους των
φυλλομετρητών
ιστοσελίδων (browsers)
της δεκαετίας του 1990,
όταν οι εταιρείες
πάλευαν για τον έλεγχο
της πρόσβασης στον ιστό.
Τώρα, οι φυλλομετρητές
επανασχεδιάζονται με
τους πράκτορες στον
πυρήνα τους.
Η OpenAI
και η Perplexity, μια
νεοφυής εταιρεία
δημιουργικής τεχνητής
νοημοσύνης, έχουν
λανσάρει προγράμματα
περιήγησης με πράκτορες
που μπορούν να
παρακολουθούν πτήσεις,
να φέρνουν έγγραφα και
να διαχειρίζονται email.
Οι φιλοδοξίες τους πάνε
παραπέρα. Τον Σεπτέμβριο
η OpenAI επέτρεψε την
απευθείας αγορά από
επιλεγμένους ιστότοπους
μέσα στο ChatGPT. Έχει
επίσης ενσωματωθεί με
υπηρεσίες όπως το
Spotify και το Figma,
επιτρέποντας στους
χρήστες να παίζουν
μουσική ή να
επεξεργάζονται σχέδια
χωρίς να αλλάζουν
εφαρμογές.
Τέτοιες
κινήσεις ανησυχούν τις
κατεστημένες εταιρείες.
Τον Νοέμβριο η Amazon
μήνυσε την Perplexity,
ισχυριζόμενη ότι η
νεοσύστατη επιχείρηση
παραβίαζε τους όρους
παροχής υπηρεσιών της,
καθώς δεν γνωστοποιούσε
ότι τις αγορές τις έκανε
το πρόγραμμα περιήγησης
κι όχι ένα πραγματικό
άτομο. Η Airbnb επέλεξε
να μην ενσωματωθεί με το
ChatGPT, λέγοντας ότι η
λειτουργία δεν ήταν
«αρκετά έτοιμη».
Η
διαφήμιση, επίσης, θα
πρέπει να προσαρμοστεί.
Ο σημερινός ιστός
λειτουργεί δημιουργώντας
έσοδα μέσω της
ανθρώπινης προσοχής,
μέσω διαφημίσεων
αναζήτησης και
κοινωνικών ροών. Η
Alphabet και η Meta, από
τις μεγαλύτερες
εταιρείες τεχνολογίας,
αναμένεται να κερδίζουν
σχεδόν μισό
τρισεκατομμύριο δολάρια
ετησίως με αυτόν τον
τρόπο, αντιπροσωπεύοντας
πάνω από το 80% των
εσόδων τους.
Η Dawn
Song, επιστήμονας
πληροφορικής στο
Πανεπιστήμιο της
Καλιφόρνιας στο
Μπέρκλεϊ, λέει ότι οι
έμποροι ίσως χρειαστεί
να απευθύνονται όχι
στους ανθρώπους, αλλά
στην «προσοχή του
πράκτορα». Οι
ταξιδιωτικές
ιστοσελίδες, για
παράδειγμα, δεν θα
πείθουν τον ταξιδιώτη,
αλλά τον ψηφιακό του
πληρεξούσιο. Οι τακτικές
μπορεί να παραμείνουν οι
ίδιες, βελτιστοποίηση
της κατάταξης, στόχευση
των προτιμήσεων, πληρωμή
για την τοποθέτηση, αλλά
το κοινό θα είναι οι
αλγόριθμοι.
Η
περιήγηση υπό την
καθοδήγηση των πρακτόρων
θα μπορούσε επίσης να
επεκτείνει σημαντικά τη
δραστηριότητα στο
διαδίκτυο. Ο Parag
Agrawal, ιδρυτής της
Parallel Web Systems,
μιας νεοσύστατης
εταιρείας τεχνητής
νοημοσύνης, σημειώνει
ότι ο ιστός φτιάχτηκε
για ανθρώπους που
διαβάζουν με ανθρώπινη
ταχύτητα. Οι πράκτορες
δεν αντιμετωπίζουν
τέτοιους περιορισμούς.
Μπορούν να σαρώσουν
χιλιάδες σελίδες σε
δευτερόλεπτα, να
ακολουθήσουν συνδέσμους
που οι άνθρωποι
παραβλέπουν και να
διεκπεραιώνουν παράλληλα
καθήκοντα, πολλά από τα
οποία δεν εμφανίζονται
ποτέ στην οθόνη.
Προβλέπει ότι οι
πράκτορες θα μπορούσαν
να χρησιμοποιούν τον
ιστό «εκατοντάδες ή
χιλιάδες» φορές
περισσότερο από ό,τι οι
άνθρωποι.
Φυσικά,
όπου οι πράκτορες δρουν,
μπορούν και να σφάλλουν.
Ένας πράκτορας τεχνητής
νοημοσύνης ενδέχεται να
συμπεριφέρεται με
τρόπους που ο χρήστης
του δεν κατανοεί πλήρως.
Μπορεί να κάνει λάθη και
κατόπιν να υφαίνει
πειστικές εξηγήσεις.
Ακόμη πιο ανησυχητική
είναι η πιθανότητα
εξωτερικής χειραγώγησης.
Η έγχυση προτροπών —η
απόκρυψη κακόβουλων
εντολών μέσα σε
ιστοσελίδες ή αρχεία—
μπορεί να παραπλανήσει
τους πράκτορες,
οδηγώντας τους σε
διαρροή δεδομένων,
παράκαμψη μηχανισμών
ασφαλείας ή μη
εξουσιοδοτημένες
ενέργειες.
Οι
ασφαλιστικές δικλείδες
μπορούν να μειώσουν τους
κινδύνους. Μία από αυτές
είναι ο περιορισμός των
πρακτόρων σε αξιόπιστες
υπηρεσίες. Μια άλλη
είναι να τους δίνονται
περιορισμένες εξουσίες.
Κάποιοι μπορεί να είναι
«μόνο για ανάγνωση», να
μπορούν να αντλούν
δεδομένα, αλλά όχι να τα
στέλνουν ή να τα
αλλάζουν. Άλλοι μπορεί
να ενεργούν μόνο με
ανθρώπινη επιβεβαίωση.
Για τις πιο ευαίσθητες
εργασίες, ένας άνθρωπος
μπορεί να χρειαστεί να
παραμείνει στο κύκλωμα.
Παρά
τους κινδύνους, οι
προγραμματιστές
λογισμικού παραμένουν
αισιόδοξοι. Ο κ. Agrawal
οραματίζεται μια
μετάβαση από το
διαδίκτυο της «έλξης»,
όπου οι ενέργειες
εκκινούνται από τους
ανθρώπους, σε ένα
διαδίκτυο της «ώθησης»,
στο οποίο οι πράκτορες
δρουν αυτοτελώς, χωρίς
ρητή προτροπή:
κανονίζουν συναντήσεις,
επισημαίνουν σχετικές
έρευνες, διεκπεραιώνουν
μικρές αλλά χρήσιμες
εργασίες. Μια τέτοια
μετατόπιση θα μπορούσε
να αποτελέσει το θεμέλιο
μιας νέας, ριζικά
διαφορετικής εκδοχής του
διαδικτύου.
Πηγή:
The Economist
|