Οι GPUs αναλαμβάνουν την
υπολογιστική εργασία που
απαιτείται για την
εκπαίδευση και τη
λειτουργία μεγάλων
μοντέλων τεχνητής
νοημοσύνης. Ωστόσο,
παραδόξως, δεν είναι
αυτό για το οποίο
σχεδιάστηκαν. Τα αρχικά
σημαίνουν «μονάδα
επεξεργασίας γραφικών»,
επειδή τα εν λόγω τσιπ
σχεδιάστηκαν αρχικά για
την επεξεργασία γραφικών
σε βιντεοπαιχνίδια.
Αποδείχθηκε ότι, ευτυχώς
για την Nvidia,
μπορούσαν να
επαναχρησιμοποιηθούν για
φορτία εργασίας τεχνητής
νοημοσύνης.
Μήπως θα ήταν καλύτερα
να σχεδιάσουμε από την
αρχή εξειδικευμένα τσιπ
ΤΝ αναρωτιούνται
κάποιοι; Αυτό κάνουν
τώρα πολλές εταιρείες,
μικρές και μεγάλες, σε
μια προσπάθεια να
ανατρέψουν την Nvidia.
Τα εξειδικευμένα τσιπ
τεχνητής νοημοσύνης
υπόσχονται να κάνουν την
κατασκευή και τη
λειτουργία μοντέλων
τεχνητής νοημοσύνης
ταχύτερη, φθηνότερη ή
και τα δύο. Οποιαδήποτε
εταιρεία μπορεί να
αποτελέσει αξιόπιστη
απειλή για την κυρίαρχη
πρωταθλήτρια δεν θα έχει
έλλειψη πελατών, οι
οποίοι αντιπαθούν τις
υψηλές τιμές και τις
περιορισμένες
προμήθειες.
Τα συνηθισμένα
επεξεργαστικά τσιπ, όπως
αυτά που βρίσκονται μέσα
σε φορητούς και
επιτραπέζιους
υπολογιστές, είναι στην
ουσία σχεδιασμένα να
κάνουν το ένα πράγμα
μετά το άλλο. Οι GPUs,
αντιθέτως, περιέχουν
αρκετές χιλιάδες
επεξεργαστικές μηχανές,
ή «πυρήνες», που τους
επιτρέπουν να εκτελούν
χιλιάδες εκδοχές της
ίδιας απλής εργασίας
(όπως η σχεδίαση μέρους
μιας σκηνής) ταυτόχρονα.
Η λειτουργία μοντέλων ΤΝ
περιλαμβάνει ομοίως την
παράλληλη εκτέλεση
πολλών αντιγράφων της
ίδιας εργασίας. Η
εξεύρεση τρόπου
αναδιατύπωσης του κώδικα
της τεχνητής νοημοσύνης
ώστε να εκτελείται σε
GPUs ήταν ένας από τους
παράγοντες που
προκάλεσαν την τρέχουσα
έκρηξη της τεχνητής
νοημοσύνης.
Ωστόσο, οι GPUs έχουν
τους περιορισμούς τους,
ιδίως όσον αφορά την
ταχύτητα με την οποία τα
δεδομένα μπορούν να
μετακινούνται πάνω και
κάτω από αυτές. Τα
σύγχρονα μοντέλα
τεχνητής νοημοσύνης
λειτουργούν σε μεγάλο
αριθμό διασυνδεδεμένων
GPUs και τσιπ μνήμης. Η
ταχεία μετακίνηση
δεδομένων μεταξύ τους
έχει κεντρική σημασία
για την απόδοση. Κατά
την εκπαίδευση πολύ
μεγάλων μοντέλων
τεχνητής νοημοσύνης,
ορισμένοι πυρήνες GPU
μπορεί να βρίσκονται σε
αδράνεια το μισό χρόνο
καθώς περιμένουν
δεδομένα. Ο Andrew
Feldman, επικεφαλής της
Cerebras, μιας νεοφυούς
επιχείρησης με έδρα το
Sunnyvale της
Καλιφόρνια, παρομοιάζει
την όλη διαδικασία με
τον συνωστισμό σε ένα
κατάστημα τροφίμων την
ημέρα πριν από την Ημέρα
των Ευχαριστιών. «Όλοι
βρίσκονται σε μια ουρά,
οπότε υπάρχουν
μπλοκαρίσματα στο
πάρκινγκ, στους
διαδρόμους, στο ταμείο.
Αυτό ακριβώς συμβαίνει
με μια GPU».
Η απάντηση της Cerebras
είναι να τοποθετήσει
900.000 πυρήνες, καθώς
και πολλή μνήμη, σε ένα
ενιαίο, τεράστιο τσιπ,
για να μειώσει την
πολυπλοκότητα της
σύνδεσης πολλαπλών τσιπ
και της διοχέτευσης
δεδομένων μεταξύ τους.
Το τσιπ CS-3 είναι το
μεγαλύτερο στον κόσμο
κατά 50 φορές. «Το τσιπ
μας έχει το μέγεθος ενός
πιάτου φαγητού – μια GPU
έχει το μέγεθος ενός
γραμματοσήμου», λέει ο
κ. Feldman. Οι συνδέσεις
εντός του τσιπ μεταξύ
των πυρήνων λειτουργούν
εκατοντάδες φορές
ταχύτερα από τις
συνδέσεις μεταξύ
ξεχωριστών GPUs,
υποστηρίζει η Cerebras,
ενώ η προσέγγισή της
μειώνει την κατανάλωση
ενέργειας περισσότερο
από το μισό, για
δεδομένο επίπεδο
επιδόσεων, σε σύγκριση
με την ισχυρότερη
κατανάλωση των GPU της
Nvidia.
Η Groq, μια νεοσύστατη
εταιρεία από το Mountain
View της Καλιφόρνια,
ακολουθεί μια
διαφορετική προσέγγιση.
Τα chips ΤΝ της, που
ονομάζονται μονάδες
γλωσσικής επεξεργασίας
(LPUs), είναι
βελτιστοποιημένα για να
«τρέχουν» ιδιαίτερα
γρήγορα μεγάλα γλωσσικά
μοντέλα (LLMs). Εκτός
του ότι περιέχουν τη
δική τους μνήμη, τα τσιπ
αυτά λειτουργούν επίσης
ως δρομολογητές,
μεταφέροντας δεδομένα
μεταξύ των
διασυνδεδεμένων LPUs. Το
έξυπνο λογισμικό
δρομολόγησης εξαλείφει
τη διακύμανση της
καθυστέρησης ή του
χρόνου αναμονής για
δεδομένα, επιτρέποντας
στο όλο σύστημα να
λειτουργεί με ρυθμό.
Κάτι τέτοιο αυξάνει
σημαντικά την
αποδοτικότητα και,
συνεπώς, την ταχύτητα: η
Groq λέει ότι οι LPUs
της μπορούν να τρέχουν
μεγάλα LLMs δέκα φορές
ταχύτερα από τα
υπάρχοντα συστήματα.
Μια άλλη προσέγγιση
είναι αυτή της MatX, που
επίσης εδρεύει στην
Καλιφόρνια. Οι GPUs
περιέχουν χαρακτηριστικά
και κυκλώματα που
παρέχουν ευελιξία για τα
γραφικά, αλλά δεν είναι
απαραίτητα για τα LLMs,
λέει ο Reiner Pope, ένας
από τους συνιδρυτές της
εταιρείας. Το τσιπ που
μοιάζει με GPU και πάνω
στο οποίο εργάζεται η
εταιρεία του
απαλλάσσεται από τέτοιες
περιττές ατέλειες,
αυξάνοντας τις επιδόσεις
κάνοντας λιγότερα
πράγματα καλύτερα.
Άλλες νεοσύστατες
επιχειρήσεις σε αυτόν
τον τομέα περιλαμβάνουν
την Hailo, με έδρα το
Ισραήλ, η οποία
συγκέντρωσε
χρηματοδότηση 120 εκατ.
δολαρίων τον Απρίλιο,
την Taalas, με έδρα το
Τορόντο, την
Tenstorrent, μια
αμερικανική εταιρεία που
χρησιμοποιεί την
αρχιτεκτονική RSC-V
ανοικτού κώδικα για την
κατασκευή τσιπ τεχνητής
νοημοσύνης, και την
Graphcore, μια βρετανική
εταιρεία που μπήκε νωρίς
στο παιχνίδι, αλλά δεν
κατάφερε να κερδίσει
έδαφος και πιστεύεται
ότι πρόκειται να πωληθεί
στην SoftBank, έναν
ιαπωνικό όμιλο. Οι
μεγάλες εταιρείες
τεχνολογίας
κατασκευάζουν με τη
σειρά τους τα δικά τους
τσιπ τεχνητής
νοημοσύνης. Η Google
έχει αναπτύξει τις δικές
της «tensor processing
units» (TPUs), τις
οποίες διαθέτει ως
υπηρεσία υπολογιστικού
νέφους. (Στις 14 Μαΐου
παρουσίασε την τελευταία
έκδοση της TPU, γνωστή
ως Trillium). Η Amazon,
η Meta και η Microsoft
έχουν επίσης
κατασκευάσει
προσαρμοσμένα τσιπ για
την τεχνητή νοημοσύνη
που βασίζεται στο νέφος.
H OpenΑΙ σχεδιάζει να
κάνει το ίδιο. Και η AMD
και η Intel, δύο μεγάλες
κατασκευάστριες τσιπ,
κατασκευάζουν τσιπ που
μοιάζουν με GPUs- σε μια
προσπάθεια να
ανταγωνιστούν τη Nvidia.
Είναι το μεγαλείο μια
παροδική εμπειρία;
Ένας κίνδυνος για τις
νεοεισερχόμενες είναι
ότι οι προσπάθειές τους
για εξειδίκευση θα
μπορούσαν να υπερβούν τα
όρια. Ο σχεδιασμός ενός
τσιπ διαρκεί συνήθως δύο
ή τρία χρόνια, λέει ο
Χρήστος Κοζυράκης,
επιστήμονας πληροφορικής
στο Πανεπιστήμιο του
Στάνφορντ, το οποίο
είναι «τεράστιο χρονικό
διάστημα», δεδομένου του
πόσο γρήγορα
βελτιώνονται τα μοντέλα
ΤΝ. Η ευκαιρία, λέει,
είναι ότι οι νεοσύστατες
επιχειρήσεις θα
μπορούσαν να καταλήξουν
με ένα τσιπ που θα είναι
καλύτερο στην λειτουργία
μελλοντικών μοντέλων από
ό,τι είναι τα λιγότερο
εξειδικευμένα GPUs της
Nvidia. Ο κίνδυνος είναι
να εξειδικευτούν σε
λάθος πράγμα.
Έχοντας προηγουμένως
εργαστεί στην Google, η
οποία ανέπτυξε την
κυρίαρχη σήμερα
αρχιτεκτονική
«transformer» που
χρησιμοποιείται στα
LLMs, ο κ. Pope της MatX
είναι βέβαιος ότι η
εταιρεία του διαθέτει
«μια κάπως καλή
κρυστάλλινη σφαίρα». Αν
εμφανιστεί μια νέα
προσέγγιση – τα «μοντέλα
χώρου-καττάστασης» είναι
η τελευταία εξέλιξη – το
τσιπ της είναι αρκετά
ευέλικτο για να
προσαρμοστεί, λέει. Ο κ.
Feldman δηλώνει ότι όλη
η σύγχρονη ΤΝ
εξακολουθεί να είναι
απλώς συγκαλυμμένη
«σποραδική γραμμική
άλγεβρα», την οποία το
τσιπ της Cerebras μπορεί
να κάνει πολύ γρήγορα.
Μια άλλη πρόκληση είναι
ότι το επίπεδο
λογισμικού της Nvidia
για τον προγραμματισμό
των GPUs της, γνωστό ως
CUDA, αποτελεί de facto
βιομηχανικό πρότυπο,
παρά το γεγονός ότι
είναι γνωστό για τη
δυσκολία του στη χρήση.
«Το λογισμικό είναι ο
βασιλιάς», λέει ο κ.
Κοζυράκης από το
Στάνφορντ, και η Nvidia
έχει σημαντικό
πλεονέκτημα, καθώς έχει
δημιουργήσει το
οικοσύστημα λογισμικού
της επί πολλά χρόνια. Οι
νεοσύστατες εταιρείες
τσιπ ΤΝ θα πετύχουν μόνο
εάν μπορέσουν να πείσουν
τους προγραμματιστές να
ενημερώσουν τον κώδικά
τους για να τρέξει στα
νέα τους τσιπ.
Προσφέρουν εργαλειοθήκες
λογισμικού για να το
κάνουν και παρέχουν
συμβατότητα με τα
σημαντικότερα πλαίσια
μηχανικής μάθησης.
Ωστόσο, η προσαρμογή του
λογισμικού για τη
βελτιστοποίηση των
επιδόσεων σε μια νέα
αρχιτεκτονική είναι μια
δύσκολη και πολύπλοκη
υπόθεση – άλλος ένας
λόγος για τον οποίο η
Nvidia είναι δύσκολο να
εκτοπιστεί.
Οι μεγαλύτεροι πελάτες
των τσιπ τεχνητής
νοημοσύνης και των
συστημάτων που
κατασκευάζονται γύρω από
αυτά, περιλαμβάνουν
κατασκευαστές μοντέλων
(όπως οι OpenΑΙ,
Anthropic και Mistral)
και τεχνολογικούς
κολοσσούς (όπως οι
Amazon, Meta, Microsoft
και Google). Γι’ αυτές
τις εταιρείες μπορεί να
έχει νόημα να αποκτήσουν
μια νεοσύστατη
επιχείρηση τσιπ ΤΝ και
να κρατήσουν την
τεχνολογία της για τον
εαυτό τους, με την
ελπίδα να ξεπεράσουν τον
ανταγωνισμό. Αντί να
προσπαθούν να
ανταγωνιστούν την
Nvidia, οι νεοφυείς
επιχειρήσεις κατασκευής
τσιπ θα μπορούσαν να
τοποθετηθούν ως στόχοι
εξαγοράς.
Ο κ. Pope λέει ότι η
MatX στοχεύει στην
«κορυφαία βαθμίδα» της
αγοράς, γεγονός που
υποδηλώνει ότι ελπίζει
να πουλήσει τα τσιπ της
– αν όχι ολόκληρη την
εταιρεία – σε εταιρείες
όπως η OpenΑΙ, η Google
ή η Anthropic, των
οποίων τα μοντέλα
τεχνητής νοημοσύνης
είναι τα πιο προηγμένα.
«Θα ήμασταν ευτυχείς με
πολλά είδη εξόδου»,
λέει, «αλλά πιστεύουμε
ότι υπάρχει μια βιώσιμη
επιχείρηση εδώ ως
αυτόνομη εταιρεία». Αυτό
μένει να το δούμε. Η
Cerebras, από την πλευρά
της, λέγεται ότι
προετοιμάζεται για
αρχική δημόσια προσφορά.
Μέχρι στιγμής καμία από
τις νεοφυείς
επιχειρήσεις δεν έχει
καταφέρει το παραμικρό
πλήγμα στην κυρίαρχη
θέση της Nvidia.
Υπάρχουν, όμως, πολλοί
που ελπίζουν ότι κάποια
από αυτές θα το πετύχει.
Πηγή: The Economist
|