Στις 20
Ιανουαρίου η DeepSeek
παρουσίασε το R1, ένα
εξειδικευμένο μοντέλο
σχεδιασμένο για την
επίλυση σύνθετων
προβλημάτων.
Καινοτομία
«Το
Deepseek R1 είναι μια
από τις πιο εκπληκτικές
και εντυπωσιακές
καινοτομίες που έχω δει
ποτέ μου» δήλωσε σε
ανάρτησή του στο X την
Παρασκευή ο Μαρκ
Αντρίσεν, venture
capitalist της Σίλικον
Βάλεϊ και σύμβουλος του
προέδρου Τραμπ. Τα
επιτεύγματα της DeepSeek
οδήγησαν σε ξεπούλημα
στα χρηματιστήρια την
περασμένη Δευτέρα, με
πρωταγωνιστές τις
μετοχές των εταιρειών
κατασκευής τσιπ, λόγω
των ανησυχιών για τις
τεράστιες δαπάνες των
αμερικανικών
τεχνολογικών κολοσσών
για ημιαγωγούς αιχμής
και άλλες υποδομές
τεχνητής νοημοσύνης.
Πίσω από
την εντυπωσιακή ανάπτυξη
της DeepSeek βρίσκεται
ένας κινέζος
διαχειριστής hedge-fund,
ο Λιανγκ Γουενφένγκ, ο
οποίος έχει γίνει το
πρόσωπο της αλματώδους
ανάπτυξης της τεχνητής
νοημοσύνης στη χώρα.
Στις 20 Ιανουαρίου ο
Λιανγκ συναντήθηκε με
τον πρωθυπουργό της
Κίνας και συζήτησε πώς
οι εγχώριες εταιρείες θα
μπορούσαν να κλείσουν
την ψαλίδα με τις ΗΠΑ
στον τομέα της τεχνητής
νοημοσύνης.
Ανταγωνιστής
Οι
ειδικοί υποστηρίζουν ότι
η τεχνολογία της
DeepSeek υπολείπεται
ακόμα της OpenAI και
της Google. Αλλά είναι
ένας μεγάλος
ανταγωνιστής, παρά το
γεγονός ότι χρησιμοποιεί
λιγότερα και λιγότερο
προηγμένα τσιπ και σε
ορισμένες περιπτώσεις
παραλείπει βήματα που οι
αμερικανοί
προγραμματιστές θεωρούν
απαραίτητα.
Η
DeepSeek ανακοίνωσε ότι
η εκπαίδευση ενός από τα
πιο πρόσφατα μοντέλα της
κόστισε μόλις 5,6
εκατομμύρια δολάρια, ενώ
πέρυσι ο διευθύνων
σύμβουλος της εταιρείας
ανάπτυξης τεχνητής
νοημοσύνης
Anthropic, Ντάριο
Αμοντεϊ, ανέφερε ότι το
κόστος κατασκευής ενός
μοντέλου κυμαινόταν από
100 εκατ. έως 1 δισ.
δολάρια.
Ο Μπάρετ
Γούντσαϊντ, συνιδρυτής
της εταιρείας hardware
τεχνητής νοημοσύνης
Positron, με έδρα το Σαν
Φρανσίσκο, δήλωσε ότι ο
ίδιος και οι συνάδελφοί
του έχουν ενθουσιαστεί
με την DeepSeek. «Είναι
απίθανο» είπε ο
Γούντσαϊντ αναφερόμενος
στα μοντέλα ανοικτού
κώδικα της DeepSeek, που
σημαίνει ότι ο κώδικας
του λογισμικού που
χρησιμοποιεί το μοντέλο
διατίθεται δωρεάν.
Λογοκρισία
Οι
χρήστες της τελευταίας
ναυαρχίδας της DeepSeek,
του μοντέλου που
ονομάζεται V3 και
κυκλοφόρησε τον
Δεκέμβριο, παρατήρησαν
ότι αρνείται να
απαντήσει σε ευαίσθητα
πολιτικά ερωτήματα
σχετικά με την Κίνα και
τον ηγέτη της, Σι
Τζινπίνγκ. Σε ορισμένες
περιπτώσεις, το προϊόν
δίνει απαντήσεις που
ευθυγραμμίζονται με την
επίσημη προπαγάνδα του
Πεκίνου, χωρίς να
συμπεριλαμβάνει την
οπτική των επικριτών της
κυβέρνησης όπως κάνει
το ChatGPT.
«Το μόνο
αρνητικό στοιχείο είναι
κάποια κακοστημένη
λογοκρισία της
ΛΔΚ» σχολίασε ο
Γούντσαϊντ, αναφερόμενος
στη Λαϊκή Δημοκρατία της
Κίνας, αλλά είπε ότι
αυτό μπορεί να
παρακαμφθεί. Η DeepSeek
ανακοίνωσε ότι το R1 και
το V3 είχαν και τα δύο
καλύτερες ή παρόμοιες
επιδόσεις σε σύγκριση με
τα κορυφαία δυτικά
μοντέλα.
Από το
προπερασμένο Σάββατο τα
δύο μοντέλα
κατατάσσονται στα 10
κορυφαία στο Chatbot
Arena, μια πλατφόρμα που
υποστηρίζεται από
ερευνητές του
Πανεπιστημίου της
Καλιφόρνιας στο Μπέρκλεϊ
και αξιολογεί τις
επιδόσεις των chatbot.
Στην κορυφή βρίσκεται
ένα μοντέλο του Gemini
της Google, ενώ το
DeepSeek ξεπέρασε το
Claude της Anthropic και
το Grok της xAI του Ιλον
Μασκ.
Η
DeepSeek γεννήθηκε από
το ερευνητικό τμήμα AI
της High-Flyer, ενός
hedge-fund με ενεργητικό
8 δισεκατομμυρίων
δολαρίων, η οποία είναι
γνωστό ότι αξιοποιεί την
τεχνητή νοημοσύνη για τη
λήψη επενδυτικών
αποφάσεων.
«Οταν
τις επενδυτικές
αποφάσεις τις παίρνουν
άνθρωποι είναι τέχνη,
και το κάνουν
βασιζόμενοι απλά και
μόνο στην εμπειρία τους.
Οταν τις παίρνουν
υπολογιστές είναι
επιστήμη και δίνει τη
βέλτιστη λύση» έλεγε ο
Λιανγκ σε ομιλία του το
2019.
Πρωτοπόρος
Ο Λιανγκ
γεννήθηκε το 1985 και
μεγάλωσε στην επαρχία
Γκουανγκντόνγκ της
Νοτιοανατολικής Κίνας.
Σπούδασε στο ονομαστό
κινεζικό Πανεπιστήμιο
Ζετζιάνγκ και
ειδικεύτηκε στη μηχανική
όραση. Λίγα χρόνια μετά
την αποφοίτησή του, το
2015, ο Λιανγκ ίδρυσε
την High-Flyer μαζί με
δύο συμφοιτητές του. Ο
Λιανγκ προτιμά να τον
βλέπουν ως μηχανικό παρά
ως επενδυτή, σύμφωνα με
ανθρώπους του
περιβάλλοντός του.
Η
High-Flyer υπήρξε
πρωτοπόρος στην Κίνα
στην εφαρμογή της βαθιάς
μάθησης στις
χρηματιστηριακές
συναλλαγές μέσω
υπολογιστών. Η τεχνική
αυτή, που βασίζεται στη
δομή του ανθρώπινου
εγκεφάλου, επιτρέπει
στους υπολογιστές να
αναλύουν πολύ
διαφορετικούς τύπους
δεδομένων. Ενώ το κύριο
μοντέλο της DeepSeek
διατίθεται δωρεάν, η
εταιρεία χρεώνει τους
χρήστες που συνδέουν τις
δικές τους εφαρμογές με
το μοντέλο και την
υπολογιστική υποδομή της
DeepSeek.
Μάχη για
τις τιμές
Στις
αρχές του περασμένου
έτους, η DeepSeek μείωσε
τις χρεώσεις για τη
συγκεκριμένη υπηρεσία σε
ένα κλάσμα της τιμής που
χρέωναν οι άλλοι
προμηθευτές, ωθώντας τον
κλάδο στην Κίνα να
ξεκινήσει μια μάχη για
τις τιμές.
Ο Αντονι
Που, συνιδρυτής μιας
startup με έδρα τη
Σίλικον Βάλεϊ, που
χρησιμοποιεί δημιουργική
τεχνητή νοημοσύνη για
την πρόβλεψη οικονομικών
αποδόσεων, ανακοίνωσε
ότι η εταιρεία του
μεταπήδησε στην DeepSeek
από το μοντέλο Claude
της Anthropic τον
Σεπτέμβριο. Οι δοκιμές
έδειξαν ότι το DeepSeek
είχε παρόμοιες
επιδόσεις, με το ένα
τέταρτο περίπου του
κόστους.
«Το
μοντέλο της OpenAI είναι
το καλύτερο σε
επιδόσεις, αλλά δεν
προτιθέμεθα να
πληρώνουμε για
δυνατότητες που δεν
χρειαζόμαστε» δήλωσε ο
Που.
Στις 20
Ιανουαρίου, ο Λιανγκ της
DeepSeek, σε συνάντηση
που είχε με τον κινέζο
πρωθυπουργό Λι Κιανγκ,
είπε ότι, ενώ οι
κινεζικές εταιρείες
προσπαθούσαν να καλύψουν
την απόσταση με τους
ανταγωνιστές τους, οι
αμερικανικοί περιορισμοί
στις εξαγωγές προηγμένων
τσιπ στην Κίνα
εξακολουθούσαν να
αποτελούν εμπόδιο.
Εκπαίδευση
Το 2019,
η High-Flyer προχώρησε
στην κατασκευή ενός
συμπλέγματος τσιπ για
έρευνα στον τομέα της
τεχνητής νοημοσύνης, με
κεφάλαια που προέρχονταν
εν μέρει από τη
χρηματοοικονομική της
δραστηριότητα. Η
εταιρεία δήλωσε ότι
αργότερα κατασκεύασε ένα
μεγαλύτερο σύμπλεγμα
περίπου 10.000 μονάδων
επεξεργασίας γραφικών
της Nvidia που μπορούν
να χρησιμοποιηθούν για
την εκπαίδευση μεγάλων
γλωσσικών μοντέλων.
Ορισμένοι εξωτερικοί
ερευνητές σχολίασαν ότι
το μοντέλο της DeepSeek
δεν διαθέτει ορισμένες
από τις δυνατότητες των
ακριβότερα εκπαιδευμένων
ανταγωνιστών του όσον
αφορά, για παράδειγμα,
την παρακολούθηση των
συμφραζομένων σε
μακροσκελείς συνομιλίες.
Η DeepSeek θεωρεί ότι το
μοντέλο της, που έχει
σχεδιαστεί για την
επίλυση δύσκολων
λεκτικών μαθηματικών
προβλημάτων και
παρόμοιες σύνθετες
εργασίες, ήταν εφάμιλλο
του συλλογιστικού
μοντέλου o1 της OpenAI,
παρόλο που είχε
παραλείψει την
επιτηρούμενη
μικρορύθμιση και είχε
εστιάσει στην ενισχυτική
μάθηση – ουσιαστικά σε
μια κατευθυνόμενη
διαδικασία δοκιμής και
σφάλματος.
Σημαντική τομή
Ο Τζιμ
Φαν, από τους κορυφαίους
ερευνητές της Nvidia,
υποδέχθηκε την έκθεση
της DeepSeek όπου
παρουσιάζονται τα
αποτελέσματα ως
σημαντική τομή. Ο Ζακ
Κας, πρώην στέλεχος της
OpenAI, εκτιμά ότι η
πρόοδος που πέτυχε η
DeepSeek, παρά τους
αμερικανικούς
περιορισμούς, «εμπεριέχει
ένα ευρύτερο δίδαγμα: Οι
περιορισμένοι πόροι
συχνά προωθούν τη
δημιουργικότητα».
Πηγή:
The Wall Street Journal
|