|
Οι ερευνητές
επισημαίνουν ότι τα
σημερινά
benchmarks
— όπως αυτά που μετρούν
γνώση, συλλογιστική και
πολυδεξιότητα — συχνά
συνδυάζουν διαφορετικές
ικανότητες, με
αποτέλεσμα να μην είναι
σαφές ποια ακριβώς
δεξιότητα αξιολογείται
κάθε φορά. Έτσι, υψηλές
επιδόσεις δεν
μεταφράζονται απαραίτητα
σε πραγματική κατανόηση
ή ικανότητα γενίκευσης
σε νέες εργασίες.
Ιδιαίτερη κριτική
ασκείται τόσο στα τεστ
γνώσης, τα οποία
ενδέχεται να αντανακλούν
απλή απομνημόνευση, όσο
και στα τεστ
συλλογιστικής, τα οποία
μπορεί να βασίζονται σε
αναγνώριση μοτίβων αντί
για πραγματική λογική
επεξεργασία. Αντίστοιχα,
τα πιο σύνθετα
πολυδεξιοτικά
benchmarks
θεωρούνται ασαφή ως προς
το τι ακριβώς μετρούν.
Όπως σημειώνουν οι
ερευνητές, «οι συνολικές
επιδόσεις ενός μοντέλου
επηρεάζονται τόσο από τη
δομή του
benchmark
όσο και από το ίδιο το
σύστημα, και δεν
αποτελούν καθαρές
ενδείξεις ικανοτήτων».
Για τον λόγο αυτό
προτείνουν έναν νέο
τρόπο αξιολόγησης,
βασισμένο σε 18
διακριτές γνωστικές
κλίμακες που αποτυπώνουν
πιο λεπτομερώς
δεξιότητες όπως η
κατανόηση, η
συλλογιστική, η γνώση
και η μεταγνώση.
Σύμφωνα με τα
αποτελέσματα του νέου
πλαισίου, μοντέλα όπως
τα LLaMA
3.1 8B
και DeepSeek
R1
Distilled
Qwen
7B
εμφανίζουν χαμηλότερες
και πιο διαφοροποιημένες
επιδόσεις, ενώ το νέο
σύστημα φαίνεται ικανό
να προβλέπει καλύτερα
την απόδοση σε άγνωστες
εργασίες — κάτι που τα
σημερινά
benchmarks
δεν καταφέρνουν.
Η μελέτη καταλήγει ότι,
όσο εξελίσσεται η
τεχνητή νοημοσύνη, τόσο
πιο αναγκαία γίνεται και
η αναβάθμιση των ίδιων
των εργαλείων με τα
οποία τη μετράμε.
|