Τα σημερινά tests της τεχνητής νοημοσύνης «δεν λένε όλη την αλήθεια»

Παρασκευή, 00:01 - 17/04/2026

Μια νέα επιστημονική μελέτη αμφισβητεί τον τρόπο με τον οποίο αξιολογούμε την τεχνητή νοημοσύνη, υποστηρίζοντας ότι τα σημερινά benchmarks δεν αποτυπώνουν με ακρίβεια τις πραγματικές δυνατότητες των μοντέλων.

Σύμφωνα με την έρευνα, που δημοσιεύθηκε στο περιοδικό Nature και εκπονήθηκε από διεθνή ομάδα ερευνητών με συμμετοχή ιδρυμάτων όπως το University of Cambridge και το Alan Turing Institute, τα τρέχοντα τεστ βασίζονται κυρίως σε απλές βαθμολογίες ακρίβειας, οι οποίες όμως δεν εξηγούν ούτε το πώς ούτε το γιατί ένα μοντέλο αποδίδει καλά.

Οι ερευνητές επισημαίνουν ότι τα σημερινά benchmarks — όπως αυτά που μετρούν γνώση, συλλογιστική και πολυδεξιότητα — συχνά συνδυάζουν διαφορετικές ικανότητες, με αποτέλεσμα να μην είναι σαφές ποια ακριβώς δεξιότητα αξιολογείται κάθε φορά. Έτσι, υψηλές επιδόσεις δεν μεταφράζονται απαραίτητα σε πραγματική κατανόηση ή ικανότητα γενίκευσης σε νέες εργασίες.

Ιδιαίτερη κριτική ασκείται τόσο στα τεστ γνώσης, τα οποία ενδέχεται να αντανακλούν απλή απομνημόνευση, όσο και στα τεστ συλλογιστικής, τα οποία μπορεί να βασίζονται σε αναγνώριση μοτίβων αντί για πραγματική λογική επεξεργασία. Αντίστοιχα, τα πιο σύνθετα πολυδεξιοτικά benchmarks θεωρούνται ασαφή ως προς το τι ακριβώς μετρούν.

Όπως σημειώνουν οι ερευνητές, «οι συνολικές επιδόσεις ενός μοντέλου επηρεάζονται τόσο από τη δομή του benchmark όσο και από το ίδιο το σύστημα, και δεν αποτελούν καθαρές ενδείξεις ικανοτήτων».

Για τον λόγο αυτό προτείνουν έναν νέο τρόπο αξιολόγησης, βασισμένο σε 18 διακριτές γνωστικές κλίμακες που αποτυπώνουν πιο λεπτομερώς δεξιότητες όπως η κατανόηση, η συλλογιστική, η γνώση και η μεταγνώση.

Σύμφωνα με τα αποτελέσματα του νέου πλαισίου, μοντέλα όπως τα LLaMA 3.1 8B και DeepSeek R1 Distilled Qwen 7B εμφανίζουν χαμηλότερες και πιο διαφοροποιημένες επιδόσεις, ενώ το νέο σύστημα φαίνεται ικανό να προβλέπει καλύτερα την απόδοση σε άγνωστες εργασίες — κάτι που τα σημερινά benchmarks δεν καταφέρνουν.

Η μελέτη καταλήγει ότι, όσο εξελίσσεται η τεχνητή νοημοσύνη, τόσο πιο αναγκαία γίνεται και η αναβάθμιση των ίδιων των εργαλείων με τα οποία τη μετράμε.

Greek Finance Forum Team

Σχόλια Αναγνωστών

Αποποίηση Ευθύνης....