Απομίμηση DeepSeek με 30 δολάρια; Και όμως, ερευνητές από το Μπέρκλεϊ το πέτυχαν
Μια ομάδα επιστημόνων κατάφερε να δημιουργήσει ένα μικρό γλωσσικό μοντέλο με την ικανότητα να λύνει αριθμητικά προβλήματα με μόλις 30 δολάρια.
Μια ομάδα ερευνητών από το Πανεπιστήμιο της Καλιφόρνια υποστηρίζει ότι κατάφερε να αναπαράξει τη βασική τεχνολογία του DeepSeek με μόλις 30 δολάρια. Έτσι, απέδειξε ότι δεν χρειάζονται επενδύσεις δισεκατομμυρίων για να αναπτυχθεί ο κλάδος της τεχνητής νοημοσύνης.
Ο διδακτορικός ερευνητής Jiayi Pan και η ομάδα του κατάφεραν να αναπαραγάγουν το μοντέλο R1-Zero, χρησιμοποιώντας ένα μικρό γλωσσικό μοντέλο με μόλις 3 δισεκατομμύρια παραμέτρους. Παρά το μικρό του μέγεθος, το μοντέλο είχε την ικανότητα αναζήτησης και επαλήθευσης των αποτελεσμάτων του, κάτι που του έδωσε τη δυνατότητα να φιλτράρει τις απαντήσεις του.
Δοκιμάζοντας το μοντέλο
Για να δοκιμάσουν την εφεύρεσή τους, η ομάδα από το Μπέρκλεϊ χρησιμοποίησε το παιχνίδι Countdown, ένα παζλ όπου κάθε παίκτης χρησιμοποιεί τις αριθμητικές του ικανότητες για να πετύχει έναν αριθμητικό στόχο. Στην αρχή, το μοντέλο παρήγαγε τυχαίες απαντήσεις, αλλά, μαθαίνοντας, κατάφερε να βελτιωθεί και να λύνει τα αριθμητικά προβλήματα.
Οι ερευνητές έκαναν πειράματα που εξομοίωναν τον τρόπο με τον οποίο οι άνθρωποι λύνουν προβλήματα πολλαπλασιασμού και απέδειξαν την ικανότητα του μοντέλου να αναπροσαρμόζει τη στρατηγική του ανάλογα με το πρόβλημα.
Για μια χούφτα δολάρια
Το εντυπωσιακό, ωστόσο, δεν είναι τόσο οι δυνατότητες του μοντέλου όσο το πολύ χαμηλό κόστος των 30 δολαρίων. Αυτό είναι ένα απίστευτα μικρό ποσό σε σύγκριση με τα υπέρογκα ποσά που δαπανούν οι κορυφαίες εταιρείες AI για εκπαίδευση μεγάλης κλίμακας.
Οι ερευνητές δοκίμασαν μοντέλα διαφόρων μεγεθών, ξεκινώντας από ένα με 500 εκατομμύρια παραμέτρους, το οποίο μπορούσε μόνο να κάνει εικασίες. Όταν το μοντέλο επεκτάθηκε σε 1,5 δισεκατομμύριο παραμέτρους, άρχισε να ενσωματώνει τεχνικές αναθεώρησης. Μοντέλα μεταξύ 3 και 7 δισεκατομμυρίων παραμέτρων παρουσίασαν σημαντική βελτίωση, λύνοντας προβλήματα με λιγότερα βήματα και μεγαλύτερη ακρίβεια, σύμφωνα με τους ερευνητές.
Υψηλή τεχνολογία με χαμηλό κόστος
Για να βάλουμε τα πράγματα στη θέση τους, η OpenAI, που έχει το πιο αποτελεσματικό μοντέλο, χρεώνει 15 δολάρια ανά εκατομμύριο μονάδες. Το DeepSeek χρεώνει μόλις 0,55 δολάρια για τον ίδιο αριθμό μονάδων, ενώ μοντέλα όπως αυτό των ερευνητών από την Καλιφόρνια μπορούν να μειώσουν το κόστος ακόμα περισσότερο. Αξίζει να σημειωθεί ότι η DeepSeek AI αναφέρει πως το κόστος εκπαίδευσης του μοντέλου της, που έχει 671 δισεκατομμύρια παραμέτρους, ανέρχεται σε 5 εκατομμύρια δολάρια, ενώ τα λειτουργικά του έξοδα κυμαίνονται μεταξύ 500 εκατομμυρίων και 1 δισεκατομμυρίου δολαρίων.
Η ομάδα από το Μπέρκλεϊ απέδειξε ότι μπορεί να πετύχει τα ίδια αποτελέσματα χωρίς τα υπέρογκα έξοδα ανάπτυξης και εκπαίδευσης των μοντέλων της, προκαλώντας δημιουργική καταστροφή στον χώρο της τεχνητής νοημοσύνης.