Η εκπαίδευση των μεγάλων γλωσσικών μοντέλων κοστίζει δεκάδες εκατ. δολάρια.
Η κινεζική εταιρεία DeepSeek προκάλεσε σεισμό στη βιομηχανία της τεχνολογίας στις αρχές του έτους όταν παρουσίασε ένα μεγάλο γλωσσικό μοντέλο γενετικής νοημοσύνης όπως το ChatGPT με επαναστατική αρχιτεκτονική που μειώνει σε τεράστιο ποσοστό τα κόστη ανάπτυξης προγραμμάτων ΑΙ. Με δημοσίευση στην επιθεώρηση «Nature» η DeepSeek λέει ότι η εκπαίδευση του μοντέλου της R1 κόστισε μόλις 294 χιλιάδες δολάρια όταν η εκπαίδευση των ανταγωνιστικών προγραμμάτων των αμερικανικών εταιρειών κοστίζει δεκάδες εκατ. δολάρια.
Τη δημοσίευση την οποία συνυπογράφει ο ιδρυτής της DeepSeek Λιάνγκ Γουένφενγκ και η αποκάλυψη του κόστους ανάπτυξης της τεχνολογίας αναζωπυρώνει τη συζήτηση γύρω από τις φιλοδοξίες της Κίνας στον παγκόσμιο αγώνα για την τεχνητή νοημοσύνη λίγα 24ωρα μετά την ανακοίνωση ότι δημιουργήθηκε στην Κίνα ένα τεράστιο κέντρο δεδομένων που λειτουργεί αποκλειστικά με εγχώρια τσιπ σε μια προσπάθεια απεξάρτησης της χώρας από τους αμερικανικής παραγωγής επεξεργαστές τεχνητής νοημοσύνης.
Η DeepSeek αναφέρει ότι το μοντέλο με επίκεντρο τη συλλογιστική εκπαιδεύτηκε χρησιμοποιώντας 512 τσιπ Nvidia H800. Το συγκεκριμένο υλικό σχεδιάστηκε ειδικά για την Κίνα αφού οι ΗΠΑ απαγόρευσαν τις πωλήσεις των ισχυρότερων επεξεργαστών H100 και A100.
Η κυκλοφορία των φθηνότερων εργαλείων τεχνητής νοημοσύνης της DeepSeek αποσταθεροποίησε τις παγκόσμιες αγορές προκαλώντας πτώση στις μετοχές τεχνολογίας υπό τον φόβο ότι θα μπορούσαν να υποσκελίσουν κολοσσούς όπως η Nvidia και η OpenAI.
Ωστόσο η DeepSeek κράτησε χαμηλό προφίλ με τα στελέχη της να πραγματοποιούν μόνο σποραδικές δημόσιες εμφανίσεις και ενημερώσεις προϊόντων.
Η αναφορά σε κόστος 294.000 δολαρίων έρχεται σε έντονη αντίθεση με τις εκτιμήσεις αμερικανικών εταιρειών.
Ο διευθύνων σύμβουλος της OpenAI Σαμ Άλτμαν είχε δηλώσει το 2023: «Η εκπαίδευση θεμελιωδών μοντέλων κοστίζει πολύ περισσότερο από 100 εκατομμύρια δολάρια».
Η εκπαίδευση μεγάλων γλωσσικών μοντέλων απαιτεί τη λειτουργία συστοιχιών πανίσχυρων τσιπ για εκτεταμένες χρονικές περιόδους, καταναλώνοντας τεράστιες ποσότητες ηλεκτρικής ενέργειας κατά την επεξεργασία κειμένου και κώδικα. Οι αναλυτές του κλάδου υποθέτουν εδώ και καιρό ότι ο λογαριασμός για τέτοια έργα φτάνει σε δεκάδες ή και εκατοντάδες εκατομμύρια.
Αυτή η υπόθεση τώρα αμφισβητείται και, σε συμπληρωματικό έγγραφο, η DeepSeek παραδέχτηκε ότι διαθέτει τσιπ A100 και τα είχε χρησιμοποιήσει στα πρώτα στάδια ανάπτυξης, πριν μεταφέρει την πλήρη εκπαίδευση στο σύμπλεγμα H800. Σύμφωνα με την εταιρεία τεχνολογίας, το μοντέλο λειτούργησε για 80 ώρες κατά το τελικό στάδιο εκπαίδευσης.
Παρότι η Nvidia έχει επιμείνει ότι η κινεζική startup έχει πρόσβαση μόνο στους επεξεργαστές H800, αμερικανοί αξιωματούχοι παραμένουν δύσπιστοι. Πριν λίγους μήνες, πηγές των ΗΠΑ ανέφεραν στο Reuters ότι η DeepSeek κατέχει παράνομα μεγάλες ποσότητες τσιπ H100, τα οποία υπόκεινται σε περιορισμούς εξαγωγών προς την Κίνα.
Naftemporiki.gr