DeepSeek: Εκπαιδεύσαμε το σύστημα μας τεχνητής νοημοσύνης με κόστος μόλις 294 χιλιάδες δολάρια

Επισκέψεις: 382

Η εκπαίδευση των μεγάλων γλωσσικών μοντέλων κοστίζει δεκάδες εκατ. δολάρια.

Η κινεζική εταιρεία DeepSeek προκάλεσε σεισμό στη βιομηχανία της τεχνολογίας στις αρχές του έτους όταν παρουσίασε ένα μεγάλο γλωσσικό μοντέλο γενετικής νοημοσύνης όπως το ChatGPT με επαναστατική αρχιτεκτονική που μειώνει σε τεράστιο ποσοστό τα κόστη ανάπτυξης προγραμμάτων ΑΙ. Με δημοσίευση στην επιθεώρηση «Nature» η DeepSeek λέει ότι η εκπαίδευση του μοντέλου της R1 κόστισε μόλις 294 χιλιάδες δολάρια όταν η εκπαίδευση των ανταγωνιστικών προγραμμάτων των αμερικανικών εταιρειών κοστίζει δεκάδες εκατ. δολάρια.

Τη δημοσίευση την οποία συνυπογράφει ο ιδρυτής της DeepSeek Λιάνγκ Γουένφενγκ και η αποκάλυψη του κόστους ανάπτυξης της τεχνολογίας αναζωπυρώνει τη συζήτηση γύρω από τις φιλοδοξίες της Κίνας στον παγκόσμιο αγώνα για την τεχνητή νοημοσύνη λίγα 24ωρα μετά την ανακοίνωση ότι δημιουργήθηκε στην Κίνα ένα τεράστιο κέντρο δεδομένων που λειτουργεί αποκλειστικά με εγχώρια τσιπ σε μια προσπάθεια απεξάρτησης της χώρας από τους αμερικανικής παραγωγής επεξεργαστές τεχνητής νοημοσύνης.

Η DeepSeek αναφέρει ότι το μοντέλο με επίκεντρο τη συλλογιστική εκπαιδεύτηκε χρησιμοποιώντας 512 τσιπ Nvidia H800. Το συγκεκριμένο υλικό σχεδιάστηκε ειδικά για την Κίνα αφού οι ΗΠΑ απαγόρευσαν τις πωλήσεις των ισχυρότερων επεξεργαστών H100 και A100.

Η κυκλοφορία των φθηνότερων εργαλείων τεχνητής νοημοσύνης της DeepSeek αποσταθεροποίησε τις παγκόσμιες αγορές προκαλώντας πτώση στις μετοχές τεχνολογίας υπό τον φόβο ότι θα μπορούσαν να υποσκελίσουν κολοσσούς όπως η Nvidia και η OpenAI.

Ωστόσο η DeepSeek κράτησε χαμηλό προφίλ με τα στελέχη της να πραγματοποιούν μόνο σποραδικές δημόσιες εμφανίσεις και ενημερώσεις προϊόντων.

Η αναφορά σε κόστος 294.000 δολαρίων έρχεται σε έντονη αντίθεση με τις εκτιμήσεις αμερικανικών εταιρειών.

Ο διευθύνων σύμβουλος της OpenAI Σαμ Άλτμαν είχε δηλώσει το 2023: «Η εκπαίδευση θεμελιωδών μοντέλων κοστίζει πολύ περισσότερο από 100 εκατομμύρια δολάρια».

Η εκπαίδευση μεγάλων γλωσσικών μοντέλων απαιτεί τη λειτουργία συστοιχιών πανίσχυρων τσιπ για εκτεταμένες χρονικές περιόδους, καταναλώνοντας τεράστιες ποσότητες ηλεκτρικής ενέργειας κατά την επεξεργασία κειμένου και κώδικα. Οι αναλυτές του κλάδου υποθέτουν εδώ και καιρό ότι ο λογαριασμός για τέτοια έργα φτάνει σε δεκάδες ή και εκατοντάδες εκατομμύρια.

Αυτή η υπόθεση τώρα αμφισβητείται και, σε συμπληρωματικό έγγραφο, η DeepSeek παραδέχτηκε ότι διαθέτει τσιπ A100 και τα είχε χρησιμοποιήσει στα πρώτα στάδια ανάπτυξης, πριν μεταφέρει την πλήρη εκπαίδευση στο σύμπλεγμα H800. Σύμφωνα με την εταιρεία τεχνολογίας, το μοντέλο λειτούργησε για 80 ώρες κατά το τελικό στάδιο εκπαίδευσης.

Παρότι η Nvidia έχει επιμείνει ότι η κινεζική startup έχει πρόσβαση μόνο στους επεξεργαστές H800, αμερικανοί αξιωματούχοι παραμένουν δύσπιστοι. Πριν λίγους μήνες, πηγές των ΗΠΑ ανέφεραν στο Reuters ότι η DeepSeek κατέχει παράνομα μεγάλες ποσότητες τσιπ H100, τα οποία υπόκεινται σε περιορισμούς εξαγωγών προς την Κίνα.

Naftemporiki.gr

Ελευθερία Στεργιοπούλου – Χάρης Ρώμας στο Ράδιο Γάμμα 94FM

Γιώργος Καρβουνιάρης – Δημήτρης Παλούμπης στο Ράδιο Γάμμα 94FM

Ελευθερία Στεργιοπούλου – Χρυσούλα Στεφανάκη στο Ράδιο Γάμμα 94FM

Ενημερωτικό Portal του Ράδιο Γάμμα 94 FM, Πάτρα

Συνάντηση Μητσοτάκη – Ερντογάν στον ΟΗΕ: Τα «αγκάθια» και τα ελληνοτουρκικά μέτωπα

Οι Ταλιμπάν απαγορεύουν βιβλία γραμμένα από γυναίκες στα πανεπιστήμια του Αφγανιστάν

Χωρίς σχόλια

Η ληστεία του ανθρώπινου νου

«Σπάνια» κακοκαιρία την Παρασκευή: Από χαλάζι έως υδροστρόβιλους

Η μεγάλη «απόδραση» του AI: Πώς το νέο μοντέλο της OpenAI χάκαρε εταιρεία χωρίς να το αντιληφθεί κανείς

Το νέο GT θα είναι ένα διαφορετικό Range Rover

Samsung: Να γιατί κοκκινίζουν οι οθόνες

Καύσωνας στην Ιαπωνία: Σε «κόκκινο συναγερμό» τα νοσοκομεία – Αυξάνεται ο αριθμός των ασθενών

Ράδιο Γάμμα 94 FM

Ο πρώτος ενημερωτικός σταθμός της Πάτρας

Προτείνουμε

ΤΟ ΕΝΑ ΚΡΟΥΣΜΑ μετά το άλλο! «ΘΑ ΣΠΑΣΕΙ επιτέλους η μιντιακή ομερτά;»

Δημοφιλή