Ένας επιστημονικός εκδότης εντάχθηκε στις δεκάδες εταιρείες και άτομα που μηνύουν εταιρείες τεχνητής νοημοσύνης για την φερόμενη χρήση έργων που προστατεύονται από πνευματικά δικαιώματα στην εκπαίδευση μοντέλων τεχνητής νοημοσύνης.
Ο εκδοτικός οίκος Elsevier — ο οποίος εκδίδει χιλιάδες περιοδικά, συμπεριλαμβανομένων των Cell και The Lancet — συμμετείχε σε ομαδική αγωγή που κατατέθηκε στις 5 Μαΐου κατά της εταιρείας τεχνολογίας Meta και του διευθύνοντος συμβούλου της Mark Zuckerberg στη Νότια Περιφέρεια της Νέας Υόρκης. Επίσης, ως ενάγοντες στην αγωγή αναφέρονται οι γίγαντες των εκδόσεων βιβλίων Hachette και Macmillan, καθώς και ο Αμερικανός συγγραφέας μυθοπλασίας και δικηγόρος Scott Turow. Οι εκδότες ισχυρίζονται ότι η Meta απέκτησε και αναπαρήγαγε έργα που προστατεύονται από πνευματικά δικαιώματα κατά την ανάπτυξη του μεγάλου γλωσσικού μοντέλου (LLM) Llama.
«Αυτή η υπόθεση είναι η πρώτη αγωγή κατά της Τεχνητής Νοημοσύνης που ασκείται από μεγάλους εκδοτικούς οίκους, οι οποίοι έχουν τη δική τους ιστορία να πουν για την κατάφωρη παραβίαση των δικαιωμάτων τους από τον Μέτα», δήλωσε ο Σύνδεσμος Αμερικανών Εκδοτών.
Οι εταιρείες τεχνητής νοημοσύνης πρέπει να λειτουργούν δίκαια όταν χρησιμοποιούν ακαδημαϊκά δεδομένα στην εκπαίδευση
Η υπόθεση αντικατοπτρίζει εκείνη των συγγραφέων και εταιρειών μέσων ενημέρωσης — συμπεριλαμβανομένων των New York Times — που μηνύουν εταιρείες τεχνητής νοημοσύνης για παρόμοιους λόγους. Ορισμένες υποθέσεις έχουν διευθετηθεί, αλλά, συνολικά, δεν έχουν ακόμη δημιουργήσει σαφές προηγούμενο σχετικά με το εάν είναι νόμιμη η χρήση έργων που προστατεύονται από πνευματικά δικαιώματα για την εκπαίδευση ενός LLM. Ένας εκπρόσωπος της Meta δήλωσε ότι η εταιρεία θα «αντιμετωπίσει επιθετικά αυτήν την αγωγή».
Παρόλο που οι εταιρείες τεχνητής νοημοσύνης είναι επιφυλακτικές σχετικά με τα δεδομένα εκπαίδευσής τους, είναι ευρέως αποδεκτό ότι οι ερευνητικές εργασίες με πληρωμή , καθώς και αυτές με ανοιχτή πρόσβαση, αποτελούσαν μέρος των δισεκατομμυρίων ιστοσελίδων στις οποίες εκπαιδεύτηκαν τα μοντέλα.
Δεδομένα εκπαίδευσης
Για την εκπαίδευση του Llama, η αγωγή ισχυρίζεται ότι ο Meta χρησιμοποίησε το σύνολο δεδομένων Common Crawl, ένα δείγμα δισεκατομμυρίων ιστοσελίδων που δημιουργήθηκαν με αναζήτηση στο Διαδίκτυο, το οποίο, σύμφωνα με τους ενάγοντες, είναι πιθανό να περιελάμβανε μη εξουσιοδοτημένα αντίγραφα έργων που προστατεύονται από πνευματικά δικαιώματα, όπως επιστημονικές περιλήψεις και εργασίες με paywall.
Οι εκδότες ισχυρίζονται επίσης ότι η Meta κατέβασε και κατέβασε μέσω torrent (προήλθε μέσω μεθόδου κοινής χρήσης αρχείων) έργα από ιστότοπους όπως το LibGen, μια βάση δεδομένων βιβλίων, ερευνητικών εργασιών και σχολικών βιβλίων, και το Sci-Hub , ένα αποθετήριο που παρέχει δωρεάν πρόσβαση σε εκατομμύρια ερευνητικά άρθρα και βιβλία ανεξάρτητα από πνευματικά δικαιώματα. Και οι δύο ιστότοποι έχουν αποτελέσει αντικείμενο νομικών προσφυγών. Πολλά από τα αποδεικτικά στοιχεία βασίζονται σε ηλεκτρονικά μηνύματα μεταξύ υπαλλήλων της Meta, τα οποία αποκαλύφθηκαν κατά τη διάρκεια ξεχωριστής υπόθεσης στην οποία αρκετοί συγγραφείς βιβλίων μήνυσαν τη Meta πέρυσι ( Kadrey εναντίον Meta ).
Έχει χρησιμοποιηθεί η εργασία σας για την εκπαίδευση ενός μοντέλου τεχνητής νοημοσύνης; Σχεδόν σίγουρα
Η Meta έχει υπονοήσει ότι θα υποστηρίξει ότι η εκπαίδευση σε έγγραφα που προστατεύονται από πνευματικά δικαιώματα συνιστά «δίκαιη χρήση», μια εξαίρεση από τα πνευματικά δικαιώματα στο αμερικανικό δίκαιο. «Η Τεχνητή Νοημοσύνη ενισχύει τις μετασχηματιστικές καινοτομίες, την παραγωγικότητα και τη δημιουργικότητα για άτομα και εταιρείες και τα δικαστήρια έχουν ορθώς διαπιστώσει ότι η εκπαίδευση σε υλικό που προστατεύεται από πνευματικά δικαιώματα μπορεί να χαρακτηριστεί ως δίκαιη χρήση», δήλωσε ο εκπρόσωπός της.