Kiek jums atneša 1,5 milijardo dolerių: Bartzo gyvenvietės priešininkų vadovas – muzikos technologijų politika

BartzasDarbų sąrašų portalas, kaip vaistas nuo neskaidrumo, nepaiso to, ką Geoffrey Nunberg ir Jean-Noël Jeanneney mokė mus apie „Google“ knygų paiešką prieš dvidešimt metų: kai sukuriate milžinišką skaitmeninę biblioteką aplink neskaidrius, klaidų metaduomenis ir netolygią gavimo praktiką, sisteminės spragos nėra klaidos, o visos nuspėjamos funkcijos.
Bartzasprimygtinai teigia, kad portalas yra „pakankamai geras“, nepaiso visos literatūros apie tai, kodėl tokios sistemos yra nuspėjamai blogai visiems, esantiems už Anglijos ir JAV svorio centro. Garsioji Geoffrey'aus Nunbergo „Google“ knygų paieškos kritika („katastrofa mokslininkams“) parodė, kad kataloge gausu struktūrinių metaduomenų klaidų – klaidingai išleistų knygų, klaidingai klasifikuotų temų, fantominių leidimų – ne kaip atsitiktiniai nesklandumai, o kaip neišvengiamas šalutinis produktas kuriant masinio masto automatizuotą biblioteką be rimtų bibliografinių ekspertų.
Jean-Noël Jeanneney atsakymas iš Prancūzijos nacionalinės bibliotekos pusės buvo susijęs: sukūrus sistemą, kad būtų suteikta pirmenybė anglų kalbos ir JAV leidinių duomenims, visi kiti pagal numatytuosius nustatymus bus nustumti į paraštes. Čia galioja ta pati logika. Portalas, kuris negali patikimai tvarkyti graikiškų, kirilicos ar kitų nelotyniškų raštų, nėra kažkokia stebėtina klaida; Tai yra būtent tai, ką gaunate, kai klaidingą pretenzijų administravimo sąsają sujungiate su visuotiniu daugiakalbiu korpusu. Kaip ir naudojant „Google“ knygas, visa pratimo esmė buvo paimti kultūrą ir nemokėti kultūros kūrėjams nė cento, kurio galėtumėte išvengti.
The Bartzas portalas atkartoja šią problemą miniatiūriškai, tačiau 1,5 milijardo dolerių turėtų nusipirkti daug daugiau. Jei jūsų indeksas yra nukreiptas į JAV registracijas ir lotyniškų rašmenų metaduomenis, jo ekranas „nėra rezultatų“ gali atspindėti tuos dizaino pasirinkimus, kaip ir tikrąją pažeidimo mastą. Tame pasaulyje užsienio ar ne anglų autorių laikymas standartu „jei nerandi portale, tai neįvyko“ nėra skaidrumas; tai nuspėjamas „Google“ knygų katastrofos pasikartojimas.
Kodėl darbų sąrašas yra trapus, nepermatomas ir funkcionaliai nepatikrintas
The Bartz prieš antropinį susitarimas reklamuojamas kaip istorinė pergalė: didžiulė autorių teisių byla buvo baigta, milijonai knygų apskaityti ir „sąžiningas ir teisingas“ atlyginimo autoriams procesas. Tačiau pasigilinus po paviršiumi atrasi dar kai ką: techniškai trapią, struktūriškai išskirtinę ir teisiškai neužbaigtą atsiskaitymą, pagrįstą darbų sąrašu, kurio autoriams neįmanoma patikrinti, nes dėl tam tikrų priežasčių teismas patvirtino, kad tai būtų laikoma konfidencialia susitarimo informacija. Tai keista, nes visa gyvenvietė įjungia darbų sąrašą.
Darbų sąrašas, kuris yra daugiau ar mažiau duomenų rinkinys, nustatantis, kas yra klasėje, kas gauna atlyginimą ir kieno pretenzijos atleidžiamos, yra sudarytas iš mažiausiai trijų nepastovių ir klaidų šaltinių:
1. Piratų šešėlinės bibliotekos („LibGen“ / „PiLiMi“)
2. ISBN pramonės duomenų bazės („Bowker“, „ISBNdb“, „Amazon“)
3. JAV autorių teisių biuro viešieji įrašai
Kiekvienas metaduomenų gabalas keliauja vamzdynu, kuris niekada nebuvo sukurtas taip, kad atlaikytų teisminę priežiūrą arba veiktų kaip pasaulinis nukentėjusiojo indeksas.
Rezultatas yra atsiskaitymas, kuriame:
– Neįtraukta daugybė užsienio kalbų autorių ir galbūt milijonai kūrinių. Ne todėl, kad jų darbai nebuvo naudojami, o todėl, kad metaduomenys nebuvo pakankamai švarūs, kad atitiktų.
– Vietinių kalbų ir mažumų raštų kūriniai gali iškristi iš žemėlapio, nes niekada nebuvo užfiksuoti identifikatoriai ir registracijos įrašai.
– Atrodo, kad kalbos, kuriose naudojami kiti nei lotynų/romėniški rašmenys, neįtraukiami (įskaitant graikų, kirilicą, azijietišką abėcėlę).
– Portale nėra atsisiunčiamo pagrindinio sąrašo (atrodo, kad tai būtų „Darbų sąrašas“), todėl niekas negali peržiūrėti ar atkurti duomenų rinkinio.
– Nepriklausantys klasei autoriai turi arba aklai atspėti, ar jie buvo įtraukti į piratų bibliotekas, arba pakliūti į kenkėjiškų programų apimtas piratų bibliotekas, kad atspėtų, ar jų kūriniai buvo paimti.
Pasaulinio pažeidimo atveju taip neturėtų būti elgiamasi. Taip duomenų rinkinys kuruojamas, kad būtų sukurta kuo siauresnė atsakomybė.
Paaiškinimų lentelė: trapūs Bartzo darbų sąrašo pamatai
| Laukas | Pagrindinis (-iai) šaltinis (-iai) | Struktūriniai trūkumai ir gedimų režimai |
| ISBN / ASIN | „LibGen“ / „PiLiMi“ metaduomenys; teksto ištraukimas; ISBNdb; Bowkeris | Nešvarūs piratų metaduomenys; trūksta / neteisingi ISBN; neatitinkantys užsienio leidimai; trūksta vietinių kūrinių identifikatorių |
| Pavadinimas (identifikuotas pavadinimas) | Piratų metaduomenys; ISBNdb; Bowker; Amazon | Sutrumpinti pavadinimai; rašybos klaidos; nenuoseklus romanizavimas; sulaužytos antologijos |
| Autoriaus vardas | Piratų metaduomenys; ISBNdb; Bowkeris | Nenuoseklus romanizavimas; trūkstamų autorių; vietiniai kūrėjai praleisti; neteisingai perrašytus vardus |
| Leidėjo pavadinimas | ISBNdb; Bowker; piratų metaduomenys | Klaidingi arba pasenę leidėjai; trūksta mažų presų; vietos leidėjai nepripažinti |
| JAV autorių teisių registracijos numeris | USCO viešasis katalogas; virtualus kortelių katalogas; Archive.org nuskaito | Neišsamūs duomenys iki 1978 m.; retai registruojami užsienio kūriniai; scenarijaus / romanizacijos neatitikimai |
| Švietimo darbo vėliava | Gauta iš metaduomenų ir leidėjo klasifikacijos | Daugiakalbiai mokomieji tekstai netinkamai suskirstyti į kategorijas; nenuoseklūs kriterijai |
| Atitinkanti logika | Vidinė pėsčiųjų perėja: piratų metaduomenys → ISBN duomenų bazė → USCO įrašai | Tylūs neatitikimai; neįtraukti darbai; nežinomi algoritminiai slenksčiai |
| Įtraukimas į darbų sąrašą | Darbai atitinka visus kriterijus | Vieno trūkstamo lauko neįtraukiamas visas darbas; išnyksta ištisos kalbos |
| Paieškos portalo rezultatas | Priekinė paieška | Nėra eksporto; nėra audito; autoriai turi žinoti, ko ieškoti |
Kodėl tai svarbu: gyvenvietė buvo pastatyta ant greitojo smėlio
Kai klasė filtruojama naudojant metaduomenis, paimtus iš piratų sąvartynų, ISBN duomenų bazes, optimizuotas publikuoti JAV, ir nepilnus JAV registracijos įrašus, gautas duomenų rinkinys patikimai neatspindi, kam buvo padaryta žala.
Tai tik atvaizdas, kam duomenų vamzdynas atitiko. Taip pat būtent čia Bartz gyvenvietė skiriasi nuo Lowery v. Spotify gyvenvietės. Į Lowery„Spotify“ ir jos licencijavimo agentas HFA jau žinojo, ko „Spotify“ ėmėsi: byla privertė įmonę susidurti su konkrečiais takeliais ir kompozicijomis, kurias ji transliavo neturėdama tinkamų mechaninių licencijų, sudarydama pakankamai išsamų paveiktų kūrinių ir susijusių metaduomenų sąrašą, nors ir netobulą. Gyvenvietės struktūra numatė žinomą pažeistų teisių skaičių ir gana konkretų sąrašą, su kuriuo buvo galima susitaikyti.
Priešingai, Bartz pradeda nuo tos vietos, kur Anthropic ir administratorius atsisako atskleisti pagrindinį mokymo korpusą, o tada siūlo trapų, klaidų dažną paieškos laukelį kaip tikro darbų sąrašo pakaitalą. Užuot „Žinome, ką pavogėme, ir štai sąrašas“, užsienio ir neregistruotiems autoriams sakoma: „Įveskite savo pavadinimą į mūsų sugadintą portalą ir tikėkitės geriausio“.
Ištisos bendruomenės – užsienio autoriai, vietinių kalbų kūrėjai, mažesnės spaudos atstovai, mokslininkai – išnyksta dėl metaduomenų spragų, suderintos logikos ir nelotyniško rašto tvarkymo.
Ši gyvenvietė neturėtų tapti planu. Tai turėtų būti įspėjimas: joks pasaulinis pažeidimo įvykis negali būti etiškai išspręstas naudojant slaptą, neaudituojamą darbų sąrašą, sudarytą iš nestabilių duomenų šaltinių.
Ir… be viso kito, atrodo, kad susitarimas suprojektuotas taip, kad praktiškai kviečiama platinti nemažą nepareikalautamą likutį: sudėtingas portalas, slaptų darbų sąrašas ir pretenzijų procesas, kuris garantuoja žemą tų pačių rašytojų, kurių darbai buvo nubraukti, įsitraukimą. Tačiau šalys kol kas neatskleidė, kas gaus likusias lėšas.
Tai nepriimtina.
Jei bus cy pres gavėjas, autoriai turi teisę žinoti, ar tai organizacija, kuri ilgus metus kenkė jų interesams – kaip įprasti įtariamieji „skaitmeninėmis teisėmis“ (reikia pažvelgti tik į antropinius draugus), kurie gina masinį, nelicencijuotą kopijavimą vardan naujovių. Mes jau matėme šį filmą ir žinome, kuo jis baigiasi.
Sunku išvengti jausmo, kad ir vėl rašytojai suteikia vertę, o pinigus gauna kažkas kitas, galbūt atvirai priešiškas jų teisėms.