#40 – Twórczość AI

Czy #ChatGPT zastąpi lekarzy, a #DALL-E i #Midjourney wyślą artystów na bezrobocie? W jaki sposób działa #AI? Dokąd nocą tupta model generatywny?

https://sprawdzam.studio/link/ai-nieliniowy Podcast Nieliniowy – Jak działa model DALL-E i inne modele generatywne

https://sprawdzam.studio/link/ai-krok-po-kroku Przykład generowania krok po kroku obrazka przy użyciu Stable Diffusion

https://sprawdzam.studio/link/ai-books-dataset Skąd OpenAI wzięło prawie wszystkie książki na świecie?

https://sprawdzam.studio/link/ai-gpt3 Z czego jest zbudowany model GPT3.5? W prostym angielskim.

https://sprawdzam.studio/link/ai-reverse-search Znajdź źródło, z którego wygenerowano twój własny obrazek AI!

Transkrypcja

Pięknie nam przebiegł 2022. Pośród dziesiątek różnych aplikacji wykorzystujących sztuczne sieci neuronowe, pojawił się DALL-E, model tworzący obrazki na podstawie tekstowego opisu, potem Midjourney – większe i lepsze narzędzie realizujące ten sam cel, oraz ChatGPT – narzędzie pozwalające na komunikację naturalnym językiem, którego wszechstronność nieustannie zaskakuje.

O ile w dziedzinie sztucznej inteligencji działo się dużo więcej, to właśnie te trzy nazwy trafiły pod strzechy i budziły emocje wśród ludzi, którzy niekoniecznie byliby w stanie skorzystać nawet z gotowego narzędzia, by uruchomić je na własnym komputerze. Zamiast tajemniczych, gigantycznych plików, niezrozumiałych skryptów i skomplikowanych poleceń do wpisania w terminalu, dostaliśmy proste w obsłudze narzędzia robiące konkretne i namacalne rzeczy.

A że wiele z tych rzeczy zachwyca, wiele z tych rzeczy jest na tyle imponujące, że szybko powstało pytanie, czy nauka nie zaszła za daleko, a AI pozbawi nas wszystkich pracy i będziemy jeść spleśniały ser oraz jeździć samochodami bez dachu? Zapraszam do niezwykłej podróży po krainie niesamowitości.

Określenie „sztuczna inteligencja” powstało już w 1956 roku na konferencji informatycznej. Została zdefiniowana jako „zdolność systemu do prawidłowego interpretowania danych pochodzących z zewnętrznych źródeł, nauki na ich podstawie oraz wykorzystywania tej wiedzy, aby wykonywać określone zadania i osiągać cele poprzez elastyczne dostosowanie”. Rewolucja technologiczna, jaką przeżywamy od czasu wynalezienia tranzystora coraz wyraźniej nam pokazuje, że nie jest sztuką gromadzić dane. Sztuką jest je opisywać i porządkować tak, by były zwyczajnie w jakikolwiek sposób użyteczne. Co z tego że będziesz mieć dostęp do największej biblioteki na świecie, jeśli nie będziesz wiedzieć, gdzie znajdziesz książkę, jaka właśnie jest ci potrzebna? I tu z pomocą przychodzą nam komputery.

Myślę że historii swojego kalkulatora wstydzę się jeszcze bardziej niż historii swojej przeglądarki. Jednak od tego mam kalkulator, by nie musieć liczyć rzeczy na piechotę, nawet jeśli jest to proste mnożenie, to używając maszyny do obliczeń, oszczędzam swój czas. Księgowi robią tabelki w Excelu i w dedykowanym oprogramowaniu, by zoptymalizować swoją pracę, mimo że potrafiliby przeprowadzić rachunki ołówkiem na kartce. Tłumacze używają oprogramowania do wsparcia tłumaczeń, które na przykład dynamicznie wyszukuje podobne zdania w posiadanej już bazie danych. Fotografowie, nawet analogowi, korzystają ze światłomierzy, żeby zredukować ryzyko powstania kiepskiego zdjęcia, a graficy malują w photoshopie, zamiast kalać się farbą i płótnem. Rolnicy mają maszyny rolnicze, a piekarze mają automatyczne mieszadła. Wszyscy, cała ludzka cywilizacja, wspomagamy się technologią by optymalniej robić to, co robimy.

Skąd zatem ta nagła gorączka, gdy stoimy u progu zupełnie nowych rozwiązań wspierających nas na co dzień?

Pozwolę sobie najpierw na niepopularną opinię. Po prostu źle nazwaliśmy AI. Sama sztuczność już nam się źle kojarzy, w słowniku języka polskiego znajdziemy pod tym hasłem nie tylko nienaturalny, ale też pozorny czy fałszywy. Podobnie z angielskim. Gdy zestawię to z ludzką cechą – sztuczny uśmiech, sztuczne uczucia, sztuczna… inteligencja – otrzymujemy oczywiste, nieprzyjemne skojarzenie.

Podczas gdy przymiotnik „sztuczny” jest w tym kontekście wykorzystywany wyłącznie do opisania faktu, że mamy do czynienia z dziełem człowieka, który imituje pewne cechy podmiotu. Sztuczny ząb może wyglądać tak samo jak naturalny i być dużo bardziej trwały, sztuczna kończyna będzie kiepską imitacją naturalnej z ograniczonymi biologicznymi funkcjami, z kolei sztuczna nerka – czyli aparat do dializ, spełnia biologiczną funkcję po wielokroć skuteczniej, ale ma swoje gabaryty i wymaga zewnętrznego zasilania, więc nie ma startu do nerki naturalnej. Sztuczność produktu nie determinuje w najmniejszym stopniu, jaki procent funkcji naturalnego odpowiednika ma spełniać, dlatego myślenie o sztucznej inteligencji jak o świadomym, rozumnym bycie jest zwyczajnie błędne. Oczywiście możemy założyć, że jeśli taki byt powstanie, będziemy go nazywać sztuczną inteligencją, ale na ten moment jest to czyste science fiction.

Ale wprowadźmy sobie na sam początek kilka pojęć i zobrazujmy sobie proces, który stoi za przygotowaniem do działania takich narzędzi jak Midjourney czy ChatGPT. A na początku są dane. Dane nieuporządkowane, z których chcielibyśmy skorzystać. Celowo nie precyzuję charakteru tych danych – może to być naprawdę cokolwiek, wszystkie książki na świecie, miliardy miliardów zdjęć czy dane ze stacji pogodowych. Po zebraniu danych należy je odpowiednio przygotować, na przykład jeśli naszym celem będzie rozpoznawanie rzeczy na zdjęciach, takich jak lampa czy czajnik, to fotografie tych obiektów, które posłużą do treningu, muszą być dobrze opisane. Mając odpowiednio przygotowane dane, rozpoczynamy proces treningu, wielokrotnie przepuszczając nasz zbiór danych przez sztuczną sieć neuronową. Ta, znowu sztuczność, za którą diabli wiedzą co się kryje, więc rozwińmy to pojęcie. Sztuczny neuron jest nieporównywalnie prostszy niż neuron biologiczny, jest po prostu maleńką jednostką która wykonuje bardzo proste zadanie (jakie? to zależy co chcemy osiągnąć, dla uproszczenia przyjmijmy, że jest to pewna funkcja matematyczna). Całą robotę robi to, że tych sztucznych neuronów jest dużo i są ze sobą połączone. I tu następuje proces treningu, czy też nauki, w których poszczególne elementy sieci neuronowej próbują dobrać swoje parametry tak, by realizować powierzone zadanie. Na wspomnianym przykładzie rozpoznawania obiektów na zdjęciu, musi znaleźć sposób, by na zdjęcie czajnika reagować słowem „czajnik”. Sam trening nadzorują skrypty, lub też rzadziej ludzie, którzy wiedzą co oczekujemy z przetworzenia porcji danych i są w stanie poinformować sieć że „tak, dobrze kombinujesz, oby tak dalej”, albo „nie no, gorzej niż ostatnio, to nie jest dobra droga”. Stąd też model wie, czy zmiana parametrów względem poprzedniego cyklu uczenia jest pożądana – więc należy wzmocnić te zmiany, czy może wręcz przeciwnie – wtedy warto spróbować czegoś innego.

Trening sieci to też najkosztowniejszy, pod względem obliczeń, etap.

Model jest to początkowa struktura sieci neuronowej. W zależności od tego, co chcemy realizować, struktura będzie inna dla rozpoznawania obiektów, inna dla generowania głosu, a jeszcze inna do masy innych zastosowań. Wytrenowany model to struktura, której parametry zostały już dostosowane do danego zadania.

Gdy mamy wytrenowany model, przechodzimy do ewaluacji, czyli swoistego egzaminu. Ciekawe rzeczy związane z AI zwykle bazują na bardzo dużych zbiorach danych, więc sam proces uczenia jest nadzorowany przez inne algorytmy. Ewaluacja polega na sprawdzeniu, czy wytrenowany model poprawnie poradzi sobie z danymi, których w treningowym zbiorze danych nie było. Jeżeli poradzi sobie dobrze – gratulacje, właśnie uczyniliśmy świat lepszym miejscem. Jeśli nie, to wracamy do punktu wyjścia i sprawdzamy co skopaliśmy, ewentualnie idziemy się upić i wypłakać w poduszkę, bo właśnie w piach poszedł miesiąc ciężkiej pracy.

No, ale jak poszło dobrze, to wypada jeszcze stworzyć jakieś narzędzie do korzystania z tego modelu. I takimi narzędziami są właśnie Stable Diffusion, Dall-E, Midjourney czy ChatGPT.

Jest to oczywiście bardzo duże uproszczenie. Ten odcinek już i tak jest wystarczająco długi jak na mnie, a też mam swoją wizję podcastu, by zachować przystępność kosztem szczegółowości. Jeśli chcesz posłuchać czegoś konkretniejszego, i to po polsku, w opisie znajdziesz link do podcastu Nieliniowy o modelach generatywnych.

No ale tak, ten wieloetapowy, skomplikowany proces w zasadzie sprowadza się do budowania i zachowywania skojarzeń między danymi. Przewagą nad skojarzeniami ludzkimi jest to, że tych danych może być dowolnie dużo. Dlatego AI fenomenalnie nadaje się do diagnostyki wizualnej, ponieważ, w odróżnieniu od człowieka, jest w stanie przetworzyć w procesie nauczania wszystkie istniejące zdjęcia oczu z jaskrą, czy zdjęcia skóry z czerniakiem. Czy to znaczy że okuliści i dermatolodzy powinni się bać o pracę? Nie sądzę, bo wytrenowany model rozpoznawania wzorca nie przeprowadzi wywiadu z pacjentem, nie zaproponuje leczenia i nie huknie na pacjenta, że jak się nie weźmie natychmiast za rozwiązywanie problemu, to może sobie garnitur do trumny wybierać. Do tego byśmy potrzebowali innych, wyspecjalizowanych modeli, choć tu by trzeba było zadać pytanie o opłacalność. Ale do tego jeszcze przejdę.

Tymczasem porozmawiajmy o narzędziach. W drugiej połowie 2022 roku Internet został zalany cyfrowo wygenerowanymi obrazkami. Dziś razem zajrzymy im pod maskę. Ich działanie jest proste i intuicyjne – wpisujemy pewien tekst, który dziś będę nazywał promptem, i na jego podstawie tajemnicze mechanizmy po krótkim czasie wypluwają nam obrazek. Kurde, genialne, ktoś zrobił cyfrową wersję pięcioletniego dziecka! Nie, serio to jest genialne, po prostu mam w umowie z wydawcą zapisane, że w każdym odcinku musi być jakiś kretyński żart. A teraz zapraszam pod maskę tej maszyny.

W pierwszej kolejności prompt przechodzi przez model językowy, który konwertuje go na cyfrową reprezentację słów. Nie jest to tłumaczenie słowo w słowo, lecz konwersja zachowująca kontekst, dzięki czemu możemy dowolnie pozwalać sobie na opisywanie relacji między obiektami. W ten sam sposób przekonwertowano na postać cyfrową opisy obrazków, które posłużyły do wytrenowania modelu.

Trening generatora obrazków polegał na powolnym zaszumianiu obrazków, w wielu krokach, a następnie odwracaniu tego procesu – z mocno zaszumionego obrazka odtwarzano pierwotny wygląd. Dlatego, po tym jak prompt zostanie przekonwertowany na język zrozumiały dla maszyny, w następnym kroku generowany jest szum. Najprostsze kropki o losowym kolorze. W tym losowym szumie model stara się dostrzec obrazki, które pasują do promptu, z każdym krokiem powoli odszumiając. Niektóre serwisy, takie jak midjourney, rezultat tej pracy przetwarzają przez kolejne modele, które dodatkowo wygładzają obraz i zwiększają jego rozdzielczość. A ponieważ początkowy, losowy szum może być praktycznie dowolny, to z tego samego promptu można wygenerować gigantyczną ilość obrazków – model za każdym razem widząc inny szum, będzie podciągał go pod inne obrazki. W youtubowej wersji odcinka zamieściłem taki przykład generowania krok po kroku, ale dla miłośników platform podcastowych, dołączam ten fragment wideo w opisie odcinka.

Generator tekstowy, ChatGPT, na samym początku też przetwarza prompt. Z tym że dzieli tekst na tokeny, jeden token jest mniej więcej niecałym słowem, jakie znamy w naszych językach. Niecałym, ponieważ wyłuskując rdzeń słowa, możemy złapać zarówno znaczenie tego słowa, jak i rozpoznać jego odmianę. Wspominam o tym, aby opowiedzieć o ilości tekstu, który posłużył za treningowy zbiór danych. Poprzednia wersja modelu GPT-3.0, składa się z kilku zbiorów danych. Na początek jest to angielska wikipedia z trzema miliardami tokenów. Następnie zbiory gutenberg i bibliotik, w sumie zawierające niemal 200 tysięcy książek w postaci cyfrowej, co się przekłada na niecałe 70 miliardów tokenów, 17 razy więcej niż cała angielskojęzyczna wikipedia. Do tego dochodzą gargantuiczne zbiory webtext2 oraz web data, pochodzące ze skryptów automatycznie przeczesujących internet, co daje nam wielkość prawie pół biliona tokenów, czyli ponad 160 razy więcej niż ma angielska wikipedia. A to całkiem sporo.

Trening modelu uprośćmy do uporządkowania tego zbioru danych. Zamiast wielkiej biblioteki, z której możemy wziąć dowolną książkę – oczywiście pod warunkiem, że wiemy co to za książka i gdzie jej szukać, otrzymujemy mechanizm, który potrafi całkiem sprawnie znaleźć wpisy dotyczące naszego zapytania i w miarę szybko je dla nas pozyskać. Ciężko się zatem dziwić, że mechanizm ten jest w stanie zdać egzamin lekarski, napisać program komputerowy albo artykuł na dowolny temat.

A jeżeli powiem ci, że bardzo podobne rozwiązanie znasz już od wielu lat i całkiem możliwe, że codziennie z niego korzystasz?

Smartfony zabiły klawiatury telefonów komórkowych. Mimo wszystko, ekran dotykowy jest szybki, sprawia że urządzenie może być mniejsze i lżejsze, ale ma paskudną wadę. Na małym, gładkim ekranie łatwo się pomylić. Na szczęście klawiatury mają mechanizmy, które to kompensują – nie tylko poprawią źle wpisane słowo, ale coraz częściej podpowiedzą kolejne słowa, które będą pasowały do kontekstu zdania. Jak sądzisz, co by było gdyby podpiąć ten prosty mechanizm pod macierz superkomputerów i gigantyczny zbiór informacji? No dobra, to uproszczenie jest spore, ale nie bezzasadne. Bo skoro już otrzymaliśmy zapytanie i wygenerowaliśmy już fragment odpowiedzi, czemu by nie użyć tego fragmentu, by wygenerować więcej dobrze brzmiącego tekstu? To dodatkowy czynnik, który pozwala dużym modelom językowym na formowanie nie tylko długich zdań złożonych, ale też całych akapitów tekstu bez mrugnięcia okiem. Co więcej, traktując całą rozmowę jako prompt, jest w stanie trzymać się kontekstu narzuconego we wcześniejszych wpisach, tworząc iluzję dostosowywania się.

Do tego dołóżmy tłumaczenie maszynowe – coś, z czym modele językowe radzą sobie współcześnie naprawdę bardzo dobrze. Wielokrotnie, szczególnie w kontekście rzeczy technicznych, w odpowiedziach ChatGPT znalazłem oczywiste frazy z angielskiego, które w języku polskim zwyczajnie nie występują, na przykład polecając napisanie krótkiego programu otrzymałem w odpowiedzi „Tutaj jest kod w języku Python” – absolutny potworek po polsku, nikt tak nie mówi. Ale jak przetłumaczyć to dosłownie na angielski, pasuje doskonale. Ładna próba, OpenAI, ale nie z nami te numery. Do książek i Sienkiewicza czytać!

Oczywistym jest, że nikt nie jest w stanie przeczytać tak gigantycznego zbioru danych. Oznacza to, że model podczas uczenia konsumował dane jak leci, samodzielnie. Na podstawie pewnych parametrów porządkował je pilnując, by nie wychwalał zbrodniarzy wojennych, nie podawał się za eksperta do spraw medycyny, finansów czy prawa, uważał nawet na subtelne złośliwości. Ostatecznie, rozmawiając z żywymi ludźmi, którzy celowo próbowali go wpuścić w maliny i zmusić do gloryfikacji austriackiego akwarelisty, otrzymywał kolejne korekty. A i tak pojawiają się i będą się pojawiać jego kolejne wersje i poprawki. Musimy też pamiętać że model GPT3 nie jest ani jedynym, ani największym modelem językowym na świecie. Po prostu stał się popularny dzięki temu, że puszczono w świat aplikację, która na nim pracuje. A wraz z popularnością przyszły obawy, że maszynowe generowanie tekstu odbierze pracę pisarzom, copywiterom, programistom, prawnikom i całemu mnóstwu innych zawodów, w którym pisanie czegoś, co trzyma się kupy, jest całkiem istotne.

Spotkałem się niedawno z zabawną opinią, że zanim zaczniesz się bać, że AI odbierze ci twoją pracę lepiej się najpierw zastanowić, czy jakiekolwiek AI chciałoby wykonywać twoją pracę, i to za twoją pensję. Jak się głębiej przyjrzeć, to pytanie jest bardzo zasadne, bo z wielkimi ambicjami przychodzi wielki rachunek za prąd. Przetworzenie tak dużych ilości danych wymaga specjalistycznego sprzętu komputerowego. Na szczęście dostępne są usługi w datacentrach, które oferują dzierżawę mocy obliczeniowej, dzięki czemu zadanie, które najlepszej pojedynczej karcie graficznej zajęłoby sześćset lat, można zrealizować w kilka dni. Używa się tu jednostki godziny czasu pracy danego układu. Przykładowo, wynajęcie jednej godziny czasu pracy układu Nvidia A100, zabawki zaprojektowanej do pracy z AI, kosztuje w zależności od dostawcy i rodzaju umowy góra 30 dolarów, a jej zakup to 32. Tysiące. Dolarów. Chociaż używane da się wyrwać taniej. A ponieważ wiele obliczeń możemy wykonywać jednocześnie, można wydzierżawić czas pracy tysięcy takich układów, dzięki czemu zadanie, które na świetnej, choć ciągle domowej, karcie graficznej zajęłoby kilkaset lat, możemy skrócić do zaledwie kilku dni. I rachunku na kilka milionów dolarów. Oczywiście przy wyjątkowo optymistycznym założeniu, że nie popełnimy żadnych błędów w przygotowaniu danych i ewaluacja wytrenowanego modelu się powiedzie.

Na szczęście korzystanie z już wytrenowanych modeli jest już dużo prostsze, a nowoczesne komputery, a nawet telefony komórkowe wyposażane są w dodatkowe chipy zaprojektowane z myślą o AI. I tu dochodzimy do punktu, w którym parę miesięcy temu przestałem się martwić i pokochałem sztuczną inteligencję.

Z kilku rozwiązań aktualnie modnych AI korzystam na swoim domowym komputerze. Przedstawię tutaj dwa – Stable Diffusion, czyli generator obrazu z tekstu oraz narzędzia Google Magenta, będący zbiorem kilku narzędzi do projektowania melodii.

Jeśli chcę użyć Stable Diffusion do wygenerowania fantastycznego obrazka kota orbitującego wokół księżyca, to uruchomię skrypt, który wygeneruje mi przez noc tysiąc takich grafik. Następnego dnia otworzę przeglądarkę plików i bardzo szybko wybiorę z tej paczki jakieś, które odpowiada mi stylem i estetyką, a kot ma na nim mniej niż trzy głowy. Gdybym zaś chciał użyć Magenty by wygenerować tysiąc melodii, odnalezienie czegokolwiek wartościowego w tym gąszczu zajmie mi tyle czasu, że zapomnę jaki był początkowy zamysł. Ten sam problem dotyczy automatycznie generowanego tekstu. ChatGPT pokazuje że model, który za nim stoi, ma dużo wyższy priorytet by dać odpowiedź wyczerpującą i przyjemną w odbiorze, ale niekoniecznie rzetelną, a nawet po prostu prawdziwą.

No i, co istotne – odpowiedzialność. Jeżeli jakaś redakcja puści w świat fałszywą informację, to może ponieść konsekwencje. Mówię tu zarówno o konsekwencjach finansowych, jak również o reputacji. Poszczególni dziennikarze tworzący redakcję również mają swoją reputację i historię, wiadomo w czym są ekspertami oraz czego mniej więcej można się po nich spodziewać. Gdy zapytam kolegi z redakcji motoryzacyjnej o bulbulator do interkulera, to mnie wyśmieje. Gdy zapytałem ChatGPT o bulbulator do interkulera, otrzymałem szczegółową odpowiedź jak działa i gdzie się znajduje.

Pozostaje jeszcze jedna kwestia – aspekt prawny.

W momencie wielkiego boomu na usługi do generowania grafik na podstawie tekstowego opisu, pojawiły się też żądania prawnego uregulowania twórczości AI, z ust niektórych grafików padały argumenty jasno wskazujące na to, że ta sztuczna twórczość zniszczy rynek pracy artystów. Z kolei zupełnie inna grupa wskazywała, że do stworzenia modelu użyto obrazków chronionych prawem autorskim – co jest prawdą, a przykładowo – na stronie internetowej Midjourney znajdziemy informację, że obrazki wygenerowane przy użyciu darmowego konta są na licencji creative commons, natomiast jeśli ktoś wygeneruje obrazek używając konta płatnego – otrzymuje do niego pełne prawa, w tym prawo do dalszego komercyjnego wykorzystania. Zróbmy tu małą dygresję.

W 2019 roku trybunał sprawiedliwości unii europejskiej wydał orzeczenie w sprawie, która zaczęła się dwadzieścia lat wcześniej i dotyczyła użycia krótkiego sampla perkusyjnego z utworu Metall auf Metall grupy Kraftwerk przez kilku artystów hiphopowych, o których w życiu nawet nie słyszałem. Sekcja rytmiczna w tym utworze jest jego esencją, zamiast bębnów i talerzy mamy mroczne, rytmiczne stuki i szmery przypominające pracę ciężkiej maszyny – zatem wycięty dźwięk był jak najbardziej elementem charakterystycznym. Trybunał przyznał rację Kraftwerkowi, niejako ostatecznie potwierdzając, że chroniony nie jest wyłącznie utwór jako całość, lecz ochronie podlegają też jego poszczególne elementy. 

Czy to znaczy, że zbliżamy się do opatentowania każdego dźwięku? Mam nadzieję że nie, natomiast samo orzeczenie trybunału wskazuje że sample zmodyfikowane tak bardzo, że ludzkie ucho nie rozpozna pierwotnej zawartości, to wszystko jest ok. Szkoda tylko że ludzkie uszy potrafią być subiektywne, ale to osobny kłopot.

Pewnie domyślasz się, skąd ta dygresja. Wiemy już, w jaki sposób te obrazki powstają i wiemy, że wzorują się na czyjejś pracy. Jako prompter nie wiesz jednak, co to były za obrazki, jakie były ich licencje oraz kim byli ich autorzy. Natomiast jest całkiem możliwe, że gdy taką grafikę zobaczy jeden z autorów oryginalnego obrazka, to go rozpozna. I może się zdenerwować, szczególnie jeśli zobaczy go w projekcie komercyjnym. W dalszym ciągu będzie się musiał nieco namęczyć, a póki co nie mamy orzecznictwa w sprawach maszynowo generowanych dzieł. Tak tylko zaznaczam, że to co robi MIdjourney – wmawianie ludziom, że to prompter ma prawa autorskie do obrazka, jest niezwykle nieodpowiedzialne. Czy moje obawy są przesadzone? Przekonamy się w ciągu kilku najbliższych lat, kiedy to pojawią się orzeczenia sądów na całym świecie, jak i z dużą szansą pojawią się zmiany w prawie autorskim. Jednak w sprawie o wykorzystanie fragmentu utworu Kraftwerk stroną nie była płyta gramofonowa, która posłużyła do utworzenia sampla, tylko ludzie.

Jeszcze większy zamęt wprowadziło mi przeczytanie komentarza do ustawy o ochronie praw autorskich i prawach pokrewnych z 2021 roku, pod redakcją profesora nauk prawnych Ryszarda Markiewicza, na którym to komentarzu udało mi się położyć łapy z pomocą mojego szlachetnego kolegi, za co dziękuję. W komentarzu do artykułu pierwszego tej ustawy, który definiuje co jest przedmiotem ochrony prawnej, czytamy, cytuję „z treści komentowanego przepisu nie wynika co prawda wprost, ale wydaje się dopuszczalne do przyjęcia, że przedmiotem prawa autorskiego objęty jest wyłącznie rezultat pracy ludzkiej. Poza zakresem ochrony są natomiast te wszystkie przejawy pracy twórczej działalności programów komputerowych i ich pochodnych, nad którymi człowiek nie sprawował kontroli w trakcie tworzenia”. Oznacza to że twórczość maszynowa nie jest utworem w sensie ustawy o ochronie praw autorskich i nie podlega ochronie prawnej, na co autorzy publikacji jasno wskazują. Komentarz zaznacza również wielokrotnie, że brakuje nam orzecznictwa, jak i stosownej adaptacji prawa do wykorzystywania generatywnych modeli AI w gospodarce. Wprowadzenie działalności człowieka – na przykład w retuszu wynikowego obrazka – tworzy z czegoś, co nie jest utworem, utwór stanowiący opracowanie niektórych utworów, które posłużyły do treningu modelu. Cytując ponownie komentarz do ustawy: Autor opracowania czerpie bowiem z cudzej twórczości, inkorporując jej chronione elementy, przetwarzając je i scalając ze swoim własnym wytworem intelektualnym. To zaś prowadzi do wniosku, że każda eksploatacja jego utworu stanowić będzie jednocześnie eksploatację utworu pierwotnego, co do której prawa wyłączne przysługują innemu podmiotowi. Mającw rękach takie opcje, rozsądnym wyjściem wobec komercyjnego wykorzystania łatwo osiągalnych obrazków jest wstrzymać się do czasu adaptacji istniejącego prawa autorskiego. Dlaczego czepiam się wyłącznie komercyjnego zastosowania? Dosłowną i wyczerpującą odpowiedź znajdziemy również w przytaczanym komentarzu do ustawy. Wymóg uzyskania zezwolenia twórcy utworu pierwotnego na wykonywanie autorskich praw majątkowych do utworu zależnego nie powstaje z chwilą stworzenia opracowania, ale dopiero podjęcia kroków w celu jego eksploatacji w rozumieniu art. 17 i 50 pr. aut. w sposób posiadający wymiar ekonomiczny. Zatem dopóki bawimy się w śmieszne obrazki, wszystko jest spoczko, pod górę się robi gdy pojawią się pieniądze.

Spotkać się też można z głosami, że narzędzia AI łamią prawo poprzez samo używanie chronionych prawem dzieł z internetu bez zgody artystów – w tym przypadku, do wytrenowania modelu. Jest to dosłowny cytat z jednego z pozwów, który powoli nabiera rozpędu w USA. I jest to straszna bzdura. Po pierwsze, narzędzie AI nie może złamać prawa, ponieważ program komputerowy nie jest podmiotem prawnym. A po drugie, mamy przecież pełną wolność co do przeglądania publicznie dostępnych treści w sieci i jak tylko będziemy mieć na to ochotę, to możemy sobie przeczytać cały Internet, a nawet skopiować go sobie na dyskietkę na własny użytek. Próba odgórnego kontrolowania pozyskiwania publicznie dostępnych informacji brzmi jak ministerstwo cenzury, które musiałoby ustalić który program jest dobry (na przykład wyszukiwarki, wyobraź sobie życie bez nich), a który zły. Osobiście jestem zdruzgotany że dożyłem czasów, w których komuś przychodzi do głowy publicznie powiedzieć że czytanie to przestępstwo.

Do tego dochodzą obawy przed wykorzystaniem sztucznej inteligencji do działania niezgodnego z prawem. Gdy pisałem ten odcinek, światło dzienne ujrzał projekt, który na podstawie zaledwie kilkusekundowej próbki głosu jest w stanie go sklonować i zacząć maszynowo generować mowę tym głosem. Deep fejki znamy też nie od dzisiaj. Obawa, że ktoś wykorzysta nasz wizerunek i spróbuje wmanewrować nas w coś kompromitującego, potrafi zachęcić do domagania się dodatkowych regulacji prawnych. Tyle że podmienianie twarzy czy głosu to nie jest żadna nowość. Zamiast umiejętności aktorskich lub przeciętnej umiejętności obsługi programu graficznego, potrzebujemy teraz tylko pomysł i mocniejszy komputer. Robimy to, co ludzkość robi od tysięcy lat – upraszczamy rzeczy trudne.

A prawo już dawno nas chroni. Kto, podszywając się pod inną osobę, wykorzystuje jej wizerunek, inne jej dane osobowe lub inne dane, za pomocą których jest ona publicznie identyfikowana, w celu wyrządzenia jej szkody majątkowej lub osobistej podlega karze pozbawienia wolności od 6 miesięcy do lat 8, nieważne czy ktoś się podszył używając długopisu, photoshopa czy AI.Oczekiwanie czegokolwiek ponadto kojarzy mi się wyłącznie z dystopijnym światem i myślozbrodnią.

Powiedzmy sobie jasno, mówiąc o twórczości AI, mówimy o systemach generowania treści w oparciu o prompt i gigantyczny zbiór danych. Nie ma ani prawnej, ani technicznej możliwości, aby zablokować masowe zbieranie publicznie dostępnych danych bez blokowania lub utrudniania dostępu do tych danych ludziom. Oparcie o istniejące dane oznacza, że nie jest możliwe, by AI stworzyła nową formę twórczości – chyba że przez przypadek. Gdyby nie istniały limeryki, to żaden model językowy nie mógłby ich wymyślić. To, co można odczytać za twórcze w modelach generatywnych wywodzi się wyłącznie z losowego szumu. Z drugiej strony, traktując rozwiązania AI jako asystenta, a nie konkurenta, otrzymujemy narzędzie, które skutecznie może za nas realizować powtarzalne, choć i czasem pracochłonne rzeczy.

AI oznacza zmiany. Zmiany świata, w jakim żyjemy. Zmiany, których nawet nie będziemy dostrzegać świadomie, po prostu pewnego dnia zamontujemy sobie prysznic, który będzie miał miliony razy większą moc obliczeniową niż komputery, które pomogły ludziom wylądować na Księżycu w misjach Apollo i będzie korzystał bez naszej świadomości z modeli AI, o których istnieniu nawet nie wiemy. A to prowadzi nas do kolejnego źródła strachu. Atawistycznego lęku przed nieznanym, który naszym praprzodkom podpowiadał, by uważać na nieznane miejsca, dźwięki, rośliny i zwierzęta, dzięki czemu łatwiej było przetrwać i przedłużyć gatunek. Zaczęliśmy w końcu formować świat wokół nas i uczyniliśmy go bezpieczniejszym dla człowieka, lecz minęło zbyt mało pokoleń, byśmy wyzbyli się tego naturalnego lęku przed rzeczami, których nie rozumiemy. W przestrzeni publicznej – od internetu po rozmowy przy piwie, spekuluje się dużo, często i chętnie o potencjalnych możliwościach zastosowań AI, jednocześnie całkowicie pomijając jej ograniczenia. Łatwo jest napisać krzykliwy artykuł mówiący o tym, że system AI zdał egzamin lekarski czy przeszedł rekrutację w Google. Skoro system ten został zaprojektowany tak, by szybko odpowiadać na pytania, mając jednocześnie zapisaną w pamięci migawkę z większości istniejących książek i internetu, to przecież jest idealne dla niego zastosowanie. A zaliczenie egzaminu na sto procent nie znaczy przecież, że egzaminowany posiadł wszelkie niezbędne zdolności, które egzamin sprawdza, jeśli masz za sobą egzamin na prawo jazdy w Polsce to doskonale wiesz o czym mówię.

Jestem pewien, że wchodzimy w nowy etap rozwoju. AI z działów R&D i rąk prywatnych profesjonalistów trafia pod strzechy i z nami zostanie. Komputery w asystowaniu człowiekowi od dawna próbowały przybrać bardziej ludzką formę, od pana spinacza w starym MS Office, po wirtualnych asystentów dziś na prawie każdej sprzedażowej stronie internetowej.

Algorytmy, struktury i narzędzia, za którymi stoi uczenie maszynowe i sztuczna inteligencja istnieją od ponad dekady, a w przypadku niektórych struktur, niemal od stu lat. Po prostu doszliśmy do czasów, w których mamy moc obliczeniową, która potrafi je udźwignąć tak, by rezultat był do czegokolwiek przydatny. 

Dwieście lat temu, u świtu rewolucji przemysłowej, w Anglii powstał radykalny ruch społeczny, luddyzm. Zrzeszał rzemieślników i tkaczy, którzy w obawie przed utratą źródła dochodu, niszczyli krosna. Dziś krosna wszelkiego rodzaju mają się dobrze, a luddyści są zaledwie zabawnym wspomnieniem. Postępu nie da się zatrzymać. Szaleństwem jest oczekiwać od świata, że łaskawie stanie w miejscu na cały czas naszego życia, żeby tylko broń boże nasz komfort nie został zachwiany. A mamy tę przewagę nad luddystami, że mamy Internet, który niemal natychmiast daje nam dostęp do prawie całej wiedzy na świecie. Szkoda że ci, którzy piszą krzykliwe artykuły o tym jak to Midjourney zagłodzi artystów, a ChatGPT zdetronizuje lekarzy, niechętnie weryfikują to, co puszczają w świat. Nie obraziłbym się, gdyby zawód patodziennikarza został jednak wyparty przez technologię.

Ciągle stoimy u progu tych zmian i mamy jeszcze sporo czasu, zanim omawiane dziś narzędzia z ciekawych zabawek staną się istotnymi elementami naszej codzienności, bez których ciężko funkcjonować. Dobrze ten czas poświęcić na poznanie tych narzędzi – ich faktycznych możliwości, ale też ograniczeń, a przy okazji przetrenować swoją własną umiejętność do oceny rzetelności treści, z którą się zapoznajemy. 

Choć to wszystko, co przygotowałem na dzisiaj, to warto pamiętać, że AI będzie dobrze klikalnym słowem kluczowym w najbliższych latach i jestem całkowicie pewien, że bzdury, które obecnie latają po całej sieci, to dopiero wierzchołek zbliżającej się góry lodowej. Do usłyszenia niedługo i nie dajmy się za łatwo nastraszyć.

Bądź pierwszą osobą, która zostawi swój komentarz

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *