Zanim napiszesz pierwszy prompt, czyli wst臋p do sztucznej inteligencji (odcinek specjalny).

Sztuczna inteligencja to bardzo pojemne has艂o. AI coraz bardziej wype艂nia nasz膮 codzienn膮 przestrze艅 – od inteligentnych urz膮dze艅 w naszym domu, przez inteligentne rozwi膮zania w miejscu pracy, po inteligentne rozwi膮zania infrastruktury u偶yteczno艣ci publicznej.

Natomiast to, co w ostatnich miesi膮cach najbardziej rozpali艂o ca艂y 艣wiat to rozw贸j modeli generatywnych takich, jak Chat GPT czy Dall-e.

Zapraszamy do s艂uchania!

W pierwszym odcinku edycji specjalnej TechChattera tworzonej wsp贸lnie z serwisem Niebezpiecznik.pl poruszamy m.in. tematy:

  • dlaczego boom na AI mamy w艂a艣nie teraz i co do niego doprowadzi艂o
  • jak bardzo modele generatywne s膮 zbli偶one do ludzkiej inteligencji
  • na podstawie jakich danych ucz膮 si臋 modele j臋zykowe i jak to wp艂ywa na poprawno艣膰 ich odpowiedzi
  • jak wygl膮da obszar regulacji prawnej narz臋dzi opartych o modele generatywne

Eksperci 乌鸦传媒:

Damian Serwata – W 乌鸦传媒 od 4 lat oddany pracy nad gam膮 rozwi膮za艅 wykorzystuj膮cych algorytmy sztucznej inteligencji w biznesie. Aktywnie zaanga偶owany w opracowanie narz臋dzi z obszar贸w widzenia komputerowego (CV) oraz przetwarzania j臋zyka naturalnego (NLP), wykorzystuj膮c zar贸wno g艂臋bokie uczenie (DL), jak i klasyczne metody uczenia maszynowego. W wolnym czasie, poza tematami z domeny SI, fascynuje si臋 neuronauk膮 oraz nauk膮 o z艂o偶ono艣ci. W ramach doktoratu na Politechnice Wroc艂awskiej bada metody symulacji procesu uczenia si臋 ludzi w kontekstach spo艂ecznych.

Wojciech Sarnowski – Senior Data Scientist, dr nauk matematycznych, od wielu lat realizuj膮cy projekty z r贸偶nych dziedzin uczenia maszynowego, m.in. przetwarzania j臋zyka naturalnego czy rozpoznawania obraz贸w. Z zami艂owania podr贸偶nik i biegacz.

笔谤辞飞补诲锄膮肠测:

Jakub Orlik – Trener techniczny z Niebezpiecznik.pl, absolwent Wydzia艂u Matematyki i Informatyki UAM w Poznaniu, maj膮cy na koncie prace dyplomowe o kryptologii bezpiecze艅stwie aplikacji webowych. Od lat realizuje si臋 jako programista aplikacji internetowych. Fascynuj膮 go wszelakie nieoczywiste sposoby, w jakie technologia wp艂ywa ludzkie decyzje, samopoczucie i bezpiecze艅stwo. Z w艂asnej inicjatywy prowadzi艂 warsztaty z ochrony przed atakami cyfrowymi dla pracownik贸w szk贸艂 oraz dla m艂odzie偶y. W trakcie ich prowadzenia odkry艂 w sobie uznawan膮 za niepowszechn膮 w艣r贸d informatyk贸w zdolno艣膰 do czerpania przyjemno艣ci z prowadzenia przem贸wie艅 publicznych. 艁膮czy odkryte w sobie cechy i umiej臋tno艣ci, aby pom贸c obywatelom cyfrowego 艣wiata sprawia膰, by technologia rozwi膮zywa艂a wi臋cej problem贸w, ni偶 tworzy.

Linki do polecanych materia艂贸w:

Je艣li odcinek Ci si臋 spodoba艂, daj nam o tym zna膰, wystawiaj膮c ocen臋 w Spotify lub Apple Podcasts.

Podcast 乌鸦传媒 Polska

Produkcja: Cleverhearted Showrunners

JAKUB ORLIK: Czym jest AI? Czym r贸偶ni si臋 od naszej ludzkiej inteligencji? Co sprawi艂o, 偶e w艂a艣nie teraz modele j臋zykowe sta艂y si臋 tak popularne? Do jakich zada艅 te modele si臋 doskonale nadaj膮, a przy jakich zastosowaniach lepiej zachowa膰 ostro偶no艣膰? W tym odcinku TechChatter, Damian Serwata, programista pracuj膮cy od lat nad projektami wykorzystuj膮cymi sztuczn膮 inteligencj膮 i Wojtek Sarnowski, doktor nauk matematycznych, pomog膮 nam usystematyzowa膰 nasz膮 wiedz臋 o AI i odpowiedzie膰 na powy偶sze pytania.聽
Cze艣膰! S艂uchasz drugiego sezonu podcastu TechChatter, audycji 乌鸦传媒 Polska, w kt贸rej eksplorujemy 艣wiat technologii. Do艂膮cz do rozmowy naszych ekspert贸w i ekspertek. Pos艂uchaj, co tworzymy tutaj, w Polsce. Odkryj z nami projekty, kt贸re kszta艂tuj膮 przysz艂o艣膰 i przekonaj si臋, jak interesuj膮ca mo偶e by膰 praca w sektorze IT. To co? Zaczynamy?聽
JAKUB ORLIK: No ci臋偶ko jest nie s艂ysze膰 dzisiaj o tej sztucznej inteligencji i mam wra偶enie, 偶e ka偶dy rozumie to inaczej. Jakby艣 m贸g艂 nam, Damian, da膰 tak膮 podstaw臋, tak膮 definicj臋, czym s膮 te modele generatywnej sztucznej inteligencji?
DAMIAN SERWATA: My艣l臋, 偶e warto by艂oby tutaj zacz膮膰 od zdefiniowania w og贸le tego terminu 鈥渟ztuczna inteligencja鈥, kt贸ry w takiej og贸lnej wersji mo偶emy rozumie膰 jako pewn膮 dziedzin臋 rozwi膮za艅 staraj膮cych si臋 czy te偶 zaprogramowanych do symulowania wybranych proces贸w ludzkiej inteligencji, ludzkiego umys艂u. I cz臋sto ta nazwa jest u偶ywana te偶 do opisu r贸偶nych zaawansowanych program贸w komputerowych, system贸w komputerowych. Wi臋kszo艣膰 z tych rozwi膮za艅 w dzisiejszych czasach jest oparta o podej艣cie uczenia maszynowego, czyli machine learning. To podej艣cie tak naprawd臋 oparte jest o dostarczanie algorytmowi du偶ej liczby danych zawieraj膮cych pewne wzorce, kt贸rych to wzorc贸w algorytm ma za zadanie si臋 nauczy膰, kt贸re ma za zadanie rozpozna膰. I podzbiorem tych rozwi膮za艅 zar贸wno sztucznej inteligencji, jak i tego w臋偶szego grona algorytm贸w machine learning s膮 modele generatywne, kt贸rych celem jest tak naprawd臋, jak sama nazwa wskazuje, generowanie nowych tre艣ci na podstawie wcze艣niej przeanalizowanych danych i wydobytych wzorc贸w. I te modele ucz膮 si臋 generowa膰 te nowe informacje, now膮 tre艣膰 na zasadzie prawdopodobie艅stwa wyst臋powania pewnych wzorc贸w, na zasadzie odkrywania pewnych statystycznych pattern贸w, kt贸re w tych danych odnajduj膮. No i tutaj mamy tak naprawd臋 bardzo du偶o r贸偶nych rozwi膮za艅, kt贸re mog膮 t膮 generatywn膮 AI reprezentowa膰. To s膮 zar贸wno modele, kt贸re generuj膮 tekst, generuj膮 zdj臋cia, obrazy, mog膮 te偶 generowa膰 audio. W konsekwencji jest to trudniejsze zadanie, ale r贸wnie偶 s膮 podejmowane pr贸by generowania wideo, jako z艂o偶enie tych obraz贸w i audio oraz by膰 mo偶e te偶 troch臋 bardziej zaawansowane problemy, takie jak generowanie struktury bia艂ek. Tutaj bardzo popularnym rozwi膮zaniem, kt贸re zdoby艂o uznanie, jest przygotowany przez firm臋 DeepMind, algorytm model Alpha Fold.聽
JAKUB ORLIK: I ten boom na t臋 sztuczn膮 inteligencj臋, mam wra偶enie, teraz jest tak powszechny i nag艂y. Ja sam by艂em zaskoczony, 偶e nagle z ka偶dej strony, no strach otworzy膰 lod贸wk臋, 偶eby nie dowiedzie膰 si臋 o jakich艣 nowych rozwi膮zaniach dotycz膮cych AI. Czy to si臋 pojawi艂o znik膮d? Czemu akurat teraz? Co za tym stoi?聽
WOJCIECH SARNOWSKI: Nie pojawi艂o si臋 to znik膮d oczywi艣cie. Stoi za tym wiele, wiele lat ludzkiej pracy. Wydaje mi si臋, 偶e mo偶na powiedzie膰, i偶 takie pocz膮tki sztucznej inteligencji to lata 50 XX wieku, gdzie przedstawiono koncepcj臋 maszyny, kt贸ra b臋dzie w stanie na艣ladowa膰 ludzk膮 inteligencj臋. Pojawiaj膮 si臋 pierwsze sieci neuronowe, przyk艂ad tzw. perceptron rozemberata. Pierwsze te systemy bardziej opiera艂y si臋 na takich regu艂ach decyzyjnych. Je艣li na wyj艣ciu dostaniemy sygna艂 X, to powinna by膰 wybrana akcja Y. Dopiero nieco p贸藕niej pojawiaj膮 si臋 rozwi膮zania, o kt贸rych Damian wspomnia艂, czyli machine learning, uczenie maszynowe. To tak gdzie艣 powiedzmy lata 80. Wtedy te偶 rozwija艂y si臋 nieco mocniej sieci neuronowe. Pojawia si臋 algorytm propagacji wstecznej, taki bardzo wa偶ny, 偶eby m贸c te sieci dobrze uczy膰. Dalszy krok to tak powiedzia艂bym gdzie艣 pocz膮tek XXI wieku, gdy wraz z rewolucj膮 cyfrow膮 pojawiaj膮 si臋 bardzo du偶e wolumeny danych, rozwija si臋 Internet, tworzymy takie 艣rodowisko, kt贸re jest w stanie nam produkowa膰 rozwi膮zania w zakresie sztucznej inteligencji. Gdzie艣 na prze艂omie pierwszej i drugiej dekady my艣l臋, 偶e AI, sztuczna inteligencja wchodzi do mainstreamu, staje si臋 taka powszechnie rozpoznawalna, znana. W tym momencie do gry wchodz膮 te偶 tacy wielcy gracze jak Microsoft, jak Facebook czy Google. Pojawiaj膮 si臋 pot臋偶ne inwestycje w takie rozwi膮zania w zakresie np. przetwarzania j臋zyka naturalnego, w zakresie rozpoznawania obrazu, tzw. reinforcement learning na przyk艂ad lub te偶 system贸w rekomendacyjnych. W po艂owie zesz艂ej dekady badacze opracowali tzw. mechanizm atencji, prze艂omow膮 metod臋, kt贸ra nam zrobi艂a spory ferment, je艣li chodzi o rozwi膮zania w zakresie przetwarzania j臋zyka naturalnego. Ten mechanizm jest takim j膮drem modeli, kt贸re znamy pod has艂em 鈥溾榞eneratywne AI鈥. Dlaczego to jest takie wa偶ne? Atencja jest w stanie dobrze modelowa膰 relacje mi臋dzy s艂owami w zdaniu. Jest w stanie wy艂apa膰 kontekst, dobrze opisa膰 ka偶de s艂owo. Dobrym przyk艂adem mog膮 by膰 homonimy, np. s艂owo 鈥渮amek鈥 mo偶e mie膰 wiele znacze艅. Dla ludzi, je偶eli wypowiemy pewne zdania, b臋dzie jasne, o jakim kontek艣cie mowa. Dla algorytm贸w nie jest to takie proste, jak si臋 okazuje. Atencja zosta艂a w taki spektakularny spos贸b wykorzystana w modelach zwane transformery i to jest w艂a艣ciwie taki prawdziwy prze艂om. Wszystkie te modele, m.in. s艂ynny czat GPT, wykorzystuj膮 architektur臋, kt贸ra zosta艂a zaproponowana w transformerze. J膮drem transformera jest wspomniana przeze mnie atencja.聽
DAMIAN SERWATA: My艣l臋, 偶e do tego, co wspomnia艂 Wojtek, warto by by艂o doda膰 jeszcze, 偶e ta architektura transformera to nie jest jedyna architektura zaproponowana w ostatnich latach w tej szerokiej gamie rozwi膮za艅 modeli generatywnych. Pierwsza z takich architektur zaproponowana zosta艂a architektura GAN, czyli Generative Adversarial Network i Jan Goodfellow, kt贸ry przygotowa艂 to rozwi膮zanie, jest to ciekawa anegdota, wpad艂 na to w trakcie imprezy z kolegami w barze. Powiedzia艂 im o swoim pomy艣le. Oni powiedzieli mu, 偶e je艣li jest taki m膮dry, to niech spr贸buje to zrobi膰. Wi臋c wyszed艂 z piwa i zaproponowa艂, napisa艂 t膮 architektur臋, wymy艣li艂 ten pomys艂 jeszcze tego wieczoru. Jest to o tyle ciekawe rozwi膮zanie, 偶e sk艂ada艂o si臋 ono z dw贸ch sieci neuronowych, jednej generatywnej i drugiej dyskryminatywnej, kt贸re mia艂y za zadanie konkurowa膰 ze sob膮. Sie膰 generatywna mia艂a tworzy膰 now膮 tre艣膰, sie膰 dyskryminatywna mia艂a t臋 sie膰 oceni膰, mia艂a rozr贸偶ni膰, czy przygotowany content jest faktycznie stworzony przez cz艂owieka, czy przez algorytm. I w taki spos贸b, przez tak膮 konkurencj臋 dw贸ch sieci neuronowych, zosta艂y opracowane jedne z pierwszych takich rozwi膮za艅. Innym rodzajem takich modeli, kt贸re te偶 艣wietnie sprawdzaj膮 si臋, je艣li chodzi o generowanie obraz贸w, s膮 modele dyfuzyjne. To s膮 rozwi膮zania zaproponowane w 2014-2015 roku, tak偶e min臋艂o ju偶 od tego czasu kilka lat. Tak naprawd臋 one dojrzewa艂y przez jaki艣 okres czasu. To wynika艂o te偶 z tego, 偶e do poprawnego dzia艂ania tych modeli wymagana jest ogromna liczba danych ucz膮cych i zbieranie czy tekst贸w, czy obraz贸w, na podstawie kt贸rych te modele potrafi膮 si臋 uczy膰, nie jest ani prostym, ani szybkim zadaniem.聽
JAKUB ORLIK: Jak s艂ucham Waszych wypowiedzi, nachodzi mnie taka refleksja, kt贸ra te偶 jest zahaczona troszeczk臋 o to, jak ostatnio by艂em u fryzjera i fryzjerka si臋 mnie spyta艂a, czym jest ta sztuczna inteligencja. My艣l臋, 偶e jakbym jej opowiada艂 o tych transformerach i tak dalej, to ona by my艣la艂a, 偶e w艂a艣nie kto艣 tam, jaki艣 robot si臋 w samoch贸d zmienia i on nam odpowiada na pytania czy co艣 takiego. Ale pojawiaj膮 si臋 obawy w艣r贸d r贸偶nych os贸b, tak偶e laik贸w, 偶e ta sztuczna inteligencja mo偶e wyj艣膰 z kontenera, jakby uciec z serwera i przej艣膰 na jakie艣 inne, bo dopisujemy do niej du偶o takich ludzkich cech. Z tego, co Wy opisywali艣cie, w oczywisty spos贸b wynika, 偶e to jest w艂a艣nie taki bardzo statystyczny i przewidywalny model. I nie mog臋 nie zapyta膰 si臋 Was, czy Wy patrzycie, znaj膮c, jakie rezultaty jest w stanie wygenerowa膰 taka w艂a艣nie sie膰 jak czat GPT, to czy to 艣wiadczy o tym, 偶e ta sie膰 ma faktycznie inteligencj臋? Czy to 艣wiadczy o tym, jak ma艂o my inteligencji mamy i jak bardzo my jeste艣my po prostu jakim艣 takim pude艂kiem realizuj膮cym statystyczny model? Jak Wy na to patrzycie?
WOJCIECH SARNOWSKI: Ja osobi艣cie uwa偶am, 偶e czatowi daleko do ludzkiej inteligencji. To chyba jeszcze nie jest ten etap. Tam po prostu pod spodem pracuje statystyka. Tyle i a偶 tyle. Statystyka jest w stanie wygenerowa膰 naprawd臋 艣wietne tre艣ci. Ka偶dy u偶ytkownik, kt贸ry rozmawia艂 z czatem, doskonale wie, 偶e potrafi to narz臋dzie wygenerowa膰 naprawd臋 艣wietne opisy. Natomiast czat mo偶e jest skomplikowany z jednej strony, ale z drugiej strony dzia艂a wed艂ug bardzo prostej zasady, ma wygenerowa膰 po prostu nast臋pne s艂owo, maj膮c zadan膮 ju偶 wcze艣niej sekwencj臋 s艂贸w.
JAKUB ORLIK: A nasz m贸zg nie ma takiego zadania, jak m贸wi?聽
WOJCIECH SARNOWSKI: Tak, by膰 mo偶e tak, ale czat potrafi tylko to. Czat wiedz膮c, 偶e dostaje na wej艣cie 鈥淎la ma鈥, musi przewidzie膰 kolejne s艂owo i powie 鈥淎la ma kota鈥, tak? Bo wie, 偶e s艂owo 鈥渒ot鈥 b臋dzie najbardziej prawdopodobnym s艂owem, maj膮c do dyspozycji ca艂y s艂ownik i wiedz膮c, jakie wcze艣niej s艂owa zosta艂y wygenerowane. To nie wygl膮da jak inteligencja, jak co艣, co potrafi cz艂owiek.聽
JAKUB ORLIK: Cz艂owiek tak nie potrafi?聽
WOJCIECH SARNOWSKI: Cz艂owiek tak potrafi, tyle tylko, 偶e moim skromnym zdaniem, to nie jest istota ludzkiej inteligencji.
JAKUB ORLIK: A co jest zatem? Bo jak zadaj臋 pytanie cz艂owiekowi, to ten te偶 u偶ywa tak naprawd臋 jakiego艣 statystycznego modelu do tego, 偶eby jakiej艣 odpowiedzi na to pytanie udzieli膰. Bo powiedzia艂e艣 te偶, 偶e czat nie rozumie, co mu si臋 zadaje, ale odpowiada na to pytanie. Wi臋c to wygl膮da jakby jaki艣 poziom zrozumienia tam by艂 w tym chatbocie. Pytanie, co sprawia, 偶e jeste艣 przekonany, 偶e on tego nie rozumie?
WOJCIECH SARNOWSKI: Czat ma za zadanie wyprodukowa膰 po prostu potok s艂贸w. Ma sformu艂owa膰 odpowied藕 na pytanie, kt贸re zadaje u偶ytkownik. U偶ywa w tym celu autogeneratywnego podej艣cia, czyli produkowanie kolejnych s艂贸w. Natomiast nie jest w stanie wytworzy膰 tre艣ci, powiedzmy, bardzo kreatywnych. On wie, jakie dane zosta艂y u偶yte w procesie uczenia i w jaki艣 taki sprytny spos贸b konstruuje na podstawie tych danych swoj膮 wypowied藕. Je艣li go poprosisz o sformu艂owanie jakiej艣 matematycznej teorii, on raczej tego nie zrobi.
JAKUB ORLIK: Znam wiele os贸b, kt贸re te偶 nie b臋d膮 w stanie.聽
WOJCIECH SARNOWSKI: No tak, ale tego chyba oczekiwaliby艣my od czata. 呕eby to nie by艂a tylko prosta tre艣膰, kt贸ra jest kompilacj膮 tego, co czat dosta艂 kiedy艣 na wej艣ciu w procesie uczenia, a jednak 偶eby to by艂o co艣 g艂臋bszego. Obawiam si臋, 偶e tego czat, przynajmniej na razie, jeszcze nie potrafi.
DAMIAN SERWATA: Ja si臋 zgadzam. Ten content, ta tre艣膰 produkowana przez to rozwi膮zanie jest tak naprawd臋 wypadkow膮 tego, co ten czat do tej pory zobaczy艂. Tej tre艣ci, na kt贸rej si臋 nauczy艂. Tutaj z pewno艣ci膮 mo偶emy powiedzie膰, 偶e to rozwi膮zanie uzyska艂o bardzo wysok膮 jako艣膰 formy produkowanej, formy tekstowej. Czyli nauczy艂o si臋 tych zasad tworzenia wypowiedzi, zda艅, j臋zyka. Natomiast je艣li chodzi o wnioskowanie, sens tej tre艣ci, kt贸ra jest generowana, z pewno艣ci膮 jest tu jaki艣 progres, ale to nie jest rozwi膮zanie, kt贸re mo偶e konkurowa膰 z cz艂owiekiem pod tym k膮tem. Wydaje mi si臋, 偶e to jest te偶 troch臋 zwi膮zane z tym, przynajmniej to, jak ludzie oceniaj膮 tego czata jako inteligentnego. Z tym, 偶e my mamy pewne cognitive bias i istnieje takie b艂臋dne przekonanie, 偶e wysoka sprawno艣膰 j臋zykowa implikuje wysok膮 sprawno艣膰 intelektualn膮. Nie jest to prawda i widzimy to te偶 na przyk艂adzie w艂a艣nie czata GPT, kt贸ry t膮 sprawno艣膰 j臋zykow膮 ma naprawd臋 bezkonkurencyjn膮, ale je艣li chodzi o sprawno艣膰 intelektualn膮, nie jeste艣my w stanie powiedzie膰, 偶eby on by艂 tutaj konkurencyjny i 偶eby m贸g艂 wyprodukowa膰 faktycznie jak膮艣 tre艣膰 zupe艂nie nowatorsk膮.
WOJCIECH SARNOWSKI: Jest to po prostu sprytne po艂膮czenie tego, co ju偶 kiedy艣 zobaczy艂.聽
DAMIAN SERWATA: Warto te偶 wspomnie膰, 偶e ze wzgl臋du na architektur臋 tego, w jaki spos贸b to rozwi膮zanie by艂o przygotowane, by艂o p贸藕niej uczone, ten czat zosta艂 dostosowany do tego, 偶eby by艂鈥
WOJCIECH SARNOWSKI: 呕eby potrafi艂 wchodzi膰 w interakcje z u偶ytkownikiem, 偶eby by艂 w stanie odpowiada膰 na pytania, 偶eby pod膮偶a艂 za intencj膮 u偶ytkownika, 偶eby nie generowa艂 na przyk艂ad tre艣ci, kt贸re s膮 toksyczne.
DAMIAN SERWATA: Co nie zawsze si臋 udaje.聽
WOJCIECH SARNOWSKI: Nie zawsze si臋 udaje, tak, to prawda. Ale gdyby nie pewna dodatkowa technika, kt贸ra doucza, 偶e tak powiem, ten model, kt贸r膮 Damian mia艂 na my艣li, bez tego by艂oby chyba znacznie gorzej.聽
JAKUB ORLIK: My tak wpadli艣my troch臋 w pu艂apk臋 w m贸wieniu czat GPT, czat, czat, czat, czat. Ale to nie jest jedyny model. To jest taki skr贸t my艣lowy, bo my teraz m贸wimy, cz臋sto jak nawet ludzie m贸wi膮 czat GPT, to maj膮 na my艣li wiele r贸偶nych technologii. Damian, przybli偶y艂by艣, jakie s膮 takie aktualnie najpopularniejsze, takie topowe modele?聽
DAMIAN SERWATA: Na ten moment tak naprawd臋 wszystkie najwi臋ksze korporacje technologiczne pracuj膮 nad podobn膮 technologi膮. Natomiast opr贸cz tych modeli topowych, stworzonych w nie do ko艅ca jasny spos贸b, tak naprawd臋, nie wiemy, jakie dane do ko艅ca zosta艂y tam zastosowane, jak d艂ugo te modele by艂y uczone. Nie wiemy, czy te informacje s膮 pe艂ne i to s膮 te modele nale偶膮ce do OpenAI, czyli poniek膮d do Microsoftu, kt贸ry dotuje t膮 organizacj臋, BART nale偶膮ce do Google czy Lama nale偶膮ca do Facebooka, do Mety. Jest te偶 du偶o rozwi膮za艅 open source, kt贸re oferuj膮 jako艣 zbli偶on膮 do tych rozwi膮za艅 gigant贸w technologicznych.聽
JAKUB ORLIK: Ja bardzo d艂ugo my艣la艂em, 偶e GPT jest open source z uwagi na OpenAI, ale chyba nie jest otwarty z tego, co rozumiem.
DAMIAN SERWATA: C贸偶, to jest to tyle ciekawe, 偶e samo OpenAI by艂o tworzone jako w艂a艣nie organizacja, kt贸ra mia艂a tworzy膰 oprogramowanie open source, otwarte, dost臋pne dla wszystkich. Natomiast z takich czy innych przyczyn w pewnym momencie te rozwi膮zania zosta艂y zamkni臋te za 艣cian膮 i ju偶 model GPT-2 nie by艂 dost臋pny publicznie. Mo偶na by艂o si臋 do niego dosta膰 po zarequestowaniu odpowiedniego dost臋pu, uzasadnieniu tego i mo偶na by艂o wchodzi膰 z nim w interakcj臋. Natomiast ten model GPT-3.5 z tym interfejsem czat GPT zosta艂 udost臋pniony faktycznie i wywo艂a艂 ca艂y ten boom technologiczny dotycz膮cy tych du偶ych modeli j臋zykowych, z kt贸rym mamy dzisiaj do czynienia. GPT-4, kt贸ry teraz te偶 jest podpi臋ty pod czat GPT, jest ju偶 te偶 za 艣cian膮.聽
JAKUB ORLIK: Czyli wiemy, 偶e czat GPT nie jest 艣wiadomy, nie ma takiej inteligencji jak cz艂owiek, 偶e to jest taki model statystyczny, kt贸ry generuje sobie tekst, tylko 偶e jest u偶ywany, ju偶 coraz cz臋艣ciej, w sytuacjach, w kt贸rych wydawa艂oby si臋, 偶e ta 艣wiadomo艣膰, inteligencja by艂aby bardzo przydatna. Jest na przyk艂ad u偶ywany przez niekt贸rych prawnik贸w w kontek艣cie r贸偶nych rozpraw s膮dowych i jest takie wra偶enie, taki mit, 偶e skoro to komputer robi, to znaczy, 偶e jest totalnie wyzbyty wszelkiej stronniczo艣ci, jak膮 cz艂owiek m贸g艂by mie膰. Wi臋c mo偶emy zanie艣膰 go do s膮du, komputer powie i on nie b臋dzie uprzedzony wobec oskar偶onego itd. Chcia艂bym, 偶eby艣cie troszeczk臋 mo偶e opowiedzieli o tym.聽
DAMIAN SERWATA: By艂oby wspaniale, gdyby by艂a to prawda. Niestety, jest taka podstawowa zasada modeli uczenia maszynowego, czyli garbage in, garbage out. To, na czym nauczymy nasz model, dok艂adnie tych wzorc贸w ten model si臋 wyuczy. To, co mu zaserwujemy na wej艣ciu, tego b臋dziemy mogli oczekiwa膰 od tego modelu na wyj艣ciu. Kiedy uczymy nasz model na danych tekstowych z ca艂ego Internetu, tak naprawd臋 nie wiemy, z jakiej cz臋艣ci i z kt贸rych cz臋艣ci tego Internetu, mo偶emy si臋 spodziewa膰, 偶e znajd膮 si臋 w tym modelu i zostan膮 odzwierciedlone najr贸偶niejsze wzorce, r贸wnie偶 te wzorce zwi膮zane z pewnym biasem, z pewn膮 stronniczo艣ci膮, kt贸re w tych tekstach si臋 pojawiaj膮. Takim przyk艂adem b艂臋dnego rozumowania tych tekst贸w, wnioskowania by艂a odpowied藕 tego modelu GPT-3 jeszcze na pytanie o to, co jest wi臋ksze, karaluchy czy s艂onie. GPT-3 odpowiedzia艂 w pewnym momencie, 偶e wi臋ksze s膮 karaluchy. Wynika艂o to z tego, 偶e kiedy ludzie opisuj膮 karaluchy w tre艣ciach internetowych, zwykle pisz膮 o tym, zobaczcie jaki wielki robak, jaki ogromny karaluch przyszed艂 do mnie do domu. St膮d ten kontekst tego s艂owa wskazywa艂 temu modelowi na wzorzec 艣wiadcz膮cy o tym, 偶e s膮 to du偶e zwierz臋ta. Takich przyk艂ad贸w mo偶emy mno偶y膰. My tak naprawd臋 ze wzgl臋du na to, 偶e korzystamy z tych modeli g艂臋bokich, my wiemy, w jaki spos贸b one si臋 ucz膮, nie wiemy, czego one si臋 ucz膮 tak naprawd臋, dlatego 偶e te wagi, kt贸re s膮 przypisane tym po艂膮czeniom mi臋dzy neuronami w sieci neuronowej, nie reprezentuj膮 dla nas 偶adnej sensownej informacji.聽
WOJCIECH SARNOWSKI: My nie programujemy takiego modelu, aby uczy艂 si臋 konkretnych cech. Dajemy mu pewn膮 swobod臋. On sam wie, czego powinien si臋 nauczy膰, 偶eby m贸c realizowa膰 zadania, do kt贸rych jest przewidziany. Jeszcze mo偶e s艂owo na temat tego obci膮偶enia, je艣li chodzi o dane. W sieci, w Internecie, sk膮d dane s膮 pobierane, to jest spory problem. Je偶eli we藕miemy recenzj臋, je偶eli na przyk艂ad kupi艂e艣 jaki艣 produkt, to zwykle jednak cz艂owiek jest sk艂onny, aby umie艣ci膰 recenzj臋 negatywn膮, bo jest emocjonalnie nakr臋cony i napisze, no nie podoba艂o mi si臋, bo by艂o zepsute, 藕le dzia艂a i tak dalej. Natomiast je偶eli dzia艂a dobrze, no to fajnie, nie b臋d臋 zamieszcza艂 tam 偶adnych opis贸w, bo nie mam 偶adnej takiej motywacji. St膮d mo偶e te偶 wynika膰 ta stronniczo艣膰, to niewywa偶enie danych.聽
JAKUB ORLIK: Przychodzi mi na my艣l przyk艂ad takiego hipotetycznego modelu j臋zykowego, kt贸ry jest uczony tylko i wy艂膮cznie na odpowiedziach i pytaniach ze Stack Overflow, gdzie jak kto艣 nie zna odpowiedzi na pytanie, no to si臋 nie przyznaje do tego, po prostu nie udziela odpowiedzi, tak samo jak z tymi recenzjami zakupionych przedmiot贸w. Wi臋c taki model nie mia艂by gdzie si臋 nauczy膰, 偶eby si臋 czasem przyzna膰, 偶e czego艣 nie wie. Czy to mo偶e by膰 tak偶e rodzaj ryzyka w tego typu modelach, gdzie zadajemy mu pytanie, odpowiedzi nie ma, ale on nie wie, 偶e odpowiedzi nie ma, wi臋c jak膮艣 stworzy?聽
WOJCIECH SARNOWSKI: Tak, jak najbardziej. To si臋 nazywa halucynacja modelu. Model nie wie, co powiedzie膰, po prostu zmy艣la. Zmy艣la albo m贸wi cz臋艣膰 prawdy, co jest chyba jeszcze gorzej, ni偶 gdyby ca艂kowicie zmy艣la艂, bo wtedy chyba 艂atwiej doj艣膰 do tego. Natomiast gdy tylko jaka艣 cz臋艣膰 prawdy jest podana, to jest to bardziej zakamuflowane i jest wi臋ksza trudno艣膰, aby takie co艣 rozpozna膰. Ja osobi艣cie, jak mia艂em interakcj臋 z czatem, jak pracowa艂em z czatem, natkn膮艂em si臋 na tak膮 sytuacj臋. Zapyta艂em si臋 go o pewne poj臋cie z rachunku prawdopodobie艅stwa, 偶eby mi tam wyliczy艂 pewn膮 rzecz. Czat uraczy艂 mnie d艂ugim wst臋pem teoretycznym, wszystko 艂adnie, pi臋knie, a na ko艅cu przedstawi艂 b艂臋dne rozwi膮zanie. Je艣li kto艣 nie jest ekspertem w danej dziedzinie, mo偶e tego nie wychwyci膰. To jest chyba spory problem. Przyjmujemy na s艂owo, 偶e to, co czat wygenerowa艂, jest poprawne. Tak mo偶e naprawd臋 nie by膰.
JAKUB ORLIK: Czy jeste艣my jako艣 w stanie zapobiec halucynacjom? Czy jeste艣my w stanie dostosowa膰 jako艣 proces uczenia czy jakikolwiek inny spos贸b przetwarzania jego danych wej艣ciowych, 偶eby on nie halucynowa艂, 偶eby trzyma艂 si臋 trze藕wo rzeczywisto艣ci?
WOJCIECH SARNOWSKI: Prace w tym kierunku trwaj膮, ale jak wiemy, p贸ki co nie mamy modeli, kt贸re by wyzby艂y si臋 tej wady.聽
JAKUB ORLIK: A czy Twoja intuicja Ci podpowiada, 偶e to jest mo偶liwe, 偶eby艣my si臋 kiedykolwiek tego pozbyli?聽
WOJCIECH SARNOWSKI: Trudno powiedzie膰. Na pewno powinno da膰 si臋 to zjawisko do艣膰 mocno ograniczy膰. Nie chcia艂bym spekulowa膰, aczkolwiek wierz臋, 偶e tak, 偶e jeste艣my w stanie to ograniczy膰. Czaty s膮 uczone, aby to zjawisko ograniczy膰, wi臋c mo偶e jaka艣 tam korekta w sposobie uczenia spowoduje, 偶e zminimalizujemy problem.
JAKUB ORLIK: Czyli rozumiem, 偶e s膮 rzeczy, kt贸re wymagaj膮 kreatywno艣ci, rozumienia kontekstu, do kt贸rych czat GPT mo偶e przyda膰 si臋 z pewnym procentem skuteczno艣ci i trzeba podej艣膰 do tego z ryzykiem i dla niekt贸rych zada艅 to b臋dzie wi臋ksze lub mniejsze. Do jakich zada艅 modele j臋zykowe nadaj膮 si臋 tak ad hoc? Czy mo偶emy z du偶膮 pewno艣ci膮 je do tego u偶y膰 i ryzyko nie b臋dzie du偶e, 偶e nara偶膮 nas na jak膮艣 wtop臋?
DAMIAN SERWATA: Dziedzina zwi膮zana z analiz膮 j臋zyka naturalnego, czyli NLP, definiuje do艣膰 spory zestaw podzada艅 tego NLP, kt贸re mo偶e by膰 realizowane przez te modele. Do tej pory to wygl膮da艂o tak, 偶e dla ka偶dego z tych zada艅 by艂y projektowane osobne rozwi膮zania. One cz臋sto mia艂y podobn膮 budow臋, opiera艂y si臋 o zbli偶ony background, natomiast by艂y uczone w inny spos贸b, na innych danych. Inny by艂 cel tego uczenia. Czat GPT jest takim rozwi膮zaniem bardzo og贸lnym. Jak si臋 okazuje, cz臋艣膰 z tych problem贸w potrafi rozwi膮za膰 w zbli偶ony spos贸b do tych rozwi膮za艅 state of the art, kt贸re by艂y zaproponowane wcze艣niej. Natomiast raczej ta zbli偶ona skuteczno艣膰 dotyczy tych prostszych zada艅, natomiast w tych trudniejszych zadaniach, jak na przyk艂ad rozpoznawanie emocji, nie radzi sobie tak dobrze i ten dystans w skuteczno艣ci jest do艣膰 spory. Tutaj ciekawe badanie zaproponowa艂a grupa badaczy z Politechniki Wroc艂awskiej, kt贸ra przetestowa艂a czat GPT na zestawie 25 takich klasycznych zada艅 NLP i wygenerowa艂a tam blisko 50 tysi臋cy prompt贸w, pytaj膮c czat o wygenerowanie odpowiedzi dla konkretnego przyk艂adu, takiego benchmarku dla zada艅. No i okaza艂o si臋, 偶e w艂a艣nie w wi臋kszo艣ci tych zada艅 to rozwi膮zanie radzi sobie przyzwoicie, natomiast nie jest w stanie osi膮gn膮膰 tego poziomu zaawansowania skuteczno艣ci metod state of the art. Warto tutaj zaznaczy膰, 偶e czat GPT w tym przypadku nie by艂 douczany do rozwi膮zywania tych zada艅. By艂a to tak zwana metoda zero-shot learning. W przypadku, kiedy mo偶emy spersonalizowa膰 czata, dostosowa膰 go, douczy膰, nawet na niewielu przyk艂adach, do rozwi膮zywania konkretnego zadania, ta skuteczno艣膰, mo偶emy przewidywa膰, by艂aby wy偶sza.
WOJCIECH SARNOWSKI: Tutaj jest na przyk艂ad model Palm Google’a. Jest wersja tego modelu specjalnie przeznaczona pod problemy medyczne. Model nazywa si臋 MedPalm i jest w stanie zda膰 egzamin, kt贸ry gdzie艣 tam ma miejsce w Stanach Zjednoczonych, no na takim poziomie dosy膰 eksperckim. Mo偶e ten model w艂a艣ciwie stawia膰 diagnozy. Widzia艂em prezentacj臋 szef贸w Google’a, gdzie model dostaje na wej艣ciu zdj臋cie rentgenowskie r臋ki, ludzkiej r臋ki i przedstawia diagnoz臋, co tam si臋 z艂ego dzieje, czy jest jaka艣 ko艣膰 z艂amana, czy jakie艣 uszkodzenie i tak dalej. Tak偶e wystarczy troch臋 dotrenowa膰 ten taki og贸lny model i uzyska膰 naprawd臋, naprawd臋 niez艂e wyniki.聽
JAKUB ORLIK: Jako osoba, kt贸ra siedzi tak bardzo w temacie, poszed艂by艣 kiedy艣 do lekarza, takiego cyfrowego lekarza? Po prostu przychodzisz do gabinetu, a tam jest iPad z鈥β
WOJCIECH SARNOWSKI: To mo偶e nie o to chodzi, ale wyobra藕my sobie, 偶e s艂u偶ba zdrowia, jaka jest, taka jest, s膮 problemy, ale to mo偶e by膰 taki pierwszy lekarz, lekarz pierwszego kontaktu. Je偶eli on wykryje, 偶e co艣 jest nie tak w Twoim organizmie, nie zareagowa艂by艣? My艣l臋, 偶e mo偶na by by艂o zareagowa膰. Mo偶na by si臋 uda膰 wtedy do prawdziwego lekarza.聽
DAMIAN SERWATA: Pami臋tajmy te偶, 偶e wi臋kszo艣膰 tych rozwi膮za艅 wykorzystuj膮cych te zaawansowane modele, nie tylko generatywne, ale generalnie modele sztucznej inteligencji, nie musi si臋 opiera膰 na pe艂nej automatyzacji. Najsensowniejszym rozwi膮zaniem jest zwykle wsparcie ekspert贸w w jakim艣 pocz膮tkowym procesie.聽
WOJCIECH SARNOWSKI: Taki model naprawd臋 mo偶e wnie艣膰 warto艣膰 dodan膮. Nierzadko s膮 takie sytuacje, 偶e model jest w stanie wykry膰 na zdj臋ciu rentgenowskim czy te偶 na tomografii komputerowej, zmiany, kt贸rych ekspert, lekarz, profesor nie jest w stanie wykry膰, bo on analizuje takich zdj臋膰 dziesi膮tki, setki dziennie, jest zm臋czony. Czat czy jaki艣 inny model j臋zykowy si臋 nie myli. Przepraszam, nie w tym sensie, nie m臋czy si臋.聽
JAKUB ORLIK: Bo ju偶 mi si臋 czo艂o zmarszczy艂o, jak to us艂ysza艂em. A my艣licie鈥 Bo s膮 tak偶e modele, kt贸re generuj膮 kod programistyczny.聽
WOJCIECH SARNOWSKI: To ju偶 ma miejsce.
JAKUB ORLIK: Ju偶 powinienem si臋 ba膰 o moje miejsce pracy jako programista?
DAMIAN SERWATA: Je艣li Twoja praca jest kreatywna, a domy艣lam si臋, 偶e jest, tak jak wi臋kszo艣ci z nas, to raczej cieszy艂bym si臋 na takie rozwi膮zania, bo one pomog膮 nam zautomatyzowa膰 t膮 najprostsz膮, ale te偶 najbardziej 偶mudn膮 prac臋, polegaj膮c膮 na napisaniu jakich艣 fragment贸w kodu, kt贸re s膮 powtarzalne, kt贸re cz臋sto si臋 pojawiaj膮 i by膰 mo偶e do pewnego stopnia b臋d膮 w stanie takie modele zast膮pi膰 osoby s艂abo wykwalifikowane lub generuj膮ce w艂a艣nie tre艣ci takie odtw贸rcze bardzo. Pierwszym z takich przyk艂ad贸w s膮 w tym momencie copywriterzy, kt贸rzy maj膮 z tym problem. Natomiast nie ma mo偶liwo艣ci, 偶eby takie rozwi膮zanie zast膮pi艂o osob臋 zmagaj膮c膮 si臋 na co dzie艅 z takimi typowymi, kreatywnymi problemami tworzenia oprogramowania.聽
WOJCIECH SARNOWSKI: Tym bardziej, 偶e takie modele pope艂niaj膮 b艂臋dy. Jakie艣 2 miesi膮ce temu mia艂em okazj臋 na jednej z platform e-learningowych zobaczy膰 pewien kurs, kt贸ry wykorzystywa艂 czata GPT-3 do opracowania strategii gie艂dowych. Fajnie to wygl膮da艂o, ale czat naprawd臋 generowa艂 tam kody obarczone b艂臋dami. To nie by艂y tylko takie b艂臋dy, kt贸re powodowa艂y, 偶e program si臋 nie kompilowa艂. Tam by艂y takie subtelno艣ci, kt贸re my艣l臋, 偶e gdyby wcieli膰 w 偶ycie, to mo偶na by si臋 narazi膰 na niez艂e straty finansowe. Tak偶e te proste zadania jak najbardziej tak, te bardziej z艂o偶one to chyba jeszcze nie ten czas, 偶eby czat, czy te偶 inny model, m贸g艂 nas wyr臋czy膰.聽
JAKUB ORLIK: A co z systemem edukacji? Ju偶 ostatnio w trakcie imprezy rodzinnej us艂ysza艂em komentarz, 偶e uczniowie teraz pisz膮 wypracowania za pomoc膮 czatu, czyli modelu j臋zykowego i 偶e mo偶e napisa膰 po prostu 20 wypracowa艅 na ten sam temat, tak, 偶e ka偶de b臋dzie troszeczk臋 inne i w艂a艣ciwie ca艂a klasa mo偶e sobie zaliczy膰 przedmiot.
WOJCIECH SARNOWSKI: Pod warunkiem, 偶e nie pomyli tw贸rczo艣ci 呕eromskiego z tw贸rczo艣ci膮 Sienkiewicza. S艂ysza艂em o takim przypadku. Ostro偶nie.聽
JAKUB ORLIK: Oczywi艣cie. Jednak je偶eli to p贸jdzie ju偶 do przodu tak, 偶e takich kardynalnych b艂臋d贸w model nie b臋dzie robi艂 albo b臋dzie je robi艂 wystarczaj膮co rzadko, a przynajmniej rzadziej ni偶 zwyk艂y ucze艅 by to robi艂, no to co wtedy? Jak przewidujecie, 偶e to wp艂ynie na system edukacji?聽
DAMIAN SERWATA: My艣l臋, 偶e je艣li takie sytuacje si臋 zdarzaj膮, maj膮 miejsca, to nie 艣wiadczy to o s艂abo艣ci czy o jakich艣 problemach uczni贸w, raczej o s艂abo艣ci systemu edukacji, kt贸ry w dzisiejszych czasach jest po prostu鈥 Nie nad膮偶a za najnowsz膮 technologi膮. Powinni艣my si臋 skupi膰 zdecydowanie, i tu nie chodzi tylko o najm艂odsze dzieci czy m艂odzie偶, ale generalnie o ca艂e spo艂ecze艅stwo, na edukacji pod k膮tem tego, w jaki spos贸b korzysta膰 m膮drze z tych rozwi膮za艅, w jaki spos贸b mog膮 one nam pos艂u偶y膰 jako narz臋dzie, a w jakich sytuacjach nie powinni艣my polega膰 na du偶ych modelach j臋zykowych czy generalnie modelach generatywnych, bo mo偶e si臋 to sko艅czy膰 by膰 mo偶e rozprzestrzenianiem jakiej艣 dezinformacji, pomy艂k膮, b艂臋dem. No warto przywo艂a膰 przyk艂ad kalkulatora. Kiedy kalkulatory si臋 pojawi艂y, te偶 musiano w jaki艣 spos贸b dostosowa膰 t臋 edukacj臋, no bo rachunki nie musia艂y by膰 ju偶 przeprowadzone przez uczni贸w r臋cznie. Mo偶na by艂o sobie to zautomatyzowa膰 przy u偶yciu takiego w艂a艣nie narz臋dzia i byli艣my si臋 w stanie do tego dostosowa膰. Wydaje si臋, 偶e z perspektywy czasu usprawni艂o to system edukacji i raczej pomog艂o, ni偶 przeszkodzi艂o, tak偶e ja by艂bym raczej pozytywnie nastawiony. Warto te偶 zaznaczy膰, 偶e r贸偶ne o艣rodki reaguj膮 ju偶 na pojawienie si臋 czata. Uda艂o mi si臋 znale藕膰 taki dokument przygotowany przez Ministerstwo Nauki i Edukacji, kt贸ry pokazuje problemy, zalety i wady takiego rozwi膮zania. Na艣wietla w艂a艣nie w kontek艣cie zastosowania go w szko艂ach, gdzie znajduje si臋 potencja艂, a w kt贸rych miejscach warto by艂oby raczej uwa偶a膰.聽
JAKUB ORLIK: Same niedoskona艂o艣ci modeli j臋zykowych mo偶na te偶 u偶y膰 w celach dydaktycznych. Sam widzia艂em pozytywny przyk艂ad, kiedy nauczyciel historii generowa艂 wypracowania historyczne za pomoc膮 modelu j臋zykowego i dawa艂 je studentom jako zadanie domowe, 偶eby znale藕li w nim b艂臋dy, kt贸re model pope艂ni艂.聽
WOJCIECH SARNOWSKI: Ciekawe.
JAKUB ORLIK: Co jednocze艣nie jakby uczy艂o ich o modelach j臋zykowych, jak i o historii, sprawdzaniu 藕r贸de艂 i tak dalej. Uwa偶am to za super przyk艂ad zrozumienia istoty problemu i przek艂ucia go w co艣 pozytywnego. Wyobra偶am sobie, 偶e mo偶na by艂oby stworzy膰 stron臋 z wiadomo艣ciami generowan膮 przez sztuczn膮 inteligencj臋. Bez 偶adnego zaznaczenia, 偶e te tre艣ci nie s膮 pisane przez cz艂owieka, 偶e nie s膮 sprawdzane, chocia偶 s膮dz膮c po jako艣ci wsp贸艂czesnego dziennikarstwa, cz臋sto one te偶 nie s膮 w tych r贸偶nych portalach bogatych w reklamy. Ale jest mi 艂atwo wyobrazi膰 sobie wiele negatywnych konsekwencji, zw艂aszcza je偶eli chodzi o szerzenie fake news贸w czy na przyk艂ad pisanie targetowanych reklam pod te tysi膮ce r贸偶nych segment贸w marketingowych tak, 偶eby jak najskuteczniej dotrze膰 do kogo艣 i wp艂yn膮膰 na wynik wybor贸w. Czy znacie jakie艣 opinie ekspert贸w dotycz膮cych etycznych problem贸w zwi膮zanych z AI i jak na to spojrze膰, takich filozoficznych wr臋cz pyta艅 dotycz膮cych AI? Czy s膮 jakie艣 plany na prawne regulacje? Jak ma si臋 perspektywa w tym aspekcie?聽
DAMIAN SERWATA: Tutaj jest tak naprawd臋 kwestia wielu stron, kt贸re s膮 zaanga偶owane w jaki艣 spos贸b w t膮 ca艂膮 sytuacj臋. Z jednej strony prawa autorskie kontentu, tre艣ci, kt贸ry zosta艂 wykorzystany do uczenia tych modeli, a kt贸rego autorzy nie wyrazili na to 偶adnej zgody. Nawet w tym momencie Stable Diffusion zosta艂o pozwane przez grup臋 tw贸rc贸w, kt贸rym uda艂o si臋 doj艣膰 do tego, 偶e ich prace zosta艂y wykorzystane w trakcie uczenia tych modeli. Jest kwestia w艂a艣nie propagacji dezinformacji, misinformacji w celowy b膮d藕 niecelowy spos贸b, na co te偶 powinni艣my uwa偶a膰. I to jest zupe艂nie osobna historia, w jaki spos贸b powinni艣my stara膰 si臋 z jednej strony weryfikowa膰 prawdziwo艣膰 tej tre艣ci generowanej przez du偶e modele j臋zykowe czy w og贸le modele generatywne, a z drugiej strony, w jaki spos贸b mo偶emy stara膰 si臋 wykry膰 tak膮 tre艣膰 stworzon膮 przez model sztucznej inteligencji. Je艣li chodzi o takich ekspert贸w sztucznej inteligencji, to tutaj tak naprawd臋 oni opowiadaj膮 si臋 po r贸偶nych stronach tej barykady. Z jednej strony mamy takie osoby jak Jan LeCun czy Andrew NG, kt贸rzy zauwa偶aj膮 raczej te pozytywne aspekty wp艂ywu tej nowej technologii, kt贸ra raczej wed艂ug nich nie powinna stwarza膰 dla nas jakiego艣 egzystencjalnego zagro偶enia. Raczej nie sko艅czy si臋 dla nas 藕le, wr臋cz przeciwnie, mo偶e pom贸c nam walczy膰 z tymi zagro偶eniami, kt贸re s膮 dla nas rzeczywiste, tak jak kolejna pandemia czy by膰 mo偶e sterowanie spo艂ecze艅stwem przez rozprzestrzenianie jakich艣 fa艂szywych informacji. Ale mamy te偶 osoby takie jak Geoffrey Hinton, kt贸ry jest odpowiedzialny za stworzenie algorytmu propagacji wstecznej, czyli tego algorytmu uczenia sieci neuronowych, czy Joshua Bengio. I oni twierdz膮, 偶e warto by艂oby jednak przyjrze膰 si臋 tym rozwi膮zaniom i bardzo uwa偶nie weryfikowa膰 zastosowania, do kt贸rych przeznaczamy modele generatywne, bo nie do ko艅ca jeste艣my w stanie sterowa膰 tym, czego te modele si臋 ucz膮.
JAKUB ORLIK: A jak si臋 maj膮 regulacje prawne dotycz膮ce sztucznej inteligencji?聽
WOJCIECH SARNOWSKI: To jest temat ciekawy. Trwaj膮 intensywne dyskusje na temat modeli j臋zykowych w aspekcie prawnym. Tutaj chyba najwi臋kszy post臋p ma miejsce w Unii Europejskiej. W艂a艣nie niedawno, bodaj偶e 14. czerwca, Parlament Europejski przyj膮艂 rozporz膮dzenie dotycz膮ce modeli zwi膮zanych ze sztuczn膮 inteligencj膮. Jest to chyba taki pierwszy akt na 艣wiecie, o ile mi wiadomo. Unia Europejska zamierza wprowadzi膰 regulacje zwi膮zane z modelami sztucznej inteligencji. Powsta艂 tak zwany akt AI i tam wprowadzone zostaj膮 kategorie ryzyka zwi膮zane z modelami. Mamy na przyk艂ad ryzyko umiarkowane, mamy ryzyko niedopuszczalne. Przyk艂adowo w kategorii ryzyka umiarkowanego znalaz艂y si臋 modele, kt贸re potrafi膮 generowa膰 tak zwane deep fake’i. Z drugiej strony w kategorii niedopuszczalnej mamy modele, kt贸re dokonuj膮 tak zwanej predykcji kryminalnej lub te偶 zajmuj膮 si臋 rozpoznawaniem twarzy w miejscach publicznych w czasie rzeczywistym. Unia robi wyra藕ne kroki w kierunku regulacji tego rynku. Modele sztucznej inteligencji musz膮 sta膰 si臋 bardziej transparentne, przynajmniej na rynku europejskim. Je偶eli publikowane s膮 pewne tre艣ci i ma to miejsce przy u偶yciu sztucznej inteligencji, takie tre艣ci b臋d膮 musia艂y by膰 oznaczone. U偶ytkownik musi wiedzie膰, 偶e to zosta艂o wygenerowane przez sztuczn膮 inteligencj臋.聽
JAKUB ORLIK: Kiedy to wchodzi w 偶ycie?聽
WOJCIECH SARNOWSKI: Prawo wejdzie w roku 2026.聽
JAKUB ORLIK: W roku 2026? Oj! To jeszcze du偶o nadu偶y膰 mo偶na do tego czasu wykona膰.
WOJCIECH SARNOWSKI: Tak, tak.聽
JAKUB ORLIK: Ale to jest unikalne jakby rozwi膮zanie, prze艂omowe, 偶e kto艣 bierze si臋 za jakie艣 prawne鈥β
WOJCIECH SARNOWSKI: Tak, tak. To zdaje si臋, 偶e jest pierwszy taki powa偶ny akt na 艣wiecie. Natomiast wcze艣niej mia艂y ju偶 pewne zdarzenia, kt贸re te偶 sugeruj膮, 偶e co艣 musi si臋 sta膰 z tym tematem. Szef OpenAI, Sam Altman, kilka miesi臋cy temu zeznawa艂 przed Komisj膮 Senack膮 w Stanach Zjednoczonych i on sam wyszed艂 z inicjatyw膮, aby w jaki艣 spos贸b dokonywa膰 regulacji prawnych w obszarze modeli j臋zykowych czy w og贸le sztucznej inteligencji. Jedn膮 z takich propozycji jest, aby powsta艂 taki swoisty urz膮d, kt贸ry b臋dzie wydawa艂 licencj臋 modelu. Je偶eli model jest odpowiednio du偶y, bo oczywi艣cie nie chodzi tu o wszystkie modele, by艂oby to bezsensowne. Natomiast je艣li chodzi o takie modele typu GPT, to tak. Taki model musia艂by mie膰 licencj臋, wi臋c musia艂by przej艣膰 szereg test贸w, musia艂by przej艣膰 pewne audyty i dopiero wtedy, jako taki pe艂noprawny produkt, m贸g艂by zosta膰 wypuszczony na rynek.聽
JAKUB ORLIK: M贸j wewn臋trzny cynik od razu podpowiada, 偶e to jest w艂a艣nie bardzo ameryka艅ski model. Wej艣膰 na nieregulowany rynek, stworzy膰 produkt, zmonopolizowa膰 go, a potem za pomoc膮 regulacji utrudni膰 ka偶demu innemu wej艣cie. I fakt, 偶e to jeszcze wychodzi od autora OpenAI, a od tego w艂a艣ciciela OpenAI, tylko wzmaga m贸j cynizm. Przepraszam, musia艂em ten cynizm wyj膮膰 z kieszeni.
WOJCIECH SARNOWSKI: Obawiam si臋, 偶e mo偶esz mie膰 racj臋.聽
JAKUB ORLIK: Ci臋偶ko jest mi tu domniema膰 dobre intencje, zw艂aszcza po tym przej艣ciu z OpenAI w ClosedAI tak naprawd臋.聽
WOJCIECH SARNOWSKI: 罢补办.听
JAKUB ORLIK: A wi臋c to powstrzyma wy艣cig technologiczny i kilka lat czystych zysk贸w.
WOJCIECH SARNOWSKI: Tak, tak. Obawiamy si臋鈥 Mo偶na si臋 obawia膰, 偶e w og贸le takie regulacje mog膮 by膰 przeregulowane, 偶e tak powiem, 偶e mo偶emy wyla膰 dziecko z k膮piel膮. Wiadomo, 偶e Chiny raczej nie b臋d膮 si臋 ogl膮da艂y na reszt臋 艣wiata, nie b臋d膮 si臋 przejmowa艂y regulacjami. Natomiast my tutaj w Europie, mimo 偶e i tak nie jeste艣my w czo艂贸wce tego wy艣cigu, mo偶emy sobie strzeli膰 przys艂owiowo w stop臋.
JAKUB ORLIK: Zatem鈥 Spojrzeli艣my sobie w przesz艂o艣膰, om贸wili艣my sobie tera藕niejszo艣膰 i pochyli艣my si臋 troch臋 nad przysz艂o艣ci膮 modeli j臋zykowych, co otwiera nam drog臋 do tego, 偶eby艣my w nast臋pnych trzech odcinkach opowiedzieli sobie o kolejnych jeszcze aspektach, ju偶 bardziej z takiej perspektywy detalicznej. Dzi臋kuj臋 Wam, Damianie i Wojtku, za rozmow臋. Jestem troszeczk臋 bardziej z jednej strony spokojny odno艣nie tego AI, z drugiej strony troszeczk臋 bardziej zestresowany. Z takim gorzko-s艂odkim mixem wychodz臋 z tego spotkania i zobacz臋, co nasze kolejne rozmowy w tej serii przynios膮. Dzi臋kuj臋 Wam bardzo.聽
WOJCIECH SARNOWSKI: 顿锄颈臋办颈.听
DAMIAN SERWATA: 顿锄颈臋办耻箩臋.听
To jeszcze nie koniec. Je艣li temat Ci臋 zainteresowa艂, na ko艅cu odcinka znajdziesz materia艂y, dzi臋ki kt贸rym poszerzysz swoj膮 wiedz臋 i umiej臋tno艣ci z obszar贸w omawianych w tym odcinku. A w mi臋dzyczasie, 偶eby nie przegapi膰 kolejnych odcink贸w, zasubskrybuj podcast TechChatter w swojej ulubionej aplikacji do s艂uchania podcast贸w. Je艣li ten odcinek Ci si臋 spodoba艂, daj nam o tym zna膰, wystawiaj膮c ocen臋 w Apple Podcasts lub w Spotify. Linki do tych serwis贸w oraz do zagadnie艅 wspomnianych w odcinku znajdziesz w opisie. A teraz? Czas na polecane materia艂y.聽
JAKUB ORLIK: Je艣li dzisiejsza rozmowa Ci臋 zainteresowa艂a i chcia艂by艣/chcia艂aby艣 zag艂臋bi膰 si臋 bardziej w ten temat, eksperci z 乌鸦传媒 polecaj膮 Twojej uwadze dodatkowe materia艂y, do kt贸rych linki znajdziesz w opisie do tego odcinka. Znajdziesz tam kompletny kurs czat GPT na Udemy, film opisuj膮cy, jak trenowany jest model czat GPT, dyskusj臋 na temat zagro偶e艅 ze strony sztucznej inteligencji w oczach czo艂owych ekspert贸w w tej dziedzinie oraz szczeg贸艂owe, aktualizowane na bie偶膮co kalendarium wydarze艅 zwi膮zanych z generatywn膮 sztuczn膮 inteligencj膮.聽