dr inż. Agenor Hofmann-Delbor
Od kilku miesięcy świat nie może otrząsnąć się z szoku po premierze chatGPT w wersji 3.5. To pierwszy tak popularny model językowy i prekursor nowych czasów, czy tego chcemy, czy nie.
Tak — jest w stanie pisać opowiadania, eseje, pomagać z zadaniami domowymi. Jest obudowany całą masą stale udoskonalanych zabezpieczeń, ale wciąż jest podatny na bycie wykorzystanym w złej sprawie. Jak każda technologiczna sensacja, obrasta mitami, bzdurami i marketingiem. Gdy jednak kurz opadnie, nie będzie to tylko chwilowy rozbłysk.
Dwa słowa, które już zmieniły świat — PROMPT ENGINEERING
Skąd ta pewność? Choćby dlatego, że ChatGPT mógłby dziś przestać istnieć, a i tak rewolucja A.I. wykarmiła już sporo nowych bohaterów. Niemal każdego dnia pojawia się nowy gracz i nowa usługa. Wszystkie mają kilka cech wspólnych:
- Korzystają z wytrenowanego modelu w swojej dziedzinie: języka, obrazów, audio. Każdy model działa w oparciu o podobne tło: ogromne i złożone sieci neuronowe z tak wieloma parametrami i warstwami, że nawet ich autorzy nie mają pewności, jak zachowa się ich model. Są jednak nakarmione tak ogromnymi zbiorami danych, że zwykle są przerażająco skuteczne.
- Działają błyskawicznie. Efekt pracy systemu zobaczymy po kilku sekundach. W przypadku obrazów – a już za chwilę – wideo, trwa to ciut dłużej. Nadal jednak można powiedzieć, że z perspektywy człowieka jest to niemal czas rzeczywisty.
- Działają w oparciu o zapytania (ang. prompt). To w rozumieniu zapytania i jego kontekstu brzmi prawdziwy sekret popularności tej generacji A.I. Bogaty model językowy rozumie nie tylko podstawowe sprawy typu czego od niego chcemy, ale rozpoznaje ton zapytania i jest w stanie całkiem skutecznie dostosowywać się do wymagań użytkownika.

Kiedy jednak przestaniemy się bawić, zaczyna się prawdziwa batalia o to, by ujarzmić tę inspirującą technologię do swoich celów.
W branży tłumaczeniowej zastosowania A.I. wciąż są odkrywane. Są firmy, które z powodzeniem zajmują się przygotowaniem danych. Wszystkie modele potrzebują bowiem specjalnie przygotowanych i oczyszczonych danych wejściowych. W przeciwnym wypadku jakość tego, co zobaczymy na wyjściu, będzie mizerna.
Data is king — dziś bardziej niż kiedykolwiek.
Oczywiście podstawowym pomysłem na korzystanie z modeli, które znają różne języki, jest próba użycia ich w roli silników MT. Czy to działa? Owszem, ale jest trochę próbą wożenia bułek w Ferrari. Bułki się wytłuką, okruszki wpadną za fotele, podróż nie będzie komfortowa. Na koniec nikt specjalnie nie będzie się zachwycać bułką. Są wyspecjalizowane rozwiązania, które działają. Pytanie brzmi, czy modele językowe są rzeczywiście dla nich konkurencją. Skoro bowiem można poprosić o pisanie w docelowym języku, po co bawić się w tłumaczenie, nad którym zawsze będzie ciążyć bagaż kulturowy źródłowego języka? Na ten moment modele językowe są nierówne pod tym względem — najwięcej danych przenalizowały dla języka angielskiego, więc nie ze wszystkim sobie poradzą.
Można z powodzeniem poprosić ChatGPT o wygenerowanie instrukcji w języku arabskim, ale system nie jest w stanie w żaden sposób zrealizować wyświetlania w trybie BiDi, czyli z listą wypunktowaną po prawej stronie. Nie radzi sobie, choć ewidentnie przyjmuje i poprawnie interpretuje polecenie. Tutaj problem nie leży w modelu, a w tym, jak zaimplementowali go programiści. Pudełko, w którym siedzi ChatGPT jest jego więzieniem.
Można jednak zerknąć znacznie dalej. ChatGPT na dziś nie jest podłączone do sieci. Jest też więźniem danych sprzed prawie 2 lat. Są już implementacje, które omijają te ograniczenia: WebGPT, you.com. Można powiedzieć śmiało, że jeśli ktoś gdzieś miało pomysł, by wdrożyć w jakimś zastosowaniu A.I., to taka usługa już istnieje. Albo istnieją usługi, które spinają się ze sobą, przesyłając sobie dane. Typowy i działający już plan to:
- Spotkanie na Zoomie/Teamsie – jedno A.I. notuje, tworząc transkrypcje, a następnie wysyła do drugiego A.I.
- Drugie A.I. (tu zwykle ChatGPT) analizuje zapisy i tworzy z nich podsumowanie
- Trzecie A.I. na podstawie podsumowania generuje prezentację i wstawia do niej grafiki wygenerowane przez czwarte A.I.
No to gdzie ta tytułowa codzienna kawa? Prawdziwa rewolucja z A.I. zacznie się, gdy przestaniemy zwracać na nie uwagę. Gdy nie będziemy już pamiętać, że po wpisaniu danych w Google trzeba przedrzeć się przez reklamy, a później przejrzeć wyniki, swoim sposobem próbując ocenić ich wiarygodność. Wśród zarzutów stawianych ChatGPT jest to, że generuje często bełkot, nieprawdziwe lub zmyślone informacje. Tyle że na to też jest już kilka metod. Najnowsza to „Use only reliable sources”, która wymusza na modelu filtrowanie swoich własnych „pomysłów”. Gwarancji nie ma, ale też jest to jedna z najciekawszych domen — próba namówienia maszyny, by przeskoczyła swoje ograniczenia lub by wygenerowała coś, czego byśmy się nie spodziewali.
Świat uczy się dziś, jak rozmawiać z maszynami. Strony, takie jak Awesome-ChatGPT-Prompts, mają już setki metod na wyciśnięcie z modelu więcej niż oferuje w standardzie. Możemy poprosić ChatGPT by odpowiadał językiem zrozumiałym dla 6-letniego dziecka, albo by przygotował nam szybko opisy produktów do sklepu internetowego. Tylko uwaga, jest już oczywiście wiele rozwiązań A.I. (a jakże) do rozpoznawania sztucznie wygenerowanego tekstu. I, oczywiście, cała masa A.I. do parafrazowania, zmiany szyku i próby oszukania detektorów sztucznie wygenerowanych tekstów. Ta batalia trwa i pewnie nieprędko się zakończy. ChatGPT umie skutecznie podsunąć pod nos wiele praktycznych rozwiązań, poprawia teksty, tworzy skrypty, podsumowuje teksty, przygotowuje plany działań, tworzy listy, wyodrębnia terminologię, itd. Tak jak jego twórcy, nie znamy jeszcze wszystkich możliwości tego modelu.
Znaczącym w tym wszystkim jest pierwsze zapytanie, które pojawia się na liście „Act as an English translator and improver”. Nie, ChatGPT nie będzie tłumaczem. Prawdziwym „improverem” jest tutaj każdy użytkownik systemu, ponieważ wysyłane zapytania są skrupulatnie analizowane. Model uczy się sam, ale z pomocą metod „uczenia nadzorowanego” można podsunąć mu kilka co bardziej apetycznych kąsków. W ten sposób można skierować modele z dziedziny deep learning na nieco właściwsze tory.
Jeśli to wszystko rozpala wyobraźnię, zapraszam na dostępne od ręki szkolenie: