świat

Badania AI podsumowują „Wyjściowe wyniki”, badanie ostrzega

Narzędzia AI nadmiernie stwierdzają wyniki badań znacznie częściej niż ludzie, z badaniem sugerującego, że najnowsze boty są najgorszymi przestępcami – szczególnie, gdy są one specjalnie poinstruowane, aby nie wyolbrzymowują.

Holenderscy i brytyjscy badacze odkryli, że streszczenia AI dokumentów naukowych są znacznie bardziej prawdopodobne niż pierwotni autorzy lub recenzenci eksperci, aby „nadmiernie generalizacji” wyników.

Logo The Times Higher Education z czerwonym T, Purple H i Blue E.

Analiza, Zgłoszone W dzienniku Royal Society Open ScienceSugeruje, że podsumowania AI – wportycznie zaprojektowane w celu pomocy w zakresie rozpowszechniania wiedzy naukowej poprzez ponowne wyfrazowanie jej w „łatwo zrozumiałym języku” – w badaniach „niepewności, ograniczeń i niuansów” poprzez „pomijanie kwalifikatorów” i „nadmierne uproszczenie” tekstu.

Jest to szczególnie „ryzykowne”, gdy zastosowano do badań medycznych, raport ostrzega. „Jeśli chatboty wytwarzają podsumowania, które pomijają kwalifikatory (o) uogólnienie wyników badań klinicznych, praktykujący, którzy polegają na tych chatbotach, mogą przepisywać niebezpieczne lub niewłaściwe metody leczenia”.

Zespół przeanalizował prawie 5000 streszczeń AI 200 streszczeń czasopism i 100 pełnych artykułów. Tematy wahały się od wpływu kofeiny na nieregularne bicie serca i korzyści płynące z chirurgii bariatrycznej w zakresie zmniejszania ryzyka raka do wpływu dezinformacji i komunikacji rządowej na zachowanie mieszkańców i przekonania ludzi na temat zmian klimatu.

Streszczenia wyprodukowane przez starsze aplikacje AI – takie jak GPT-4 Openai a Meta’s Lama 2, oba wydane w 2023 r. – poprowadziły około 2,6 razy bardziej prawdopodobne, że oryginalne streszczenia zawierały uogólnione wnioski.

Prawdopodobieństwo uogólnienia wzrosło do dziewięciu razy w podsumowaniach przez Chatgpt – 4o, które zostało wydane w maju ubiegłego roku, i 39 razy w streszczeniach przez LAMA 3.3, które pojawiły się w grudniu.

Instrukcje „pozostania wiernym materiałem źródłowym” i „nie wprowadzania żadnych niedokładności” wywołały odwrotny efekt, przy czym podsumowania okazały się około dwa razy bardziej narażone na ogólne wnioski niż te wygenerowane, gdy boty zostały po prostu poproszone o „podsumowanie głównych ustaleń”.

Sugerowało to, że generatywna sztuczna inteligencja może być podatna na efekty „ironicznego odbicia”, w których instrukcje nie myśleć o czymś – na przykład „różowy słonia” – automatycznie wywołane obrazy zakazanego podmiotu.

Aplikacje AI wydawały się również podatne na awarie, takie jak „katastroficzne zapominanie”, w których nowe informacje przemieszczały wcześniej wiedzę lub umiejętności, oraz „nieuzasadnioną pewność siebie”, gdzie „płynność” miała pierwszeństwo przed „ostrożnością i precyzją”.

Autorzy spekulują, że dopracowanie botów może zaostrzyć te problemy. Kiedy aplikacje AI są „zoptymalizowane pod kątem przydatności”, stają się mniej skłonne do „wyrażania niepewności co do pytań poza ich wiedzą parametryczną”. Narzędzie, które „zapewnia bardzo precyzyjną, ale złożoną odpowiedź… może otrzymać niższe oceny od ludzkich ewaluatorów”, wyjaśnia artykuł.

Jedno podsumowanie cytowane w artykule ponownie zinterpretowało odkrycie, że lek cukrzycy był „lepszy niż placebo” jako poparcie opcji „skutecznego i bezpiecznego leczenia”. „Takie… ogólne uogólnienia mogą wprowadzić w błąd praktyków do stosowania niebezpiecznych interwencji”, mówi artykuł.

Oferuje pięć strategii „ograniczania ryzyka” nadmiernych generalizacji w podsumowaniach AI. Obejmują one wykorzystanie rodziny botów Claude firmy AI, które stwierdzono, że tworzą „najbardziej wierne” podsumowania.

Innym zaleceniem jest obniżenie ustawienia „temperatury” bota. Temperatura jest regulowanym parametrem, który kontroluje losowość wygenerowanego tekstu.

Uwe Peters, adiunkt w filozofii teoretycznej w Uniwersytet Utrecht a współautor raportu powiedział, że nadmierne generalityzacje „występowały często i systematycznie”.

Powiedział, że ustalenia oznaczają ryzyko, że nawet subtelne zmiany w wynikach AI mogą „wprowadzić w błąd użytkowników i wzmocnić dezinformację, zwłaszcza gdy wyniki wydają się dopracowane i godne zaufania”.

Dodał, że firmy technologiczne powinny ocenić swoje modele pod kątem takich tendencji i udostępniać je otwarcie. W przypadku uniwersytetów wykazało to „pilną potrzebę silniejszej umiejętności AI” wśród pracowników i studentów.

Link źródłowy

Related Articles

Back to top button