Iluziile violente bântuie ramura artificială Tehnică
De ceva vreme, informaticienii sunt interesați de tendința chatbot-urilor de a halucina uneori, adică de a oferi răspunsuri convingătoare, dar complet inventate. Nu este complet clar de ce părul sintetic are tendința de a înnebuni, dar oamenii de știință au descoperit acum că poate auzi și povești tulburătoare.
De către cercetători de la Universitatea Cornell, SUA căutare Se pare că Whisper, un agent de transcriere vocală creat de OpenAI, compania care dezvoltă ChatGPT, poate veni și cu cuvinte și propoziții complet noi atunci când transcrie ceea ce aude. Între timp, el spune că părțile fictive conțin adesea conținut deranjant, violent sau sexual Științe.
În timpul experimentelor efectuate în aprilie și mai anul trecut, cercetătorii i-au oferit robotului 20 de ore de înregistrări audio pentru a le transcrie. Conțineau în principal dialoguri pe teme de zi cu zi, dar și, de exemplu, repovestiri de basme. Unii vorbitori au avut afazie, sau paralizie a vorbirii, motiv pentru care persoana vorbește încet și cu pauze lungi.
Imaginația a apărut în 1,7% dintre înregistrările persoanelor cu afazie și 1,2% dintre înregistrările persoanelor cu vorbire normală. Aproape jumătate din conținutul fictiv era deranjant într-un fel. De exemplu, o înregistrare a unei conversații despre pisici salvate de pompieri include, de asemenea, accesorii precum „căruță însângerată” și „bâjbărire”.
Ca un alt exemplu, o conversație nevinovată despre umbrele după o rescrie a inclus adăugiri despre cuțite și uciderea oamenilor. Adăugările halucinatorii discrete au inclus, de exemplu, nume fictive și referiri la relații personale și afecțiuni de sănătate. Firul fals a creat și link-uri către pagini web inexistente sau a încheiat transcrierea cu expresii caracteristice YouTube, cum ar fi „Mulțumesc pentru vizionare!”
Autorii articolului științific consideră că invențiile ar putea fi cauzate de pauze mai lungi în vorbire, intercalate cu sunete precum „umm, hmm, aaah”, etc. Modelul nu le interpretează ca tăcere, ci mai degrabă încearcă să formeze cuvinte și chiar propoziții întregi din sunete. Cu toate acestea, iluziile pot fi cauzate și de modelul lingvistic care stă la baza instrumentului de transcriere în sine.
Preparat de Vectara clasificare El subliniază că incidența miturilor tinde să fie mare în rândul modelelor lingvistice, ajungând uneori la 16,2%. OpenAI GPT-4 Turbo este cel mai puțin afectat, cu 2,5% din halucinații.
După testele inițiale, OpenAI a îmbunătățit modelul Whisper, făcându-l să ignore pauzele lungi dintre cuvinte. De asemenea, modelul caută acum posibile halucinații și încearcă să le înlocuiască. Cercetătorii au efectuat experimente repetate în decembrie anul trecut. Ei au descoperit că compania a reușit să scape de cele mai multe dintre miturile documentate anterior.
Prin urmare, autoexaminarea regulată poate juca un rol important în reducerea halucinațiilor sintetice în viitor. Cu toate acestea, datele obținute din teste pot fi folosite pentru a îmbunătăți modelele. Cu toate acestea, deocamdată, cercetătorii recomandă să verificați întotdeauna textul instrumentelor de transcriere.
Având în vedere toate acestea, autorii studiului au și o întrebare despre de ce sardinele artificiale tind adesea să prefere conținutul tulburător în poeziile lor.