Uměligence

Štít, který zastaví AI v poskytování nebezpečných informací


Listen Later

Velké jazykové modely jsou mocné nástroje, ale jak je ochránit před zneužitím? Podíváme se na inovativní způsob obrany proti "jailbreakům" - útokům, které se snaží z AI získat zakázané informace. Konstituční klasifikátory fungují jako systém digitálních strážců, kteří kontrolují jak vstupy, tak výstupy modelu. Jejich síla spočívá v principu "švýcarského sýra" - více vrstev ochrany, kde každá zachytí jiné typy útoků. Klíčovou roli hraje "konstituce" - soubor pravidel definujících nežádoucí obsah, který lze průběžně aktualizovat proti novým hrozbám. Testování je působivé: 400 expertů strávilo přes 3000 hodin pokusy o prolomení, všechny neúspěšně. Praktické nasazení přidává pouhých 24% k době odpovědi a minimálně falešných poplachů. Nejcennější schopností je detekce problémů za běhu - systém nemusí čekat na celou odpověď, může ji zastavit během generování.#konverzace


...more
View all episodesView all episodes
Download on the App Store

UměligenceBy David Grudl


More shows like Uměligence

View all
Forbes Byznys by Forbes Česko

Forbes Byznys

2 Listeners

DEEP TALKS [CZE] by Petr Ludwig

DEEP TALKS [CZE]

18 Listeners

Vinohradská 12 by Český rozhlas

Vinohradská 12

38 Listeners

Insider by Tomáš Jirsa a Michal Půr

Insider

5 Listeners

U Kulatého stolu by Forcapture

U Kulatého stolu

12 Listeners

Studio N by Deník N

Studio N

32 Listeners

Vlevo dole by Seznam Zprávy

Vlevo dole

12 Listeners

středo/věk by Petr Mára, Martin Vymětal, Jan Dobrovský

středo/věk

9 Listeners

Dobrovský & Šídlo by Paměť národa

Dobrovský & Šídlo

11 Listeners

Kecy a politika by Bohumil Pečinka, Petros Michopulos

Kecy a politika

8 Listeners

Ve vatě by Seznam Zprávy

Ve vatě

5 Listeners

Čestmír Strakatý by Čestmír Strakatý

Čestmír Strakatý

1 Listeners

5:59 by Seznam Zprávy

5:59

11 Listeners

Fantastic Future by Petr Mara

Fantastic Future

3 Listeners

Longevity podcast by Hospodářské noviny

Longevity podcast

0 Listeners