
Sign up to save your podcasts
Or


Velké jazykové modely jsou mocné nástroje, ale jak je ochránit před zneužitím? Podíváme se na inovativní způsob obrany proti "jailbreakům" - útokům, které se snaží z AI získat zakázané informace. Konstituční klasifikátory fungují jako systém digitálních strážců, kteří kontrolují jak vstupy, tak výstupy modelu. Jejich síla spočívá v principu "švýcarského sýra" - více vrstev ochrany, kde každá zachytí jiné typy útoků. Klíčovou roli hraje "konstituce" - soubor pravidel definujících nežádoucí obsah, který lze průběžně aktualizovat proti novým hrozbám. Testování je působivé: 400 expertů strávilo přes 3000 hodin pokusy o prolomení, všechny neúspěšně. Praktické nasazení přidává pouhých 24% k době odpovědi a minimálně falešných poplachů. Nejcennější schopností je detekce problémů za běhu - systém nemusí čekat na celou odpověď, může ji zastavit během generování.#konverzace
By David GrudlVelké jazykové modely jsou mocné nástroje, ale jak je ochránit před zneužitím? Podíváme se na inovativní způsob obrany proti "jailbreakům" - útokům, které se snaží z AI získat zakázané informace. Konstituční klasifikátory fungují jako systém digitálních strážců, kteří kontrolují jak vstupy, tak výstupy modelu. Jejich síla spočívá v principu "švýcarského sýra" - více vrstev ochrany, kde každá zachytí jiné typy útoků. Klíčovou roli hraje "konstituce" - soubor pravidel definujících nežádoucí obsah, který lze průběžně aktualizovat proti novým hrozbám. Testování je působivé: 400 expertů strávilo přes 3000 hodin pokusy o prolomení, všechny neúspěšně. Praktické nasazení přidává pouhých 24% k době odpovědi a minimálně falešných poplachů. Nejcennější schopností je detekce problémů za běhu - systém nemusí čekat na celou odpověď, může ji zastavit během generování.#konverzace

2 Listeners
![DEEP TALKS [CZE] by Petr Ludwig](https://podcast-api-images.s3.amazonaws.com/corona/show/403745/logo_300x300.png)
18 Listeners

38 Listeners

5 Listeners

12 Listeners

32 Listeners

12 Listeners

9 Listeners

11 Listeners

8 Listeners

5 Listeners

1 Listeners

11 Listeners

3 Listeners

0 Listeners