
Sign up to save your podcasts
Or


Hoje vamos explorar um tema essencial na atualidade da inteligência artificial: como avaliar e medir o desempenho dos grandes modelos de linguagem, os chamados Large Language Models (LLMs). Com o crescimento exponencial de ferramentas como o ChatGPT, GPT-4 ou Bard, surge a questão fundamental: Como sabemos se um modelo realmente compreende o que diz, ou se está apenas a reproduzir padrões previamente decorados? Para responder a isto, vamos analisar a importância dos benchmarks—testes padronizados que avaliam diferentes capacidades dos modelos, desde conhecimentos gerais até ao raciocínio lógico, passando pela capacidade de tomar decisões autónomas e executar tarefas práticas.
Ao longo do episódio, vamos ainda descobrir as métricas-chave que determinam a qualidade destes modelos, perceber porque é que algumas das ferramentas mais avançadas falham quando confrontadas com problemas ligeiramente diferentes dos habituais, e examinar estudos recentes—como o da Apple, que questiona seriamente se osmodelos realmente “pensam” ou se apenas simulam essa capacidade. Vamos também discutir as forças e limitações dos atuais métodos de avaliação, abordando as diferenças entre modelos de código aberto e fechado, e apresentar sugestões para melhorar a forma como medimos o verdadeiro potencial da IA.
AI News:
Email us at [email protected]
Produção:
Beatriz Herrera González - https://www.linkedin.com/in/beahgonzalez/
Hosts:
Marco António Silva: https://www.linkedin.com/in/marconsilva/
José António Silva: https://www.linkedin.com/in/canoas/
Vitor Santos: https://www.linkedin.com/in/vitor-santos-ab87662/
By Building The FutureHoje vamos explorar um tema essencial na atualidade da inteligência artificial: como avaliar e medir o desempenho dos grandes modelos de linguagem, os chamados Large Language Models (LLMs). Com o crescimento exponencial de ferramentas como o ChatGPT, GPT-4 ou Bard, surge a questão fundamental: Como sabemos se um modelo realmente compreende o que diz, ou se está apenas a reproduzir padrões previamente decorados? Para responder a isto, vamos analisar a importância dos benchmarks—testes padronizados que avaliam diferentes capacidades dos modelos, desde conhecimentos gerais até ao raciocínio lógico, passando pela capacidade de tomar decisões autónomas e executar tarefas práticas.
Ao longo do episódio, vamos ainda descobrir as métricas-chave que determinam a qualidade destes modelos, perceber porque é que algumas das ferramentas mais avançadas falham quando confrontadas com problemas ligeiramente diferentes dos habituais, e examinar estudos recentes—como o da Apple, que questiona seriamente se osmodelos realmente “pensam” ou se apenas simulam essa capacidade. Vamos também discutir as forças e limitações dos atuais métodos de avaliação, abordando as diferenças entre modelos de código aberto e fechado, e apresentar sugestões para melhorar a forma como medimos o verdadeiro potencial da IA.
AI News:
Email us at [email protected]
Produção:
Beatriz Herrera González - https://www.linkedin.com/in/beahgonzalez/
Hosts:
Marco António Silva: https://www.linkedin.com/in/marconsilva/
José António Silva: https://www.linkedin.com/in/canoas/
Vitor Santos: https://www.linkedin.com/in/vitor-santos-ab87662/

50 Listeners

12 Listeners

93 Listeners

2 Listeners

2 Listeners

3 Listeners

44 Listeners
![Fundação (FFMS) - [IN] Pertinente by Fundação Francisco Manuel dos Santos](https://podcast-api-images.s3.amazonaws.com/corona/show/2108484/logo_300x300.jpeg)
1 Listeners

25 Listeners

2 Listeners

10 Listeners

10 Listeners

0 Listeners

3 Listeners