Building The Future - AI Portugal Podcast

Avaliação de LLMs


Listen Later

Hoje vamos explorar um tema essencial na atualidade da inteligência artificial: como avaliar e medir o desempenho dos grandes modelos de linguagem, os chamados Large Language Models (LLMs). Com o crescimento exponencial de ferramentas como o ChatGPT, GPT-4 ou Bard, surge a questão fundamental: Como sabemos se um modelo realmente compreende o que diz, ou se está apenas a reproduzir padrões previamente decorados? Para responder a isto, vamos analisar a importância dos benchmarks—testes padronizados que avaliam diferentes capacidades dos modelos, desde conhecimentos gerais até ao raciocínio lógico, passando pela capacidade de tomar decisões autónomas e executar tarefas práticas.

Ao longo do episódio, vamos ainda descobrir as métricas-chave que determinam a qualidade destes modelos, perceber porque é que algumas das ferramentas mais avançadas falham quando confrontadas com problemas ligeiramente diferentes dos habituais, e examinar estudos recentes—como o da Apple, que questiona seriamente se osmodelos realmente “pensam” ou se apenas simulam essa capacidade. Vamos também discutir as forças e limitações dos atuais métodos de avaliação, abordando as diferenças entre modelos de código aberto e fechado, e apresentar sugestões para melhorar a forma como medimos o verdadeiro potencial da IA.


AI News:

  •  https://www.news-medical.net/news/20250713/Novel-AI-application-diagnoses-endocrine-cancers-with-speed-and-accuracy.aspx
  • https://www.bbc.com/news/articles/c1e02vx55wpo
  • Microsoft’sAI Is Better Than Doctors at Diagnosing Disease | TIME
  • https://time.com/7299314/microsoft-ai-better-than-doctors-diagnosis/

Email us at [email protected]

 

Produção:

Beatriz Herrera González -  https://www.linkedin.com/in/beahgonzalez/

 

Hosts:

Marco António Silva: https://www.linkedin.com/in/marconsilva/

José António Silva: https://www.linkedin.com/in/canoas/

Vitor Santos: https://www.linkedin.com/in/vitor-santos-ab87662/

...more
View all episodesView all episodes
Download on the App Store

Building The Future - AI Portugal PodcastBy Building The Future


More shows like Building The Future - AI Portugal Podcast

View all
O Homem que Mordeu o Cão by Rádio Comercial | Nuno Markl

O Homem que Mordeu o Cão

50 Listeners

Sem Barbas Na Língua by Guilherme Duarte & Hugo Gonçalves

Sem Barbas Na Língua

12 Listeners

Renascença - Extremamente Desagradável by Renascença

Renascença - Extremamente Desagradável

93 Listeners

Irritações by SIC

Irritações

2 Listeners

Bitalk by Bitalk - Negócios à Portuguesa

Bitalk

2 Listeners

Money Money Money by João Vieira Pereira e João Silvestre

Money Money Money

3 Listeners

FUSO by Bumba na Fofinha

FUSO

44 Listeners

Fundação (FFMS) - [IN] Pertinente by Fundação Francisco Manuel dos Santos

Fundação (FFMS) - [IN] Pertinente

1 Listeners

Programa Cujo Nome Estamos Legalmente Impedidos de Dizer by SIC Notícias

Programa Cujo Nome Estamos Legalmente Impedidos de Dizer

25 Listeners

Falsos Lentos by bwinPortugal

Falsos Lentos

2 Listeners

Voz de Cama by Antena3 - RTP

Voz de Cama

10 Listeners

isso não se diz by Bruno Nogueira

isso não se diz

10 Listeners

Economia dia a dia by Juliana Simões

Economia dia a dia

0 Listeners

Português Suave by Observador

Português Suave

3 Listeners