Assistive AI

OpenAI의 새로운 오픈 소스 평가 도구인 HealthBench에 대해


Listen Later

OpenAI의 새로운 오픈 소스 평가 도구인 HealthBench에 대해 설명합니다. 이 도구는 대규모 언어 모델(LLMs)이 현실적인 의료 시나리오에서 얼마나 잘 작동하고 안전한지 측정하도록 설계되었습니다. HealthBench는 5,000개의 다중 턴 대화를 활용하고, 모델의 응답은 의사들이 작성한 특정 사례별 기준에 따라 평가됩니다. 이 새로운 접근 방식은 기존의 단순한 객관식 시험 형식에서 벗어나 임상적 정확성, 의사소통 명확성 등 다양한 행동적 특성을 평가합니다.

...more
View all episodesView all episodes
Download on the App Store

Assistive AIBy Hyun W. Ka | 가현욱