May 13, 2025

OpenAI의 새로운 오픈 소스 평가 도구인 HealthBench에 대해

7 minutes

OpenAI의 새로운 오픈 소스 평가 도구인 HealthBench에 대해 설명합니다. 이 도구는 대규모 언어 모델(LLMs)이 현실적인 의료 시나리오에서 얼마나 잘 작동하고 안전한지 측정하도록 설계되었습니다. HealthBench는 5,000개의 다중 턴 대화를 활용하고, 모델의 응답은 의사들이 작성한 특정 사례별 기준에 따라 평가됩니다. 이 새로운 접근 방식은 기존의 단순한 객관식 시험 형식에서 벗어나 임상적 정확성, 의사소통 명확성 등 다양한 행동적 특성을 평가합니다.

...more

View all episodes

By Hyun W. Ka | 가현욱

May 13, 2025

OpenAI의 새로운 오픈 소스 평가 도구인 HealthBench에 대해

7 minutes

...more

Share OpenAI의 새로운 오픈 소스 평가 도구인 HealthBench에 대해

Sign up to save your podcasts

OpenAI의 새로운 오픈 소스 평가 도구인 HealthBench에 대해

OpenAI의 새로운 오픈 소스 평가 도구인 HealthBench에 대해