Sign up to save your podcastsEmail addressPasswordRegisterOrContinue with GoogleAlready have an account? Log in here.
June 20, 2025AbsenceBench: Language models can't tell what's missing3 minutesPlay大規模言語モデル(LLM)は、長い文章から特定の情報を見つけるのは得意だが、欠落した情報を特定するのは苦手であるという研究(AbsenceBench)。数値シーケンス、詩、GitHubのプルリクエストといったドメインで、LLMに意図的に削除された情報を特定させる実験を行った結果、最先端モデルでも性能が低いことが判明。Transformerの注意機構が、欠落に対応する特定のキーに注意を払うのが難しいことが原因だと分析している。...moreShareView all episodesBy Tech Podcast BotJune 20, 2025AbsenceBench: Language models can't tell what's missing3 minutesPlay大規模言語モデル(LLM)は、長い文章から特定の情報を見つけるのは得意だが、欠落した情報を特定するのは苦手であるという研究(AbsenceBench)。数値シーケンス、詩、GitHubのプルリクエストといったドメインで、LLMに意図的に削除された情報を特定させる実験を行った結果、最先端モデルでも性能が低いことが判明。Transformerの注意機構が、欠落に対応する特定のキーに注意を払うのが難しいことが原因だと分析している。...more
大規模言語モデル(LLM)は、長い文章から特定の情報を見つけるのは得意だが、欠落した情報を特定するのは苦手であるという研究(AbsenceBench)。数値シーケンス、詩、GitHubのプルリクエストといったドメインで、LLMに意図的に削除された情報を特定させる実験を行った結果、最先端モデルでも性能が低いことが判明。Transformerの注意機構が、欠落に対応する特定のキーに注意を払うのが難しいことが原因だと分析している。
June 20, 2025AbsenceBench: Language models can't tell what's missing3 minutesPlay大規模言語モデル(LLM)は、長い文章から特定の情報を見つけるのは得意だが、欠落した情報を特定するのは苦手であるという研究(AbsenceBench)。数値シーケンス、詩、GitHubのプルリクエストといったドメインで、LLMに意図的に削除された情報を特定させる実験を行った結果、最先端モデルでも性能が低いことが判明。Transformerの注意機構が、欠落に対応する特定のキーに注意を払うのが難しいことが原因だと分析している。...more
大規模言語モデル(LLM)は、長い文章から特定の情報を見つけるのは得意だが、欠落した情報を特定するのは苦手であるという研究(AbsenceBench)。数値シーケンス、詩、GitHubのプルリクエストといったドメインで、LLMに意図的に削除された情報を特定させる実験を行った結果、最先端モデルでも性能が低いことが判明。Transformerの注意機構が、欠落に対応する特定のキーに注意を払うのが難しいことが原因だと分析している。