Misreading Chat

#131: FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness


Listen Later

CUDA で書かれた PyTorch 用カーネルに森田が玉砕しました。ご意見感想などは Reddit やおたより投書箱にお寄せください。iTunes のレビューや星もよろしくね。

  • [2205.14135] FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness
  • GitHub – Dao-AILab/flash-attention: Fast and memory-efficient exact attention
  • GitHub – NVIDIA/apex: A PyTorch Extension: Tools for easy mixed precision and distributed training in Pytorch
  • [2307.08691] FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning
  • [2112.05682] Self-attention Does Not Need $O(n^2)$ Memory
  • GitHub – tspeterkim/flash-attention-minimal: Flash Attention in ~100 lines of CUDA (forward pass only)
  • ...more
    View all episodesView all episodes
    Download on the App Store

    Misreading ChatBy Hajime Morrita, Jun Mukai

    • 5
    • 5
    • 5
    • 5
    • 5

    5

    6 ratings


    More shows like Misreading Chat

    View all
    歴史を面白く学ぶコテンラジオ (COTEN RADIO) by COTEN inc.

    歴史を面白く学ぶコテンラジオ (COTEN RADIO)

    243 Listeners

    超相対性理論 by 超相対性理論

    超相対性理論

    17 Listeners

    ゆるコンピュータ科学ラジオ by ゆるコンピュータ科学ラジオ

    ゆるコンピュータ科学ラジオ

    21 Listeners

    リファクタリングとともに生きるラジオ by リファラジ

    リファクタリングとともに生きるラジオ

    0 Listeners

    日本一たのしい哲学ラジオ by 日本一たのしい哲学ラジオ

    日本一たのしい哲学ラジオ

    10 Listeners

    ぽこピーのゆめうつつ by POKOPEA

    ぽこピーのゆめうつつ

    5 Listeners