视觉语言模型可视化
Published:
一个关于视觉语言模型可视化的总结,非常直观!
主要包含以下内容:像素和标记数据流(the pixel and token data flow),以及张量转换(tensor transformations),上下文窗口(the context window)、多头注意(Multi-Head Attention)、分组查询注意(Grouped-Query Attention)和滑动窗口注意(Sliding-Window Attention)。探索自回归的本质以及空间推理的局限性(spatial reasoning limitations)。