在 RULER 基准测试上,不同块大小对Star Attention准确性的影响,块大小范围从4K到32K,适用于序列长度为128K的Llama-3.1-8B instruct 模型 ...