总结的很好,有一个小问题 ```python if attention_mask != None: attention_scores += attention_mask * -1e-9 ``` 这里这个值应该是-1e9