Skip to content

一次性爬取论文过多时,导致调用API触发限制而失败。 #42

@dangerwolf

Description

@dangerwolf

可能自己的仓库选择多了,导致第一次运行构建的时候,一次性爬取了400~700篇论文,导致触发API调用的rate limit,而导致重复失败。

期间不断更换其他免费薅羊毛的免费API,都因触发API的rate limit而失败。|
而原代码构建失败之后不会保存已爬取论文的记录,每次Action build时都会重新花费30+分钟进行论文数据爬取;
并且在Action 运行中,调用AI Enhance那部分,一旦发生任何“错误”都会导致整个失败。比如我曾遇到过,爬取的几百篇论文中只有一篇论文因为某些原因,调用API失败后,导致其他几百篇即使都AI Enhance顺利,最终也没有完整生成页面的内容。

建议如下改进:

  1. 增加API调用的延迟环境变量,用户可以根据自己的需求,进行必要的调用延迟等待,以防触发限制;
  2. 增加Action过程中,爬取论文的临时保存,以防止调用LLM API出问题时,再运行需要重新爬取论文数据;
  3. 如果,如果,如果,有可能的话,是否可以将Keywords作为爬取条件,以防止爬取的“多余”的论文。

作者的这个项目,非常好,真的很棒。作者加油!!!!

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Projects

    Status

    No status

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions