Skip to content

PaddleNLP 快乐开源活动 (2025 H1) 🎉 #9763

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Open
DrownFish19 opened this issue Jan 9, 2025 · 22 comments
Open

PaddleNLP 快乐开源活动 (2025 H1) 🎉 #9763

DrownFish19 opened this issue Jan 9, 2025 · 22 comments
Assignees
Labels
others unknown issue type

Comments

@DrownFish19
Copy link
Collaborator

DrownFish19 commented Jan 9, 2025

问题描述

📣PaddleNLP 快乐开源活动

旨在鼓励更多的开发者参与到飞桨大模型套件的开源建设中,帮助社区修复 bug 或贡献 feature,共建飞桨。

🔥热身任务

跑通 Qwen2 的训练流程,通过完成本任务,可以收获如何进行大语言模型预训练和微调,也可以快速上手PaddleNLP。

🌈命题任务

命题任务是我们总结整理大模型套件的需求得出,每个任务上标注了任务难度,大家可以选择参与。欢迎对这些需求感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中,你能进行包括任务分解、代码撰写等工作,还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么,快来参与吧。🎉🎉

认领方式

请大家以 comment 的形式认领任务,如:
【报名】:1、3、12-13

多个任务之间需要使用中文顿号分隔,报名多个连续任务可用横线表示,如 2-5
PR 提交格式:在 PR 的标题中以【PaddleNLP No.xxx】开头,注明任务编号

任务列表

mentor:@DrownFish19 @ZHUI

大语言模型训练

当前训练文档从资深开发者角度出发,说明了如何使用paddlenlp进行训练,但是还缺少详细说明。快乐开源以新手视角重新审视文档,希望结合数据制作、模型训练和参数调优等方面详细介绍说明如何上手paddlenlp。不用担心自己没有经验,我们欢迎所有开发者前来体验,如果有任何问题欢迎提出issue(24小时内回复)。

验收标准:在星河平台(aistudio)构建训练文档后,导出notebook为markdown格式,上传至PaddleNLP/llm/docs/目录。(导出后显示细节可能存在差异,请检查修改)

序号 任务名称 任务类型 任务描述 难度 优先级 认领人/状态/PR号
1 预训练文档 文档 扩充预训练文档,补充完善实例教程至星河社区 🌟 P1 @ZJhorseloudly
@HangFu7
@Echo-Nie #10506
2 精调文档 文档 扩充精调训练文档,补充完善实例教程至星河社区 🌟 P0 @ZJhorseloudly
@HangFu7
@hanlintang #10625
3 对齐文档 文档 扩充对齐训练文档,补充完善实例教程至星河社区 🌟 P0 @HangFu7
@hanlintang #10631
4 量化文档 文档 扩充量化文档,补充完善实例教程至星河社区 🌟 P1 @HangFu7
@hanlintang #10640

小模型Paddle 高扩展中间表示PIR适配

飞桨框架3.0 Beta 版本延续了2.x版本动静统一、训推一体的设计理念,其开发接口全面兼容2.x版本。这意味着,使用2.x版本开发的代码,在绝大多数情况下无需修改,即可直接在3.x版本上运行。其中高扩展中间表示PIR(Paddle Intermediate Representation)作为升级功能点之一,支撑着动转静、自动微分、自动并行、组合算子、图优化等多项技术,并广泛应用于分布式训练、模型压缩、推理部署等场景。通过PIR提供的DRR(Declarative Rewrite Rule)机制,Pass的开发成本可以降低60%。我们对超过900个模型配置进行了测试,结果显示,在使用PIR后,推理的整体性能提升了超过10%。但是当前小模型适配PIR的并没有全部验证修改,亟需开发者参与适配。

任务要求:修复特定模型或特定任务,完成PIR模型动转静验证,并在CI运行脚本(scripts/regression/ci_case.sh)增加对应的测试用例。
修改示范:

from paddlenlp.utils.env import PADDLE_INFERENCE_MODEL_SUFFIX, PADDLE_INFERENCE_WEIGHTS_SUFFIX

# static_model_name = "xxx.pdmodel"
static_model_name = f"xxx{PADDLE_INFERENCE_MODEL_SUFFIX}"
# static_model_path = "xxx.pdiparams"
static_model_path = f"xxx{PADDLE_INFERENCE_WEIGHTS_SUFFIX}"
NO 任务名称 任务类型 任务描述 难度 优先级 认领人/状态/PR号
5 slm/applications/neural_search 代码和文档 PIR适配 🌟 P2 @hanlintang #10352 #10399 #10398 #10397 #10396
6 slm/applications/text_classification 代码和文档 PIR适配 🌟 P2 @VVX94
@hanlintang #10497
7 slm/examples/information_extraction 代码和文档 PIR适配 🌟 P2 @VVX94
@Echo-Nie #10469
8 slm/examples/lexical_analysis 代码和文档 PIR适配 🌟 P2 @VVX94
@Echo-Nie #10470
9 slm/examples/machine_reading_comprehension 代码和文档 PIR适配 🌟 P2 @hanlintang #10445
10 slm/examples/machine_translation 代码和文档 PIR适配 🌟 P2 @hanlintang
11 slm/examples/model_compression/pp-minilm 代码和文档 PIR适配 🌟 P2 @hanlintang
12 slm/examples/question_generation/unimo-text 代码和文档 PIR适配 🌟 P2 @hanlintang
13 slm/examples/sentiment_analysis 代码和文档 PIR适配 🌟 P2 @hanlintang #10454
14 slm/examples/text_correction/ernie-csc 代码和文档 PIR适配 🌟 P2 @hanlintang
15 slm/examples/text_matching/ernie_matching 代码和文档 PIR适配 🌟 P2 @hanlintang #10453
16 slm/examples/text_summarization/unimo-text 代码和文档 PIR适配 🌟 P2 @hanlintang
17 slm/examples/text_to_knowledge/nptag 代码和文档 PIR适配 🌟 P2 @hanlintang
18 slm/model_zoo/bert 代码和文档 PIR适配 🌟 P2 @hanlintang #10422
19 slm/model_zoo/ernie-1.0 代码和文档 PIR适配 🌟 P2 @hanlintang #10426
20 slm/model_zoo/ernie-3.0 代码和文档 PIR适配 🌟 P2 @hanlintang #10475
21 slm/model_zoo/ernie-3.0-tiny 代码和文档 PIR适配 🌟 P2 @hanlintang #10480
22 slm/model_zoo/ernie-layout 代码和文档 PIR适配 🌟 P2 @hanlintang #10484
23 slm/model_zoo/ernie-vil2.0 代码和文档 PIR适配 🌟 P2 @Echo-Nie #10481
24 slm/model_zoo/gpt-3/ppfleetx/core/engine 代码和文档 PIR适配 🌟 P2 @Echo-Nie #10466
25 slm/model_zoo/uie 代码和文档 PIR适配 🌟 P2 @Echo-Nie #10482
26 slm/pipelines/pipelines/nodes/document 代码和文档 PIR适配 🌟 P2 @hanlintang #10394
27 llm/server/server/server/engine/infer.py 代码和文档 PIR适配 🌟 P2 @hanlintang #10379
28 tests/experimental/autonlp 代码和文档 PIR适配 🌟 P2 @hanlintang #10456
29 tests/test_tipc/bert_base_text_cls 代码和文档 PIR适配 🌟 P2 @hanlintang #10465
30 tests/test_tipc/bigru_crf 代码和文档 PIR适配 🌟 P2 @hanlintang #10465
31 tests/test_tipc/ernie_information_extraction 代码和文档 PIR适配 🌟 P2 @hanlintang #10465
32 tests/test_tipc/ernie_text_cls 代码和文档 PIR适配 🌟 P2 @hanlintang #10465
33 tests/test_tipc/ernie_text_matching 代码和文档 PIR适配 🌟 P2 @Echo-Nie #10460
34 tests/transformers/chatglm 代码和文档 PIR适配 🌟 P2 @hanlintang #10456
35 tests/transformers/test_generation_utils.py 代码和文档 PIR适配 🌟 P2 @hanlintang #10456

看板信息

任务方向 任务数量 提交作品 / 任务认领 提交率 完成 完成率
飞桨大语言模型快乐开源活动 35 29 / 35 82.86% 26 74.29%

统计信息

排名不分先后 @Echo-Nie (7) @hanlintang (19)

@DrownFish19 DrownFish19 added the others unknown issue type label Jan 9, 2025
@DrownFish19 DrownFish19 pinned this issue Jan 10, 2025
@luotao1 luotao1 assigned luotao1 and DrownFish19 and unassigned DesmonDay Feb 8, 2025
@luotao1 luotao1 moved this to In Progress in Call for Contributions Feb 20, 2025
@luotao1 luotao1 changed the title PaddleNLP 快乐开源活动 (2025 Q1) (预览版)🎉 PaddleNLP 快乐开源活动 (2025 H1) 🎉 Feb 27, 2025
@ZJhorseloudly
Copy link

【报名】:1-2

@hanlintang
Copy link
Contributor

【报名】:5

@hanlintang
Copy link
Contributor

【报名】:27

@hanlintang
Copy link
Contributor

【报名】:26

@VVX94
Copy link

VVX94 commented Apr 15, 2025

【报名】:6-8

@hanlintang
Copy link
Contributor

【报名】:18、19

@hanlintang
Copy link
Contributor

【报名】:17

@hanlintang
Copy link
Contributor

【报名】:9

@hanlintang
Copy link
Contributor

【报名】:10-16

@hanlintang
Copy link
Contributor

【报名】:20、21、29

@Echo-Nie
Copy link
Contributor

【报名】:33

@HangFu7
Copy link

HangFu7 commented Apr 22, 2025

【报名】:1-4

@hanlintang
Copy link
Contributor

【报名】:30-32

@Echo-Nie
Copy link
Contributor

【报名】:24

@Echo-Nie
Copy link
Contributor

Echo-Nie commented Apr 23, 2025

【报名】:7、8

@hanlintang
Copy link
Contributor

【报名】:22

@Echo-Nie
Copy link
Contributor

【报名】:23、25

@hanlintang
Copy link
Contributor

hanlintang commented Apr 24, 2025

目前PIR任务12、14由于版本变化已经不在dev分支;任务11、17由于版本变更部分云端依赖文件有变动;10、16模型导出代码暂时无法正常运行。
以上任务与mentor讨论后暂时跳过,请各位同学领取任务的时候优先考虑其他任务,并且注意代码是否可以正常运行。

@hanlintang
Copy link
Contributor

【报名】:6

@Echo-Nie
Copy link
Contributor

【报名】:1

@hanlintang
Copy link
Contributor

【报名】:2、3、4

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
others unknown issue type
Projects
Status: In Progress
Development

No branches or pull requests

8 participants