PaddleNLP 快乐开源活动 (2025 H1) 🎉 #9763

DrownFish19 · 2025-01-09T12:14:00Z

问题描述

📣PaddleNLP 快乐开源活动

旨在鼓励更多的开发者参与到飞桨大模型套件的开源建设中，帮助社区修复 bug 或贡献 feature，共建飞桨。

🔥热身任务

跑通 Qwen2 的训练流程，通过完成本任务，可以收获如何进行大语言模型预训练和微调，也可以快速上手PaddleNLP。

【PaddleNLP 3.0】大模型训练精调对齐一站式开发 - 飞桨AI Studio星河社区

🌈命题任务

命题任务是我们总结整理大模型套件的需求得出，每个任务上标注了任务难度，大家可以选择参与。欢迎对这些需求感兴趣的开发者参与到这些任务的开发✌️✌️。在开发过程中，你能进行包括任务分解、代码撰写等工作，还会有飞桨的研发全程和你一起解决可能遇到的问题。还等什么，快来参与吧。🎉🎉

认领方式

请大家以 comment 的形式认领任务，如：
【报名】：1、3、12-13

多个任务之间需要使用中文顿号分隔，报名多个连续任务可用横线表示，如 2-5
PR 提交格式：在 PR 的标题中以【PaddleNLP No.xxx】开头，注明任务编号

任务列表

mentor：@DrownFish19 @ZHUI

大语言模型训练

当前训练文档从资深开发者角度出发，说明了如何使用paddlenlp进行训练，但是还缺少详细说明。快乐开源以新手视角重新审视文档，希望结合数据制作、模型训练和参数调优等方面详细介绍说明如何上手paddlenlp。不用担心自己没有经验，我们欢迎所有开发者前来体验，如果有任何问题欢迎提出issue（24小时内回复）。

验收标准：在星河平台（aistudio）构建训练文档后，导出notebook为markdown格式，上传至PaddleNLP/llm/docs/目录。（导出后显示细节可能存在差异，请检查修改）

序号	任务名称	任务类型	任务描述	难度	优先级	认领人/状态/PR号
1	预训练文档	文档	扩充预训练文档，补充完善实例教程至星河社区	🌟	P1	@ZJhorseloudly @HangFu7 @Echo-Nie #10506
2	精调文档	文档	扩充精调训练文档，补充完善实例教程至星河社区	🌟	P0	@ZJhorseloudly @HangFu7 @hanlintang #10625
3	对齐文档	文档	扩充对齐训练文档，补充完善实例教程至星河社区	🌟	P0	@HangFu7 @hanlintang #10631
4	量化文档	文档	扩充量化文档，补充完善实例教程至星河社区	🌟	P1	@HangFu7 @hanlintang #10640

小模型Paddle 高扩展中间表示PIR适配

飞桨框架3.0 Beta 版本延续了2.x版本动静统一、训推一体的设计理念，其开发接口全面兼容2.x版本。这意味着，使用2.x版本开发的代码，在绝大多数情况下无需修改，即可直接在3.x版本上运行。其中高扩展中间表示PIR（Paddle Intermediate Representation）作为升级功能点之一，支撑着动转静、自动微分、自动并行、组合算子、图优化等多项技术，并广泛应用于分布式训练、模型压缩、推理部署等场景。通过PIR提供的DRR（Declarative Rewrite Rule）机制，Pass的开发成本可以降低60%。我们对超过900个模型配置进行了测试，结果显示，在使用PIR后，推理的整体性能提升了超过10%。但是当前小模型适配PIR的并没有全部验证修改，亟需开发者参与适配。

任务要求：修复特定模型或特定任务，完成PIR模型动转静验证，并在CI运行脚本（scripts/regression/ci_case.sh）增加对应的测试用例。
修改示范：

from paddlenlp.utils.env import PADDLE_INFERENCE_MODEL_SUFFIX, PADDLE_INFERENCE_WEIGHTS_SUFFIX

# static_model_name = "xxx.pdmodel"
static_model_name = f"xxx{PADDLE_INFERENCE_MODEL_SUFFIX}"
# static_model_path = "xxx.pdiparams"
static_model_path = f"xxx{PADDLE_INFERENCE_WEIGHTS_SUFFIX}"

NO	任务名称	任务类型	任务描述	难度	优先级	认领人/状态/PR号
5	slm/applications/neural_search	代码和文档	PIR适配	🌟	P2	@hanlintang #10352 #10399 #10398 #10397 #10396
6	slm/applications/text_classification	代码和文档	PIR适配	🌟	P2	@VVX94 @hanlintang #10497
7	slm/examples/information_extraction	代码和文档	PIR适配	🌟	P2	@VVX94 @Echo-Nie #10469
8	slm/examples/lexical_analysis	代码和文档	PIR适配	🌟	P2	@VVX94 @Echo-Nie #10470
9	slm/examples/machine_reading_comprehension	代码和文档	PIR适配	🌟	P2	@hanlintang #10445
10	~~slm/examples/machine_translation~~	代码和文档	PIR适配	🌟	P2	@hanlintang
11	~~slm/examples/model_compression/pp-minilm~~	代码和文档	PIR适配	🌟	P2	@hanlintang
12	~~slm/examples/question_generation/unimo-text~~	代码和文档	PIR适配	🌟	P2	@hanlintang
13	slm/examples/sentiment_analysis	代码和文档	PIR适配	🌟	P2	@hanlintang #10454
14	~~slm/examples/text_correction/ernie-csc~~	代码和文档	PIR适配	🌟	P2	@hanlintang
15	slm/examples/text_matching/ernie_matching	代码和文档	PIR适配	🌟	P2	@hanlintang #10453
16	~~slm/examples/text_summarization/unimo-text~~	代码和文档	PIR适配	🌟	P2	@hanlintang
17	~~slm/examples/text_to_knowledge/nptag~~	代码和文档	PIR适配	🌟	P2	@hanlintang
18	slm/model_zoo/bert	代码和文档	PIR适配	🌟	P2	@hanlintang #10422
19	slm/model_zoo/ernie-1.0	代码和文档	PIR适配	🌟	P2	@hanlintang #10426
20	slm/model_zoo/ernie-3.0	代码和文档	PIR适配	🌟	P2	@hanlintang #10475
21	slm/model_zoo/ernie-3.0-tiny	代码和文档	PIR适配	🌟	P2	@hanlintang #10480
22	slm/model_zoo/ernie-layout	代码和文档	PIR适配	🌟	P2	@hanlintang #10484
23	slm/model_zoo/ernie-vil2.0	代码和文档	PIR适配	🌟	P2	@Echo-Nie #10481
24	slm/model_zoo/gpt-3/ppfleetx/core/engine	代码和文档	PIR适配	🌟	P2	@Echo-Nie #10466
25	slm/model_zoo/uie	代码和文档	PIR适配	🌟	P2	@Echo-Nie #10482
26	slm/pipelines/pipelines/nodes/document	代码和文档	PIR适配	🌟	P2	@hanlintang #10394
27	llm/server/server/server/engine/infer.py	代码和文档	PIR适配	🌟	P2	@hanlintang #10379
28	tests/experimental/autonlp	代码和文档	PIR适配	🌟	P2	@hanlintang #10456
29	tests/test_tipc/bert_base_text_cls	代码和文档	PIR适配	🌟	P2	@hanlintang #10465
30	tests/test_tipc/bigru_crf	代码和文档	PIR适配	🌟	P2	@hanlintang #10465
31	tests/test_tipc/ernie_information_extraction	代码和文档	PIR适配	🌟	P2	@hanlintang #10465
32	tests/test_tipc/ernie_text_cls	代码和文档	PIR适配	🌟	P2	@hanlintang #10465
33	tests/test_tipc/ernie_text_matching	代码和文档	PIR适配	🌟	P2	@Echo-Nie #10460
34	tests/transformers/chatglm	代码和文档	PIR适配	🌟	P2	@hanlintang #10456
35	tests/transformers/test_generation_utils.py	代码和文档	PIR适配	🌟	P2	@hanlintang #10456

看板信息

任务方向	任务数量	提交作品 / 任务认领	提交率	完成	完成率
飞桨大语言模型快乐开源活动	35	29 / 35	82.86%	26	74.29%

统计信息

排名不分先后 @Echo-Nie (7) @hanlintang (19)

ZJhorseloudly · 2025-03-26T03:03:45Z

【报名】：1-2

hanlintang · 2025-04-05T13:20:12Z

【报名】：5

hanlintang · 2025-04-08T13:19:30Z

【报名】：27

hanlintang · 2025-04-10T09:03:54Z

【报名】：26

VVX94 · 2025-04-15T01:36:16Z

【报名】：6-8

hanlintang · 2025-04-15T03:24:08Z

【报名】：18、19

hanlintang · 2025-04-16T09:50:41Z

【报名】：17

hanlintang · 2025-04-18T07:01:38Z

【报名】：9

hanlintang · 2025-04-18T13:02:34Z

【报名】：10-16

hanlintang · 2025-04-22T07:35:02Z

【报名】：20、21、29

Echo-Nie · 2025-04-22T07:39:02Z

【报名】：33

HangFu7 · 2025-04-22T12:48:46Z

【报名】：1-4

hanlintang · 2025-04-22T14:25:09Z

【报名】：30-32

Echo-Nie · 2025-04-22T16:22:15Z

【报名】：24

Echo-Nie · 2025-04-23T02:11:13Z

【报名】：7、8

hanlintang · 2025-04-23T14:48:38Z

【报名】：22

Echo-Nie · 2025-04-24T00:25:38Z

【报名】：23、25

hanlintang · 2025-04-24T04:00:37Z

目前PIR任务12、14由于版本变化已经不在dev分支；任务11、17由于版本变更部分云端依赖文件有变动；10、16模型导出代码暂时无法正常运行。
以上任务与mentor讨论后暂时跳过，请各位同学领取任务的时候优先考虑其他任务，并且注意代码是否可以正常运行。

hanlintang · 2025-04-24T05:57:18Z

【报名】：6

Echo-Nie · 2025-04-26T11:32:37Z

【报名】：1

hanlintang · 2025-05-06T14:47:40Z

【报名】：2、3、4

DrownFish19 added the others unknown issue type label Jan 9, 2025

paddle-bot bot assigned DesmonDay Jan 9, 2025

DrownFish19 pinned this issue Jan 10, 2025

luotao1 assigned luotao1 and DrownFish19 and unassigned DesmonDay Feb 8, 2025

luotao1 added this to Call for Contributions Feb 8, 2025

luotao1 moved this to In Progress in Call for Contributions Feb 20, 2025

luotao1 changed the title ~~PaddleNLP 快乐开源活动 (2025 Q1) （预览版）🎉~~ PaddleNLP 快乐开源活动 (2025 H1) 🎉 Feb 27, 2025

sunzhongkai588 mentioned this issue Mar 7, 2025

【HACKATHON 预备营】飞桨启航计划集训营（第五期） PaddlePaddle/Paddle#71491

Open

hanlintang mentioned this issue Apr 7, 2025

【PaddleNLP No. 5】updates the In-Batch Negative Recall model to support the PIR #10352

Merged

hanlintang mentioned this issue Apr 10, 2025

【PaddleNLP No.27】update infer.py to support pir #10379

Merged

This was referenced Apr 16, 2025

【PaddleNLP No.18】Create new infer example for BERT validated on pd3.0 #10422

Merged

【PaddleNLP No.19】Create ernie1.0 infer example to fit pd3.0.0 #10426

Merged

ZHUI mentioned this issue Apr 18, 2025

[Bug]: export静态图无报错但没有pdmodel文件 #10415

Open

1 task

hanlintang mentioned this issue Apr 18, 2025

【PaddleNLP No.9】 Fix machine_reading_comprehension SQuAD #10445

Merged

hanlintang mentioned this issue Apr 21, 2025

【PaddleNLP No.28、34、35】 Fix pir in comments #10456

Merged

hanlintang mentioned this issue Apr 22, 2025

【PaddleNLP No.29-32】Fix test_tipc configs/inference/docs #10465

Merged

Echo-Nie mentioned this issue Apr 22, 2025

【PaddleNLP No.33】 Fix pir in ernie_text_matching #10460

Merged

Echo-Nie mentioned this issue Apr 22, 2025

【PaddleNLP No.24】 Fix pir in inference_engine.py #10466

Merged

This was referenced Apr 23, 2025

【PaddleNLP No.7】 Fix pir in information_extraction #10469

Merged

【PaddleNLP No.8】 Fix pir in lexical_analysis #10470

Merged

This was referenced Apr 23, 2025

【PaddleNLP No.20】Create ernie-3.0 deploy with paddle.inference & add training without hf #10475

Merged

【PaddleNLP No.21】Create paddle.inference infer example for ernie-3.0-tiny #10480

Merged

This was referenced Apr 24, 2025

【PaddleNLP No.23】 Fix pir in ernie-vil2.0 #10481

Merged

【PaddleNLP No.25】 Fix pir in uie #10482

Merged

hanlintang mentioned this issue Apr 24, 2025

【PaddleNLP No.22】Fix PIR for ernie-layout #10484

Merged

This was referenced Apr 25, 2025

【PaddleNLP No.6】Fix text_classification PIR #10497

Merged

[PIR] Update paddle.inference infer example for Ernie-vil2.0 #10500

Merged

Echo-Nie mentioned this issue Apr 27, 2025

【PaddleNLP No.1】 add pretrain.md #10506

Merged

This was referenced May 18, 2025

[Docs] Add llm pretrain tutorial #10611

Open

【PaddleNLP No.2】Add finetune tutorial #10625

Open

【PaddleNLP No.3】Add alignment tutorial #10631

Open

【PaddleNLP No.4】 Add quant tutorial #10640

Open

PaddleNLP 快乐开源活动 (2025 H1) 🎉 #9763

PaddleNLP 快乐开源活动 (2025 H1) 🎉 #9763

Comments

DrownFish19 commented Jan 9, 2025 • edited by luotao1 Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

问题描述

📣PaddleNLP 快乐开源活动

🔥热身任务

🌈命题任务

认领方式

任务列表

大语言模型训练

小模型Paddle 高扩展中间表示PIR适配

看板信息

统计信息

ZJhorseloudly commented Mar 26, 2025

Uh oh!

hanlintang commented Apr 5, 2025

Uh oh!

hanlintang commented Apr 8, 2025

Uh oh!

hanlintang commented Apr 10, 2025

Uh oh!

VVX94 commented Apr 15, 2025

Uh oh!

hanlintang commented Apr 15, 2025

Uh oh!

hanlintang commented Apr 16, 2025

Uh oh!

hanlintang commented Apr 18, 2025

Uh oh!

hanlintang commented Apr 18, 2025

Uh oh!

hanlintang commented Apr 22, 2025

Uh oh!

Echo-Nie commented Apr 22, 2025

Uh oh!

HangFu7 commented Apr 22, 2025

Uh oh!

hanlintang commented Apr 22, 2025

Uh oh!

Echo-Nie commented Apr 22, 2025

Uh oh!

Echo-Nie commented Apr 23, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

hanlintang commented Apr 23, 2025

Uh oh!

Echo-Nie commented Apr 24, 2025

Uh oh!

hanlintang commented Apr 24, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

hanlintang commented Apr 24, 2025

Uh oh!

Echo-Nie commented Apr 26, 2025

Uh oh!

hanlintang commented May 6, 2025

Uh oh!

DrownFish19 commented Jan 9, 2025 •

edited by luotao1

Loading

Echo-Nie commented Apr 23, 2025 •

edited

Loading

hanlintang commented Apr 24, 2025 •

edited

Loading