轻松将网页文章(博客、新闻、文档等)转换为 Markdown
格式。
墨探的开发初衷,是为了解决一个问题:如何将来自互联网上各种不同网站的文章内容,精准且高效地转换成统一的Markdown格式。
众所周知,万维网上的网站设计风格迥异,其HTML结构也呈现出千差万别的特点。这种多样性给自动化内容提取和格式转换带来了巨大的困难。要实现一个能够适应各种复杂HTML结构的通用解决方案,并非易事。
我的想法是:从特定的网站开始适配,以点到面,逐步抽取出通用的解决方案,最后尽可能多的覆盖更多网站。
- 支持大部分 html 元素转换
- 部分页面支持katex公式转换(示例:https://quantum.country/qcvc)
- 部分页面支持github gist(示例:https://towardsdatascience.com/hands-on-multi-agent-llm-restaurant-simulation-with-python-and-openai)
- 支持保存成文件或输出至
stdout
- 支持突破某些网站的防爬虫策略(需安装插件)
以下是一些网站示例,大家可以自己测试下效果。
站点 | 链接 | 备注 |
---|---|---|
Medium | link | |
csdn | link | |
掘金 | link | |
知乎专栏 | link | 需安装插件 |
公众号 | link | |
今日头条 | link | 需安装插件 |
网易 | link | |
简书 | link | |
Freedium | link | 需安装插件 |
Towards Data Science | link | |
Quantamagazine | link | |
Apple Developer Documentation | link | 需安装插件 |
- 安装
pip install omni-article-markdown
- 运行说明
仅转换
mdcli https://example.com
保存到当前目录
mdcli https://example.com -s
保存到指定路径
mdcli https://example.com -s /home/user/
安装插件
安装插件和pip
命令格式相同:
mdcli install <PLUGIN_NAME_OR_PACKAGE_NAME> [-U] [-e]
示例:安装知乎解析插件
mdcli install zhihu
或者,你可以使用 -e
参数安装本地可编辑的包。
mdcli install -e "./plugins/omnimd-zhihu-reader"
升级插件
mdcli install zhihu -U
卸载插件
如果你想移除一个已安装的插件,可以使用 mdcli
提供的 uninstall
命令。
mdcli uninstall zhihu
或者,使用插件的全称删除
mdcli uninstall omnimd-zhihu-reader
已支持的插件
目前已发布4个插件,你可以按需安装:
命令 | 说明 |
---|---|
mdcli install zhihu |
知乎专栏 |
mdcli install toutiao |
今日头条 |
mdcli install freedium |
Freedium |
mdcli install appledev |
Apple Developer Documentation |
开发自己的插件
文档编写中。
墨探主要分为三个模块:
- Reader 模块的功能是读取整个网页内容
- Extractor 模块的功能是提取正文内容,清理无用数据
- Parser 模块的功能是将 HTML 转换为 Markdown
- 发现解析问题?欢迎提交 Issue
- 改进解析?欢迎贡献 Pull Request
- 开发插件?文档正在筹备中
如果您觉得不错,可以给我家猫咪买点罐头吃。喂猫❤️
MIT License