Skip to content

墨探 - 轻松将网页文章(博客、新闻、文档等)转换为 Markdown 格式

License

Notifications You must be signed in to change notification settings

caol64/omni-article-markdown

Repository files navigation

墨探 (omni-article-markdown)

轻松将网页文章(博客、新闻、文档等)转换为 Markdown 格式。


项目简介

墨探的开发初衷,是为了解决一个问题:如何将来自互联网上各种不同网站的文章内容,精准且高效地转换成统一的Markdown格式。

众所周知,万维网上的网站设计风格迥异,其HTML结构也呈现出千差万别的特点。这种多样性给自动化内容提取和格式转换带来了巨大的困难。要实现一个能够适应各种复杂HTML结构的通用解决方案,并非易事。

我的想法是:从特定的网站开始适配,以点到面,逐步抽取出通用的解决方案,最后尽可能多的覆盖更多网站。


功能介绍

以下是一些网站示例,大家可以自己测试下效果。

站点 链接 备注
Medium link
csdn link
掘金 link
知乎专栏 link 需安装插件
公众号 link
今日头条 link 需安装插件
网易 link
简书 link
Freedium link 需安装插件
Towards Data Science link
Quantamagazine link
Apple Developer Documentation link 需安装插件

快速开始

  1. 安装
pip install omni-article-markdown
  1. 运行说明

仅转换

mdcli https://example.com

保存到当前目录

mdcli https://example.com -s

保存到指定路径

mdcli https://example.com -s /home/user/

插件机制

「墨探」是如何使用插件机制构建可扩展架构的

安装插件

安装插件和pip命令格式相同:

mdcli install <PLUGIN_NAME_OR_PACKAGE_NAME> [-U] [-e]

示例:安装知乎解析插件

mdcli install zhihu

或者,你可以使用 -e 参数安装本地可编辑的包。

mdcli install -e "./plugins/omnimd-zhihu-reader"

升级插件

mdcli install zhihu -U

卸载插件

如果你想移除一个已安装的插件,可以使用 mdcli 提供的 uninstall 命令。

mdcli uninstall zhihu

或者,使用插件的全称删除

mdcli uninstall omnimd-zhihu-reader

已支持的插件

目前已发布4个插件,你可以按需安装:

命令 说明
mdcli install zhihu 知乎专栏
mdcli install toutiao 今日头条
mdcli install freedium Freedium
mdcli install appledev Apple Developer Documentation

开发自己的插件

文档编写中。


架构说明

墨探主要分为三个模块:

  • Reader 模块的功能是读取整个网页内容
  • Extractor 模块的功能是提取正文内容,清理无用数据
  • Parser 模块的功能是将 HTML 转换为 Markdown

贡献与反馈

  • 发现解析问题?欢迎提交 Issue
  • 改进解析?欢迎贡献 Pull Request
  • 开发插件?文档正在筹备中

赞助

如果您觉得不错,可以给我家猫咪买点罐头吃。喂猫❤️


License

MIT License

About

墨探 - 轻松将网页文章(博客、新闻、文档等)转换为 Markdown 格式

Topics

Resources

License

Stars

Watchers

Forks

Sponsor this project

Packages

No packages published

Languages