新闻站点内容提取。支持微信公众号、今日头条、网易新闻、搜狐新闻、腾讯新闻。当用户需要提取新闻内容、抓取公众号文章、爬取新闻、或获取新闻JSON/Markdown时激活。
View on GitHubNanmiCoder/claude-code-skills
news-extractor
January 20, 2026
Select agents to install to:
npx add-skill https://github.com/NanmiCoder/claude-code-skills/blob/main/plugins/news-extractor/skills/news-extractor/SKILL.md -a claude-code --skill news-extractorInstallation paths:
.claude/skills/news-extractor/# News Extractor Skill
从主流新闻平台提取文章内容,输出 JSON 和 Markdown 格式。
## 支持平台
| 平台 | ID | URL 示例 |
|------|-----|----------|
| 微信公众号 | wechat | `https://mp.weixin.qq.com/s/xxxxx` |
| 今日头条 | toutiao | `https://www.toutiao.com/article/123456/` |
| 网易新闻 | netease | `https://www.163.com/news/article/ABC123.html` |
| 搜狐新闻 | sohu | `https://www.sohu.com/a/123456_789` |
| 腾讯新闻 | tencent | `https://news.qq.com/rain/a/20251016A07W8J00` |
## 依赖安装
首次使用前需要安装依赖。根据你的环境选择以下任一方式:
### 方式一:使用 uv (推荐)
```bash
cd .claude/skills/news-extractor
# 安装依赖并创建虚拟环境
uv sync
# 运行脚本时 uv 会自动使用虚拟环境
uv run scripts/extract_news.py --list-platforms
```
### 方式二:使用 pip
```bash
cd .claude/skills/news-extractor
# 创建虚拟环境(可选但推荐)
python -m venv .venv
source .venv/bin/activate # Linux/macOS
# .venv\Scripts\activate # Windows
# 安装依赖
pip install -r requirements.txt
# 运行脚本
python scripts/extract_news.py --list-platforms
```
### 依赖列表
| 包名 | 用途 |
|------|------|
| pydantic | 数据模型验证 |
| requests | HTTP 请求 |
| curl_cffi | 浏览器模拟抓取 |
| tenacity | 重试机制 |
| parsel | HTML/XPath 解析 |
| demjson3 | 非标准 JSON 解析 |
## 使用方式
### 基本用法
```bash
# 提取新闻,自动检测平台,输出 JSON + Markdown
uv run .claude/skills/news-extractor/scripts/extract_news.py "URL"
# 指定输出目录
uv run .claude/skills/news-extractor/scripts/extract_news.py "URL" --output ./output
# 仅输出 JSON
uv run .claude/skills/news-extractor/scripts/extract_news.py "URL" --format json
# 仅输出 Markdown
uv run .claude/skills/news-extractor/scripts/extract_news.py "URL" --format markdown
# 列出支持的平台
uv run .claude/skills/news-extractor/scripts/extract_news.py --list-platforms
```
### 输出文件
脚本默认输出两种格式到指定目录(默认 `./output`):
- `{news_id}.json` - 结构化 JSON 数据
- `{news_id}.md` - Markdown 格式文章
## 工作流程
1. **接收 URL** - 用户提供新闻链接
2. **平台检测** - 自动识别平台类型
3. **内容提取** - 调用对应爬虫获取并解析内容
4. **格式转换** - 生成 JSON 和 Markdown
5. **输出文件** - 保存到指定目录
## 输出格式
### JSON 结构
```json
{
"title": "文章标题",
"news_url": "原始链接",
"news_id": "文章ID",
"meta_info": {
"author_name": "作者/来源",
"author_url": "",