利用DeepSeek采集新闻并形成报告

人工智能 DeepSeek Ollama RAG

发布时间 : 2025-03-05 21:57

阅读 :

1.整体流程介绍

1.1需求解析与数据采集

参数识别
- 目标城市（如：苏州市）、目标行业（如：人工智能）、目标区县（如：苏州工业园区）
- 重点需求：税收优惠政策（如增值税减免、所得税优惠、研发费用加计扣除等）。
权威数据源筛选
- 优先抓取政府官网（如中国政府网、国家税务总局）、省级/市级政府门户网站（如湖南省政府、苏州市政府）及主流媒体（如人民日报、中国税务报）的新闻和政策公告。
关键词匹配
- 示例搜索词：
  - "苏州市人工智能税收优惠"
  - "苏州工业园区高新技术企业政策"
  - "2025年制造业税收减免"

1.2.政策信息提取与整合

税收优惠政策分类
- 行业专项优惠
  - 科技创新：研发费用加计扣除（100%-120%）、高新技术企业所得税15%。
  - 制造业：先进制造业增值税加计抵减（5%-15%）。
  - 人工智能：专项资金支持（如苏州市单项最高1亿元）。
- 企业类型优惠
  - 初创企业：增值税免征、所得税减半。
  - 小微企业：年应纳税所得额100万以内减按25%计税。
区域特色政策
- 苏州市：人工智能试验区专项资金、顶尖人才最高1亿元项目资助。
- 湖南省：先进制造业进项税额加计抵减、技术转让所得税减免。
- 区县层级：需结合市级政策，部分区县可能叠加地方补贴（如苏州工业园区的配套人才补贴）。
申报流程
- 自行判别资格→填报申报表→税务机关审核→留存备查。
- 线上申报：通过电子税务局提交资料；线下提交至办税服务厅。

1.3.报告生成模板（PDF结构）

1. 封面

标题：《[目标城市][目标行业]税收优惠政策研究报告（2025年）》
副标题：重点分析[目标区县]政策利好
日期：2025年3月5日

2. 政策概览

行业定位：人工智能/制造业/科技创新等行业的国家及地方战略支持方向。
政策有效期：如2023-2027年。

3. 税收优惠细则

增值税优惠
- 小规模纳税人减半征收“六税两费”。
- 先进制造业进项税额加计抵减。
所得税优惠
- 高新技术企业15%税率。
- 技术转让所得500万以内免征。
研发支持
- 研发费用加计扣除（100%-200%）。

4. 区域特色政策

苏州市：1.2亿元人工智能专项资金、顶尖人才购房补贴。
湖南科技创新：技术先进型服务企业15%所得税。

5. 申报指南

材料清单：营业执照、财务报表、研发项目证明。
流程图：资格自评→申报表填写→税务机关审核→优惠落实。

6. 案例参考

苏州某AI企业：通过申报研发加计扣除节省税费300万元。
湖南先进制造业：利用增值税抵减政策降低运营成本15%。

7. 未来政策展望

2025年国家减税降费重点向科技创新倾斜。
地方政府或推出区县级配套补贴（建议关注目标区县官网更新）。

1.4.实现步骤（RAGFlow配置）

数据输入
- 接入政府网站API或爬取最新政策公告（如国家税务总局、地方财政厅）。
语义检索
- 使用NLP模型匹配“城市+行业+税收优惠”关键词，过滤非权威来源。
内容生成
- 按模板填充政策条款、案例、流程图，并自动标注引用来源（如）。
PDF输出
- 支持自定义排版（页眉/页脚、图表插入），导出为标准化企业报告。

1.5.注意事项

时效性验证：政策可能随年度调整，需标注“截至2025年3月”并建议定期更新。
区县差异：部分区县政策需单独查询（如苏州工业园区官网）。
申报风险提示：需符合行业认定标准（如高新技术企业需通过科技部评审）。

2.具体操作流程

2.1.配置本地DeepSeek

# 模型类型
chat
# 模型名称
deepseek-r1:14b
# 基础URL
http://host.docker.internal:11434
# 最大 token 数（本地模型随便填不影响）
1024

2.1.1.没有默认【嵌入、Img2txt、Sequence2txt、Rerank、TTS】模型如何处理

安装嵌入模型

ollama pull nomic-embed-text

配置嵌入模型

# 模型类型
embedding
# 模型名称
nomic-embed-text
# 基础URL
http://host.docker.internal:11434
# 最大 token 数（本地模型随便填不影响）
1024

ps：有了 聊天模型 和 嵌入模型 就可以成功地使用RAGFLow的聊天功能了

安装 Rerank 模型（暂时用不了）

# 这个试了下不行
ollama pull qllama/bge-reranker-large

# 这个试了下不行
ollama pull linux6200/bge-reranker-v2-m3

配置 Rerank 模型

# 模型类型
rerank
# 模型名称
bge-reranker-v2-m3
# 基础URL
http://localhost:9997/v1
# 最大 token 数（本地模型随便填不影响）
1024

2.1.2.测试下对话

【聊天】→【新建助理】→【模型设置】选择【deepseek-r1:14b】

选择模型并保存后，可以在此处进行对话验证

2.2.配置在线大模型

这里解释下，接下来的整体流程主要使用 Agent 部分的功能，为了是AI回答更加接近理想状态，因此除了使用本地模型外也会考虑使用在线大模型

2.2.1.配置kimi

ps：kimi大模型在对话中间起到结构化处理作用，具体在后面的flow里面有体现

点击【头像】进入个人中心→选择【模型供应商】→选择【Moonshot】→输入【API-key】
如果这里没有 API-key，那么需要到 Moonshot AI - 开放平台 →【用户中心】→【API key管理】→【新建】

2.2.2.配置qwen

ps：qwen将多轮沟通的结果进行汇总，最后形成一个标准的报告模版

点击【头像】进入个人中心→选择【模型供应商】→选择【Tongyi-Qianwen】→输入【API-key】
如果这里没有 API-key，那么需要到 https://bailian.console.aliyun.com/ → 点击【头像】进入个人中心 → 点击【API-KEY】→ 进入【我的API-KEY】 → 【创建】

2.2.创建Agent

点击【Agent】→【创建Agent】→选择【Blank】

ps：这里选择空模板后会得到一个空的 flow 画布

2.3.配置对话流程

接下来将配置对话流程，这里先把整体流程贴上

屏幕截图 2025-03-07 165303

**1.**添加一个【静态消息】组件到画布，且【开始节点】与【静态消息】节点连起来

ps：此组件用于向用户发送静态信息。您可以准备几条消息，这些消息将被随机选择。

分别添加以下两条静态信息：

1、你想了解哪个城市的企业创业政策？

2、你想了解哪个行业的企业创业政策？
**2.**添加一个【对话】组件到画布，且【静态消息】与【对话】节点连接起来

ps：该组件用作机器人与人类之间的接口。它接收用户的输入并显示机器人的计算结果。
**3.**添加一个【关键词】组件到画布，且【对话】与【关键词】节点连接起来

ps：该组件用于从用户的问题中提取关键词。Top N指定需要提取的关键词数量。
1、关键词从上一个步骤提取

2、这里选择了本地deekseek-r1:7b来执行此节点任务

3、这里主要是对上下文用户的意图进行预处理和识别
- 识别结果如下：
  - {“content”:{“0”:”\n好的，我现在需要分析用户的问题。用户问的是“成都”，但看起来他可能是在询问关于某个城市的创业政策。\n\n首先，我要总结用户的提问内容：“成都”通常指的是成都市，所以用户可能想了解成都市的创业政策。\n\n接下来，提取最重要的三个关键词或短语：城市、创业政策和成都。\n\n最后，按照要求用逗号分隔这些关键词，并以中文结尾。\n\n\n 成都, 创业政策, 城市”}}
**4.**识别到用户的意图是想了解【成都市创业政策】，如果我们将这个直接反馈给大模型，那么最后得到的结果会很宽泛，因此我们再把问题聚焦下来，比如再次反问用户想了解【具体行业】的创业政策。这样大模型得到的输入会更加聚焦，回答的内容也更加深入。
- 添加【条件】组件到画布，且【关键词】与【条件】节点连接
- 【条件】添加两个判断分支，目的是为了判断用户输入和提问是否聚焦
- 添加两个【静态消息】到画布，然后分别对应到【条件】的两个判断分支
  
  1、如果用户没有提供城市信息，那么就反问用户【想了解哪个城市的企业创业政策？】
  
  2、如果用户没有提供行业信息，那么就反问用户【想了解哪个行业的企业创业政策？】
**5.**添加一个【关键词】组件到画布，且两个【对话】与【关键词】节点连接起来
- 这里模型选择了【moonshot-v1-8k】，是因为【moonshot-v1-8k】提取的关键字效果比本地【deekseek】大模型更好（生成的关键字通过搜索引擎更加容易搜到想要的内容）
**6.**添加一个【百度搜索】组件到画布，且将【关键词】与【百度】节点连接起来
- 此组件用于从 www.baidu.com 获取搜索结果。通常，它作为知识库的补充。Top N 指定您需要调整的搜索结果数量。

**7.**添加一个【生成问答】组件到画布，且将【百度搜索】与【生成问答】节点连接起来

此组件用于调用LLM生成文本，通过提示词的方式将 搜索结果 输入到大模型里面进行提问

请基于 {input} 总结以下段落。注意数字，不要胡编乱造。参考段落如下：

#### **1. 封面**  
   - 标题：**《[目标城市][目标行业]税收优惠政策研究报告（2025年）》**  
   - 副标题：**重点分析[目标区县]政策利好**  
   - 日期：2025年3月5日  

#### **2. 政策概览**  
   - **行业定位**：人工智能/制造业/科技创新等行业的国家及地方战略支持方向。  
   - **政策有效期**：如2023-2027年。  

#### **3. 税收优惠细则**  
   - **增值税优惠**  
     - 小规模纳税人减半征收“六税两费”。  
     - 先进制造业进项税额加计抵减。  
   - **所得税优惠**  
     - 高新技术企业15%税率。  
     - 技术转让所得500万以内免征。  
   - **研发支持**  
     - 研发费用加计扣除（100%-200%）。  

#### **4. 区域特色政策**  
   - **苏州市**：1.2亿元人工智能专项资金、顶尖人才购房补贴。  
   - **湖南科技创新**：技术先进型服务企业15%所得税。  

#### **5. 申报指南**  
   - **材料清单**：营业执照、财务报表、研发项目证明。  
   - **流程图**：资格自评→申报表填写→税务机关审核→优惠落实。  

#### **6. 案例参考**  
   - **苏州某AI企业**：通过申报研发加计扣除节省税费300万元。  
   - **湖南先进制造业**：利用增值税抵减政策降低运营成本15%。  

#### **7. 未来政策展望**  
   - 2025年国家减税降费重点向科技创新倾斜。  
   - 地方政府或推出区县级配套补贴（建议关注目标区县官网更新）。