利用DeepSeek采集新闻并形成报告

1.整体流程介绍

image-20250302202913276

1.1需求解析与数据采集

  1. 参数识别

    • 目标城市(如:苏州市)、目标行业(如:人工智能)、目标区县(如:苏州工业园区)
    • 重点需求:税收优惠政策(如增值税减免、所得税优惠、研发费用加计扣除等)。
  2. 权威数据源筛选

    • 优先抓取政府官网(如中国政府网、国家税务总局)、省级/市级政府门户网站(如湖南省政府、苏州市政府)及主流媒体(如人民日报、中国税务报)的新闻和政策公告。
  3. 关键词匹配

    • 示例搜索词:
      • "苏州市人工智能税收优惠"
      • "苏州工业园区高新技术企业政策"
      • "2025年制造业税收减免"

1.2.政策信息提取与整合

  1. 税收优惠政策分类

    • 行业专项优惠
      • 科技创新:研发费用加计扣除(100%-120%)、高新技术企业所得税15%。
      • 制造业:先进制造业增值税加计抵减(5%-15%)。
      • 人工智能:专项资金支持(如苏州市单项最高1亿元)。
    • 企业类型优惠
      • 初创企业:增值税免征、所得税减半。
      • 小微企业:年应纳税所得额100万以内减按25%计税。
  2. 区域特色政策

    • 苏州市:人工智能试验区专项资金、顶尖人才最高1亿元项目资助。
    • 湖南省:先进制造业进项税额加计抵减、技术转让所得税减免。
    • 区县层级:需结合市级政策,部分区县可能叠加地方补贴(如苏州工业园区的配套人才补贴)。
  3. 申报流程

    • 自行判别资格→填报申报表→税务机关审核→留存备查。
    • 线上申报:通过电子税务局提交资料;线下提交至办税服务厅。

1.3.报告生成模板(PDF结构)

1. 封面

  • 标题:《[目标城市][目标行业]税收优惠政策研究报告(2025年)》
  • 副标题:重点分析[目标区县]政策利好
  • 日期:2025年3月5日

2. 政策概览

  • 行业定位:人工智能/制造业/科技创新等行业的国家及地方战略支持方向。
  • 政策有效期:如2023-2027年。

3. 税收优惠细则

  • 增值税优惠
    • 小规模纳税人减半征收“六税两费”。
    • 先进制造业进项税额加计抵减。
  • 所得税优惠
    • 高新技术企业15%税率。
    • 技术转让所得500万以内免征。
  • 研发支持
    • 研发费用加计扣除(100%-200%)。

4. 区域特色政策

  • 苏州市:1.2亿元人工智能专项资金、顶尖人才购房补贴。
  • 湖南科技创新:技术先进型服务企业15%所得税。

5. 申报指南

  • 材料清单:营业执照、财务报表、研发项目证明。
  • 流程图:资格自评→申报表填写→税务机关审核→优惠落实。

6. 案例参考

  • 苏州某AI企业:通过申报研发加计扣除节省税费300万元。
  • 湖南先进制造业:利用增值税抵减政策降低运营成本15%。

7. 未来政策展望

  • 2025年国家减税降费重点向科技创新倾斜。
  • 地方政府或推出区县级配套补贴(建议关注目标区县官网更新)。

1.4.实现步骤(RAGFlow配置)

  1. 数据输入
    • 接入政府网站API或爬取最新政策公告(如国家税务总局、地方财政厅)。
  2. 语义检索
    • 使用NLP模型匹配“城市+行业+税收优惠”关键词,过滤非权威来源。
  3. 内容生成
    • 按模板填充政策条款、案例、流程图,并自动标注引用来源(如)。
  4. PDF输出
    • 支持自定义排版(页眉/页脚、图表插入),导出为标准化企业报告。

1.5.注意事项

  1. 时效性验证:政策可能随年度调整,需标注“截至2025年3月”并建议定期更新。
  2. 区县差异:部分区县政策需单独查询(如苏州工业园区官网)。
  3. 申报风险提示:需符合行业认定标准(如高新技术企业需通过科技部评审)。

2.具体操作流程

2.1.配置本地DeepSeek

# 模型类型
chat
# 模型名称
deepseek-r1:14b
# 基础URL
http://host.docker.internal:11434
# 最大 token 数(本地模型随便填不影响)
1024

image-20250305194721921

image-20250305195517918

image-20250305195617465

2.1.1.没有默认【嵌入、Img2txt、Sequence2txt、Rerank、TTS】模型如何处理

  • 安装嵌入模型

    ollama pull nomic-embed-text

    image-20250306115430752

    • 配置嵌入模型

      # 模型类型
      embedding
      # 模型名称
      nomic-embed-text
      # 基础URL
      http://host.docker.internal:11434
      # 最大 token 数(本地模型随便填不影响)
      1024

      image-20250306120228784

ps:有了 聊天模型嵌入模型 就可以成功地使用RAGFLow的聊天功能了

image-20250306120906110

  • 安装 Rerank 模型(暂时用不了)

    # 这个试了下不行
    ollama pull qllama/bge-reranker-large
    
    # 这个试了下不行
    ollama pull linux6200/bge-reranker-v2-m3

    image-20250306141311639

    • 配置 Rerank 模型

      # 模型类型
      rerank
      # 模型名称
      bge-reranker-v2-m3
      # 基础URL
      http://localhost:9997/v1
      # 最大 token 数(本地模型随便填不影响)
      1024

      image-20250306141459789

2.1.2.测试下对话

【聊天】→【新建助理】→【模型设置】选择【deepseek-r1:14b】

image-20250306172741687

image-20250306172835511

选择模型并保存后,可以在此处进行对话验证

image-20250306172942189

2.2.配置在线大模型

这里解释下,接下来的整体流程主要使用 Agent 部分的功能,为了是AI回答更加接近理想状态,因此除了使用本地模型外也会考虑使用在线大模型

2.2.1.配置kimi

ps:kimi大模型在对话中间起到结构化处理作用,具体在后面的flow里面有体现

  • 点击【头像】进入个人中心→选择【模型供应商】→选择【Moonshot】→输入【API-key】

    image-20250307161705728

    image-20250307161742064

  • 如果这里没有 API-key,那么需要到 Moonshot AI - 开放平台 →【用户中心】→【API key管理】→【新建】

    image-20250307162818272

    image-20250307162912033

2.2.2.配置qwen

ps:qwen将多轮沟通的结果进行汇总,最后形成一个标准的报告模版

  • 点击【头像】进入个人中心→选择【模型供应商】→选择【Tongyi-Qianwen】→输入【API-key】

    image-20250307163443836

    image-20250307163500030

  • 如果这里没有 API-key,那么需要到 https://bailian.console.aliyun.com/ → 点击【头像】进入个人中心 → 点击【API-KEY】→ 进入【我的API-KEY】 → 【创建】

image-20250307163656244

image-20250307163730514

2.2.创建Agent

  • 点击【Agent】→【创建Agent】→选择【Blank】

    image-20250307164154115

image-20250307164214952

ps:这里选择空模板后会得到一个空的 flow 画布

2.3.配置对话流程

  • 接下来将配置对话流程,这里先把整体流程贴上

屏幕截图 2025-03-07 165303

  • **1.**添加一个【静态消息】组件到画布,且【开始节点】与【静态消息】节点连起来

    ps:此组件用于向用户发送静态信息。您可以准备几条消息,这些消息将被随机选择。

    image-20250307165900765

    分别添加以下两条静态信息:

    1、你想了解哪个城市的企业创业政策?

    2、你想了解哪个行业的企业创业政策?

    image-20250307170107234

  • **2.**添加一个【对话】组件到画布,且【静态消息】与【对话】节点连接起来

    ps:该组件用作机器人与人类之间的接口。它接收用户的输入并显示机器人的计算结果。

    image-20250307170345737

  • **3.**添加一个【关键词】组件到画布,且【对话】与【关键词】节点连接起来

    ps:该组件用于从用户的问题中提取关键词。Top N指定需要提取的关键词数量。

    image-20250307170841527

    1、关键词从上一个步骤提取

    2、这里选择了本地deekseek-r1:7b来执行此节点任务

    3、这里主要是对上下文用户的意图进行预处理和识别

    • 识别结果如下:
      • {“content”:{“0”:”\n好的,我现在需要分析用户的问题。用户问的是“成都”,但看起来他可能是在询问关于某个城市的创业政策。\n\n首先,我要总结用户的提问内容:“成都”通常指的是成都市,所以用户可能想了解成都市的创业政策。\n\n接下来,提取最重要的三个关键词或短语:城市、创业政策和成都。\n\n最后,按照要求用逗号分隔这些关键词,并以中文结尾。\n\n\n 成都, 创业政策, 城市”}}

    image-20250307170747733

  • **4.**识别到用户的意图是想了解【成都市创业政策】,如果我们将这个直接反馈给大模型,那么最后得到的结果会很宽泛,因此我们再把问题聚焦下来,比如再次反问用户想了解【具体行业】的创业政策。这样大模型得到的输入会更加聚焦,回答的内容也更加深入。

    • 添加【条件】组件到画布,且【关键词】与【条件】节点连接

      image-20250307172101575

    • 【条件】添加两个判断分支,目的是为了判断用户输入和提问是否聚焦

      image-20250302202913276

      image-20250302202913276

    • 添加两个【静态消息】到画布,然后分别对应到【条件】的两个判断分支

      1、如果用户没有提供城市信息,那么就反问用户【想了解哪个城市的企业创业政策?】

      2、如果用户没有提供行业信息,那么就反问用户【想了解哪个行业的企业创业政策?】

      image-20250307172639502

  • **5.**添加一个【关键词】组件到画布,且两个【对话】与【关键词】节点连接起来

    • 这里模型选择了【moonshot-v1-8k】,是因为【moonshot-v1-8k】提取的关键字效果比本地【deekseek】大模型更好(生成的关键字通过搜索引擎更加容易搜到想要的内容)

      image-20250307174544505

      image-20250307175409557

  • **6.**添加一个【百度搜索】组件到画布,且将【关键词】与【百度】节点连接起来

    • 此组件用于从 www.baidu.com 获取搜索结果。通常,它作为知识库的补充。Top N 指定您需要调整的搜索结果数量。

    image-20250307175720828

image-20250307175909050

image-20250307180159621

  • **7.**添加一个【生成问答】组件到画布,且将【百度搜索】与【生成问答】节点连接起来

    • 此组件用于调用LLM生成文本,通过提示词的方式将 搜索结果 输入到大模型里面进行提问

      请基于 {input} 总结以下段落。注意数字,不要胡编乱造。参考段落如下:
      
      #### **1. 封面**  
         - 标题:**《[目标城市][目标行业]税收优惠政策研究报告(2025年)》**  
         - 副标题:**重点分析[目标区县]政策利好**  
         - 日期:2025年3月5日  
      
      #### **2. 政策概览**  
         - **行业定位**:人工智能/制造业/科技创新等行业的国家及地方战略支持方向。  
         - **政策有效期**:如2023-2027年。  
      
      #### **3. 税收优惠细则**  
         - **增值税优惠**  
           - 小规模纳税人减半征收“六税两费”。  
           - 先进制造业进项税额加计抵减。  
         - **所得税优惠**  
           - 高新技术企业15%税率。  
           - 技术转让所得500万以内免征。  
         - **研发支持**  
           - 研发费用加计扣除(100%-200%)。  
      
      #### **4. 区域特色政策**  
         - **苏州市**:1.2亿元人工智能专项资金、顶尖人才购房补贴。  
         - **湖南科技创新**:技术先进型服务企业15%所得税。  
      
      #### **5. 申报指南**  
         - **材料清单**:营业执照、财务报表、研发项目证明。  
         - **流程图**:资格自评→申报表填写→税务机关审核→优惠落实。  
      
      #### **6. 案例参考**  
         - **苏州某AI企业**:通过申报研发加计扣除节省税费300万元。  
         - **湖南先进制造业**:利用增值税抵减政策降低运营成本15%。  
      
      #### **7. 未来政策展望**  
         - 2025年国家减税降费重点向科技创新倾斜。  
         - 地方政府或推出区县级配套补贴(建议关注目标区县官网更新)。

      image-20250307185636697

  • **8.**最后添加一个【循环】组件到画布,且将【循环】与【对话】、【静态消息】节点连接起来

    • 为了让AI出完报告以后为下一个人服务

    image-20250307185926572

经过上述8个步骤,成功完成了一个对话场景。在对话中,AI通过多轮提问,聚焦用户的想法,然后将用户的想法自动在互联网上检索,最后将检索到的结果整合,生成一个完整的报告。接下来让我们一起体验一下吧!

3.对话体验

对话示意图

对话示意图

对话示意图

对话示意图

对话示意图

对话示意图

对话示意图

对话示意图