# 数据不出域，审计全穿透（优化版）

> 基于本地私有化大模型的电信运营商 AI 全域内审体系
> 让 150 亿业务里的每一分钱，都在本地 AI 的显微镜下原形毕露
> 2026 年 6 月

---

## 幻灯片 1 · 封面

### 数据不出域，审计全穿透

- 基于本地私有化大模型的电信运营商 AI 全域内审体系
- 不是一套工具，而是一套"建在自己机房里、越用越聪明"的审计能力体系
- 2026 年 6 月

---

## 幻灯片 2 · 为什么传统审计"查不过来"？

**三个数字看清困局**

- **150 亿** —— 年业务规模
- **5000 万** —— 潜在异常金额
- **5%** —— 传统抽样覆盖率

**三类典型困局**

- **"拆单规避"**：8 个客户各签 600 万 ICT 项目，全拆成 80 万以下小额合同，三重一大抽样完美避开。按金额抽样，大额拆分后消失在雷达之外。
- **"稳定的定，稳定的退"**：每月新增 6000 人订购彩铃，3 个月后首月用户全部退订。渠道已按新增量领取佣金，形成"骗补后弃养"闭环——造假藏在时序里。
- **"Excel 干不过来"**：安全云盘 + 宏 + 人工，面对海量单据只能抽样，查不全、查不深。150 亿业务海洋中，5000 万异常如针落大海。

> **核心矛盾**：审计数据涉及政企合同、用户隐私、财务凭证，上公有云大模型 = 裸奔；不上 AI 又干不过来。怎么办？

---

## 幻灯片 3 · 本地 LLM 让"安全"和"智能"不再二选一

| 对比维度 | 传统抽样审计 | 公有云 AI 审计 | 本地 LLM 审计（我们） |
| --- | --- | --- | --- |
| 数据范围 | 按金额抽样，查不全 | 全量扫描，但数据出域 | 全量扫描，数据不出机房 |
| 规则能力 | 规则写死，反向规避 | 模型能力强，但合规风险高 | 模型私有化，合规可控 |
| 响应效率 | Excel 翻表，效率低 | 实时预警，但依赖外网 | 内网闭环，秒级响应 |
| 交互模式 | 人找数据 | 数据找人，但数据送人 | 数据找人，数据原地不动 |
| 能力归属 | 经验在人脑，人走经验走 | 能力在外部，租用即失 | 能力沉淀在本地，越用越聪明 |

> 把千问 70B / DeepSeek 装进本地机房，让 AI 在数据旁边干活，而不是把数据送给 AI。

---

## 幻灯片 4 · 【新增】审计域全景图 + 风险分级模型

**不是 8 个孤立场景，而是一张覆盖全业务的审计地图**

把所有审计场景归入五大风险域，做到"全覆盖、有优先级"：

| 风险域 | 覆盖场景 | 关注核心 |
| --- | --- | --- |
| 收入域 | 政企收入穿透、收入成本跨期匹配、云业务空转 | 收入真实性、确认时点 |
| 成本域 | 渠道佣金、终端补贴、成本摊销 | 成本真实性、套利 |
| 采购域 | 网络建设、工程采购、围标串标 | 采购合规、虚增工程量 |
| 资金域 | 回款挂账、网间结算、资金流向 | 资金真实性、关联交易 |
| 合规域 | 员工舞弊、权限滥用、积分套现 | 内控有效性、权限合规 |

**风险热力图（发生概率 × 金额影响）**

- 高概率 + 高金额 → 优先全量监控（如政企拆单、渠道骗补）
- 低概率 + 高金额 → 重点定向穿透（如围标串标、云空转）
- 高概率 + 低金额 → 批量聚类筛查（如积分套现、内部号码）

> 让客户一眼看出：我们不是"工具集合"，是"有体系、有优先级的全域审计框架"。

---

## 幻灯片 5 · "本地 AI 审计大脑"四大核心引擎

- **① 本地私有化 LLM 引擎（底座）**：千问 70B / DeepSeek 等模型本地化部署，审计数据绝不出域。负责异常模式推理、自然语言规则配置、报告自动生成、线索解释。
- **② 全量穿透引擎**：直连 BSS / OSS / ERP / 财务系统，本地数据库直接喂给本地 LLM。不抽样，对所有合同、回款、用户行为做关联扫描。
- **③ 规则进化引擎（护城河）**：审计人员用自然语言描述新造假模式，LLM 自动转化为可执行规则，沙箱验证命中率，持续对抗迭代——**把顾问脑子里的经验固化成机构永久资产**。
- **④ 线索驱动引擎**：LLM 对异常聚类做"人话解释"（如"这 8 个客户疑似同一实控人"），输出高价值线索并附证据链，直接推送审计人员桌面。

---

## 幻灯片 6 · 场景一：政企收入全链路穿透

- **业务链路**：客户立项 → 移动立项 → 审批 → 报价 → 签约 → 首款/二款开票 → 回款
- **经典案例（拆单规避 + 虚假回款）**：某地市公司 8 个"客户"各签 600 万 ICT 项目，全拆成 79 万-99 万合同规避三重一大审批。首款付 100 万、二款付 300 万，尾款 500 万长期挂账。经穿透，8 个客户注册地址在同一写字楼、法人为同一人亲属、付款账户来自同一实控企业。
- **AI 审计点**：合同金额分布异常（集中在阈值边缘）；工商关联穿透（隐性实控人识别）；回款时序聚类（批量违约模式）。
- **本地 LLM 能力**：自然语言查数、关联推理、一键生成《政企客户回款异常专项线索清单》。

---

## 幻灯片 7 · 场景二：市场业务真实性（"养卡骗补"）

- **经典案例（稳定的定，稳定的退）**：某渠道每月新增 6000 人订购彩铃，每过三个月首月用户全部退订，渠道已按新增量领取佣金，形成"骗补后弃养"闭环。用户号码归属地高度集中在某几个乡镇，且通话记录为零。
- **扩展案例（物联网卡虚假激活）**：某代理商批量开通 10 万张物联网卡，声称用于"智慧停车"，实际激活后无任何流量，已按激活量领取每台 50 元补贴，半年后卡片集体沉默。
- **AI 审计点**：用户生命周期时序模式识别；渠道佣金与业务质量匹配度；沉默/零通话用户批量聚类；项目交付物与收入确认交叉验证。
- **本地 LLM 能力**：识别"脉冲式增长 + 规律性衰减"的周期性造假，自动提炼为新规则。

---

## 幻灯片 8 · 场景三：收入与成本跨期匹配

- **经典案例（趸交收入一次性确认）**：用户办 24 个月套餐送智能手表，收入应分 24 个月确认，但因趸交财务一把全确认，手表成本却摊 24 个月——确认时点严重错配。某省一年此类业务 5000 万，在 150 亿总收入中如针落大海。
- **扩展案例（"以销定产"变"提前确认"）**：某政企云项目约定"按实际使用量计费"，但财务在设备上架当月即全额确认收入，客户前 6 个月几乎零使用。
- **AI 审计点**：自动勾稽收入确认政策 vs 实际账务 vs 合同条款；识别趸交/预收款一次性确认异常分录；成本摊销与收入确认跨期匹配；设备交付与收入确认时间差监控。
- **本地 LLM 能力**：跨系统自动勾稽，识别收入成本确认时点错配的异常分录模式。

---

## 幻灯片 9 · 场景四：渠道佣金与代理商套利

- **经典案例（虚假放号 + 套机套卡）**：某代理商为完成"5G 用户净增"，批量买低价老人机插 5G SIM 卡激活后丢弃，用户从未产生 5G 流量，已领"5G 迁转"佣金每台 200 元 + 终端补贴 300 元，次月用户全部流失。
- **扩展案例（异地窜货套利）**：代理商从邻省低价采购同款手机，在本省以"新用户入网"名义领高额补贴，手机实际回流二级市场。
- **AI 审计点**：终端 IMEI 与用户绑定真实性；佣金发放与在网时长匹配度；终端流向追踪（激活即沉默/跨省流通）；代理商业务质量时序衰减分析。
- **本地 LLM 能力**：IMEI 级终端流向追踪，识别"激活-沉默-流失"套利闭环。

---

## 幻灯片 10 · 场景五：网络建设与工程采购

- **经典案例（围标串标 + 虚增工程量）**：某基站项目 3 家投标报价差异不足 1%，技术方案大量雷同，中标后施工队为同一班组，工程量签证单存在"同一笔迹不同日期"批量签字。
- **扩展案例（虚假巡检与虚报工单）**：某外包商系统显示每月完成 2000 次基站巡检，GPS 轨迹比对实际只到过 300 个站点，其余为"照片复用 + 坐标伪造"。
- **AI 审计点**：投标关联分析（报价相似度、文件雷同度）；工程量与资源消耗匹配验证；巡检轨迹与工单交叉验证；供应商画像（同一实控人"马甲"识别）。
- **本地 LLM 能力**：NLP 比对投标文件雷同度，GPS 轨迹与工单交叉验证，识别"马甲"供应商。

---

## 幻灯片 11 · 场景六：互联互通与网间结算

- **经典案例（话务量操纵套利）**：某运营商与境外运营商合谋虚假国际来话刷量，主叫归属地为虚商号段，通话时长均为 30 秒/60 秒整数倍，明显非真人。
- **扩展案例（短信网关刷量）**：某 SP 伪造发送记录申报"成功发送"10 亿条行业短信按 0.05 元/条结算，实际到达率不足 10%。
- **AI 审计点**：话务量时序异常（突发峰值、整数时长聚集）；网间结算数据与网络侧原始信令比对；SP/CP 业务量与收入结算交叉验证；国际来话真实路由溯源。
- **本地 LLM 能力**：识别"整数倍通话时长"等非人类行为，信令级原始数据比对。

---

## 幻灯片 12 · 场景七：云业务 / IDC 与新兴业务

- **经典案例（云资源"空转"确认收入）**：某政企客户签 3 年云服务年付 100 万，实际 CPU 利用率长期低于 5%、存储几乎为空，但财务按合同全额确认收入，且该"客户"实控人为地市公司某领导亲属。
- **扩展案例（IDC 机柜"虚租"）**：某 IDC 宣称出租率 90%，实际大量机柜无设备、电费为零，收入来自关联方"预付租金"。
- **AI 审计点**：云资源实际使用量 vs 合同计费量匹配度；IDC 出租率与电力消耗勾稽；新兴业务客户画像（关联方识别、预付模式异常）；收入确认与交付验收时序一致性。
- **本地 LLM 能力**：资源利用率与计费量自动比对，关联方网络挖掘，识别"空转"收入。

---

## 幻灯片 13 · 场景八：员工内部舞弊与资源滥用

- **经典案例（内部号码套利）**：某营业厅员工利用权限批量开通"员工测试号"对外出租"免流套餐"，测试号产生大量流量收入但全部计入内部成本未确认收入。
- **扩展案例（积分/会员体系套现）**：某员工勾结外部商户虚构消费批量刷积分，兑换高价值礼品卡在二级市场变现，某商户单日积分发放量超正常 100 倍。
- **AI 审计点**：员工权限操作日志异常模式识别；内部测试号实际用途偏离；积分/电子券流向追踪；权限与岗位匹配度（如客服岗有财务调账权限）。
- **本地 LLM 能力**：操作日志异常模式挖掘，权限-岗位匹配度分析，积分流向网络追踪。

---

## 幻灯片 14 · 【新增】数据接入与治理层（地基工程）

**全量穿透的前提，是把脏活干在前面**

- **多源异构接入**：适配 BSS / OSS / ERP / 财务 / 合同 / 工单 / 信令各系统的接口、数据库、文件，统一汇入本地数据湖。
- **主数据对齐**：客户、合同、号码、工单、供应商跨系统实体统一，解决"主键对不上"。
- **数据质量探查与清洗**：缺失、重复、口径不一自动探查并清洗，建立质量评分。
- **增量同步与时效**：从年度快照升级为近实时增量，支撑常态化监控。

> 数据治理是这套体系工作量最大、最该提前立项的一环。我们把它写进方案、承担下来，而不是回避。

---

## 幻灯片 15 · 【新增】人机协同闭环：线索之后才是价值

**从"发现工具"升级为"办案平台"**

```
AI 全量扫描 → 生成线索 + 初步证据链 → 审计员复核研判 →
系统自动生成审计底稿 → 定性分类 → 整改 / 移交 → 复核销项闭环
```

- **AI 侧**：出线索、附证据链、给判定理由、自动生成可追溯底稿。
- **审计员侧**：复核研判、定性、决定整改或移交、最终签字。
- **闭环管理**：线索分派、取证留痕、整改跟踪、销项复核全流程在线。

> 不是"给你一堆线索然后呢"，而是"从发现到闭环，每一步都接得住、留得痕"。

---

## 幻灯片 16 · 【新增】误报治理与置信度分级（专业 = 诚实）

**全量扫描必然产生海量疑似项——关键是不让审计员淹死在假阳性里**

- **三级置信分流**：高置信直接推送处置、中置信人工复核、低置信归档备查。
- **每条线索可解释**：附证据链 + 判定理由，拒绝"黑盒打分"。
- **反馈学习闭环**：审计员标注"误报/属实"，系统持续校准阈值，准确率随使用上升。
- **公开运营指标**：命中率、准确率、线索转化率上看板，成效可量化、可追溯。

> 主动交代精准度，反而显专业。藏着不说，才是最大的风险。

---

## 幻灯片 17 · 本地私有化 LLM 审计平台架构

- **应用层**：自然语言查询 · 线索看板 · 智能报告 · 预警推送 —— 审计人员零门槛使用
- **引擎层**：全量穿透引擎 + 规则进化引擎 + 线索生成引擎 —— LLM 驱动三大引擎
- **数据层**：本地数据湖（BSS / OSS / ERP / 财务 / 合同 / 工单 / 信令）—— 直连内网，零出域
- **模型层**：千问 70B / DeepSeek / 自研行业模型 —— 审计领域微调，懂电信业务
- **算力层**：本地 A100 / H100 / 国产 GPU 集群 —— 承载 70B 级大模型推理，信创可适配
- **安全合规与自审计层（贯穿全栈）**：权限分级 · 操作不可篡改日志 · 模型/规则版本留痕 · 全链路审计轨迹

> 全链路内网闭环 · 数据零出域

---

## 幻灯片 18 · 【新增】独立性与系统自审计（制度设计）

**审计系统本身，也要经得起审计**

- **防放水**：规则配置、阈值调整全程留痕，任何人改动可追溯，杜绝"调教规则放水"。
- **防拦截**：线索一旦生成即不可删除，处置过程全程记录，杜绝"线索被领导拦下"。
- **权限分级**：配规则、看线索、改阈值、出报告分权管理，相互制衡。
- **可追溯**：模型版本、规则版本、数据版本三重留痕，任一结论可回溯到当时的模型与数据状态。

> 既当运动员又当裁判是内审的大忌——我们用制度化的留痕和分权，让这套系统自己也透明可查。

---

## 幻灯片 19 · 本地 LLM 带来的四重跃升

- **安全价值**：敏感数据不出机房，满足国资/运营商/等保最严要求，模型-数据-推理-结果全链路内网闭环。
- **能力价值**：70B 级本地模型具备语义推理、规则自生长、报告生成能力，远超传统 BI；行业微调，懂电信业务。
- **效率价值**：自然语言交互，不写 SQL、不翻 Excel，问一句就出线索，从"人找数据"到"数据找人"。
- **进化价值**：每发现一种造假，LLM 自动提炼规则，系统越用越精准，形成机构专属审计知识库。

| 关键跃升 | 从 → 到 |
| --- | --- |
| 审计覆盖面 | 5% → 100% |
| 数据出域风险 | 存在 → 归零 |
| 审计节奏 | 年度快照 → 7×24 常态化 |
| 能力归属 | 外部租用 → 本地永久沉淀 |

---

## 幻灯片 20 · 【新增】价值测算：把"异常"变成客户的钱

**以 150 亿业务规模、5000 万潜在异常为基准的保守测算**

| 价值来源 | 测算逻辑 | 年化收益（保守） |
| --- | --- | --- |
| 可挽回收入/止损 | 全量覆盖挖出抽样漏掉的异常并整改 | 数千万级 |
| 外部咨询费节省 | 常态化自有能力替代重复性项目制采购 | 百万级/年 |
| 人力释放 | 审计员从翻表取数转向研判处置 | 数倍效率提升 |
| 风险事件预防 | 提前发现合规风险，规避处罚与声誉损失 | 难以估量 |

> 投入一次本地化建设，沉淀的是持续产生收益的永久资产，而非每年重复支出的项目费用。

---

## 幻灯片 21 · 【新增】我们的差异化：能力沉淀，而非一次性交付

**为什么是"建一套体系"，而不是"买一份报告"**

- **能力沉淀 vs 项目制交付**：项目制是"租大脑"，人走经验走、明年再付一次；我们是"装一个永久的、越用越聪明的本地大脑"，规则进化引擎把每一次审计经验固化为机构资产。
- **常态化 vs 年度快照**：舞弊是动态的，审计不能一年一次。时序类造假（养卡、骗补、脉冲式增长）恰恰是抽样和年度审计抓不到的，正是本地 LLM + 全量数据的主场。
- **数据不出域 vs 数据出域**：对等保/国资/数据安全红线极高的运营商，"一比特不出机房"是结构性优势，让安全合规部门站在我们这边。
- **共存切入 vs 正面替代**：先做底层全量穿透与常态化监控这块"以前做不动的层"，跑出线索、证明价值，能力自然沉淀、份额自然扩展。

---

## 幻灯片 22 · 3 个月本地部署跑通（含同台盲测验证）

- **第 1 个月 · 算力 + 模型部署**：机房 GPU 到位；千问 70B / DeepSeek 本地化部署；对接 BSS/OSS/ERP/财务/工单/信令；构建本地数据湖。
- **第 2 个月 · 场景微调 + 历史盲测**：历史审计案例行业微调；政企/市场/财务/工程场景适配；**用过去 2-3 年历史数据全量重跑，与既有审计结论同台盲测，验证能否挖出此前抽样漏掉的真实线索**。
- **第 3 个月 · 投产 + 线索闭环**：正式上线；生成首批 200-500 条线索；审计人员跟进核查反馈；规则库首轮进化。

> **交付物**：一套本地私有化 AI 审计平台 + 一套可进化的审计规则库 + 一批已验证的高价值线索 + 一份同台盲测成效报告。

---

## 幻灯片 23 · 审计的终极形态

- **数据不动、AI 动脑、造假者跑不掉**
- 本地大模型 + 全量穿透 + 规则进化 = 运营商内审的"新质生产力"
- 让我们把千问 70B 装进您的机房
- 150 亿业务全量扫描，敏感数据一比特不出域——这才是电信运营商该有的 AI 审计

> 2026 年 6 月