243 lines
12 KiB
Markdown
243 lines
12 KiB
Markdown
# 1-prd-AIAudit · 产品需求文档(PRD)
|
||
|
||
> 项目:基于本地私有化大模型的电信运营商 AI 全域内审平台(AIAudit)
|
||
> 版本:v0.1(待评审)
|
||
> 日期:2026-06
|
||
> 上游来源:`0-req-AIAudit.md`
|
||
|
||
---
|
||
|
||
## 1. 产品概述与定位
|
||
|
||
### 1.1 一句话定位
|
||
**AIAudit 是一套建在运营商自己机房、数据零出域、覆盖全业务域、越用越聪明的本地 AI 内审能力体系**——不是一套工具,而是一套可持续进化、归审计独立掌控的审计大脑。
|
||
|
||
### 1.2 产品形态
|
||
- 部署形态:本地私有化部署(内网闭环,数据一比特不出机房)。
|
||
- 能力构成:审计专用数据中台(底座)+ 四大引擎(LLM / 全量穿透 / 规则进化 / 线索驱动)+ 人机协同闭环(线索到销项)+ 系统自审计(独立可信)。
|
||
- 交付物:本地 AI 审计平台 + 可进化规则库 + 已验证高价值线索 + 同台盲测成效报告。
|
||
|
||
### 1.3 与现有方式的差异化
|
||
| 维度 | 传统抽样审计 | 公有云 AI 审计 | AIAudit(本地) |
|
||
| --- | --- | --- | --- |
|
||
| 数据范围 | 按金额抽样,查不全 | 全量但数据出域 | 全量且数据不出机房 |
|
||
| 合规风险 | 低但能力弱 | 能力强但合规风险高 | 私有化、合规可控 |
|
||
| 响应效率 | Excel 翻表 | 实时但依赖外网 | 内网闭环秒级响应 |
|
||
| 能力归属 | 经验在人脑 | 能力外部租用 | 本地永久沉淀,越用越聪明 |
|
||
| 独立性 | 依赖人工 | 数据送人 | 审计独立掌控、自身可审计 |
|
||
|
||
---
|
||
|
||
## 2. 目标与成功指标
|
||
|
||
### 2.1 业务目标
|
||
- 把审计覆盖率从约 5% 提升到接近 100%(全量穿透)。
|
||
- 把审计节奏从年度快照升级为 7×24 常态化监控。
|
||
- 把审计经验固化为机构永久资产(可进化规则库)。
|
||
- 数据出域风险归零,满足国资/运营商/等保最严要求。
|
||
|
||
### 2.2 成功指标(KPI)
|
||
| 指标 | 目标(首期/稳态) | 对应需求 |
|
||
| --- | --- | --- |
|
||
| 审计覆盖率 | ≥ 95%(全量扫描) | R5 |
|
||
| 数据出域事件 | 0 起 | 非功能 5.1、R1 |
|
||
| 同台盲测命中率 | 复现既有审计结论 + 发现新增真实线索 | R21 |
|
||
| 线索准确率(高置信) | 随反馈学习持续提升 | R18 |
|
||
| 线索转化率(线索→属实立案) | 可量化、上看板 | R18、R21 |
|
||
| 首批线索产出 | 投产首月 200–500 条 | R7 |
|
||
| 可挽回收入/止损 | 年化数千万级(保守) | R21 |
|
||
| 查询响应 | 常规查询秒级,全量任务异步反馈进度 | 非功能 5.2 |
|
||
|
||
### 2.3 非目标(本产品不做)
|
||
- 不替代业务系统本身的生产功能。
|
||
- 不做面向业务方共享的全行级数据中台。
|
||
- 不做需要数据出域的任何云端推理。
|
||
|
||
---
|
||
|
||
## 3. 用户画像与核心场景(痛点解法)
|
||
|
||
### 3.1 用户画像
|
||
| 角色 | 画像 | 关键诉求 |
|
||
| --- | --- | --- |
|
||
| 审计员 | 一线内审,业务熟但不写代码 | 看懂线索、查到证据、处置留痕 |
|
||
| 审计主管 | 部门负责人 | 全局掌控、成效可量化、流程合规 |
|
||
| 规则管理员 | 资深审计/规则专家 | 自然语言配规则、沙箱验证、版本可控 |
|
||
| 系统管理员 | IT 运维 | 接入稳定、权限可控、运行可观测 |
|
||
| 系统审计员 | 独立监督岗 | 改动可追溯、线索不可被删被拦 |
|
||
|
||
### 3.2 核心场景与痛点解法
|
||
| 场景 | 痛点 | AIAudit 解法 | 对应需求 |
|
||
| --- | --- | --- | --- |
|
||
| 政企拆单规避 | 大额拆小额规避三重一大,抽样避开 | 金额阈值边缘分布识别 + 工商关联穿透 + 回款时序聚类 | R8 |
|
||
| 养卡骗补 | 脉冲新增+规律退订,藏在时序里 | 用户生命周期时序模式识别 + 佣金质量匹配 | R9 |
|
||
| 收入成本跨期错配 | 趸交一次性确认、成本分摊错配 | 政策/账务/合同三方勾稽 + 时点错配识别 | R10 |
|
||
| 渠道套利套机 | 虚假放号、套卡、异地窜货 | IMEI 级流向追踪 + 佣金在网时长匹配 | R11 |
|
||
| 围标串标 | 报价雷同、马甲供应商、虚增工程量 | 投标关联分析 + 巡检轨迹交叉验证 + 供应商画像 | R12 |
|
||
| 网间结算刷量 | 话务/短信刷量套结算 | 整数时长识别 + 信令比对 + 到达率交叉验证 | R13 |
|
||
| 云空转/IDC虚租 | 资源闲置却全额确认收入 | 利用率vs计费量比对 + 电力勾稽 + 关联方识别 | R14 |
|
||
| 内部舞弊 | 内部号套利、越权、积分套现 | 操作日志异常 + 权限岗位匹配 + 积分流向追踪 | R15 |
|
||
|
||
> 共性痛点:"数据涉密不能出域 + 海量单据查不过来 + 时序造假抽样抓不到"。共性解法:"本地 LLM + 审计数据中台全量穿透 + 规则进化 + 人机闭环"。
|
||
|
||
---
|
||
|
||
## 4. 功能清单与优先级(MoSCoW)
|
||
|
||
> 优先级:Must(一期 MVP 必须)/ Should(二期)/ Could(三期)/ Won't(暂不做)。映射回 `0-req-AIAudit.md` 需求编号。
|
||
|
||
### 4.1 数据中台与底座
|
||
| 功能 | 优先级 | 需求映射 |
|
||
| --- | --- | --- |
|
||
| 多源异构数据接入(接口/库/文件) | Must | R1 |
|
||
| 审计专用数据底座(物理隔离、独立掌控) | Must | R2 |
|
||
| 本体建模与审计知识图谱 | Must | R2 |
|
||
| 主数据对齐与数据清洗/质量评分 | Must | R2 |
|
||
| 双时态/时序建模与版本回溯 | Must | R3 |
|
||
| 增量同步与常态化重算 | Should | R3 |
|
||
| 统一穿透/图谱查询服务 | Must | R2 |
|
||
|
||
### 4.2 核心引擎
|
||
| 功能 | 优先级 | 需求映射 |
|
||
| --- | --- | --- |
|
||
| 本地私有化 LLM 部署与推理 | Must | R4 |
|
||
| 自然语言查数(不写 SQL) | Must | R4、R20 |
|
||
| 全量穿透扫描引擎 | Must | R5 |
|
||
| 跨系统关联穿透 | Must | R5、R2 |
|
||
| 规则进化引擎(NL→规则) | Should | R6 |
|
||
| 规则沙箱验证与版本管理 | Should | R6 |
|
||
| 线索生成 + 证据链 + 人话解释 | Must | R7 |
|
||
| 线索价值排序与推送 | Must | R7、R20 |
|
||
|
||
### 4.3 审计场景
|
||
| 功能 | 优先级 | 需求映射 |
|
||
| --- | --- | --- |
|
||
| 场景一 政企收入全链路穿透 | Must | R8 |
|
||
| 场景二 养卡骗补识别 | Must | R9 |
|
||
| 场景三 收入成本跨期匹配 | Should | R10 |
|
||
| 场景四 渠道佣金与套利 | Should | R11 |
|
||
| 场景五 网络建设与工程采购 | Could | R12 |
|
||
| 场景六 互联互通与网间结算 | Could | R13 |
|
||
| 场景七 云业务/IDC | Could | R14 |
|
||
| 场景八 员工内部舞弊 | Should | R15 |
|
||
|
||
> 一期场景优先级建议:选取"高概率×高金额"的政企拆单(R8)与养卡骗补(R9)作为 MVP 跑通,其余按风险热力图分期接入。最终优先级以评审为准。
|
||
|
||
### 4.4 闭环、治理与应用
|
||
| 功能 | 优先级 | 需求映射 |
|
||
| --- | --- | --- |
|
||
| 风险域全景与热力图 | Should | R16 |
|
||
| 线索分派→研判→定性→整改→销项闭环 | Must | R17 |
|
||
| 审计底稿自动生成 | Should | R17 |
|
||
| 置信度三级分流 | Must | R18 |
|
||
| 误报反馈学习闭环 | Should | R18 |
|
||
| 运营指标看板(命中率/准确率/转化率) | Should | R18、R21 |
|
||
| 系统自审计(留痕/分权/三重版本/线索不可删) | Must | R19 |
|
||
| 线索看板/智能报告/预警推送 | Must | R20 |
|
||
| 成效度量与同台盲测报告 | Should | R21 |
|
||
|
||
---
|
||
|
||
## 5. 关键流程
|
||
|
||
### 5.1 数据流(从接入到可分析)
|
||
```
|
||
源系统(BSS/OSS/ERP/财务/合同/工单/信令)
|
||
→ 接入适配(接口/库/文件)
|
||
→ 审计数据中台:清洗/质量评分 → 本体建模/主数据对齐(知识图谱) → 双时态/时序建模
|
||
→ 统一穿透查询服务
|
||
→ 全量穿透引擎 + 本地 LLM
|
||
```
|
||
|
||
### 5.2 审计闭环(从线索到销项)
|
||
```
|
||
全量扫描/规则命中 → 生成线索+证据链+判定理由(置信度分级)
|
||
→ 推送/分派审计员 → 复核研判 → 定性分类
|
||
→ 自动生成审计底稿 → 整改 或 移交
|
||
→ 销项复核闭环(全程留痕)
|
||
→ 审计员反馈(误报/属实) → 阈值与模型校准
|
||
```
|
||
|
||
### 5.3 规则进化流
|
||
```
|
||
审计员用自然语言描述新造假模式
|
||
→ LLM 转化为可执行规则
|
||
→ 沙箱用历史数据验证命中率
|
||
→ 评审通过 → 投入生产(版本留痕)
|
||
→ 反馈迭代优化 → 沉淀进规则库
|
||
```
|
||
|
||
---
|
||
|
||
## 6. 角色权限矩阵
|
||
|
||
> ✅ 允许 🔶 限本人/受限 ❌ 禁止。体现独立性与分权制衡(R19)。
|
||
|
||
| 功能 / 角色 | 审计员 | 审计主管 | 规则管理员 | 系统管理员 | 系统审计员 | 业务方 |
|
||
| --- | --- | --- | --- | --- | --- | --- |
|
||
| 自然语言查询 | ✅ | ✅ | ✅ | 🔶 | ✅ | ❌ |
|
||
| 查看线索 | 🔶本人 | ✅全部 | ✅ | ❌ | ✅全部 | ❌ |
|
||
| 研判/定性线索 | ✅ | ✅ | ❌ | ❌ | ❌ | ❌ |
|
||
| 分派线索 | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ |
|
||
| 删除线索 | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ |
|
||
| 配置/修改规则 | ❌ | 🔶审批 | ✅ | ❌ | ❌ | ❌ |
|
||
| 调整阈值 | ❌ | 🔶审批 | ✅ | ❌ | ❌ | ❌ |
|
||
| 出具报告 | ✅ | ✅ | ❌ | ❌ | 🔶审计报告 | ❌ |
|
||
| 数据接入配置 | ❌ | ❌ | ❌ | ✅ | ❌ | ❌ |
|
||
| 权限分配 | ❌ | 🔶 | ❌ | ✅ | ❌ | ❌ |
|
||
| 查看自审计轨迹 | ❌ | 🔶 | ❌ | 🔶 | ✅ | ❌ |
|
||
| 模型部署/升级 | ❌ | ❌ | ❌ | ✅ | ❌ | ❌ |
|
||
|
||
> 关键约束:任何角色均不能删除已生成线索;规则/阈值变动需审批且全程留痕;业务方对系统无任何写权限。
|
||
|
||
---
|
||
|
||
## 7. 版本规划
|
||
|
||
### 一期 · MVP(约 3 个月,对标蓝图部署节奏)
|
||
- 第 1 月:本地算力+模型部署;数据接入;搭建审计数据中台(接入+本体+时态最小集)。
|
||
- 第 2 月:场景微调;政企拆单(R8)+ 养卡骗补(R9)跑通;历史数据全量重跑同台盲测。
|
||
- 第 3 月:投产;产出首批 200–500 条线索;人机闭环 + 系统自审计上线;规则库首轮进化。
|
||
- 范围:R1-R5、R7、R8、R9、R17、R18(基础)、R19、R20。
|
||
|
||
### 二期 · 能力扩展
|
||
- 规则进化引擎完整化(R6);新增场景 R10/R11/R15;风险热力图(R16);误报反馈学习(R18);运营看板与盲测报告(R21)。
|
||
|
||
### 三期 · 全域覆盖
|
||
- 接入场景 R12/R13/R14;增量近实时常态化(R3 完整);信创适配深化;规则库规模化沉淀。
|
||
|
||
---
|
||
|
||
## 8. 非功能性要求(摘自需求并细化)
|
||
- **安全合规(红线)**:全链路内网闭环,数据零出域;不可篡改操作日志;敏感数据访问控制与脱敏。(R5.1)
|
||
- **性能时效**:支撑 70B 级本地推理;常规查询秒级;150 亿级全量扫描异步执行并反馈进度。(R5.2)
|
||
- **易用性**:审计员零门槛,自然语言交互,无需写 SQL。(R5.3)
|
||
- **可扩展**:新增数据源/场景/规则不重构核心;模型可替换升级。(R5.4)
|
||
- **可追溯可解释**:结论可回溯到模型/规则/数据三重版本;线索均附证据链与理由。(R5.5)
|
||
- **信创适配**:可适配国产 GPU 与信创软硬件。(R5.6)
|
||
|
||
---
|
||
|
||
## 9. 依赖与风险
|
||
|
||
### 9.1 依赖
|
||
- 本地 GPU 算力(A100/H100/国产 GPU)到位。
|
||
- 各业务系统可提供接口/库访问/文件导出之一。
|
||
- 过去 2–3 年历史审计数据与结论可用于微调与盲测。
|
||
- 初期可用脱敏/样例数据开发与演示。
|
||
|
||
### 9.2 风险与应对
|
||
| 风险 | 影响 | 应对 |
|
||
| --- | --- | --- |
|
||
| 数据治理工作量被低估 | 拖累全量穿透落地 | 数据中台提前立项、独立排期、最小集先行 |
|
||
| 主数据对不齐 | 关联穿透失效 | 本体先行、对齐失败显式标记人工干预 |
|
||
| 误报过多 | 审计员被淹没 | 置信度三级分流 + 反馈学习 + 可解释证据链 |
|
||
| 模型幻觉/误判 | 线索不可信 | 证据链强制、沙箱验证、人工复核闭环 |
|
||
| 算力不足 | 推理性能不达标 | 异步任务、分级调度、信创适配评估 |
|
||
| 独立性被破坏 | 放水/拦截 | 分权制衡、线索不可删、三重版本留痕、系统自审计 |
|
||
| 数据出域 | 合规红线事故 | 内网闭环架构、出域阻断、全链路留痕 |
|
||
|
||
---
|
||
|
||
> **请检查确认本 PRD。** 确认通过后,我将进入下一阶段,基于本文档生成开发任务文档 `2-task-AIAudit.md`(可勾选任务清单,标注目标、对应需求/PRD、验收标准、依赖与优先级/阶段)。如需修改,请直接告诉我要调整的部分。
|