freedak/InternalAuditInterprise

Fork 0

Files

T

freedakgmail 7b1e2b10a8 Initial commit: InternalAuditInterprise

2026-06-16 00:38:57 +08:00

19 KiB

Raw Permalink Blame History

2-task-AIAudit · 开发任务文档

项目：基于本地私有化大模型的电信运营商 AI 全域内审平台（AIAudit）版本：v0.1（待评审）日期：2026-06 上游来源：0-req-AIAudit.md、1-prd-AIAudit.md

使用说明

任务以可勾选清单组织：- [ ] 未开始 / - [x] 已完成 / - [~] 进行中。
编号规则：P{阶段}.{模块}.{任务}，子任务再加一级。
每个任务标注：目标、映射（需求 R / PRD 功能）、验收标准（DoD）、依赖。
阶段：MVP（一期）/ 二期 / 三期。优先级沿用 PRD 的 MoSCoW。
开发过程中本文档持续更新（勾选、记录变更、补充新任务）。

进度总览

阶段	模块数	状态
P0 项目基建与选型	4	进行中（P0.1 完成，P0.2/P0.3 部分）
P1 MVP（数据中台+引擎+R8/R9+闭环+自审计+看板+盲测）	11	进行中（P1.2 大部完成，P1.3 部分）
P2 二期（规则进化+R10/R11/R15+热力图+反馈学习+运营看板）	6	未开始
P3 三期（R12/R13/R14+近实时+信创+规则库规模化）	5	未开始

P0 · 项目基建与技术选型（MVP 前置）

P0.1 技术选型与架构基线

目标：确定技术栈与总体架构，形成可执行的工程基线。映射：PRD §1.2、非功能全量。依赖：无。

P0.1.1 召开技术选型评审，确定后端框架、前端框架、关系库、图数据库、时序/双时态存储、向量库、LLM 推理框架、任务调度组件
- 验收：产出《技术选型决策记录(ADR)》，每项含选型理由与备选；信创适配可行性结论
- 完成：见 docs/adr/ADR-0001-tech-stack.md
P0.1.2 绘制总体架构图（应用层/引擎层/数据中台层/模型层/算力层/安全自审计层）
- 验收：架构图 + 组件职责说明评审通过，明确内网闭环边界与数据零出域边界
P0.1.3 定义模块划分与代码仓库结构（monorepo 或多仓）、分支与发布策略
- 验收：仓库初始化完成，README 含目录约定与协作规范
- 完成：monorepo 结构（backend/frontend/infra/docs），README.md、.gitignore 已建
P0.1.4 定义数据零出域的网络与部署约束基线（内网隔离、出域阻断、无外网依赖清单）
- 验收：约束清单评审通过，CI 中加入"禁止外网依赖"检查项
- 完成：ADR 定义红线；代码层 prod 禁用公网 Provider（app/config.py、app/llm/factory.py），已有测试覆盖；CI 校验待 P0.3.2

P0.2 开发与运行环境

目标：搭建可复现的开发/测试环境。映射：非功能 5.1/5.2。依赖：P0.1。

P0.2.1 本地化依赖与离线包源（内网制品库/镜像），避免外网拉取
- 验收：在隔离网络中可完成依赖安装与构建
- 进展：已配置清华镜像源加速开发期安装（~/.config/pip/pip.conf）；内网制品库待部署
P0.2.2 容器化与编排（开发/测试环境一键拉起）→ 调整为本地安装
- 验收：本地 PostgreSQL 16 可用，初始化脚本可建库建扩展
- 完成：弃用 Docker（已删除 docker-compose/Dockerfile）。本机 Homebrew 安装 PostgreSQL 16.14 + pgvector 0.8 + btree_gist；infra/postgres/setup_local.sh 建库建扩展通过。TimescaleDB 因 macOS 编译问题本地跳过（迁移条件执行，生产 Linux 启用），见 ADR-0002
P0.2.3 GPU 推理环境准备（驱动、推理框架、显存配置）
- 验收：可在本地 GPU 上加载一个基线模型并完成一次推理

P0.3 工程质量基线

目标：建立测试、CI、代码规范。映射：阶段 5 通用约束。依赖：P0.1。

P0.3.1 单元/集成测试框架与覆盖率门槛
- 验收：示例测试可运行，CI 跑测试并产出覆盖率报告
- 完成：pytest 接入，7 个测试通过（含数据零出域红线测试）；覆盖率门槛与 CI 集成待 P0.3.2
P0.3.2 CI 流水线（构建+测试+静态检查+无外网依赖校验）
- 验收：提交触发流水线，失败可阻断合并
- 进展：ruff 已接入并通过（pyproject.toml），CI 流水线脚本待编写
P0.3.3 代码规范、提交规范与 Lint
- 验收：Lint 接入 CI，违规阻断

P0.4 安全与权限基线（贯穿）

目标：先立"独立性"地基。映射：R19、非功能 5.1。依赖：P0.1。

P0.4.1 统一鉴权与 RBAC 模型设计（角色：审计员/主管/规则管理员/系统管理员/系统审计员/业务方）
- 验收：RBAC 模型评审通过，覆盖 PRD §6 权限矩阵
P0.4.2 不可篡改操作日志（审计轨迹）基础设施
- 验收：任意关键操作落不可篡改日志，含操作人/时间/对象/动作，可查询
P0.4.3 敏感数据访问控制与脱敏策略
- 验收：敏感字段访问受控并可脱敏展示，越权访问被拒并留痕

P1 · MVP（一期）

P1.1 审计数据中台 · 接入层

目标：把多源异构数据汇入审计专用底座。映射：R1 / PRD §4.1。依赖：P0。

P1.1.1 接入适配框架（接口/数据库/文件三类），插件式数据源注册
- 验收：可注册一个新数据源并完成一次导入，不改源系统
P1.1.2 数据源接入配置（连接、字段映射、同步周期）管理界面/配置
- 验收：通过配置即可接入，无需改代码；配置项可校验
P1.1.3 全量初始化导入 + 失败告警与隔离
- 验收：单源失败记录原因并告警，不影响其他源；可重试
P1.1.4 接入侧数据零出域校验
- 验收：接入过程无任何外网传输，校验项纳入测试
P1.1.5 样例/脱敏数据集导入（用于开发与盲测）
- 验收：可一键导入样例数据，覆盖 R8/R9 所需字段

P1.2 审计数据中台 · 本体层与知识图谱

目标：按审计本体组织实体与关系。映射：R2 / PRD §4.1。依赖：P1.1。

P1.2.1 审计本体(Ontology)定义（客户/合同/号码/IMEI/账户/工单/供应商/结算单及关系）
- 验收：本体 schema 评审通过，含实体属性与关系定义
- 完成：app/datahub/ontology.py（12 实体类型 + 12 关系类型 + 本体域约束），见 ADR-0002；单元测试覆盖
P1.2.2 知识图谱存储与建模落地
- 验收：实体与关系写入图存储，可做多跳关联查询
- 完成：关系表 entity/entity_relationship + 递归 CTE 多跳穿透（app/datahub/graph_repo.py），集成测试验证"实控人识别"
P1.2.3 主数据对齐（跨系统实体统一识别与关联）
- 验收：对齐结果可验证（如同一实控人聚合），对齐失败显式标记
- 完成：entity 以 (类型,业务主键) 幂等归一 + canonical_id 归并锚点；穿透识别同一实控人已测
P1.2.4 数据清洗与质量评分（缺失/重复/口径不一致探查）
- 验收：质量评分可在界面查看；关键字段缺失/无法对齐标记人工干预而非丢弃
P1.2.5 统一穿透/图谱查询服务（对引擎与场景提供共同入口）
- 验收：提供统一查询 API，支持关联穿透；返回结果可解释来源
- 完成：app/api/datahub.py（POST /datahub/penetrate 多跳穿透 + GET /datahub/entities/{id}），返回带最短跳数的关联实体；API 集成测试通过

P1.3 审计数据中台 · 时态层

目标：原生支持时间维度与版本回溯。映射：R3 / PRD §4.1。依赖：P1.1。

P1.3.1 双时态建模（业务发生时间 + 系统记录时间）
- 验收：可按任意历史时点回放数据状态，回放结果正确
- 完成：BitemporalFact + bitemporal_repo.as_of() 回放；btree_gist 排他约束防有效期重叠；集成测试通过
P1.3.2 关键对象时间序列建模（用户生命周期/回款/话务/佣金/资源使用）
- 验收：可按对象取出有序时间序列，供时序分析
- 进展：metric_event 表已建（生产转 TimescaleDB 超表），时序查询封装待补
P1.3.3 增量同步与数据版本记录
- 验收：每次同步记录时间戳/数据量/数据版本；结论可回溯到数据版本
- 进展：data_version 表已建并被各表外键引用，同步流程待实现
P1.3.4 常态化重算触发（增量到达触发相关规则重算）
- 验收：增量到达后相关场景结果自动更新

P1.4 本地私有化 LLM 引擎

目标：本地部署模型并支持自然语言能力。映射：R4 / PRD §4.2。依赖：P0.2.3。

P1.4.1 本地模型部署（千问 70B / DeepSeek 之一）与推理服务封装
- 验收：内网可用、推理不依赖外网；提供统一推理 API
P1.4.2 自然语言查数（NL→查询）能力，对接统一穿透查询服务
- 验收：审计员自然语言提问返回结构化结果，无需写 SQL
P1.4.3 异常模式推理、报告生成、线索解释能力接入
- 验收：能对给定异常聚类输出"人话"解释与结构化报告
P1.4.4 模型版本记录与结论可回溯
- 验收：每条结论可回溯到模型版本
P1.4.5 LLM 输出防幻觉约束（强制附证据/可溯源，不可编造数据）
- 验收：无证据支撑的结论被拦截或标注低置信

P1.5 全量穿透引擎

目标：全量扫描与跨系统关联穿透。映射：R5 / PRD §4.2。依赖：P1.2、P1.3。

P1.5.1 全量扫描任务框架（异步任务、进度反馈、可中断）
- 验收：长耗时全量任务异步执行并反馈进度
P1.5.2 跨系统关联穿透（合同—回款—工商—账户等）
- 验收：可输出关联路径与证据，覆盖 R8 所需穿透
P1.5.3 扫描覆盖范围与数据量输出（证明全量性）
- 验收：任务结束输出覆盖范围与数据量统计
P1.5.4 数据就地分析、数据不出域
- 验收：穿透过程数据不离开内网，校验纳入测试

P1.6 线索驱动引擎

目标：生成线索+证据链+解释并推送。映射：R7、R18(基础) / PRD §4.2。依赖：P1.4、P1.5。

P1.6.1 线索数据模型（风险域/场景/置信度/证据链/判定理由/状态）
- 验收：线索结构可承载证据链与状态流转
P1.6.2 线索生成（由穿透/规则命中产出异常聚类→线索）
- 验收：异常聚类自动转为线索并附证据链与理由
P1.6.3 置信度三级分流（高/中/低）与价值排序
- 验收：线索分级正确；高置信优先推送
P1.6.4 线索推送至审计员工作台
- 验收：对应审计员可在工作台收到线索

P1.7 场景一 · 政企收入全链路穿透（R8）

目标：识别拆单规避与虚假回款。映射：R8 / PRD §4.3 Must。依赖：P1.5、P1.6。

P1.7.1 政企合同全链路建模（立项→审批→报价→签约→开票→回款）
- 验收：链路数据可端到端串联查询
P1.7.2 拆单识别（金额阈值边缘分布检测）
- 验收：阈值边缘集中分布合同被识别为疑似拆单并生成线索
P1.7.3 工商关联穿透（隐性实控人：地址/法人亲属/付款账户同源）
- 验收：同源关联客户被聚合识别，附证据
P1.7.4 回款时序聚类（批量违约/长期挂账）
- 验收：批量违约模式被识别并生成线索
P1.7.5 一键生成《政企客户回款异常专项线索清单》
- 验收：可导出结构化清单，含证据链

P1.8 场景二 · 养卡骗补识别（R9）

目标：识别脉冲新增+规律退订的周期性造假。映射：R9 / PRD §4.3 Must。依赖：P1.3、P1.6。

P1.8.1 用户生命周期时序模式识别（脉冲式增长+规律性衰减）
- 验收：周期性造假模式被识别并生成线索
P1.8.2 渠道佣金与业务质量匹配（在网时长/通话/流量活跃度）
- 验收：佣金与质量不匹配渠道被标记
P1.8.3 沉默/零通话/零流量用户批量聚类（含物联网卡虚假激活）
- 验收：批量沉默用户被聚类识别
P1.8.4 项目交付物与收入确认交叉验证
- 验收：交付与收入不匹配项被识别

P1.9 人机协同闭环（R17 基础）

目标：线索到销项全流程在线留痕。映射：R17 / PRD §4.4 Must。依赖：P1.6。

P1.9.1 线索分派（主管→审计员）
- 验收：可分派并通知；分派留痕
P1.9.2 复核研判与定性分类
- 验收：审计员可研判、定性，记录理由
P1.9.3 审计底稿自动生成（可追溯）
- 验收：研判完成自动生成底稿，含证据链与版本信息
P1.9.4 整改/移交与销项复核闭环、状态机
- 验收：线索状态全流程可跟踪，过程留痕

P1.10 系统自审计与独立性（R19）

目标：让审计系统自身经得起审计。映射：R19 / PRD §4.4 Must、§6。依赖：P0.4。

P1.10.1 规则/阈值变更全程留痕（操作人/时间/变更内容）
- 验收：任意变更可追溯
P1.10.2 线索不可删除约束
- 验收：任何角色删除线索请求被拒并留痕
P1.10.3 关键操作分权制衡（配规则/看线索/改阈值/出报告分离）
- 验收：越权操作被拒，符合 PRD §6 权限矩阵
P1.10.4 模型/规则/数据三重版本留痕与回溯
- 验收：任一结论可回溯到当时的模型、规则、数据版本

P1.11 应用层、看板与盲测验证

目标：审计员零门槛使用 + 盲测证明价值。映射：R20、R21、R18 / PRD §2.2、§7。依赖：P1.6-P1.10。

P1.11.1 线索看板（按风险域/场景/置信度筛选与下钻）
- 验收：看板可筛选下钻，展示证据链
P1.11.2 自然语言查询入口（前端）
- 验收：审计员可自然语言查询并查看结果
P1.11.3 智能报告与专项清单导出
- 验收：可一键生成报告/清单
P1.11.4 高置信预警推送
- 验收：高置信线索触发主动通知
P1.11.5 历史数据全量重跑 + 同台盲测
- 验收：用 2-3 年历史数据重跑，与既有审计结论对比，复现已知线索并发现新增真实线索
P1.11.6 同台盲测成效报告
- 验收：产出成效报告，量化命中率与新增线索价值

P2 · 二期（能力扩展）

P2.1 规则进化引擎完整化（R6）

目标：NL→规则、沙箱验证、版本管理、迭代。映射：R6 / PRD §4.2 Should。依赖：P1.4、P1.5。

P2.1.1 自然语言→可执行规则转化
- 验收：规则管理员用自然语言描述模式即可生成可执行规则
P2.1.2 规则沙箱（历史数据验证命中率，未确认不投产）
- 验收：新规则先沙箱验证，确认前不进生产
P2.1.3 规则版本管理（创建人/修改人/时间/变更）
- 验收：规则版本历史可查可回溯
P2.1.4 基于反馈的规则迭代优化
- 验收：依据审计员反馈可迭代规则
P2.1.5 规则库（机构永久资产，可持续增长）
- 验收：规则可入库、检索、复用

P2.2 场景三 · 收入成本跨期匹配（R10）

目标：识别确认时点错配。映射：R10 / PRD §4.3 Should。依赖：P1.2、P1.3。

P2.2.1 收入确认政策/账务/合同三方勾稽
P2.2.2 趸交/预收款一次性确认异常分录识别
P2.2.3 设备交付与收入确认时间差监控
P2.2.4 按使用量计费却提前确认收入识别
- 验收（本模块）：各类时点错配生成线索并附勾稽证据

P2.3 场景四 · 渠道佣金与套利（R11）

目标：终端流向与佣金匹配。映射：R11 / PRD §4.3 Should。依赖：P1.3。

P2.3.1 IMEI 与用户绑定真实性校验
P2.3.2 佣金与在网时长匹配度
P2.3.3 IMEI 级终端流向追踪（激活即沉默/跨省流通）
P2.3.4 代理商业务质量时序衰减分析
- 验收（本模块）：套利闭环被识别并生成线索

P2.4 场景八 · 员工内部舞弊（R15）

目标：权限滥用与积分套现识别。映射：R15 / PRD §4.3 Should。依赖：P1.2。

P2.4.1 员工权限操作日志异常模式识别
P2.4.2 内部测试号用途偏离识别
P2.4.3 积分/电子券流向追踪与套现识别
P2.4.4 权限-岗位匹配度分析（越权识别）
- 验收（本模块）：内部舞弊模式生成线索并附证据

P2.5 风险域全景与热力图（R16）

目标：全局视图与优先级。映射：R16 / PRD §4.4 Should。依赖：P1.6。

P2.5.1 五大风险域归类与场景挂载
P2.5.2 风险热力图（概率×金额）
P2.5.3 高概率高金额场景配置为全量持续监控
P2.5.4 多维筛选与下钻（风险域/场景/地市/单位）
- 验收（本模块）：热力图可视化 + 一眼看出优先级

P2.6 误报反馈学习与运营看板（R18、R21）

目标：准确率随使用上升 + 成效可量化。映射：R18、R21 / PRD §4.4 Should。依赖：P1.6、P1.11。

P2.6.1 审计员"误报/属实"标注与反馈采集
P2.6.2 阈值/模型基于反馈持续校准
P2.6.3 运营看板（命中率/准确率/线索转化率）
P2.6.4 成效度量（可挽回收入/止损统计）
- 验收（本模块）：反馈闭环生效，运营指标上看板

P3 · 三期（全域覆盖）

P3.1 场景五 · 网络建设与工程采购（R12）

映射：R12 / PRD §4.3 Could。依赖：P1.2、P2.1。

P3.1.1 投标关联分析（报价相似度/文件雷同度，NLP 比对）
P3.1.2 工程量与资源消耗匹配验证
P3.1.3 巡检 GPS 轨迹与工单交叉验证
P3.1.4 供应商画像与"马甲"识别
- 验收（本模块）：围标串标/虚增工程量生成线索

P3.2 场景六 · 互联互通与网间结算（R13）

映射：R13 / PRD §4.3 Could。依赖：P1.3。

P3.2.1 话务量时序异常（突发峰值/整数时长聚集）
P3.2.2 网间结算与网络侧原始信令比对
P3.2.3 SP/CP 业务量与收入结算交叉验证
P3.2.4 国际来话真实路由溯源
- 验收（本模块）：刷量套利生成线索

P3.3 场景七 · 云业务/IDC（R14）

映射：R14 / PRD §4.3 Could。依赖：P1.2、P1.3。

P3.3.1 云资源利用率 vs 计费量匹配
P3.3.2 IDC 出租率与电力消耗勾稽
P3.3.3 新兴业务客户关联方识别与预付模式异常
P3.3.4 收入确认与交付验收时序一致性
- 验收（本模块）：空转/虚租生成线索

P3.4 增量近实时与常态化（R3 完整）

映射：R3 / PRD §7 三期。依赖：P1.3。

P3.4.1 从周期增量升级为近实时增量
P3.4.2 常态化 7×24 监控调度与告警
- 验收：近实时数据驱动常态化监控稳定运行

P3.5 信创适配与规则库规模化

映射：非功能 5.6、R6 / PRD §7 三期。依赖：P0.1、P2.1。

P3.5.1 国产 GPU 与信创软硬件适配验证
P3.5.2 规则库规模化治理（分类/检索/质量/退役）
- 验收：信创环境跑通 + 规则库可规模化运营

变更记录

日期	变更内容	责任人
2026-06	初版创建	—
2026-06	弃用 Docker，改用本地 PostgreSQL 16（卸载 pg14，装 pg16+pgvector）；数据中台本体/图谱/双时态落地并通过集成测试	—

请检查确认本任务文档。 确认通过后，将按本文档（建议从 P0 基建开始）推进开发，每完成一组任务进行测试、更新本文档状态并向你汇报。如需调整任务粒度、阶段切分或依赖关系，请直接告诉我。

19 KiB Raw Permalink Blame History Unescape Escape

2-task-AIAudit · 开发任务文档

使用说明

进度总览

P0 · 项目基建与技术选型（MVP 前置）

P0.1 技术选型与架构基线

P0.2 开发与运行环境

P0.3 工程质量基线

P0.4 安全与权限基线（贯穿）

P1 · MVP（一期）

P1.1 审计数据中台 · 接入层

P1.2 审计数据中台 · 本体层与知识图谱

P1.3 审计数据中台 · 时态层

P1.4 本地私有化 LLM 引擎

P1.5 全量穿透引擎

P1.6 线索驱动引擎

P1.7 场景一 · 政企收入全链路穿透（R8）

P1.8 场景二 · 养卡骗补识别（R9）

P1.9 人机协同闭环（R17 基础）

P1.10 系统自审计与独立性（R19）

P1.11 应用层、看板与盲测验证

P2 · 二期（能力扩展）

P2.1 规则进化引擎完整化（R6）

P2.2 场景三 · 收入成本跨期匹配（R10）

P2.3 场景四 · 渠道佣金与套利（R11）

P2.4 场景八 · 员工内部舞弊（R15）

P2.5 风险域全景与热力图（R16）

P2.6 误报反馈学习与运营看板（R18、R21）

P3 · 三期（全域覆盖）

P3.1 场景五 · 网络建设与工程采购（R12）

P3.2 场景六 · 互联互通与网间结算（R13）

P3.3 场景七 · 云业务/IDC（R14）

P3.4 增量近实时与常态化（R3 完整）

P3.5 信创适配与规则库规模化

变更记录

19 KiB

Raw Permalink Blame History