Files
InternalAuditInterprise/docs/数据不出域,审计全穿透.md
2026-06-16 00:38:57 +08:00

18 KiB
Raw Permalink Blame History

数据不出域,审计全穿透(优化版)

基于本地私有化大模型的电信运营商 AI 全域内审体系 让 150 亿业务里的每一分钱,都在本地 AI 的显微镜下原形毕露 2026 年 6 月


幻灯片 1 · 封面

数据不出域,审计全穿透

  • 基于本地私有化大模型的电信运营商 AI 全域内审体系
  • 不是一套工具,而是一套"建在自己机房里、越用越聪明"的审计能力体系
  • 2026 年 6 月

幻灯片 2 · 为什么传统审计"查不过来"?

三个数字看清困局

  • 150 亿 —— 年业务规模
  • 5000 万 —— 潜在异常金额
  • 5% —— 传统抽样覆盖率

三类典型困局

  • "拆单规避":8 个客户各签 600 万 ICT 项目,全拆成 80 万以下小额合同,三重一大抽样完美避开。按金额抽样,大额拆分后消失在雷达之外。
  • "稳定的定,稳定的退":每月新增 6000 人订购彩铃,3 个月后首月用户全部退订。渠道已按新增量领取佣金,形成"骗补后弃养"闭环——造假藏在时序里。
  • "Excel 干不过来":安全云盘 + 宏 + 人工,面对海量单据只能抽样,查不全、查不深。150 亿业务海洋中,5000 万异常如针落大海。

核心矛盾:审计数据涉及政企合同、用户隐私、财务凭证,上公有云大模型 = 裸奔;不上 AI 又干不过来。怎么办?


幻灯片 3 · 本地 LLM 让"安全"和"智能"不再二选一

对比维度 传统抽样审计 公有云 AI 审计 本地 LLM 审计(我们)
数据范围 按金额抽样,查不全 全量扫描,但数据出域 全量扫描,数据不出机房
规则能力 规则写死,反向规避 模型能力强,但合规风险高 模型私有化,合规可控
响应效率 Excel 翻表,效率低 实时预警,但依赖外网 内网闭环,秒级响应
交互模式 人找数据 数据找人,但数据送人 数据找人,数据原地不动
能力归属 经验在人脑,人走经验走 能力在外部,租用即失 能力沉淀在本地,越用越聪明

把千问 70B / DeepSeek 装进本地机房,让 AI 在数据旁边干活,而不是把数据送给 AI。


幻灯片 4 · 【新增】审计域全景图 + 风险分级模型

不是 8 个孤立场景,而是一张覆盖全业务的审计地图

把所有审计场景归入五大风险域,做到"全覆盖、有优先级":

风险域 覆盖场景 关注核心
收入域 政企收入穿透、收入成本跨期匹配、云业务空转 收入真实性、确认时点
成本域 渠道佣金、终端补贴、成本摊销 成本真实性、套利
采购域 网络建设、工程采购、围标串标 采购合规、虚增工程量
资金域 回款挂账、网间结算、资金流向 资金真实性、关联交易
合规域 员工舞弊、权限滥用、积分套现 内控有效性、权限合规

风险热力图(发生概率 × 金额影响)

  • 高概率 + 高金额 → 优先全量监控(如政企拆单、渠道骗补)
  • 低概率 + 高金额 → 重点定向穿透(如围标串标、云空转)
  • 高概率 + 低金额 → 批量聚类筛查(如积分套现、内部号码)

让客户一眼看出:我们不是"工具集合",是"有体系、有优先级的全域审计框架"。


幻灯片 5 · "本地 AI 审计大脑"四大核心引擎

  • ① 本地私有化 LLM 引擎(底座):千问 70B / DeepSeek 等模型本地化部署,审计数据绝不出域。负责异常模式推理、自然语言规则配置、报告自动生成、线索解释。
  • ② 全量穿透引擎:直连 BSS / OSS / ERP / 财务系统,本地数据库直接喂给本地 LLM。不抽样,对所有合同、回款、用户行为做关联扫描。
  • ③ 规则进化引擎(护城河):审计人员用自然语言描述新造假模式,LLM 自动转化为可执行规则,沙箱验证命中率,持续对抗迭代——把顾问脑子里的经验固化成机构永久资产
  • ④ 线索驱动引擎:LLM 对异常聚类做"人话解释"(如"这 8 个客户疑似同一实控人"),输出高价值线索并附证据链,直接推送审计人员桌面。

幻灯片 6 · 场景一:政企收入全链路穿透

  • 业务链路:客户立项 → 移动立项 → 审批 → 报价 → 签约 → 首款/二款开票 → 回款
  • 经典案例(拆单规避 + 虚假回款):某地市公司 8 个"客户"各签 600 万 ICT 项目,全拆成 79 万-99 万合同规避三重一大审批。首款付 100 万、二款付 300 万,尾款 500 万长期挂账。经穿透,8 个客户注册地址在同一写字楼、法人为同一人亲属、付款账户来自同一实控企业。
  • AI 审计点:合同金额分布异常(集中在阈值边缘);工商关联穿透(隐性实控人识别);回款时序聚类(批量违约模式)。
  • 本地 LLM 能力:自然语言查数、关联推理、一键生成《政企客户回款异常专项线索清单》。

幻灯片 7 · 场景二:市场业务真实性("养卡骗补")

  • 经典案例(稳定的定,稳定的退):某渠道每月新增 6000 人订购彩铃,每过三个月首月用户全部退订,渠道已按新增量领取佣金,形成"骗补后弃养"闭环。用户号码归属地高度集中在某几个乡镇,且通话记录为零。
  • 扩展案例(物联网卡虚假激活):某代理商批量开通 10 万张物联网卡,声称用于"智慧停车",实际激活后无任何流量,已按激活量领取每台 50 元补贴,半年后卡片集体沉默。
  • AI 审计点:用户生命周期时序模式识别;渠道佣金与业务质量匹配度;沉默/零通话用户批量聚类;项目交付物与收入确认交叉验证。
  • 本地 LLM 能力:识别"脉冲式增长 + 规律性衰减"的周期性造假,自动提炼为新规则。

幻灯片 8 · 场景三:收入与成本跨期匹配

  • 经典案例(趸交收入一次性确认):用户办 24 个月套餐送智能手表,收入应分 24 个月确认,但因趸交财务一把全确认,手表成本却摊 24 个月——确认时点严重错配。某省一年此类业务 5000 万,在 150 亿总收入中如针落大海。
  • 扩展案例("以销定产"变"提前确认":某政企云项目约定"按实际使用量计费",但财务在设备上架当月即全额确认收入,客户前 6 个月几乎零使用。
  • AI 审计点:自动勾稽收入确认政策 vs 实际账务 vs 合同条款;识别趸交/预收款一次性确认异常分录;成本摊销与收入确认跨期匹配;设备交付与收入确认时间差监控。
  • 本地 LLM 能力:跨系统自动勾稽,识别收入成本确认时点错配的异常分录模式。

幻灯片 9 · 场景四:渠道佣金与代理商套利

  • 经典案例(虚假放号 + 套机套卡):某代理商为完成"5G 用户净增",批量买低价老人机插 5G SIM 卡激活后丢弃,用户从未产生 5G 流量,已领"5G 迁转"佣金每台 200 元 + 终端补贴 300 元,次月用户全部流失。
  • 扩展案例(异地窜货套利):代理商从邻省低价采购同款手机,在本省以"新用户入网"名义领高额补贴,手机实际回流二级市场。
  • AI 审计点:终端 IMEI 与用户绑定真实性;佣金发放与在网时长匹配度;终端流向追踪(激活即沉默/跨省流通);代理商业务质量时序衰减分析。
  • 本地 LLM 能力:IMEI 级终端流向追踪,识别"激活-沉默-流失"套利闭环。

幻灯片 10 · 场景五:网络建设与工程采购

  • 经典案例(围标串标 + 虚增工程量):某基站项目 3 家投标报价差异不足 1%,技术方案大量雷同,中标后施工队为同一班组,工程量签证单存在"同一笔迹不同日期"批量签字。
  • 扩展案例(虚假巡检与虚报工单):某外包商系统显示每月完成 2000 次基站巡检,GPS 轨迹比对实际只到过 300 个站点,其余为"照片复用 + 坐标伪造"。
  • AI 审计点:投标关联分析(报价相似度、文件雷同度);工程量与资源消耗匹配验证;巡检轨迹与工单交叉验证;供应商画像(同一实控人"马甲"识别)。
  • 本地 LLM 能力:NLP 比对投标文件雷同度,GPS 轨迹与工单交叉验证,识别"马甲"供应商。

幻灯片 11 · 场景六:互联互通与网间结算

  • 经典案例(话务量操纵套利):某运营商与境外运营商合谋虚假国际来话刷量,主叫归属地为虚商号段,通话时长均为 30 秒/60 秒整数倍,明显非真人。
  • 扩展案例(短信网关刷量):某 SP 伪造发送记录申报"成功发送"10 亿条行业短信按 0.05 元/条结算,实际到达率不足 10%。
  • AI 审计点:话务量时序异常(突发峰值、整数时长聚集);网间结算数据与网络侧原始信令比对;SP/CP 业务量与收入结算交叉验证;国际来话真实路由溯源。
  • 本地 LLM 能力:识别"整数倍通话时长"等非人类行为,信令级原始数据比对。

幻灯片 12 · 场景七:云业务 / IDC 与新兴业务

  • 经典案例(云资源"空转"确认收入):某政企客户签 3 年云服务年付 100 万,实际 CPU 利用率长期低于 5%、存储几乎为空,但财务按合同全额确认收入,且该"客户"实控人为地市公司某领导亲属。
  • 扩展案例(IDC 机柜"虚租":某 IDC 宣称出租率 90%,实际大量机柜无设备、电费为零,收入来自关联方"预付租金"。
  • AI 审计点:云资源实际使用量 vs 合同计费量匹配度;IDC 出租率与电力消耗勾稽;新兴业务客户画像(关联方识别、预付模式异常);收入确认与交付验收时序一致性。
  • 本地 LLM 能力:资源利用率与计费量自动比对,关联方网络挖掘,识别"空转"收入。

幻灯片 13 · 场景八:员工内部舞弊与资源滥用

  • 经典案例(内部号码套利):某营业厅员工利用权限批量开通"员工测试号"对外出租"免流套餐",测试号产生大量流量收入但全部计入内部成本未确认收入。
  • 扩展案例(积分/会员体系套现):某员工勾结外部商户虚构消费批量刷积分,兑换高价值礼品卡在二级市场变现,某商户单日积分发放量超正常 100 倍。
  • AI 审计点:员工权限操作日志异常模式识别;内部测试号实际用途偏离;积分/电子券流向追踪;权限与岗位匹配度(如客服岗有财务调账权限)。
  • 本地 LLM 能力:操作日志异常模式挖掘,权限-岗位匹配度分析,积分流向网络追踪。

幻灯片 14 · 【新增】数据接入与治理层(地基工程)

全量穿透的前提,是把脏活干在前面

  • 多源异构接入:适配 BSS / OSS / ERP / 财务 / 合同 / 工单 / 信令各系统的接口、数据库、文件,统一汇入本地数据湖。
  • 主数据对齐:客户、合同、号码、工单、供应商跨系统实体统一,解决"主键对不上"。
  • 数据质量探查与清洗:缺失、重复、口径不一自动探查并清洗,建立质量评分。
  • 增量同步与时效:从年度快照升级为近实时增量,支撑常态化监控。

数据治理是这套体系工作量最大、最该提前立项的一环。我们把它写进方案、承担下来,而不是回避。


幻灯片 15 · 【新增】人机协同闭环:线索之后才是价值

从"发现工具"升级为"办案平台"

AI 全量扫描 → 生成线索 + 初步证据链 → 审计员复核研判 →
系统自动生成审计底稿 → 定性分类 → 整改 / 移交 → 复核销项闭环
  • AI 侧:出线索、附证据链、给判定理由、自动生成可追溯底稿。
  • 审计员侧:复核研判、定性、决定整改或移交、最终签字。
  • 闭环管理:线索分派、取证留痕、整改跟踪、销项复核全流程在线。

不是"给你一堆线索然后呢",而是"从发现到闭环,每一步都接得住、留得痕"。


幻灯片 16 · 【新增】误报治理与置信度分级(专业 = 诚实)

全量扫描必然产生海量疑似项——关键是不让审计员淹死在假阳性里

  • 三级置信分流:高置信直接推送处置、中置信人工复核、低置信归档备查。
  • 每条线索可解释:附证据链 + 判定理由,拒绝"黑盒打分"。
  • 反馈学习闭环:审计员标注"误报/属实",系统持续校准阈值,准确率随使用上升。
  • 公开运营指标:命中率、准确率、线索转化率上看板,成效可量化、可追溯。

主动交代精准度,反而显专业。藏着不说,才是最大的风险。


幻灯片 17 · 本地私有化 LLM 审计平台架构

  • 应用层:自然语言查询 · 线索看板 · 智能报告 · 预警推送 —— 审计人员零门槛使用
  • 引擎层:全量穿透引擎 + 规则进化引擎 + 线索生成引擎 —— LLM 驱动三大引擎
  • 数据层:本地数据湖(BSS / OSS / ERP / 财务 / 合同 / 工单 / 信令)—— 直连内网,零出域
  • 模型层:千问 70B / DeepSeek / 自研行业模型 —— 审计领域微调,懂电信业务
  • 算力层:本地 A100 / H100 / 国产 GPU 集群 —— 承载 70B 级大模型推理,信创可适配
  • 安全合规与自审计层(贯穿全栈):权限分级 · 操作不可篡改日志 · 模型/规则版本留痕 · 全链路审计轨迹

全链路内网闭环 · 数据零出域


幻灯片 18 · 【新增】独立性与系统自审计(制度设计)

审计系统本身,也要经得起审计

  • 防放水:规则配置、阈值调整全程留痕,任何人改动可追溯,杜绝"调教规则放水"。
  • 防拦截:线索一旦生成即不可删除,处置过程全程记录,杜绝"线索被领导拦下"。
  • 权限分级:配规则、看线索、改阈值、出报告分权管理,相互制衡。
  • 可追溯:模型版本、规则版本、数据版本三重留痕,任一结论可回溯到当时的模型与数据状态。

既当运动员又当裁判是内审的大忌——我们用制度化的留痕和分权,让这套系统自己也透明可查。


幻灯片 19 · 本地 LLM 带来的四重跃升

  • 安全价值:敏感数据不出机房,满足国资/运营商/等保最严要求,模型-数据-推理-结果全链路内网闭环。
  • 能力价值:70B 级本地模型具备语义推理、规则自生长、报告生成能力,远超传统 BI;行业微调,懂电信业务。
  • 效率价值:自然语言交互,不写 SQL、不翻 Excel,问一句就出线索,从"人找数据"到"数据找人"。
  • 进化价值:每发现一种造假,LLM 自动提炼规则,系统越用越精准,形成机构专属审计知识库。
关键跃升 从 → 到
审计覆盖面 5% → 100%
数据出域风险 存在 → 归零
审计节奏 年度快照 → 7×24 常态化
能力归属 外部租用 → 本地永久沉淀

幻灯片 20 · 【新增】价值测算:把"异常"变成客户的钱

以 150 亿业务规模、5000 万潜在异常为基准的保守测算

价值来源 测算逻辑 年化收益(保守)
可挽回收入/止损 全量覆盖挖出抽样漏掉的异常并整改 数千万级
外部咨询费节省 常态化自有能力替代重复性项目制采购 百万级/年
人力释放 审计员从翻表取数转向研判处置 数倍效率提升
风险事件预防 提前发现合规风险,规避处罚与声誉损失 难以估量

投入一次本地化建设,沉淀的是持续产生收益的永久资产,而非每年重复支出的项目费用。


幻灯片 21 · 【新增】我们的差异化:能力沉淀,而非一次性交付

为什么是"建一套体系",而不是"买一份报告"

  • 能力沉淀 vs 项目制交付:项目制是"租大脑",人走经验走、明年再付一次;我们是"装一个永久的、越用越聪明的本地大脑",规则进化引擎把每一次审计经验固化为机构资产。
  • 常态化 vs 年度快照:舞弊是动态的,审计不能一年一次。时序类造假(养卡、骗补、脉冲式增长)恰恰是抽样和年度审计抓不到的,正是本地 LLM + 全量数据的主场。
  • 数据不出域 vs 数据出域:对等保/国资/数据安全红线极高的运营商,"一比特不出机房"是结构性优势,让安全合规部门站在我们这边。
  • 共存切入 vs 正面替代:先做底层全量穿透与常态化监控这块"以前做不动的层",跑出线索、证明价值,能力自然沉淀、份额自然扩展。

幻灯片 22 · 3 个月本地部署跑通(含同台盲测验证)

  • 第 1 个月 · 算力 + 模型部署:机房 GPU 到位;千问 70B / DeepSeek 本地化部署;对接 BSS/OSS/ERP/财务/工单/信令;构建本地数据湖。
  • 第 2 个月 · 场景微调 + 历史盲测:历史审计案例行业微调;政企/市场/财务/工程场景适配;用过去 2-3 年历史数据全量重跑,与既有审计结论同台盲测,验证能否挖出此前抽样漏掉的真实线索
  • 第 3 个月 · 投产 + 线索闭环:正式上线;生成首批 200-500 条线索;审计人员跟进核查反馈;规则库首轮进化。

交付物:一套本地私有化 AI 审计平台 + 一套可进化的审计规则库 + 一批已验证的高价值线索 + 一份同台盲测成效报告。


幻灯片 23 · 审计的终极形态

  • 数据不动、AI 动脑、造假者跑不掉
  • 本地大模型 + 全量穿透 + 规则进化 = 运营商内审的"新质生产力"
  • 让我们把千问 70B 装进您的机房
  • 150 亿业务全量扫描,敏感数据一比特不出域——这才是电信运营商该有的 AI 审计

2026 年 6 月