11 KiB
11 KiB
数据要求(面向数据中心)
项目:AIAudit · 本地私有化大模型电信运营商 AI 全域内审平台 目的:明确"为完成全域内审,需要数据中心向审计数据中台提供哪些数据、以何种粒度/频率/历史深度、何种质量与安全要求" 版本:v0.1(待评审) 日期:2026-06 关联:
0-req-AIAudit.md(R1/R2/R3 及八大场景)、1-prd-AIAudit.md、docs/数据不出域,审计全穿透.md
1. 总体原则
- 数据不出域:所有数据在本地内网传输与存储,禁止经公网;接入链路与审计数据中台均在机房内网闭环。
- 审计独立掌控:数据进入审计专用、物理隔离的数据底座,业务方对该底座无写权限。
- 全量而非抽样:提供全量数据(而非抽样/汇总),以支撑全量穿透。
- 可追溯:每批数据登记来源系统、批次、时间、行数(数据版本),使审计结论可回溯到当时的数据状态。
- 保留时间维度:尽量提供带时间戳的明细与变更流水(而非仅当前快照),以支撑时序造假识别与历史回放。
- 主键可对齐:跨系统实体需提供可关联的业务主键/编码,以支撑主数据对齐与关联穿透。
2. 源系统清单与接入
| 源系统 | 简称 | 主要数据 | 接入方式(任一即可) |
|---|---|---|---|
| 业务支撑系统 | BSS | 客户、订购、计费、出账、缴费、佣金 | 数据库只读账号 / 接口 / 文件导出 |
| 运营支撑系统 | OSS | 网络资源、工单、巡检、信令/话单 | 数据库只读 / 文件 |
| 企业资源计划 | ERP | 供应商、采购、合同、付款、资产 | 数据库只读 / 接口 |
| 财务系统 | FIN | 总账、明细账、凭证、收入确认、成本摊销 | 数据库只读 / 文件 |
| 合同管理 | CONTRACT | 合同主数据、条款、审批流 | 接口 / 文件 |
| 工单/服务开通 | WO | 工单、交付、验收 | 数据库只读 / 文件 |
| 网络侧/信令 | SIGNAL | 话单(CDR)、信令、流量详单 | 文件(大数据量,建议增量) |
| 工商/外部数据 | GS | 企业注册、法人、股东、地址(脱敏后) | 文件 / 受控接口 |
接入要求:
- 提供只读访问,不影响源系统生产。
- 大数据量(话单/信令/流量)优先增量同步(按日/按小时),并提供初始历史全量。
- 每个数据集需提供数据字典(字段含义、口径、单位、枚举值、更新频率)。
3. 按本体实体的数据需求(主数据对齐基础)
目的:构建审计知识图谱,支撑实控人/关联方/马甲穿透。每类实体需提供稳定业务主键。
| 实体 | 关键字段(至少) | 用途 |
|---|---|---|
| 客户 Customer | 客户号、名称、类型(政企/公众)、注册地址、法人、统一社会信用代码、开户时间 | 拆单、关联方、空转客户识别 |
| 合同 Contract | 合同号、客户号、金额、签订日期、审批层级/结果、业务类型、有效期 | 拆单、跨期、云空转 |
| 号码 MSISDN | 号码、归属客户号、归属地、入网/退网时间、状态 | 养卡骗补、内部号套利 |
| 终端 IMEI | IMEI、绑定号码、品牌型号、激活时间、补贴金额 | 套机套卡、终端流向 |
| 账户 Account | 账户号、户名、所属主体、银行、开户行 | 回款同源、资金穿透 |
| 工单 WorkOrder | 工单号、类型、关联合同/项目、处理人、状态、时间 | 工程量、巡检、交付验收 |
| 供应商 Supplier | 供应商号、名称、法人、股东、注册地址、统一社会信用代码 | 围标串标、马甲识别 |
| 结算单 Settlement | 结算单号、对端、金额、周期、关联业务量 | 网间结算、SP/CP |
| 员工 Employee | 工号、岗位、权限/角色、所属机构 | 越权、内部舞弊 |
| 渠道/代理商 Channel | 渠道号、名称、佣金政策、归属地 | 佣金套利、养卡骗补 |
| 法人/自然人 LegalPerson | 标识、姓名、关联企业、亲属关系(脱敏) | 隐性实控人穿透 |
| 地址 Address | 标准化地址、关联主体 | 同址聚集识别 |
4. 按审计场景的数据需求(核心)
每个场景列出"必需数据"与"关键字段"。括号内为对应需求编号。
4.1 场景一 · 政企收入全链路穿透 / 拆单规避(R8)
- 必需:政企合同全量、合同审批流水、开票记录、回款流水、客户工商关联数据。
- 关键字段:合同金额、签订日期、审批阈值与审批层级、客户注册地址、法人、付款账户、回款日期与金额、尾款挂账状态。
- 粒度/历史:合同级明细;近 3 年。
- 支撑检测:阈值边缘金额分布、同址/同法人/同账户聚集、回款时序违约聚类。
4.2 场景二 · 市场业务真实性 / 养卡骗补(R9)
- 必需:用户订购与退订流水、渠道佣金发放流水、用户通话/流量活跃明细(可聚合到月)、物联网卡激活与流量。
- 关键字段:订购时间、退订时间、渠道号、佣金金额与计提依据、号码归属地、月度通话时长/流量、是否零使用。
- 粒度/历史:用户/号码级按月留存;近 2-3 年(需覆盖完整"新增→退订"周期)。
- 支撑检测:cohort 留存曲线断崖、佣金与活跃度不匹配、零使用批量聚类。
4.3 场景三 · 收入与成本跨期匹配(R10)
- 必需:收入确认凭证与明细、成本摊销明细、合同收入确认政策、设备交付/上架记录、预收/趸交标识。
- 关键字段:确认日期、确认金额、对应合同、摊销期间、交付/验收日期、计费方式(按量/包年)。
- 历史:近 3 年凭证级。
- 支撑检测:政策-账务-合同三方勾稽、趸交一次性确认、交付与确认时间差。
4.4 场景四 · 渠道佣金与代理商套利(R11)
- 必需:终端 IMEI 与号码绑定、佣金/补贴发放、用户在网时长、终端激活与流向、跨省入网记录。
- 关键字段:IMEI、绑定号码、激活时间、补贴/佣金金额、在网天数、激活后流量、归属地。
- 历史:近 2 年。
- 支撑检测:激活即沉默、佣金与在网时长不匹配、跨省窜货。
4.5 场景五 · 网络建设与工程采购(R12)
- 必需:招投标记录与投标文件元数据、工程量签证、施工队信息、巡检 GPS 轨迹与工单、供应商工商数据。
- 关键字段:项目号、投标人、报价、技术方案相似度可比要素、签证工程量、资源消耗、巡检坐标/时间、供应商法人/股东。
- 历史:近 3 年。
- 支撑检测:报价相似度、文件雷同、工程量与资源不匹配、轨迹与工单交叉、马甲供应商。
4.6 场景六 · 互联互通与网间结算(R13)
- 必需:话单(CDR)、网间结算单、网络侧原始信令、SP/CP 申报与结算、国际来话路由。
- 关键字段:主被叫、通话时长、起止时间、对端运营商、结算单价与量、短信申报量与到达率、路由信息。
- 粒度/历史:明细话单(大数据量,增量);近 1-2 年。
- 支撑检测:整数倍时长聚集、突发峰值、结算与信令比对、到达率交叉验证。
4.7 场景七 · 云业务 / IDC 与新兴业务(R14)
- 必需:云资源用量(CPU/存储/带宽)、合同计费量、IDC 机柜出租与电力消耗、新兴业务客户与关联方、收入确认与验收。
- 关键字段:资源实际用量、合同约定量/计费量、机柜出租率、电费、客户关联关系、确认与验收日期。
- 历史:近 2 年。
- 支撑检测:用量 vs 计费量、出租率与电力勾稽、关联方/预付异常、确认-验收时序。
4.8 场景八 · 员工内部舞弊与资源滥用(R15)
- 必需:员工权限与操作日志、内部测试号及其用量、积分/电子券发放与兑换流水、岗位-权限对照。
- 关键字段:工号、操作类型/时间/对象、测试号流量与收入归属、积分发放量、兑换/变现记录、岗位与权限项。
- 历史:近 2 年。
- 支撑检测:操作日志异常、测试号用途偏离、积分流向、越权(岗位-权限不匹配)。
5. 时序、历史深度与频率
| 维度 | 要求 |
|---|---|
| 历史深度 | 合同/财务/采购类 ≥3 年;用户/号码/佣金类 ≥2-3 年(覆盖完整造假周期);话单/信令 ≥1-2 年 |
| 时间字段 | 所有事实尽量带 业务发生时间;变更类提供变更流水(含变更时间),支撑双时态回放 |
| 同步频率 | 主数据/合同/财务:按日;用户/佣金/订购:按日;话单/信令/流量:按小时或按日增量 |
| 初始装载 | 首次提供历史全量,之后增量 |
6. 数据质量与口径要求
- 完整性:关键字段(主键、金额、时间、关联外键)不得大面积缺失;缺失需可识别(空值而非默认值伪造)。
- 一致性:同一实体在跨系统的编码可映射(提供映射关系或共同业务主键)。
- 口径明确:金额含税/不含税、时间时区、枚举值含义需在数据字典中说明。
- 唯一性:主键唯一;重复记录需可去重或标注。
- 可校验:提供每批次行数/金额合计,便于核对装载完整性。
- 审计数据中台对接入数据做质量探查与评分;对齐失败/关键缺失将显式标记并提示人工干预,而非静默丢弃。
7. 安全与合规要求
- 数据不出域:接入与存储全程内网,禁止公网传输;推理使用本地模型或脱敏数据。
- 最小授权:源系统提供只读、按需字段的访问;敏感字段(身份证、银行账号、个人隐私)按需脱敏或加密。
- 个人信息保护:用户隐私、工商个人信息遵循相关法规,必要时脱敏(保留可关联的散列标识)。
- 访问留痕:审计平台对数据访问与使用全程记录不可篡改日志。
- 演示/开发数据:开发与演示阶段使用脱敏/样例数据,不接触真实生产敏感数据。
8. 交付清单(数据中心需提供)
- 各源系统只读访问或数据导出(接口/库/文件)及连接信息(内网)。
- 每个数据集的数据字典(字段、口径、单位、枚举、频率)。
- 跨系统主键/编码映射关系(客户、合同、号码、供应商等)。
- 历史全量初始装载 + 约定的增量同步机制。
- 每批次行数/金额校验信息。
- 敏感字段脱敏方案与口径说明。
- 数据责任人/接口人清单,便于口径确认与问题处理。
9. 优先级建议(配合 MVP 分期)
| 优先级 | 数据范围 | 对应场景 |
|---|---|---|
| P0(MVP 必需) | 政企合同+审批+回款+客户工商关联;用户订购/退订+渠道佣金+用户活跃 | R8、R9 |
| P1(二期) | 收入确认/成本摊销凭证;终端 IMEI/佣金;员工权限/操作日志/积分 | R10、R11、R15 |
| P2(三期) | 招投标/工程量/巡检轨迹;话单/信令/结算;云资源/IDC/电力 | R12、R13、R14 |
说明:P0 数据到位即可跑通 MVP 的两个核心场景与同台盲测;其余按风险热力图分期接入。