# 数据要求(面向数据中心) > 项目:AIAudit · 本地私有化大模型电信运营商 AI 全域内审平台 > 目的:明确"为完成全域内审,需要数据中心向审计数据中台提供哪些数据、以何种粒度/频率/历史深度、何种质量与安全要求" > 版本:v0.1(待评审) 日期:2026-06 > 关联:`0-req-AIAudit.md`(R1/R2/R3 及八大场景)、`1-prd-AIAudit.md`、`docs/数据不出域,审计全穿透.md` --- ## 1. 总体原则 1. **数据不出域**:所有数据在本地内网传输与存储,禁止经公网;接入链路与审计数据中台均在机房内网闭环。 2. **审计独立掌控**:数据进入审计专用、物理隔离的数据底座,业务方对该底座无写权限。 3. **全量而非抽样**:提供全量数据(而非抽样/汇总),以支撑全量穿透。 4. **可追溯**:每批数据登记来源系统、批次、时间、行数(数据版本),使审计结论可回溯到当时的数据状态。 5. **保留时间维度**:尽量提供带时间戳的明细与变更流水(而非仅当前快照),以支撑时序造假识别与历史回放。 6. **主键可对齐**:跨系统实体需提供可关联的业务主键/编码,以支撑主数据对齐与关联穿透。 --- ## 2. 源系统清单与接入 | 源系统 | 简称 | 主要数据 | 接入方式(任一即可) | | --- | --- | --- | --- | | 业务支撑系统 | BSS | 客户、订购、计费、出账、缴费、佣金 | 数据库只读账号 / 接口 / 文件导出 | | 运营支撑系统 | OSS | 网络资源、工单、巡检、信令/话单 | 数据库只读 / 文件 | | 企业资源计划 | ERP | 供应商、采购、合同、付款、资产 | 数据库只读 / 接口 | | 财务系统 | FIN | 总账、明细账、凭证、收入确认、成本摊销 | 数据库只读 / 文件 | | 合同管理 | CONTRACT | 合同主数据、条款、审批流 | 接口 / 文件 | | 工单/服务开通 | WO | 工单、交付、验收 | 数据库只读 / 文件 | | 网络侧/信令 | SIGNAL | 话单(CDR)、信令、流量详单 | 文件(大数据量,建议增量) | | 工商/外部数据 | GS | 企业注册、法人、股东、地址(脱敏后) | 文件 / 受控接口 | 接入要求: - 提供**只读**访问,不影响源系统生产。 - 大数据量(话单/信令/流量)优先**增量**同步(按日/按小时),并提供初始历史全量。 - 每个数据集需提供**数据字典**(字段含义、口径、单位、枚举值、更新频率)。 --- ## 3. 按本体实体的数据需求(主数据对齐基础) > 目的:构建审计知识图谱,支撑实控人/关联方/马甲穿透。每类实体需提供稳定业务主键。 | 实体 | 关键字段(至少) | 用途 | | --- | --- | --- | | 客户 Customer | 客户号、名称、类型(政企/公众)、注册地址、法人、统一社会信用代码、开户时间 | 拆单、关联方、空转客户识别 | | 合同 Contract | 合同号、客户号、金额、签订日期、审批层级/结果、业务类型、有效期 | 拆单、跨期、云空转 | | 号码 MSISDN | 号码、归属客户号、归属地、入网/退网时间、状态 | 养卡骗补、内部号套利 | | 终端 IMEI | IMEI、绑定号码、品牌型号、激活时间、补贴金额 | 套机套卡、终端流向 | | 账户 Account | 账户号、户名、所属主体、银行、开户行 | 回款同源、资金穿透 | | 工单 WorkOrder | 工单号、类型、关联合同/项目、处理人、状态、时间 | 工程量、巡检、交付验收 | | 供应商 Supplier | 供应商号、名称、法人、股东、注册地址、统一社会信用代码 | 围标串标、马甲识别 | | 结算单 Settlement | 结算单号、对端、金额、周期、关联业务量 | 网间结算、SP/CP | | 员工 Employee | 工号、岗位、权限/角色、所属机构 | 越权、内部舞弊 | | 渠道/代理商 Channel | 渠道号、名称、佣金政策、归属地 | 佣金套利、养卡骗补 | | 法人/自然人 LegalPerson | 标识、姓名、关联企业、亲属关系(脱敏) | 隐性实控人穿透 | | 地址 Address | 标准化地址、关联主体 | 同址聚集识别 | --- ## 4. 按审计场景的数据需求(核心) > 每个场景列出"必需数据"与"关键字段"。括号内为对应需求编号。 ### 4.1 场景一 · 政企收入全链路穿透 / 拆单规避(R8) - 必需:政企合同全量、合同审批流水、开票记录、回款流水、客户工商关联数据。 - 关键字段:合同金额、签订日期、**审批阈值与审批层级**、客户注册地址、法人、付款账户、回款日期与金额、尾款挂账状态。 - 粒度/历史:合同级明细;**近 3 年**。 - 支撑检测:阈值边缘金额分布、同址/同法人/同账户聚集、回款时序违约聚类。 ### 4.2 场景二 · 市场业务真实性 / 养卡骗补(R9) - 必需:用户订购与退订流水、渠道佣金发放流水、用户通话/流量活跃明细(可聚合到月)、物联网卡激活与流量。 - 关键字段:订购时间、退订时间、渠道号、佣金金额与计提依据、号码归属地、月度通话时长/流量、是否零使用。 - 粒度/历史:用户/号码级按月留存;**近 2-3 年**(需覆盖完整"新增→退订"周期)。 - 支撑检测:cohort 留存曲线断崖、佣金与活跃度不匹配、零使用批量聚类。 ### 4.3 场景三 · 收入与成本跨期匹配(R10) - 必需:收入确认凭证与明细、成本摊销明细、合同收入确认政策、设备交付/上架记录、预收/趸交标识。 - 关键字段:确认日期、确认金额、对应合同、摊销期间、交付/验收日期、计费方式(按量/包年)。 - 历史:**近 3 年**凭证级。 - 支撑检测:政策-账务-合同三方勾稽、趸交一次性确认、交付与确认时间差。 ### 4.4 场景四 · 渠道佣金与代理商套利(R11) - 必需:终端 IMEI 与号码绑定、佣金/补贴发放、用户在网时长、终端激活与流向、跨省入网记录。 - 关键字段:IMEI、绑定号码、激活时间、补贴/佣金金额、在网天数、激活后流量、归属地。 - 历史:**近 2 年**。 - 支撑检测:激活即沉默、佣金与在网时长不匹配、跨省窜货。 ### 4.5 场景五 · 网络建设与工程采购(R12) - 必需:招投标记录与投标文件元数据、工程量签证、施工队信息、巡检 GPS 轨迹与工单、供应商工商数据。 - 关键字段:项目号、投标人、报价、技术方案相似度可比要素、签证工程量、资源消耗、巡检坐标/时间、供应商法人/股东。 - 历史:**近 3 年**。 - 支撑检测:报价相似度、文件雷同、工程量与资源不匹配、轨迹与工单交叉、马甲供应商。 ### 4.6 场景六 · 互联互通与网间结算(R13) - 必需:话单(CDR)、网间结算单、网络侧原始信令、SP/CP 申报与结算、国际来话路由。 - 关键字段:主被叫、通话时长、起止时间、对端运营商、结算单价与量、短信申报量与到达率、路由信息。 - 粒度/历史:明细话单(大数据量,增量);**近 1-2 年**。 - 支撑检测:整数倍时长聚集、突发峰值、结算与信令比对、到达率交叉验证。 ### 4.7 场景七 · 云业务 / IDC 与新兴业务(R14) - 必需:云资源用量(CPU/存储/带宽)、合同计费量、IDC 机柜出租与电力消耗、新兴业务客户与关联方、收入确认与验收。 - 关键字段:资源实际用量、合同约定量/计费量、机柜出租率、电费、客户关联关系、确认与验收日期。 - 历史:**近 2 年**。 - 支撑检测:用量 vs 计费量、出租率与电力勾稽、关联方/预付异常、确认-验收时序。 ### 4.8 场景八 · 员工内部舞弊与资源滥用(R15) - 必需:员工权限与操作日志、内部测试号及其用量、积分/电子券发放与兑换流水、岗位-权限对照。 - 关键字段:工号、操作类型/时间/对象、测试号流量与收入归属、积分发放量、兑换/变现记录、岗位与权限项。 - 历史:**近 2 年**。 - 支撑检测:操作日志异常、测试号用途偏离、积分流向、越权(岗位-权限不匹配)。 --- ## 5. 时序、历史深度与频率 | 维度 | 要求 | | --- | --- | | 历史深度 | 合同/财务/采购类 **≥3 年**;用户/号码/佣金类 **≥2-3 年**(覆盖完整造假周期);话单/信令 **≥1-2 年** | | 时间字段 | 所有事实尽量带 **业务发生时间**;变更类提供**变更流水**(含变更时间),支撑双时态回放 | | 同步频率 | 主数据/合同/财务:按日;用户/佣金/订购:按日;话单/信令/流量:按小时或按日增量 | | 初始装载 | 首次提供历史全量,之后增量 | --- ## 6. 数据质量与口径要求 1. **完整性**:关键字段(主键、金额、时间、关联外键)不得大面积缺失;缺失需可识别(空值而非默认值伪造)。 2. **一致性**:同一实体在跨系统的编码可映射(提供映射关系或共同业务主键)。 3. **口径明确**:金额含税/不含税、时间时区、枚举值含义需在数据字典中说明。 4. **唯一性**:主键唯一;重复记录需可去重或标注。 5. **可校验**:提供每批次行数/金额合计,便于核对装载完整性。 6. 审计数据中台对接入数据做质量探查与评分;**对齐失败/关键缺失将显式标记并提示人工干预,而非静默丢弃**。 --- ## 7. 安全与合规要求 1. **数据不出域**:接入与存储全程内网,禁止公网传输;推理使用本地模型或脱敏数据。 2. **最小授权**:源系统提供只读、按需字段的访问;敏感字段(身份证、银行账号、个人隐私)按需脱敏或加密。 3. **个人信息保护**:用户隐私、工商个人信息遵循相关法规,必要时脱敏(保留可关联的散列标识)。 4. **访问留痕**:审计平台对数据访问与使用全程记录不可篡改日志。 5. **演示/开发数据**:开发与演示阶段使用脱敏/样例数据,不接触真实生产敏感数据。 --- ## 8. 交付清单(数据中心需提供) - [ ] 各源系统**只读访问**或**数据导出**(接口/库/文件)及连接信息(内网)。 - [ ] 每个数据集的**数据字典**(字段、口径、单位、枚举、频率)。 - [ ] 跨系统**主键/编码映射**关系(客户、合同、号码、供应商等)。 - [ ] 历史**全量初始装载** + 约定的**增量**同步机制。 - [ ] 每批次**行数/金额校验**信息。 - [ ] 敏感字段**脱敏方案**与口径说明。 - [ ] 数据**责任人/接口人**清单,便于口径确认与问题处理。 --- ## 9. 优先级建议(配合 MVP 分期) | 优先级 | 数据范围 | 对应场景 | | --- | --- | --- | | P0(MVP 必需) | 政企合同+审批+回款+客户工商关联;用户订购/退订+渠道佣金+用户活跃 | R8、R9 | | P1(二期) | 收入确认/成本摊销凭证;终端 IMEI/佣金;员工权限/操作日志/积分 | R10、R11、R15 | | P2(三期) | 招投标/工程量/巡检轨迹;话单/信令/结算;云资源/IDC/电力 | R12、R13、R14 | > 说明:P0 数据到位即可跑通 MVP 的两个核心场景与同台盲测;其余按风险热力图分期接入。