Files
InternalAuditInterprise/数据要求.md
T

11 KiB
Raw Blame History

数据要求(面向数据中心)

项目:AIAudit · 本地私有化大模型电信运营商 AI 全域内审平台 目的:明确"为完成全域内审,需要数据中心向审计数据中台提供哪些数据、以何种粒度/频率/历史深度、何种质量与安全要求" 版本:v0.1(待评审) 日期:2026-06 关联:0-req-AIAudit.mdR1/R2/R3 及八大场景)、1-prd-AIAudit.mddocs/数据不出域,审计全穿透.md


1. 总体原则

  1. 数据不出域:所有数据在本地内网传输与存储,禁止经公网;接入链路与审计数据中台均在机房内网闭环。
  2. 审计独立掌控:数据进入审计专用、物理隔离的数据底座,业务方对该底座无写权限。
  3. 全量而非抽样:提供全量数据(而非抽样/汇总),以支撑全量穿透。
  4. 可追溯:每批数据登记来源系统、批次、时间、行数(数据版本),使审计结论可回溯到当时的数据状态。
  5. 保留时间维度:尽量提供带时间戳的明细与变更流水(而非仅当前快照),以支撑时序造假识别与历史回放。
  6. 主键可对齐:跨系统实体需提供可关联的业务主键/编码,以支撑主数据对齐与关联穿透。

2. 源系统清单与接入

源系统 简称 主要数据 接入方式(任一即可)
业务支撑系统 BSS 客户、订购、计费、出账、缴费、佣金 数据库只读账号 / 接口 / 文件导出
运营支撑系统 OSS 网络资源、工单、巡检、信令/话单 数据库只读 / 文件
企业资源计划 ERP 供应商、采购、合同、付款、资产 数据库只读 / 接口
财务系统 FIN 总账、明细账、凭证、收入确认、成本摊销 数据库只读 / 文件
合同管理 CONTRACT 合同主数据、条款、审批流 接口 / 文件
工单/服务开通 WO 工单、交付、验收 数据库只读 / 文件
网络侧/信令 SIGNAL 话单(CDR)、信令、流量详单 文件(大数据量,建议增量)
工商/外部数据 GS 企业注册、法人、股东、地址(脱敏后) 文件 / 受控接口

接入要求:

  • 提供只读访问,不影响源系统生产。
  • 大数据量(话单/信令/流量)优先增量同步(按日/按小时),并提供初始历史全量。
  • 每个数据集需提供数据字典(字段含义、口径、单位、枚举值、更新频率)。

3. 按本体实体的数据需求(主数据对齐基础)

目的:构建审计知识图谱,支撑实控人/关联方/马甲穿透。每类实体需提供稳定业务主键。

实体 关键字段(至少) 用途
客户 Customer 客户号、名称、类型(政企/公众)、注册地址、法人、统一社会信用代码、开户时间 拆单、关联方、空转客户识别
合同 Contract 合同号、客户号、金额、签订日期、审批层级/结果、业务类型、有效期 拆单、跨期、云空转
号码 MSISDN 号码、归属客户号、归属地、入网/退网时间、状态 养卡骗补、内部号套利
终端 IMEI IMEI、绑定号码、品牌型号、激活时间、补贴金额 套机套卡、终端流向
账户 Account 账户号、户名、所属主体、银行、开户行 回款同源、资金穿透
工单 WorkOrder 工单号、类型、关联合同/项目、处理人、状态、时间 工程量、巡检、交付验收
供应商 Supplier 供应商号、名称、法人、股东、注册地址、统一社会信用代码 围标串标、马甲识别
结算单 Settlement 结算单号、对端、金额、周期、关联业务量 网间结算、SP/CP
员工 Employee 工号、岗位、权限/角色、所属机构 越权、内部舞弊
渠道/代理商 Channel 渠道号、名称、佣金政策、归属地 佣金套利、养卡骗补
法人/自然人 LegalPerson 标识、姓名、关联企业、亲属关系(脱敏) 隐性实控人穿透
地址 Address 标准化地址、关联主体 同址聚集识别

4. 按审计场景的数据需求(核心)

每个场景列出"必需数据"与"关键字段"。括号内为对应需求编号。

4.1 场景一 · 政企收入全链路穿透 / 拆单规避(R8)

  • 必需:政企合同全量、合同审批流水、开票记录、回款流水、客户工商关联数据。
  • 关键字段:合同金额、签订日期、审批阈值与审批层级、客户注册地址、法人、付款账户、回款日期与金额、尾款挂账状态。
  • 粒度/历史:合同级明细;近 3 年
  • 支撑检测:阈值边缘金额分布、同址/同法人/同账户聚集、回款时序违约聚类。

4.2 场景二 · 市场业务真实性 / 养卡骗补(R9)

  • 必需:用户订购与退订流水、渠道佣金发放流水、用户通话/流量活跃明细(可聚合到月)、物联网卡激活与流量。
  • 关键字段:订购时间、退订时间、渠道号、佣金金额与计提依据、号码归属地、月度通话时长/流量、是否零使用。
  • 粒度/历史:用户/号码级按月留存;近 2-3 年(需覆盖完整"新增→退订"周期)。
  • 支撑检测:cohort 留存曲线断崖、佣金与活跃度不匹配、零使用批量聚类。

4.3 场景三 · 收入与成本跨期匹配(R10)

  • 必需:收入确认凭证与明细、成本摊销明细、合同收入确认政策、设备交付/上架记录、预收/趸交标识。
  • 关键字段:确认日期、确认金额、对应合同、摊销期间、交付/验收日期、计费方式(按量/包年)。
  • 历史:近 3 年凭证级。
  • 支撑检测:政策-账务-合同三方勾稽、趸交一次性确认、交付与确认时间差。

4.4 场景四 · 渠道佣金与代理商套利(R11)

  • 必需:终端 IMEI 与号码绑定、佣金/补贴发放、用户在网时长、终端激活与流向、跨省入网记录。
  • 关键字段:IMEI、绑定号码、激活时间、补贴/佣金金额、在网天数、激活后流量、归属地。
  • 历史:近 2 年
  • 支撑检测:激活即沉默、佣金与在网时长不匹配、跨省窜货。

4.5 场景五 · 网络建设与工程采购(R12)

  • 必需:招投标记录与投标文件元数据、工程量签证、施工队信息、巡检 GPS 轨迹与工单、供应商工商数据。
  • 关键字段:项目号、投标人、报价、技术方案相似度可比要素、签证工程量、资源消耗、巡检坐标/时间、供应商法人/股东。
  • 历史:近 3 年
  • 支撑检测:报价相似度、文件雷同、工程量与资源不匹配、轨迹与工单交叉、马甲供应商。

4.6 场景六 · 互联互通与网间结算(R13)

  • 必需:话单(CDR)、网间结算单、网络侧原始信令、SP/CP 申报与结算、国际来话路由。
  • 关键字段:主被叫、通话时长、起止时间、对端运营商、结算单价与量、短信申报量与到达率、路由信息。
  • 粒度/历史:明细话单(大数据量,增量);近 1-2 年
  • 支撑检测:整数倍时长聚集、突发峰值、结算与信令比对、到达率交叉验证。

4.7 场景七 · 云业务 / IDC 与新兴业务(R14)

  • 必需:云资源用量(CPU/存储/带宽)、合同计费量、IDC 机柜出租与电力消耗、新兴业务客户与关联方、收入确认与验收。
  • 关键字段:资源实际用量、合同约定量/计费量、机柜出租率、电费、客户关联关系、确认与验收日期。
  • 历史:近 2 年
  • 支撑检测:用量 vs 计费量、出租率与电力勾稽、关联方/预付异常、确认-验收时序。

4.8 场景八 · 员工内部舞弊与资源滥用(R15)

  • 必需:员工权限与操作日志、内部测试号及其用量、积分/电子券发放与兑换流水、岗位-权限对照。
  • 关键字段:工号、操作类型/时间/对象、测试号流量与收入归属、积分发放量、兑换/变现记录、岗位与权限项。
  • 历史:近 2 年
  • 支撑检测:操作日志异常、测试号用途偏离、积分流向、越权(岗位-权限不匹配)。

5. 时序、历史深度与频率

维度 要求
历史深度 合同/财务/采购类 ≥3 年;用户/号码/佣金类 ≥2-3 年(覆盖完整造假周期);话单/信令 ≥1-2 年
时间字段 所有事实尽量带 业务发生时间;变更类提供变更流水(含变更时间),支撑双时态回放
同步频率 主数据/合同/财务:按日;用户/佣金/订购:按日;话单/信令/流量:按小时或按日增量
初始装载 首次提供历史全量,之后增量

6. 数据质量与口径要求

  1. 完整性:关键字段(主键、金额、时间、关联外键)不得大面积缺失;缺失需可识别(空值而非默认值伪造)。
  2. 一致性:同一实体在跨系统的编码可映射(提供映射关系或共同业务主键)。
  3. 口径明确:金额含税/不含税、时间时区、枚举值含义需在数据字典中说明。
  4. 唯一性:主键唯一;重复记录需可去重或标注。
  5. 可校验:提供每批次行数/金额合计,便于核对装载完整性。
  6. 审计数据中台对接入数据做质量探查与评分;对齐失败/关键缺失将显式标记并提示人工干预,而非静默丢弃

7. 安全与合规要求

  1. 数据不出域:接入与存储全程内网,禁止公网传输;推理使用本地模型或脱敏数据。
  2. 最小授权:源系统提供只读、按需字段的访问;敏感字段(身份证、银行账号、个人隐私)按需脱敏或加密。
  3. 个人信息保护:用户隐私、工商个人信息遵循相关法规,必要时脱敏(保留可关联的散列标识)。
  4. 访问留痕:审计平台对数据访问与使用全程记录不可篡改日志。
  5. 演示/开发数据:开发与演示阶段使用脱敏/样例数据,不接触真实生产敏感数据。

8. 交付清单(数据中心需提供)

  • 各源系统只读访问数据导出(接口/库/文件)及连接信息(内网)。
  • 每个数据集的数据字典(字段、口径、单位、枚举、频率)。
  • 跨系统主键/编码映射关系(客户、合同、号码、供应商等)。
  • 历史全量初始装载 + 约定的增量同步机制。
  • 每批次行数/金额校验信息。
  • 敏感字段脱敏方案与口径说明。
  • 数据责任人/接口人清单,便于口径确认与问题处理。

9. 优先级建议(配合 MVP 分期)

优先级 数据范围 对应场景
P0MVP 必需) 政企合同+审批+回款+客户工商关联;用户订购/退订+渠道佣金+用户活跃 R8、R9
P1(二期) 收入确认/成本摊销凭证;终端 IMEI/佣金;员工权限/操作日志/积分 R10、R11、R15
P2(三期) 招投标/工程量/巡检轨迹;话单/信令/结算;云资源/IDC/电力 R12、R13、R14

说明:P0 数据到位即可跑通 MVP 的两个核心场景与同台盲测;其余按风险热力图分期接入。