Files
InternalAuditInterprise/数据要求.md
T

169 lines
11 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 数据要求(面向数据中心)
> 项目:AIAudit · 本地私有化大模型电信运营商 AI 全域内审平台
> 目的:明确"为完成全域内审,需要数据中心向审计数据中台提供哪些数据、以何种粒度/频率/历史深度、何种质量与安全要求"
> 版本:v0.1(待评审) 日期:2026-06
> 关联:`0-req-AIAudit.md`R1/R2/R3 及八大场景)、`1-prd-AIAudit.md`、`docs/数据不出域,审计全穿透.md`
---
## 1. 总体原则
1. **数据不出域**:所有数据在本地内网传输与存储,禁止经公网;接入链路与审计数据中台均在机房内网闭环。
2. **审计独立掌控**:数据进入审计专用、物理隔离的数据底座,业务方对该底座无写权限。
3. **全量而非抽样**:提供全量数据(而非抽样/汇总),以支撑全量穿透。
4. **可追溯**:每批数据登记来源系统、批次、时间、行数(数据版本),使审计结论可回溯到当时的数据状态。
5. **保留时间维度**:尽量提供带时间戳的明细与变更流水(而非仅当前快照),以支撑时序造假识别与历史回放。
6. **主键可对齐**:跨系统实体需提供可关联的业务主键/编码,以支撑主数据对齐与关联穿透。
---
## 2. 源系统清单与接入
| 源系统 | 简称 | 主要数据 | 接入方式(任一即可) |
| --- | --- | --- | --- |
| 业务支撑系统 | BSS | 客户、订购、计费、出账、缴费、佣金 | 数据库只读账号 / 接口 / 文件导出 |
| 运营支撑系统 | OSS | 网络资源、工单、巡检、信令/话单 | 数据库只读 / 文件 |
| 企业资源计划 | ERP | 供应商、采购、合同、付款、资产 | 数据库只读 / 接口 |
| 财务系统 | FIN | 总账、明细账、凭证、收入确认、成本摊销 | 数据库只读 / 文件 |
| 合同管理 | CONTRACT | 合同主数据、条款、审批流 | 接口 / 文件 |
| 工单/服务开通 | WO | 工单、交付、验收 | 数据库只读 / 文件 |
| 网络侧/信令 | SIGNAL | 话单(CDR)、信令、流量详单 | 文件(大数据量,建议增量) |
| 工商/外部数据 | GS | 企业注册、法人、股东、地址(脱敏后) | 文件 / 受控接口 |
接入要求:
- 提供**只读**访问,不影响源系统生产。
- 大数据量(话单/信令/流量)优先**增量**同步(按日/按小时),并提供初始历史全量。
- 每个数据集需提供**数据字典**(字段含义、口径、单位、枚举值、更新频率)。
---
## 3. 按本体实体的数据需求(主数据对齐基础)
> 目的:构建审计知识图谱,支撑实控人/关联方/马甲穿透。每类实体需提供稳定业务主键。
| 实体 | 关键字段(至少) | 用途 |
| --- | --- | --- |
| 客户 Customer | 客户号、名称、类型(政企/公众)、注册地址、法人、统一社会信用代码、开户时间 | 拆单、关联方、空转客户识别 |
| 合同 Contract | 合同号、客户号、金额、签订日期、审批层级/结果、业务类型、有效期 | 拆单、跨期、云空转 |
| 号码 MSISDN | 号码、归属客户号、归属地、入网/退网时间、状态 | 养卡骗补、内部号套利 |
| 终端 IMEI | IMEI、绑定号码、品牌型号、激活时间、补贴金额 | 套机套卡、终端流向 |
| 账户 Account | 账户号、户名、所属主体、银行、开户行 | 回款同源、资金穿透 |
| 工单 WorkOrder | 工单号、类型、关联合同/项目、处理人、状态、时间 | 工程量、巡检、交付验收 |
| 供应商 Supplier | 供应商号、名称、法人、股东、注册地址、统一社会信用代码 | 围标串标、马甲识别 |
| 结算单 Settlement | 结算单号、对端、金额、周期、关联业务量 | 网间结算、SP/CP |
| 员工 Employee | 工号、岗位、权限/角色、所属机构 | 越权、内部舞弊 |
| 渠道/代理商 Channel | 渠道号、名称、佣金政策、归属地 | 佣金套利、养卡骗补 |
| 法人/自然人 LegalPerson | 标识、姓名、关联企业、亲属关系(脱敏) | 隐性实控人穿透 |
| 地址 Address | 标准化地址、关联主体 | 同址聚集识别 |
---
## 4. 按审计场景的数据需求(核心)
> 每个场景列出"必需数据"与"关键字段"。括号内为对应需求编号。
### 4.1 场景一 · 政企收入全链路穿透 / 拆单规避(R8)
- 必需:政企合同全量、合同审批流水、开票记录、回款流水、客户工商关联数据。
- 关键字段:合同金额、签订日期、**审批阈值与审批层级**、客户注册地址、法人、付款账户、回款日期与金额、尾款挂账状态。
- 粒度/历史:合同级明细;**近 3 年**。
- 支撑检测:阈值边缘金额分布、同址/同法人/同账户聚集、回款时序违约聚类。
### 4.2 场景二 · 市场业务真实性 / 养卡骗补(R9)
- 必需:用户订购与退订流水、渠道佣金发放流水、用户通话/流量活跃明细(可聚合到月)、物联网卡激活与流量。
- 关键字段:订购时间、退订时间、渠道号、佣金金额与计提依据、号码归属地、月度通话时长/流量、是否零使用。
- 粒度/历史:用户/号码级按月留存;**近 2-3 年**(需覆盖完整"新增→退订"周期)。
- 支撑检测:cohort 留存曲线断崖、佣金与活跃度不匹配、零使用批量聚类。
### 4.3 场景三 · 收入与成本跨期匹配(R10)
- 必需:收入确认凭证与明细、成本摊销明细、合同收入确认政策、设备交付/上架记录、预收/趸交标识。
- 关键字段:确认日期、确认金额、对应合同、摊销期间、交付/验收日期、计费方式(按量/包年)。
- 历史:**近 3 年**凭证级。
- 支撑检测:政策-账务-合同三方勾稽、趸交一次性确认、交付与确认时间差。
### 4.4 场景四 · 渠道佣金与代理商套利(R11)
- 必需:终端 IMEI 与号码绑定、佣金/补贴发放、用户在网时长、终端激活与流向、跨省入网记录。
- 关键字段:IMEI、绑定号码、激活时间、补贴/佣金金额、在网天数、激活后流量、归属地。
- 历史:**近 2 年**。
- 支撑检测:激活即沉默、佣金与在网时长不匹配、跨省窜货。
### 4.5 场景五 · 网络建设与工程采购(R12)
- 必需:招投标记录与投标文件元数据、工程量签证、施工队信息、巡检 GPS 轨迹与工单、供应商工商数据。
- 关键字段:项目号、投标人、报价、技术方案相似度可比要素、签证工程量、资源消耗、巡检坐标/时间、供应商法人/股东。
- 历史:**近 3 年**。
- 支撑检测:报价相似度、文件雷同、工程量与资源不匹配、轨迹与工单交叉、马甲供应商。
### 4.6 场景六 · 互联互通与网间结算(R13)
- 必需:话单(CDR)、网间结算单、网络侧原始信令、SP/CP 申报与结算、国际来话路由。
- 关键字段:主被叫、通话时长、起止时间、对端运营商、结算单价与量、短信申报量与到达率、路由信息。
- 粒度/历史:明细话单(大数据量,增量);**近 1-2 年**。
- 支撑检测:整数倍时长聚集、突发峰值、结算与信令比对、到达率交叉验证。
### 4.7 场景七 · 云业务 / IDC 与新兴业务(R14)
- 必需:云资源用量(CPU/存储/带宽)、合同计费量、IDC 机柜出租与电力消耗、新兴业务客户与关联方、收入确认与验收。
- 关键字段:资源实际用量、合同约定量/计费量、机柜出租率、电费、客户关联关系、确认与验收日期。
- 历史:**近 2 年**。
- 支撑检测:用量 vs 计费量、出租率与电力勾稽、关联方/预付异常、确认-验收时序。
### 4.8 场景八 · 员工内部舞弊与资源滥用(R15)
- 必需:员工权限与操作日志、内部测试号及其用量、积分/电子券发放与兑换流水、岗位-权限对照。
- 关键字段:工号、操作类型/时间/对象、测试号流量与收入归属、积分发放量、兑换/变现记录、岗位与权限项。
- 历史:**近 2 年**。
- 支撑检测:操作日志异常、测试号用途偏离、积分流向、越权(岗位-权限不匹配)。
---
## 5. 时序、历史深度与频率
| 维度 | 要求 |
| --- | --- |
| 历史深度 | 合同/财务/采购类 **≥3 年**;用户/号码/佣金类 **≥2-3 年**(覆盖完整造假周期);话单/信令 **≥1-2 年** |
| 时间字段 | 所有事实尽量带 **业务发生时间**;变更类提供**变更流水**(含变更时间),支撑双时态回放 |
| 同步频率 | 主数据/合同/财务:按日;用户/佣金/订购:按日;话单/信令/流量:按小时或按日增量 |
| 初始装载 | 首次提供历史全量,之后增量 |
---
## 6. 数据质量与口径要求
1. **完整性**:关键字段(主键、金额、时间、关联外键)不得大面积缺失;缺失需可识别(空值而非默认值伪造)。
2. **一致性**:同一实体在跨系统的编码可映射(提供映射关系或共同业务主键)。
3. **口径明确**:金额含税/不含税、时间时区、枚举值含义需在数据字典中说明。
4. **唯一性**:主键唯一;重复记录需可去重或标注。
5. **可校验**:提供每批次行数/金额合计,便于核对装载完整性。
6. 审计数据中台对接入数据做质量探查与评分;**对齐失败/关键缺失将显式标记并提示人工干预,而非静默丢弃**。
---
## 7. 安全与合规要求
1. **数据不出域**:接入与存储全程内网,禁止公网传输;推理使用本地模型或脱敏数据。
2. **最小授权**:源系统提供只读、按需字段的访问;敏感字段(身份证、银行账号、个人隐私)按需脱敏或加密。
3. **个人信息保护**:用户隐私、工商个人信息遵循相关法规,必要时脱敏(保留可关联的散列标识)。
4. **访问留痕**:审计平台对数据访问与使用全程记录不可篡改日志。
5. **演示/开发数据**:开发与演示阶段使用脱敏/样例数据,不接触真实生产敏感数据。
---
## 8. 交付清单(数据中心需提供)
- [ ] 各源系统**只读访问**或**数据导出**(接口/库/文件)及连接信息(内网)。
- [ ] 每个数据集的**数据字典**(字段、口径、单位、枚举、频率)。
- [ ] 跨系统**主键/编码映射**关系(客户、合同、号码、供应商等)。
- [ ] 历史**全量初始装载** + 约定的**增量**同步机制。
- [ ] 每批次**行数/金额校验**信息。
- [ ] 敏感字段**脱敏方案**与口径说明。
- [ ] 数据**责任人/接口人**清单,便于口径确认与问题处理。
---
## 9. 优先级建议(配合 MVP 分期)
| 优先级 | 数据范围 | 对应场景 |
| --- | --- | --- |
| P0(MVP 必需) | 政企合同+审批+回款+客户工商关联;用户订购/退订+渠道佣金+用户活跃 | R8、R9 |
| P1(二期) | 收入确认/成本摊销凭证;终端 IMEI/佣金;员工权限/操作日志/积分 | R10、R11、R15 |
| P2(三期) | 招投标/工程量/巡检轨迹;话单/信令/结算;云资源/IDC/电力 | R12、R13、R14 |
> 说明:P0 数据到位即可跑通 MVP 的两个核心场景与同台盲测;其余按风险热力图分期接入。