数据变化(原始数据—数据清洗—特征工程)
数据清洗步骤用户行为数据缺失值处理user_id、item_id是关联用户和商品的唯一标识缺失后无法建立有效关联behavior_type是核心行为标签缺失无法定义交互类型timestamp是时间序列分析的基础缺失影响序列特征的准确性直接删除比填充更可靠避免了引入噪声 原始数据示例 user_id | item_id | behavior_type | timestamp ---------|----------|---------------|---------- user_001 | item_001 | click | 2023-10-01 10:00 null | item_002 | cart | 2023-10-01 10:05 user_002 | null | buy | 2023-10-01 10:10 user_003 | item_003 | null | 2023-10-01 10:15 user_004 | item_004 | click | null 清洗后数据 user_id | item_id | behavior_type | timestamp ---------|----------|---------------|---------- user_001 | item_001 | click | 2023-10-01 10:00 异常用户/商品ID过滤统一ID格式便于数据管理和特征工程异常ID可能是测试数据或错误数据会影响模型效果正则表达式匹配确保数据规范性 原始数据 user_id | item_id | behavior_type -------------|-------------|--------------- user_001 | item_001 | click unknown_user | item_002 | cart user_002 | invalid_id | buy test_user | test_item | collect 清洗后数据 user_id | item_id | behavior_type ---------|----------|--------------- user_001 | item_001 | click 低频用户/商品过滤低频用户行为稀疏难以学习有效特征低频商品样本不足难以准确建模过滤后提高数据质量减少噪声干扰阈值根据业务经验设置用户≥3次商品≥5次 原始数据用户行为统计 user_id | 行为次数 ---------|--------- user_001 | 15 user_002 | 8 user_003 | 2 # 低频用户 user_004 | 1 # 低频用户 清洗后保留 user_id | 行为次数 ---------|--------- user_001 | 15 user_002 | 8 商品数据异常价格处理负价格是数据错误需要修正0价格可能是免费商品或数据缺失需要特殊处理极端高价可能是错误数据需要截断价格范围(0.01, 10000)根据实际业务场景设置 原始数据 item_id | price | category ---------|--------|---------- item_001 | 99.99 | Electronics item_002 | -10.0 | Clothing # 异常价格 item_003 | 0.0 | Books # 异常价格 item_004 | 999999 | Home # 异常价格 清洗后数据 item_id | price | category ---------|--------|---------- item_001 | 99.99 | Electronics item_002 | 10.0 | Clothing # 修正为有效范围 item_003 | 0.01 | Books # 设置最小有效价格 item_004 | 10000 | Home # 截断到最大值 特征工程步骤用户基础特征提取静态特征描述用户固有属性是用户画像基础行为统计特征量化用户历史行为反映用户偏好转化率特征衡量用户从浏览到购买的能力时间特征反映用户活跃度和新鲜度编码处理将分类变量转换为数值便于模型处理 原始用户数据 user_id | age | gender | registration_date ---------|-----|--------|------------------ user_001 | 25 | M | 2023-01-15 user_002 | 35 | F | 2023-03-20 用户行为数据 user_id | behavior_type | timestamp ---------|---------------|---------- user_001 | click | 2023-10-01 10:00 user_001 | cart | 2023-10-01 11:00 user_001 | buy | 2023-10-01 12:00 user_002 | click | 2023-10-01 10:05 特征提取后 user_id | age | gender_encoded | registration_days | total_actions | purchase_count | conversion_rate | days_since_last_action | active_days ---------|-----|----------------|-------------------|---------------|----------------|-----------------|------------------------|------------ user_001 | 25 | 0 | 258 | 12 | 2 | 0.167 | 1 | 6 user_002 | 35 | 1 | 207 | 9 | 1 | 0.111 | 1 | 5 商品热度趋势特征多时间窗口统计捕捉商品不同周期的热度变化趋势比率反映商品热度的增长/衰减趋势时效性近期行为比远期行为更具参考价值扛波动性多时间窗口平滑单日波动影响 原始行为数据时间序列 item_id | timestamp | behavior_type ---------|---------------------|-------------- item_001 | 2023-10-01 10:00 | click item_001 | 2023-10-05 14:00 | buy item_001 | 2023-10-07 09:00 | cart item_001 | 2023-10-14 16:00 | click item_002 | 2023-10-01 11:00 | click item_002 | 2023-10-02 10:00 | click 特征提取后当前时间2023-10-15 item_id | total_actions | actions_7d | actions_30d | trend_7d_30d ---------|---------------|------------|-------------|------------- item_001 | 4 | 2 | 4 | 0.5 item_002 | 2 | 0 | 2 | 0.0 行为序列特征序列模式揭示用户行为的内在规律转换概率量化行为间的转换倾向时间模式反映用户的行为节奏个性化表征每个用户的序列特征都是独特的 用户行为序列 用户: user_001 时间序列: [click, click, cart, click, buy, click, cart, buy] 提取的序列特征 - sequence_length: 8 - unique_items: 5 - click_ratio: 0.5 (4/8) - cart_ratio: 0.25 (2/8) - buy_ratio: 0.25 (2/8) - transition_click_to_cart: 0.25 (从click到cart的转换概率) - transition_click_to_buy: 0.125 - avg_time_interval: 平均行为间隔时间 图特征提取结构信息捕捉用户和商品在图中的位置重要性协同信息通过共同邻居发现相似用户/商品流行度传播中心点往往更受欢迎冷启动缓解新用户/商品可以通过图结构获得特征 用户-商品交互图 用户节点: [user_001, user_002, user_003] 商品节点: [item_001, item_002, item_003, item_004] 边: (user_001, item_001), (user_001, item_002), (user_002, item_001), ... 提取的图特征 用户图特征: user_id | graph_degree | weighted_degree | avg_jaccard_similarity ---------|--------------|-----------------|------------------------ user_001 | 2 | 7 | 0.15 user_002 | 1 | 5 | 0.10 商品图特征: item_id | graph_degree | weighted_degree | avg_user_degree ---------|--------------|-----------------|---------------- item_001 | 2 | 12 | 1.5 item_002 | 1 | 5 | 2.0

相关新闻

【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR

【VLM】Visual Merit or Linguistic Crutch? 看DeepSeek-OCR

2026/5/17 0:18:03 阅读更多 →
Go进阶之反射

Go进阶之反射

2026/5/17 0:18:02 阅读更多 →
FPGA FFT缩放因子配置全解析

FPGA FFT缩放因子配置全解析

2026/7/2 20:05:51 阅读更多 →

最新新闻

装修公司选哪家?

装修公司选哪家?

济南天地亿家,给您一个理想中的家 在济南装修市场,提起“天地亿家”这个名字,很多正在经历装修的业主都会由衷地点头。对于正在纠结“装修公司选哪家”的朋友来说,深入了解这家深耕泉城多年的品牌,或许能为您的决策提供…

2026/7/3 13:28:25 阅读更多 →
第5篇|应用启动慢半拍:把初始化任务从首屏链路拆出去

第5篇|应用启动慢半拍:把初始化任务从首屏链路拆出去

第5篇|应用启动慢半拍:把初始化任务从首屏链路拆出去 摘要:鸿蒙应用启动慢,很多时候不是页面写得复杂,而是把所有初始化都塞进了首屏之前。配置、用户状态、远程开关、缓存预热、埋点准备,每个任务单看都不…

2026/7/3 13:28:25 阅读更多 →
2026年儿童口腔运营学习新排名,谁将脱颖而出?

2026年儿童口腔运营学习新排名,谁将脱颖而出?

2026年儿童口腔运营新排名:蓝刺猬口腔凭实力与口碑脱颖而出在儿童口腔行业快速发展的背景下,2026年运营实力与口碑兼具的机构成为家长关注的焦点。结合行业数据、服务案例及运营模式分析,蓝刺猬儿童口腔凭借其全国布局、专业服务及创新体系&a…

2026/7/3 13:26:24 阅读更多 →
手把手搭建Quark Engine漏洞检测环境:从部署到自动化实战

手把手搭建Quark Engine漏洞检测环境:从部署到自动化实战

1. 项目概述:为什么需要搭建自己的漏洞检测环境?在移动应用安全领域,无论是作为开发者进行自检,还是作为安全研究员进行审计,一个高效、精准的静态分析环境都是不可或缺的“武器库”。市面上虽然有各种在线扫描平台&am…

2026/7/3 13:20:22 阅读更多 →
一键修复Windows运行库问题:VisualCppRedist AIO终极解决方案

一键修复Windows运行库问题:VisualCppRedist AIO终极解决方案

一键修复Windows运行库问题:VisualCppRedist AIO终极解决方案 【免费下载链接】vcredist AIO Repack for latest Microsoft Visual C Redistributable Runtimes 项目地址: https://gitcode.com/gh_mirrors/vc/vcredist 你是否曾经遇到过这样的尴尬时刻&#…

2026/7/3 13:16:21 阅读更多 →
车路协同与高精定位:自动驾驶落地的五大硬核拐点

车路协同与高精定位:自动驾驶落地的五大硬核拐点

1. 这不是科幻片预告,是正在发生的交通系统重构 “自动驾驶来了”这六个字最近频繁刷屏,但很多人第一反应还是:哦,就是那个方向盘自己转的车?其实远不止如此。我过去八年深度参与过三类典型场景的落地——城市物流无人…

2026/7/3 13:16:21 阅读更多 →

日新闻

Nginx防御TLS重协商攻击实战:从原理到配置与监控

Nginx防御TLS重协商攻击实战:从原理到配置与监控

1. 项目概述:为什么TLS重协商攻击至今仍需警惕十多年前的CVE-2011-1473,一个关于TLS/SSL协议重协商机制的漏洞,现在提起来还有必要吗?很多运维和开发朋友可能会觉得,这都老掉牙了,现代服务器和客户端不都默…

2026/7/3 0:03:59 阅读更多 →
华为防火墙双通道远程管理实战:Web与SSH配置详解

华为防火墙双通道远程管理实战:Web与SSH配置详解

1. 项目概述:为什么需要双通道远程管理防火墙?在任何一个稍具规模的企业网络里,防火墙都是那个默默守护在边界的关键角色。作为网络工程师,我们不可能每次都跑到机房,插上console线去配置它。远程管理能力,…

2026/7/3 0:03:59 阅读更多 →
AD74413R与PIC18F65K40的高精度工业数据采集方案

AD74413R与PIC18F65K40的高精度工业数据采集方案

1. 项目概述:AD74413R与PIC18F65K40的协同工作在工业自动化和精密测量领域,同时实现高精度模数转换(ADC)和数模转换(DAC)功能是许多复杂系统的核心需求。AD74413R作为一款四通道可配置模拟输入/输出器件,与PIC18F65K40微控制器的组合&#xf…

2026/7/3 0:05:59 阅读更多 →

周新闻

月新闻