自媒体运营数据分析:数据清洗与预处理流程及实践研究
一、实验目的本实验基于全班同学在多平台发布的作品互动数据使用助睿ETL完成数据清洗与预处理输出两张核心数据表为后续特征工程与可视化分析奠定基础。通过本实验学生应掌握理解数据清洗在数据分析流程中的基础性与必要性使用助睿ETL完成多源数据的过滤、填充、聚合等预处理操作掌握“分支处理”的设计思路全平台概况统计与重点平台深度分析分流输出两张规范数据表支撑仪表盘不同模块的数据需求二、实验环境实验平台助睿在线实验平台本次实验使用助睿数智Uniplore 作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能适用于数据分析教学与企业数据加工场景。数据处理工具助睿ETL数据集成平台助睿ETL核心优势全元数据驱动架构平台内所有对象类型均通过元数据标准化定义覆盖数据读取、处理、写入的全流程零代码拖拽式操作通过可视化方式完成数据的抽取Extract、转换Transform、加载Load无需编写复杂代码丰富的预处理组件内置筛选、填充、聚合、连接、字段选择等多种转换节点灵活应对各类数据清洗场景Pipeline转换机制面向数据流通处理的核心功能单元由多个不同功能的Transform步骤组合构成聚焦数据本身的加工转换操作开源内核高可用引擎基于开源内核的高可用引擎架构通过标准化插件体系可灵活扩展引擎能力三、核心设计思路3.1 为什么需要数据清洗采集到的原始数据往往不能直接用于分析需要先做清洗。观察自媒体作品数据明细.csv这份数据可以发现几个问题平台冗余数据包含了B站、CSDN、微信、知乎、小红书等多个平台但微信、知乎等平台的浏览数量几乎全是0。这些平台虽然有作品记录但缺乏核心的浏览数据无法支撑有意义的分析。无效记录部分作品的浏览数量、点赞数量、收藏数量全部为0。这些记录可能是采集失败也可能是作品确实无人问津但无论如何它们对分析没有贡献。字段缺失点赞、收藏、分享等字段中存在空值如果不处理后续计算会报错。数据清洗要做的就是把这些问题逐一解决。3.2 数据处理流程本次实验有一个特殊之处后续可视化仪表盘需要同时展示两类信息。第一类是“全平台概况”——全班总共发了多少内容覆盖了几个平台总浏览和总互动是多少这些数字需要基于所有平台的原始数据来统计哪怕浏览数为0也要计入作品数。第二类是“重点平台深度分析”——B站和CSDN的具体表现如何播放量、阅读量、互动率是多少这些分析只需要B站和CSDN的有效数据浏览数大于0的记录。两类信息对数据的要求不同所以在ETL中需要做分支处理两张表各司其职summary_all_platforms只用于仪表盘顶部的全平台概况指标卡cleaned_details作为中间结果交给下一实验继续加工。四、实验步骤步骤 1创建自媒体专属项目并导入原始数据源1操作目的新建专属实验项目用于存放自媒体相关转换流、数据表与数据源文件从平台公共资源导入自媒体作品数据明细.csv原始业务数据校验文件字段与数据总量为后续 ETL 清洗聚合提供原始输入素材。2操作说明打开浏览器访问助睿在线实验平台输入个人账号密码完成登录登录成功后点击页面左侧导航栏【数据集成】功能模块在项目列表区域点击新建项目按钮项目名称填写「自媒体运营分析」确认创建完成项目初始化切换至当前新建项目的资源库页面找到顶部【公共空间 - 数据资源】检索输入框输入文件名自媒体作品数据明细.csv进行检索在检索结果中找到目标 CSV 文件点击文件右侧「更多」按钮选择导出功能导出路径选中当前自媒体项目专属文件库目录等待文件后台导入完成回到项目本地文件库双击导入后的文件打开预览窗口逐项核对字段采集日期、平台、作者昵称、标题、浏览、点赞、收藏、分享、投币、采集批次 source_file 全部存在统计总记录共 5702 条字段无缺失、数据无损坏即校验通过。3关键截图图1 新建实验项目图2新建「自媒体运营分析」项目完成后的文件库页面图 3 公共空间导出自媒体作品明细数据集弹窗配置界面步骤2创建全平台概况汇总表1操作目的搭建存储全平台每日大盘指标的数据表用于统计各平台每日作品总量、总浏览、各类互动指标支撑可视化大盘指标卡的数据读取需求。2操作说明新建独立转换流拖拽【执行一个 SQL 脚本】组件数据库连接选择团队私有数据库粘贴下方建表 SQL 语句配置完成后点击执行生成summary_all_platforms数据表。CREATE TABLE summary_all_platforms ( id INT AUTO_INCREMENT PRIMARY KEY, crawl_date DATE COMMENT 采集日期, platform VARCHAR(20) COMMENT 平台名称, content_count INT COMMENT 作品数量, total_views INT COMMENT 总浏览数, total_likes INT COMMENT 总点赞数, total_favorites INT COMMENT 总收藏数, total_shares INT COMMENT 总分享数, total_coins INT COMMENT 总投币数仅B站, total_recommend INT COMMENT 总推荐数仅微信, total_likes_zhihu INT COMMENT 总喜欢数仅知乎, total_approvals INT COMMENT 总赞同数仅知乎 ) COMMENT 全平台每日汇总统计表;3关键截图图 4 创建全平台概况汇总表专用转换流图5创建 summary_all_platforms 表的 SQL 脚本配置界面图6转换流执行成功日志截图步骤3创建内容分析明细表1操作目的搭建存储 B 站、CSDN 单作品明细数据表存放清洗后的有效作品基础信息作为后续标题特征计算、排名图表的底层数据源。2操作说明新建转换流拖拽【执行一个 SQL 脚本】组件并绑定团队私有数据库输入建表语句执行生成content_analysis表预留互动总数、五大标题特征空白字段供下一实验更新填充。CREATE TABLE content_analysis ( id INT AUTO_INCREMENT PRIMARY KEY, date DATE COMMENT 采集日期, author_name VARCHAR(100) COMMENT 作者昵称, title VARCHAR(500) COMMENT 作品标题, platform VARCHAR(20) COMMENT 平台B站 / CSDN, likes INT COMMENT 点赞数, favorites INT COMMENT 收藏数, shares INT COMMENT 分享数, coins INT COMMENT 投币数仅B站, views INT COMMENT 播放量/阅读量, url VARCHAR(500) COMMENT 作品链接, total_interaction INT COMMENT 互动总数, has_best TINYINT(1) COMMENT 是否含“保姆级”, has_lowcode TINYINT(1) COMMENT 是否含“零代码”, has_practice TINYINT(1) COMMENT 是否含“实战”, has_tutorial TINYINT(1) COMMENT 是否含“教程/指南”, has_pit TINYINT(1) COMMENT 是否含“踩坑” ) COMMENT B站、CSDN有效作品明细宽表;3关键截图图 7 创建 content_analysis 内容分析表转换流命名弹窗界面图 8 执行一个 SQL 脚本组件配置界面创建内容分析明细表图 9 内容分析表建表转换流画布与执行成功日志界面步骤4搭建双分支 ETL 转换流完成全平台聚合分支处理1操作目的对全部平台原始数据按日期、平台分组聚合统计每日大盘作品、流量、互动总量写入全平台概况汇总表。2操作说明新建主清洗转换流拖拽【CSV 文件输入】读取导入好的原始 CSV数据分流后第一条分支依次添加【排序记录】组件排序字段crawl_date、platform、【分组】组件按日期、平台分组数值字段全部求和末尾接入【表输出】组件目标表选择 summary_all_platforms勾选裁剪表完成字段映射。3关键截图图10 CSV 文件输入组件参数配置界面图11排序记录组件配置按采集日期、平台升序图 12 分组组件基础信息配置图13 分组组件聚合字段与求和统计规则配置界面图14 表输出组件配置步骤6搭建重点平台清洗过滤分支1操作目的过滤筛选出 B 站、浏览量大于 0 与 CSDN 浏览量大于 0 的有效作品剔除无分析价值平台与零曝光脏数据。2操作说明原始 CSV 分流第二条分支接入【过滤记录】组件配置过滤条件(platform B 站 AND views 0) OR (platform CSDN AND views 0)匹配数据流入后续组件不匹配无效数据分流至【空操作】组件丢弃。3关键截图图 15过滤记录组件条件配置界面筛选 B 站、CSDN 有效曝光作品图16 连接空操作组件步骤7缺失值填充与冗余字段剔除1操作目的统一填充标题、作者空文本为 “未知”删除无业务意义采集标记字段精简明细数据表字段。2操作说明过滤后数据接入【替换 NULL 值】组件作者、标题空字符串统一替换为 “未知”再拖拽【字段选择】组件移除 source_file 采集批次字段仅保留业务分析所需字段。3关键截图图 17 替换 NULL 值组件配置界面统一将标题、作者空文本填充为 “未知”图 18 字段选择组件配置界面删除 source_file 等冗余采集字段步骤8明细数据入库 content_analysis 表1操作目的将清洗后的 B 站、CSDN 有效作品明细写入内容分析明细表供实验 7-2 特征工程使用。2操作说明字段选择组件后连接【表输出】组件目标表选定 content_analysis开启裁剪表完成流字段与数据表字段一一映射等待数据写入。3关键截图图 19 表输出组件基础配置界面目标表指定为 content_analysis 内容分析明细表图 20 表输出组件数据库字段映射配置界面完成流字段与目标表字段一一对应步骤9执行转换流并校验数据1操作目的运行整套 ETL 流程校验两张数据表数据完整性确认清洗、聚合结果无误。2操作说明检查所有组件连线、过滤、映射配置无错误点击工具栏执行按钮运行转换流执行完毕进入元数据面板分别查询两张数据表核对记录条数、字段填充结果。3关键截图图 21 全平台聚合统计转换流完整画布与执行成功日志界面图 22 summary_all_platforms 全平台概况汇总表数据预览界面图 23 content_analysis 内容分析明细表数据预览界面五、实验总结本次实验 7-1 围绕自媒体原始 CSV 数据完成全流程数据抽取与清洗入库工作导入共 5702 条原始作品记录针对多平台混杂、零曝光脏数据、标题作者空值、冗余采集字段等问题搭建分流 ETL 转换流。通过过滤组件筛选出 B 站、CSDN 有效曝光作品剔除无流量平台数据利用空值替换统一填充空白文本精简无用采集字段最终生成规范的 content_analysis 明细表与 summary_all_platforms 全平台汇总表。实验掌握 CSV 输入、过滤、空值处理、字段筛选、表输出等 ETL 基础组件操作理解分流并行处理的数据加工思路。实验过程中发现未排序直接分组会造成统计失真、多次运行易产生重复数据等问题通过前置排序、表输出勾选裁剪表解决。本次实验完成底层干净数据集搭建但仅完成基础清洗未衍生业务指标与文本特征需依靠实验 7-2 开展特征工程进一步加工数据。

相关新闻

Rust+Tauri集成Excalidraw白板完整实现|时序任务笔记TimingTaskNote离线手绘画布、本地持久化、多业务联动实战

Rust+Tauri集成Excalidraw白板完整实现|时序任务笔记TimingTaskNote离线手绘画布、本地持久化、多业务联动实战

核心 SEO 关键词Rust Tauri 集成 Excalidraw、Tauri 本地白板、Excalidraw 离线画布、时序 TaskNote、TimingTaskNote、桌面手绘白板、本地持久化绘图、React 白板组件、SeaORM 存储绘图数据、免安装桌面工具、Tauri 前后端 IPC 通信 摘要 Excalidraw 作为轻量化开源手绘白板&a…

2026/7/5 1:16:12 阅读更多 →
OpenAI Codex AI 降智怎么办?Codex 降智原因分析与解决方法(附完整教程)

OpenAI Codex AI 降智怎么办?Codex 降智原因分析与解决方法(附完整教程)

OpenAI Codex AI 降智怎么办?Codex 降智原因分析与解决方法(附完整教程) 关键词:Codex降智、Codex AI降智、Codex系统提示词、Codex AGENTS.md、Codex config.toml、Codex教程、Codex客户端下载 SEO关键词: Codex降智…

2026/7/5 1:16:12 阅读更多 →
算法中的记忆化思想与重复子问题优化的技术

算法中的记忆化思想与重复子问题优化的技术

记忆化与重复子问题优化的核心概念 动态规划的本质:将问题分解为重叠子问题,避免重复计算记忆化(Memoization)的定义:存储已计算子问题的结果,直接复用重复子问题的识别标准:不同决策路径可能包…

2026/7/5 1:16:12 阅读更多 →

最新新闻

自定义布局控件

自定义布局控件

讲到自定义布局控件,我们必须得先谈一下在WPF中自定义控件,在WPF自定义控件你可以选择下图的一些基类作为继承对象,你也可以继承自已有的一些控件,这个就看你的需要了。其实开发WPF自定义控件和开发WinForm、ASP.NET自定义控件基本…

2026/7/5 2:12:33 阅读更多 →
Border

Border

Border 是一个装饰的控件,此控件绘制边框及背景,在 Border 中只能有一个子控件(这个子控件又可以包含多个子控件)。Border 的几个重要属性:Background:用用一个 Brush 对象来绘制背景 ;BorderBrush:用一个B…

2026/7/5 2:12:33 阅读更多 →
SRWE窗口分辨率编辑器:终极游戏截图与多屏适配解决方案

SRWE窗口分辨率编辑器:终极游戏截图与多屏适配解决方案

SRWE窗口分辨率编辑器:终极游戏截图与多屏适配解决方案 【免费下载链接】SRWE Simple Runtime Window Editor 项目地址: https://gitcode.com/gh_mirrors/sr/SRWE SRWE(Simple Runtime Window Editor)是一款功能强大的开源窗口分辨率自…

2026/7/5 2:10:33 阅读更多 →
qt的元对象系统有哪些组成,为什么要有元对象系统

qt的元对象系统有哪些组成,为什么要有元对象系统

豆包生成

2026/7/5 2:08:32 阅读更多 →
【Java毕业设计】基于 JavaWeb 的公司人事档案运维管理系统的设计与实现 企业员工信息录入与人事台账管理系统(源码+文档+远程调试,全bao定制等)

【Java毕业设计】基于 JavaWeb 的公司人事档案运维管理系统的设计与实现 企业员工信息录入与人事台账管理系统(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

2026/7/5 2:06:32 阅读更多 →
云原生 AI 模型灰度:别把新模型一次性推给所有流量

云原生 AI 模型灰度:别把新模型一次性推给所有流量

云原生 AI 模型灰度:别把新模型一次性推给所有流量 一、模型灰度比普通服务更需要谨慎 普通服务灰度主要关注错误率、延迟和资源。AI 模型灰度还要关注答案质量、引用准确性、成本变化和用户反馈。新模型接口兼容,不代表业务效果一定更好。 模型上线如…

2026/7/5 2:06:32 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻