数据分析与可视化

DataVista Hub 是面向企业打造的一体化数据驱动引擎,集数据采集、治理、分析、可视化与预测于一体,构建统一数据底座,支撑智能决策全流程。平台融合机器学习引擎、灵活数据接入与企业级安全体系,广泛应用于报表自动化、趋势预测、业务分析等场景,是企业推进数字化转型的核心中枢。

该项目以制造企业(模具制造/汽车排气管)为背景,聚焦 CNC/PLC 设备数据上报、扫码报工与远程监控三大核心场景。项目基于树莓派/EMQX 网关采集设备运行状态,通过 MQTT 协议实现边云联动,并同步写入 InfluxDB 等时序数据库。前端支持扫码枪快速工序录入,后端基于 FastAPI 构建数据服务,最终通过 Grafana / DataEase 打造工厂设备监控与生产报工可视化大屏,实现从底层设备到管理决策的一体化数字化转型平台。

基于 FineReport、FineBI 打造的汽车制造业可视化大屏,整合MySQL数据库中的生产线、质量和供应链数据,通过Spring Boot构建的数据接口实现多维度交互式分析,展示生产实况、产能和质量指标

融合Prometheus、Grafana、Loki、Tempo等监控组件,打造面向Hadoop/Spark/Flink等大数据组件的可观测性平台。通过自定义Exporter和OpenTelemetry,采集系统指标、服务链路与日志,实现多维告警、故障追踪和容量分析,为大数据平台提供一站式SRE保障方案。

本报告基于 Scrapy 框架,采集 BoXX直聘、汽车X家、企X查、小X课堂及微信小程序接口的多源数据,并对抓取结果进行数据清洗、统计分析与可视化展示。实现对结构化与半结构化数据的高效采集与持久化存储至 MySQL。报告呈现关键指标、趋势图表及数据洞察,为业务决策提供支持。
数据仓库与集成平台

基于YARN资源调度的大数据集群环境,包含Hadoop HDFS分布式存储、Spark on YARN离线计算、Flink on YARN实时计算等组件的部署与管理,提供统一的资源调度和分布式计算能力

基于Flink CDC实现业务数据实时采集,结合Spark+Hive构建离线数据仓库。采用Spark Streaming进行实时计算,打造统一的数据处理平台,实现实时和离线数据的一体化处理能力。

企业级大数据处理平台,集成 Hadoop、Hive、Presto、Spark、DataX 等,SpringBoot 统一服务调度,React 前端展示,支持任务调度、SQL 查询、HDFS 管理、Ranger 权限与多源异构整合。

企业级大数据平台项目,整合自动化部署、元数据管理、统一查询引擎及平台监控治理等核心能力。项目基于 Java(Spring Boot、MyBatis、gRPC)构建,同时辅以 Python 数据处理示例,支持 Hadoop、Hive、Spark、Presto 等大数据技术,实现数据的高效存储、处理与管理。


基于Hadoop生态系统打造的大数据分析平台,涵盖行为数据采集、ETL处理和多维分析。特色功能包括基于SparkGraphX的用户ID映射、BitMap/HyperLogLog/BloomFilter优化的多维统计、拉链表技术的历史追踪,以及完整的用户画像系统。支持流量分析、用户活跃度分析、漏斗分析和归因分析等多种数据应用场景。
数据治理与中台建设

融合Flink SQL和Spark Streaming的实时监控系统,前端通过websee实现React埋点,后端采用SpringBoot+gif埋点收集数据。集成MinIO对象存储与Kafka消息队列,使用Sa-Token鉴权和Knife4j文档化API,实现用户行为分析与内容安全检测


实时计算与数据管道

基于Flink+ClickHouse构建的高性能用户画像系统,支持亿级数据秒级分析,覆盖从基础属性到行为特征、消费习惯的全维度标签体系。通过实时数据同步、多终端数据整合和机器学习算法(Logistic Regression、K-means、TF-IDF),为企业提供用户分群、兴趣画像、风险特征等精准分析能力,采用SpringCloud微服务架构,配备Vue+ECharts可视化展示

该项目通过Flink实时计算引擎结合Groovy动态规则脚本,实现用户行为与画像的高效判断与精准营销推送,支持复杂事件序列与属性统计判断,采用Doris+Redis混合存储策略,兼顾实时性与系统性能,具备强灵活性与高可扩展性。


基于事件驱动架构构建的可伸缩、低延迟日志处理系统,支持海量用户行为数据的实时采集、预处理与多路分发。系统采用对象存储(MinIO/S3)+ 云函数(OpenFaaS)+ 消息队列(Kafka)+ Kafka Connect 构建数据管道。云函数自动响应日志上传事件,执行 Gzip 解压、JSON 验证、字段标准化与敏感信息脱敏处理,并将结构化数据推送至 Kafka。

数据智能与应用服务



基于 FastAPI 搭建的智能照片滤镜平台,融合 SDXL Refiner 与 FLUX.1-dev 等扩散模型,支持人像卡通化、像素化和多样 艺术风格迁移,提供文本生成图片能力。平台具备高并发推理、批量处理和高分辨率输出,适用于社交、设计等场景。


基于FastAPI构建的智能客服投诉工单分流平台,知识库问答,数据库问答,支持亿级知识库检索、多路召回与实时问答,集成Langchain和DeepSeek实现工单智能分析,采用VLLM加速推理,通过Embedding和Rerank提升检索精度,使用Milvus向量库存储历史案例


基于 TTS、ASR 与 LLM 的端到端视频批量自动字幕处理解决方案,支持语音检测与分割、实时语音识别、文本校正与翻译、多风格语音合成、音视频合成与同步、以及一键字幕嵌入。后端采用 FastAPI + Python 实现高性能服务,集成 Tacotron2/FastSpeech、HiFi-GAN、Conformer、GPT 系列模型,满足视频生产与内容创作的自动化需求。