社区云

spark

OverlordDuke 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-12-20 21:58:17

利用Spark构建房价分析与推荐系统：基于58同城数据的大数据实践

利用58同城爬虫获取实时房价数据。使用Pandas进行数据清洗、处理，确保数据质量。利用Spark加速大数据分析，使用Echarts创建交互式可视化图表展示房价相关信息。基于Spark构建房价预测模型，通过机器学习算法实现对未来房价的预测。实现协同过滤推荐系统，为用户提供个性化的房屋推荐。设计合适的数据库结构，确保系统数据的可扩展性和一致性。实现用户系统，保障数据安全性和隐私保护。

#大数据 #spark #信息可视化

2932 

21 
fitzgerald0 来自讯飞AI开发者社区

xfyun.csdn.net · 2021-04-19 23:01:04

PySpark机器学习特征选择

本文基于SPARK.SQL和SPARK.ML实现常见的4种结构化数据特征选择方法，并给出基于树模型的特征选择代码。

#算法 #机器学习 #大数据 +2

2436 

5 
haochengxu2022 来自讯飞AI开发者社区

xfyun.csdn.net · 2023-06-28 20:34:59

【技术经验分享】计算机毕业设计Python+Spark视频推荐系统短视频推荐系统视频流量预测系统短视频爬虫视频数据分析视频可视化视频大数据大数据毕业设计大数据毕设

计算机毕业设计Python+Spark视频推荐系统短视频推荐系统视频流量预测系统短视频爬虫视频数据分析视频可视化视频大数据大数据毕业设计大数据毕设

#大数据 #python #spark +3

570 
Data_IT_Farmer 来自讯飞AI开发者社区

xfyun.csdn.net · 2021-06-20 18:14:21

Spark MLlib实现的中文文本分类–Naive Bayes

关键字：spark mllib、文本分类、朴素贝叶斯、naive bayes文本分类是指将一篇文章归到事先定义好的某一类或者某几类，在数据平台的一个典型的应用场景是，通过爬取用户浏览过的页面内容，识别出用户的浏览偏好，从而丰富该用户的画像。本文介绍使用Spark MLlib提供的朴素贝叶斯（Naive Bayes）算法，完成对中文文本的分类过程。主要包括中文分词、文本表示（TF-IDF）、模型训练

#机器学习 #spark

2144 

2 
haochengxu2022 来自讯飞AI开发者社区

xfyun.csdn.net · 2024-09-12 00:00:00

计算机毕业设计Python+Spark知识图谱高考志愿推荐系统高考数据分析高考可视化高考大数据大数据毕业设计

计算机毕业设计Python+Spark知识图谱高考志愿推荐系统高考数据分析高考可视化高考大数据大数据毕业设计

#大数据 #spark #爬虫 +4

1648 

23 
haochengxu2022 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-03-14 00:00:00

计算机毕业设计Spark美团美食推荐系统美食大数据美食可视化美团美食爬虫(源码+LW文档+PPT+讲解视频)

计算机毕业设计Spark美团美食推荐系统美食大数据美食可视化美团美食爬虫(源码+LW文档+PPT+讲解视频)

#python #大数据 #spark +3

629 

29 
sq0723 来自讯飞AI开发者社区

xfyun.csdn.net · 2020-12-25 11:34:56

Spark MLlib 机器学习算法（一）

一协同过滤算法协同过滤（Collaborative filtering）算法是一种基于群体用户或者物品的典型推荐算法，主要有两种：一种是通过考察具有相同爱好的用户对相同物品的评分标准进行计算。一种是考察具有相同特质的物品从而推荐给选择了某件物品的用户。协同过滤算法关键是计算相似度，主要有以下几种方法：1、基于欧几里得距离计算公式：主要从不同目标的绝对差异性考虑2、基于余弦角度计算公式：主要从方向趋

#机器学习 #spark

492 
Apache Spark中国社区来自讯飞AI开发者社区

xfyun.csdn.net · 2021-06-25 19:00:49

数据湖实操讲解【JindoFS 缓存加速】第十二讲：Spark 访问 OSS 透明缓存加速

数据湖技术圈本期导读：【JindoFS 缓存加速】第十二讲主题：Spark 访问 OSS 透明缓存加速讲师：辰山，阿里巴巴计算平台事业部 EMR 技术专家内容框架：JindoFS 缓存...

#zookeeper #大数据 #分布式 +2

442 
isNotNullX 来自讯飞AI开发者社区

xfyun.csdn.net · 2024-08-13 17:07:52

代表性大数据技术：Hadoop、Spark与Flink的框架演进

本文回顾了大数据技术发展的几个重要里程碑，从MapReduce编程模型的提出到Hadoop、Spark和Flink等大数据框架的涌现。

#大数据 #hadoop #spark

1525 

38 
haochengxu2022 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-01-31 00:00:00

计算机毕业设计Python+Django农产品推荐系统农产品爬虫农产品商城农产品大数据农产品数据分析可视化 PySpark Hadoop

计算机毕业设计Python+Django农产品推荐系统农产品爬虫农产品商城农产品大数据农产品数据分析可视化 PySpark Hadoop

#spark #python #机器学习 +2

1934 

42 
最强大神大数据来自讯飞AI开发者社区

xfyun.csdn.net · 2024-10-21 12:11:43

基于大数据技术的当当网图书分析推荐系统，Hadoop，Hive，Spark，SpringBoot，Vue，前后端分离，包安装，包运行成功

主页、数据管理、图书数据、日志数据、系统留言、系统管理、用户信息、角色信息、权限信息、个人信息、数据分析、图书类目数量分析、图书热度排名分析、折扣占比数量分析、图书发布趋势分析、出版社热度排名、价格分布数量分析、图书推荐、可视化大屏、图书价格预测。开发环境：java1.8、node.js、mysql、maven。数据采集、数据存储、数据清洗、数据分析、数据推荐、数据可视化。大数据技术：hadoop

#大数据 #hadoop #hive +4

475 

6 
小生凡一来自讯飞AI开发者社区

xfyun.csdn.net · 2021-07-12 07:37:20

【小白视角】大数据基础实践（七） Spark的基本操作

本文带你了解一下大数据中的Spark的一些基本概念与基本操作

#大数据 #spark #scala

2506 

51 
haochengxu2022 来自讯飞AI开发者社区

xfyun.csdn.net · 2024-06-24 00:00:00

计算机毕业设计hadoop+spark天气预测天气可视化天气大数据空气质量检测空气质量分析气象大数据气象分析大数据毕业设计大数据毕设

计算机毕业设计hadoop+spark天气预测天气可视化天气大数据空气质量检测空气质量分析气象大数据气象分析大数据毕业设计大数据毕设

#大数据 #hadoop #推荐算法 +3

3002 

34 
王知无(import_bigdata) 来自讯飞AI开发者社区

xfyun.csdn.net · 2021-07-08 08:20:00

实时数据湖：Flink CDC流式写入Hudi

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜1. 环境准备•Flink 1.12.2_2.11•Hudi 0.9.0-SNAPSHOT(master分支)•S...

#spark #hadoop #hive +2

3098 
qq_375279829 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-02-06 11:27:42

基于大数据的音乐推荐系统设计与实现【java或python】-计算机毕业设计源码+LW文档

本文介绍了一个基于大数据的音乐推荐系统的设计与实现过程，该系统充分利用大数据技术和机器学习算法，对用户的历史行为、偏好以及音乐内容特征进行深入分析，为用户提供个性化的音乐推荐服务。协同过滤算法通过挖掘用户之间的相似性进行推荐，内容推荐算法则通过分析音乐内容特征进行推荐，深度学习算法则能够捕捉用户和音乐之间的复杂关系，提高推荐的准确性。用户画像模块通过对用户的行为数据进行分析和挖掘，提取用户的特征和

#大数据 #python #数据分析 +2

298 

3 
haochengxu2022 来自讯飞AI开发者社区

xfyun.csdn.net · 2025-01-01 00:00:00

计算机毕业设计Python+Spark考研预测系统考研推荐系统考研数据分析考研大数据大数据毕业设计大数据毕设

计算机毕业设计Python+Spark考研预测系统考研推荐系统考研数据分析考研大数据大数据毕业设计大数据毕设

#大数据 #spark #python +4

2689 

54 
豪华手抓饼来自天启AI社区

tianqi.csdn.net · 2018-09-06 22:15:02

Spark Streaming 实战日志分析（二）数据可视化

1 需求使用echarts可视化工具将之前统计好的数据进行展示。2 开发环境IDEA+mavenspring boot + ECharts3 编程代码地址1）pom.xml，添加依赖&lt;repositories&gt;&lt;repository&gt;&lt;id&gt;cloudera&

#大数据 #spark

1941 
Java蜗牛来自天启AI社区

tianqi.csdn.net · 2014-07-22 15:28:12

spark学习五 DStream（spark流式数据处理）

流数据的特点与一般的文件（即内容已经固定）型数据源相比，所谓的流数据拥有如下的特点1. 数据一直处在变化中2. 数据无法回退3. 数据一直源源不断的涌进DStream如果要用一句话来概括SparkStreaming的处理思路的话，那就是"将连续的数据持久化，离散化，然后进行批量处理"。让我们来仔细分析一下这么作的原因。· 数据持久化将从网

#spark

1943 
yuqu123 来自天启AI社区

tianqi.csdn.net · 2022-02-12 22:23:19

spark-redis 实现redis SQL统计

spark-redis是基于jedis实现的redis rdd，可对redis的String, Hash, List, Set and Sorted Set，XStream数据结构进行转换读写，支持将redis数据转换成DataFrames的方式，以Spark SQL进行统计运算，支持官方Redis cluster的集群读取模型，可自动感知Redis分区，亦可根据配置调整分区数。支持版本：Spar

#redis #spark #sql

1951 
张老七没脾气来自天启AI社区

tianqi.csdn.net · 2019-12-25 14:32:30

spark streaming 广播变量空指针异常问题&广播变量更新

这两天在使用spark中的用到了广播变量，大致逻辑是从Redis中读取黑名单配置，然后广播到各个节点用于异常监控，但是在使用过程中总是报空指针异常，后面百度了很多资料，发现有说Yarn集群中不支持广播变量的，有说Sparkstreaming不支持广播变量更新的，有说是spark闭包问题的等等各种，最后笔者去查了sparkstreaming官方文档才学会了广播变量的正确使用方法，并将过程记录下来。.

#spark

1950 

2 

标签介绍

spark

——spark

热门标签

关于我们

联系我们（工作时间：8:30-22:00）

400-660-0108 kefu@csdn.net