张映 发表于 2020-05-13

分类目录: mysql

二个mysql分布二台机器上,要能在二个mysql间进行联表查询。方案有多种,常见的就是二台mysql做个主从,这样可以在一台机器进行联表查询了。

还有一种更快的方法

阅读全文>>

张映 发表于 2020-03-10

分类目录: mysql

mysql的视图,不推荐大家使用。mysql使用增,删,改,查,事务等,最基本的东西了就好了。其他的还是少尝试,例如存储过程,触发器,事件,视图等。

mysql的视图,有一套自己权限系统,如果权限没有处理好,就算是mysql的超级管理员root,也没法读取视图的里面的数据。

阅读全文>>

张映 发表于 2020-02-28

分类目录: mysql

mysql myisam可以通过直接复制frm,MYD,MYI,来备份和还原,非常的方便。innodb其实也是可以的,不过就比较麻烦了。

阅读全文>>

张映 发表于 2020-02-28

分类目录: mysql

mysql的普通操作和事务能满足所有的需求,至少对于我来说是这样的。mysql 视图,触发器,存储过程,事件,外键等,建议不要用。普通操作结合事务,不用担心,稳定性如何,性能怎么样。

阅读全文>>

张映 发表于 2019-11-19

分类目录: hadoop/spark/scala

Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。

Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。

阅读全文>>

张映 发表于 2019-05-06

分类目录: hadoop/spark/scala

元数据换成mysql,请参考:hive mysql 安装配置,spark从kafka读取数据后,入库hdfs时,会连接mysql元数据库,spark采用的是长连接,当spark关闭时,连接会处于睡眠状态。长时间不处理,mysql的连接数就会被占满。

阅读全文>>

张映 发表于 2019-02-26

分类目录: hadoop/spark/scala

数据量过大,mysql支持不了。mysql只是个临时方案,最终大数据搭建好了以后,还是需要把mysql的数据,导入到hadoop中。

阅读全文>>

张映 发表于 2019-02-19

分类目录: hadoop/spark/scala

mysql的数据库数据过大,做数据分析,需要从mysql转向hadoop。

阅读全文>>

张映 发表于 2019-01-09

分类目录: hadoop/spark/scala

hive和spark sql 默认用的都是derby,上篇文章说了,hive怎么使用mysql做为元数据库

spark sql使用hive的配置来连接mysql,配置下来挺简单的,并且不需要启动hive

阅读全文>>

张映 发表于 2019-01-09

分类目录: hadoop/spark/scala

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

hive默认使用derby数据库,了解了一下,测试环境可以用。真正线上还是替换成mysql还是比较靠谱。

阅读全文>>