张映 发表于 2020-10-15

分类目录: mysql

服务器128G内存,cpu 28核,sas 1W转,这种配置应当算中等了。但是导入数据慢,插入2000多条数据要20多秒。

这台数据库读写很频繁,数据占硬盘大小为368G

阅读全文>>

张映 发表于 2020-05-13

分类目录: mysql

二个mysql分布二台机器上,要能在二个mysql间进行联表查询。方案有多种,常见的就是二台mysql做个主从,这样可以在一台机器进行联表查询了。

还有一种更快的方法

阅读全文>>

张映 发表于 2020-03-10

分类目录: mysql

mysql的视图,不推荐大家使用。mysql使用增,删,改,查,事务等,最基本的东西了就好了。其他的还是少尝试,例如存储过程,触发器,事件,视图等。

mysql的视图,有一套自己权限系统,如果权限没有处理好,就算是mysql的超级管理员root,也没法读取视图的里面的数据。

阅读全文>>

张映 发表于 2020-02-28

分类目录: mysql

mysql myisam可以通过直接复制frm,MYD,MYI,来备份和还原,非常的方便。innodb其实也是可以的,不过就比较麻烦了。

阅读全文>>

张映 发表于 2020-02-28

分类目录: mysql

mysql的普通操作和事务能满足所有的需求,至少对于我来说是这样的。mysql 视图,触发器,存储过程,事件,外键等,建议不要用。普通操作结合事务,不用担心,稳定性如何,性能怎么样。

阅读全文>>

张映 发表于 2019-11-19

分类目录: hadoop/spark/scala

Apache Zeppelin 是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。

Zeppelin 是一个提供交互数据分析且基于Web的笔记本。方便你做出可数据驱动的、可交互且可协作的精美文档,并且支持多种语言,包括 Scala(使用 Apache Spark)、Python(Apache Spark)、SparkSQL、 Hive、 Markdown、Shell等等。

阅读全文>>

张映 发表于 2019-05-06

分类目录: hadoop/spark/scala

元数据换成mysql,请参考:hive mysql 安装配置,spark从kafka读取数据后,入库hdfs时,会连接mysql元数据库,spark采用的是长连接,当spark关闭时,连接会处于睡眠状态。长时间不处理,mysql的连接数就会被占满。

阅读全文>>

张映 发表于 2019-02-26

分类目录: hadoop/spark/scala

数据量过大,mysql支持不了。mysql只是个临时方案,最终大数据搭建好了以后,还是需要把mysql的数据,导入到hadoop中。

阅读全文>>

张映 发表于 2019-02-19

分类目录: hadoop/spark/scala

mysql的数据库数据过大,做数据分析,需要从mysql转向hadoop。

阅读全文>>

张映 发表于 2019-01-09

分类目录: hadoop/spark/scala

hive和spark sql 默认用的都是derby,上篇文章说了,hive怎么使用mysql做为元数据库

spark sql使用hive的配置来连接mysql,配置下来挺简单的,并且不需要启动hive

阅读全文>>