分享MySQL操作规范

hot66hot

浏览: 444101 次
性别:
来自: 北京

最近访客更多访客>>

ascii_he

viken

WoKo_Jb

angelpisces

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

MySQL

mysql sql

背景

主要介绍，日常线上mysql操作，需要注意的情况。包括字段类型，索引，数据表，上线alter table等规范和注意事项。
等级划分：建议，不推荐，禁止
所有规则总有例外，要灵活，辩证看待问题

创建sql规范
DATABASE
1，是否需要使用数据库?
不是所有的东西都需要存在DB中，临时数据，日志数据等不需要，合理使用HBase,memcached,Redis等不仅仅只有RMDB

2，数据库划分？
目前一般是根据业务逻辑划分数据库。
如果是新业务需求，要合理考虑DB存放mysqld。目前线上主要3台mysqld，按照业务重要程度来划分：
主库相关：DB33
S级业务数据：DB22 pay, ivr, verify等库
不很重要的数据：DB19 mail,sms,newsletter等库

TABLE

1，存储引擎: InnoDB
没有任何理由不使用InnoDB，也不建议使用MyISAM，性能上并没有好多少。
其他的存储引擎，更不推荐。
禁止主从库的数据表使用不同的存储引擎

2，CHARSET: utf8
线上大家统一标准，没有特殊理由，禁止使用其他编码标准

3，遵循大段数据和小段数据分开：
如果某个表，有一个大内容字段，和一堆小字段。尤其是小字段的读取频繁、更新频繁跟大内容字段不一致时，建议放置这个大内容字段和小字段段。当然这样也增加了一些复杂度，要全面考虑。
例子：线上的一张deal表，有频繁更新的curnumber字段，也有非常巨大的字段detail(blob)，导致deal的各种查询都有可能慢查询。
主要原因：1，频繁写block读；2，字段太大，不利于缓存，读写性能都差。

4，遵循冷热数据分开：
建表时，遵循更新频率不同的数据分开。频繁更新的字段应该和不怎么频繁更新的字段分开。这样有利于在流量大时，进行分开控制。更新不频繁的字段可以最限度地使用缓存。

5，预估表数据量：
线上一个表究竟可以存放多少行？取决于该表每一行的大小。通常来说，不要超过千万（如果是类似的日志表，扫表需求小，不要超过亿行）。如果业务逻辑估计会突破亿，就要考虑分表。
当然分表带来的缺点：可能会存放一些容易的索引表信息，有些group 等需求无法实现。要全面考虑。
目前线上库是支持一些分表场景，具体参考相关文档。
例子： creditlog用到了非主键+取模分表； smstask用到了主键+区间分表； mailtask用到了时间分表，它们都是针对特定业务逻辑选择的分表方法

Schema Data Type
1，够用原则
tiny int , small int, medium int, int, big int 表示范围不同，请根据业务需求使用，必要浪费字段
注意：不要太极端，线上推荐3种， tiny, int, big int。一般status等都是tiny int，，，可能超过42亿的ID(或者手机号码)，用big int, 其他id都是 int。
例子：历史上，有多次使用smallint，结果超过范围，导致出错的情况。

2，简单原则
int 比 string 更块的比较。手机号码，IP地址等存储。当然，如果IP存储只是为了人看的统计，记录string更直观一些

3，禁止NULL数据
避免NULL，默认值也不要是NULL。　增加排序复杂

4，char Vs varchar
长度明确 && 短小，建议用char, 其他情况用varchar

5，varchar(xxx) 不建议太慷慨
临时表计算（order, group）会有麻烦
例子：mailtask utm_参数过大，导致自己group by 统计，超过/tmp下空间，导致失败。

6，如果可能，不要用实数。如果要用，请使用DECIAML，而不是FLOAT, DOUBLE (精确度问题)
decimal 的计算，是mysql实现，而不是CPU直接实现。效率较低，并且存储空间多。线上价格存储都用decimal(11,2) ，其实也可以直接存int, 数值是分。

Index

1，禁止重复索引
PRIMARY KEY , UNIQUE 不要同时出现

2，禁止滥用索引
索引仅仅是为了线上查询提供服务，不要为没有的线上访问需求滥用索引。

3，不推荐对数据区分小的字段，建立索引
比如性别字段，经验值，重合度低于20%(视表的横向大小浮动)。
主要是因为硬盘的顺序读 > 随机读 mysql 预读机制

4，不推荐索引varchar：
如果真要索引，可以使用前缀索引（字符串很长），例如 deal表的predealid KEY `predealid` (`predealid`(8)),
或者自建hash值，索引（字符串长度比较固定）。需要注意hash值，用crc,而不是md5 散列问题.

5，尽可能多级索引,而不是多余索引
多余索引 index1 (xid, addtime), (xid, type)
多级索引 index1 (xid, type, addtime)
反例：为了防止旧索引过大，可以考虑多余索引

线上执行sql规范
总体流程：

1，充分论证
比如加字段、加索引
A、得确定一定需要加这个索引。加这个字段。
没有别的手段，或者别的手段实现很不好。比如带来很多程序上的改动、导致整个系统结构复杂。
B、当前表数据量允许加这个字段加这个索引
C、是否其他组的同学会受到影响？

2，小心谨慎不能随意操作
原则如下：
A、上百M的数据量得停止该相关的服务。
B、数据量不到百M，记录数在百万条以内，可以在低峰期进行（比如凌晨）。
C、数据量在万条以内、数据量在10M以内，可以在白天的非高峰点操作（可以分成多步操作）。

3，多步合一
在操作时，为了尽可能减少影响和操作时间，对同一个表进行的多步操作进行合并。比如对同一个表既加字段、又加索引，那么就应该写成一条语句。减少复制临时表的时间。

4，事前准备
A、事前确认操作的数据、操作命令及其所带来的影响。可以事先联系sa,搭建虚拟环境，测试.
B、写下整个操作的流程，中间用到的命令、事后检查所需要的命令。

5，事后检验
A、操作完成之后，检查所有同步是否正常。
B、操作完成之后，用命令检查所有的数据库是否均已生效。（不仅仅是主库，还包括所有辅库，检查脚本提前准备好）。
C、对于多步大的操作，应该至少有两人参加（sa和rd在一起），每一步操作后都要确认。比如，操作是否达到到预期的效果。（这些操作检查，都应该配备脚本，在检查时执行）。

6，发邮件通知
通知给相关同学，包括mis,data组

一些规范
1，所有的SQL都要存放在git sql目录下。
2，建立ticket给sa，必须明确一下内容：
服务器名字
sql文件的位置
是否需要重新启动apache服务器
该脚本预期执行时间，会影响的数据行数，是否对线上服务有影响
一些特殊要求，比如关闭主从报警等
3，禁止单表多个更改字段，用多次alter table命令
4，线上删除数据，需要严格控制速度，不要超过100/s;
原因分析:
见 innodb_max_purge_lag研究分享http://hot66hot.iteye.com/blog/1771034

5，明确alter table的危害性
alter table就是拷贝了一份全量数据入新表，即使你认为应该不需要拷贝的情况，他都会拷贝，比如
rename 一个column name （mv .frm）
修改column default value (alter table alter/change/modify column)
都会全量拷贝数据一次。
解决方案&分析见：http://www.taobaodba.com/html/534_mysql_online_ddl_and_nosql_schemaless_design.html

分享到：

redis-cluster研究和使用 | MySQL 研究innodb_max_purge_lag分享

2013-01-16 17:48
浏览 3464
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论