用协程爬取了一些资源有部分数据为重复数据,数据十四万条,如何删除mysql数据表中的重复数据并且不影响执行效率呢?
目标:我们要去掉title相同的数据。
先看看哪些数据重复了
SELECT `title` FROM videos WHERE `title` IN ( SELECT `title` FROM student GROUP BY `title` HAVING count( 1 ) > 1)
输出:
删除全部重复数据,一条不留
DELETE FROM videos WHERE `title` IN ( SELECT `title` FROM videos GROUP BY `title` HAVING count( 1 ) > 1)
直接删除会报错
1093 – You can’t specify target table ‘student’ for update in FROM clause, Time: 0.016000s
原因是:更新这个表的同时又查询了这个表,查询这个表的同时又去更新了这个表,可以理解为死锁。mysql不支持这种更新查询同一张表的操作
解决办法:把要更新的几列数据查询出来做为一个第三方表,然后筛选更新。
DELETE FROM videos WHERE `title` IN ( SELECT t.`title` FROM ( SELECT `title` FROM videos GROUP BY `title` HAVING count( 1 ) > 1 ) t)
删除表中删除重复数据,仅保留一条
在删除之前,我们可以先查一下,我们要删除的重复数据是啥样的
SELECT * FROM videos WHERE id NOT IN ( SELECT t.id FROM ( SELECT MIN( id ) AS id FROM videos GROUP BY `title` ) t )
啥意思呢,就是先通过title分组,查出id最小的数据,这些数据就是我们要留下的火种,那么再查询出id不在这里面的,就是我们要删除的重复数据。
开始删除重复数据,仅留一条
很简单,刚才的select换成delete即可
DELETE FROM videos WHERE id NOT IN ( SELECT t.id FROM ( SELECT MIN( id ) AS id FROM videos GROUP BY `title` ) t )
删除成功。