删除mysql数据表重复数据

用协程爬取了一些资源有部分数据为重复数据，数据十四万条，如何删除mysql数据表中的重复数据并且不影响执行效率呢？

目标：我们要去掉title相同的数据。

先看看哪些数据重复了

SELECT `title`  FROM videos WHERE `title` IN ( SELECT `title`  FROM  student  GROUP BY `title` HAVING count( 1 ) > 1)

输出:

删除全部重复数据，一条不留

DELETE FROM videos WHERE `title` IN ( SELECT `title`  FROM  videos  GROUP BY `title` HAVING count( 1 ) > 1)

直接删除会报错

1093 – You can’t specify target table ‘student’ for update in FROM clause, Time: 0.016000s

原因是：更新这个表的同时又查询了这个表，查询这个表的同时又去更新了这个表，可以理解为死锁。mysql不支持这种更新查询同一张表的操作

解决办法：把要更新的几列数据查询出来做为一个第三方表，然后筛选更新。

DELETE FROM videos WHERE `title` IN ( SELECT  t.`title` FROM ( SELECT `title` FROM videos GROUP BY `title` HAVING count( 1 ) > 1 ) t)

在删除之前，我们可以先查一下，我们要删除的重复数据是啥样的

SELECT * FROM videos WHERE id NOT IN ( SELECT  t.id  FROM ( SELECT MIN( id ) AS id FROM videos GROUP BY `title` ) t  )

啥意思呢，就是先通过title分组，查出id最小的数据，这些数据就是我们要留下的火种，那么再查询出id不在这里面的，就是我们要删除的重复数据。

很简单，刚才的select换成delete即可

DELETE FROM videos WHERE id NOT IN ( SELECT  t.id  FROM ( SELECT MIN( id ) AS id FROM videos GROUP BY `title` ) t  )

删除成功。