将 Excel 上传网站并导入数据库，如何进行设计？

过去六天，我发现还没有从 celery 的坑里完全跳出来，当前遇到的问题是这样：celery 处理任务时，偶尔会出现：
{
"status": "FAILURE",
"result": {
"exc_type": "NotRegistered",
"exc_message": "'tasks.excel.excel_to_db'"
},
"traceback": null,
"children": [],
"task_id": "82626ab6-d714-4e57-9d56-2d01d75f091c"
}
这种情况，任务没有被注册，我在执行进入 celery 时也进行了方法导入，然而还是会出现，而且是不定时出现，很奇怪，不知道各位大佬有没有遇到过这个情况。

导入

Celery

EXCEL

数据库

34 条回复 • 2018-09-28 10:52:09 +08:00

Kcelone

2018-09-19 20:16:35 +08:00

总的来说，就是 Excel 上传导入数据库引发的一系列问题及思考。

Kcelone

2018-09-19 20:19:00 +08:00

我发现不经常和人沟通的一个重要的问题就是无法用语言描述自己的想法。

wayne1027

2018-09-19 20:36:58 +08:00

上传时记录操作人，操作时间，生成 ID （ table_A ），传完后对服务器上的 excel 进行 rename, xxx_uid_id.xlsx，这样一旦后端导入异常时可以读取 excel 文件名中的 id，根据 id 匹配 table_A 中的 uid，发送邮件或者短信通知任务状态。

Kcelone

2018-09-19 20:52:15 +08:00

@wayne1027 嗯，有点启发，我目前是 table_M 表示目的表（ excel 中的数据存放表），table_L 表示日志表（记录 Excel 导入过程中，哪些数据异常，给用户以提示，文中说的那个新建表来记录导入数据的问题，说的就是这个 table_L ），当然除此之外还有一个临时表用以数据去重。我想得到的方式是，在界面上，就将导入的结果显示出来（也就是第一步上传导入数据库，第二步，从 table_L 中查当前所操作的表的产生的日志，并返回给界面。如果是用邮件或者短信息的话，可以，但没办法，应该不会被领导接纳。不过我想可以，模糊匹配 table_L 中的那个具有唯一性的关键字，然后根据时间排序取最新的，也就能保证是最新插入的数据了，这样应该就可以取出来操作日志了）。大神觉得如何？

Kcelone

2018-09-19 20:54:33 +08:00

@wayne1027 还有个问题就是，我并不能知道跑在 celery 中的这个读 Excel 并导入数据库的操作是否已经完成，如何判定这个状态呢？因为没有完成的话，我去查 table_L 中的数据的话，也是会出问题，这该怎么办才好，再支个招吧。

abusizhishen

2018-09-19 21:03:17 +08:00 via Android

转 csv 文件，load data infile ignore into 导入，轻松导入，相同记录跳过

Linxing

2018-09-19 21:07:21 +08:00

索引唯一性加上楼上那位的做法

shuperjolly

2018-09-19 21:15:30 +08:00 via iPhone

个人觉得过大的 excel 先在前端校验或者客户端脚本或者程序校验好了再上传会是更好的选择

Moorj

2018-09-19 23:46:36 +08:00 via iPhone

先导入到临时表中校验，完成去重，填写不规范等问题，最后导入数据库

Eds1995

2018-09-20 08:33:13 +08:00 via Android

用 pandas 来处理 Excel 数据（标题校验等等），用 marshmallow 来校验数据，最后插入数据就看你用啥 orm 或者 sql。总的来说一次性导入 1 万条数据是可以接受的，只是内存会涨 100M 左右，超过 10 万数据导入直接就无法接受了，所以你还要限制上传文件大小。

Eds1995

2018-09-20 08:35:01 +08:00 via Android

celery 是可以更新任务状态的，你可以调用查询任务接口来获取任务状态，比如上传完成你更新状态 20%，数据处理完 50%,数据校验 70%

valkyrja

2018-09-20 08:37:29 +08:00 via iPhone

给 celery 配一个 backend，生成异步任务后会返回一个 task id，用这个 task id 去轮询就可以拿到任务的执行状态和执行结果

Kcelone

2018-09-20 09:54:45 +08:00

@abusizhishen 这个已经不是转格式的问题了，利用 Python 的一些库也可以将数据导入，数据重复也做了处理，现在的问题是，我把数据处理放到了 celery 中进行处理，这样主线程无法获取到 celery 的处理结果，因为数据导入后，某些处理结果日志还是要返回给前端的，现在无法获取到 celery 的处理状态，就不好进行下一步查询结果。

Kcelone

2018-09-20 10:00:51 +08:00

@Linxing 这么说吧，比如有个 100m 的数据大小的文件要导入数据库，那么使用 celery 的话，主线程可以立刻返回给前端结果，比如上传成功，导入成功，（而且 celery 处理完之后，会把一些处理日志放到了 table_L 表中），实际上，celery 还在处理过程中国，当 celery 的处理状态还是 PENDING，我就无法获取到 table_L 表中的日志情况，因为我现在要把处理日志返回给前端，告诉用户，那些数据异常，需要处理，现在是这个问题了。还有就是索引唯一性，也是去重的一个方式，不过我采用的是临时表的方式。

Kcelone

2018-09-20 10:12:33 +08:00

@shuperjolly 应该不太好吧，应该是没有哪个系统是放到前端进行校验的，容易出问题，一般这种校验都是放到后端来做。

Kcelone

2018-09-20 10:13:16 +08:00

@Moorj 对，目前采用的方式就是这样，主要是这个 celery 啊，有坑在里面，具体的可以看下我其他的回复。

saulshao

2018-09-20 10:13:35 +08:00

我曾经提供过类似的方法，基本思路是与用户交互的程序负责接收其他真正的导入或者数据计算程序的状态或者消息。
错误提示显示给用户看，或者将这些错误消息(日志)持久化，等待用户回来查询。

Kcelone

2018-09-20 10:14:05 +08:00

@Eds1995 嗯，之前文件大小的事，没有考虑，现在确实有必要了。

sonyxperia

2018-09-20 10:15:41 +08:00

先导入到 tablea 保存所有 excel 文件的记录，再从 tablea 表处理数据到 tableb ？

Kcelone

2018-09-20 10:16:21 +08:00

@Eds1995 而且，我记得 Python 执行程序时，内存超过一定大小，就会报内存错误，记得当时上传镜像文件时，超过某个值（估计 200M 左右，没具体研究过）后就会报错，就是内存爆了。

Kcelone

2018-09-20 10:17:50 +08:00

@Eds1995 我等下就看看 celery 的状态获取方面的东西，希望有接口可以使用，我想在前端这边搞个轮训监听，反复查询 celery 处理状态，然后再设置个超时时间，不知道可行不？

Kcelone

2018-09-20 10:19:00 +08:00

@valkyrja backend 是 redis，我等下就研究下这个思路。感谢

lihongjie0209

2018-09-20 10:19:16 +08:00

@Kcelone 在 celery 处理过程中如果需要通知前端, 那就产生一个消息放到 redis 或者消息队列中, 前端轮询就好了

Kcelone

2018-09-20 10:21:01 +08:00

@sonyxperia 如果你要去重的话，可以这么搞，我去重就是这么个思路，然后销毁 tableA，当然我使用的是临时表，表名根据一定的规则进行命名，防止重复建表。

Kcelone

2018-09-20 10:22:58 +08:00

嗯，这里有个疑问就是前端轮询也是要花费一些时间的吧，那么界面是不是就卡在那里了。。

draguo

2018-09-20 10:44:38 +08:00

所以你这个是异步处理，同步通知结果？

sampeng

2018-09-20 10:50:03 +08:00

emmm。。
理一下逻辑？
先，上传。前端显示上传成功。后台开始异步工作。生成 taskid。和前端上传的那条记录绑定。前台可以看到这条任务是处理中。后台随时可以根据 taskid 修改这个状态。
你既然已经是异步了。前端不可能同步显示。一定也是一个异步显示。就看体验了

Kcelone

2018-09-20 13:31:39 +08:00

@saulshao 目前是将日志进行持久化了，然而我该什么时候去查询这些日志呢？这是个问题，所以我才想到去监听 celery 的处理结果，等状态更新为 SUCCESS 的时候，再去数据库查询这些日志，然而这就引出另一个问题，就是轮询时间等待的问题，文件稍微大点，岂不要等很久。。。

Kcelone

2018-09-20 13:36:00 +08:00

@sampeng 嗯，当前也是改成这个样子了，做成非实时显示的了，上传后立刻就返回上传成功之类，然后同时开始异步处理，提供另外一个接口进行结果查询。

Kcelone

2018-09-20 13:38:42 +08:00

@draguo 因为做了些尝试，发现可以获取到异步处理的 id 及状态，所以原本想着，前端这边做个轮询的机制，进行同步结果反馈，做出来的效果的话，就像你在页面上提交东西，页面按钮进行转圈那种等待效果，感觉是这样。

Kcelone

2018-09-20 13:43:58 +08:00

@draguo 或着就是做成分步完成该需求，1. 文件上传，异步处理，2.查询产生的日志。

saulshao

2018-09-20 14:11:24 +08:00

日志持久化的时候，记录日志的相关信息，例如当时处理的文件名，是谁上传的，当时上传的时间戳等，然后根据日志记录的相关信息进行查询。

Kcelone

2018-09-20 14:23:35 +08:00

@saulshao 嗯，类似于“ cots_18_09_20_Sep_09_1537423865 ”这样的，记录日志的数据表里 key 字段，我就三个字段，id，key, msg，这个 key 在第一步上传处理时，已经产生，请求发出后，会将其返回，用以第二步中的日志查询。目前采用的就是这种方式了，以后有新的想法，再持续更新吧，感觉做的还是有点 low。

Kcelone

2018-09-28 10:52:09 +08:00

想来想去，要搞个 Python 后端的技术研发群，群号：902788038，欢迎各位 Python 小伙伴加入，欢迎各位有志者在群里拉帮结派搞事情。