1 年間前 · f13f279d92
--- a/name_classify_api.py
+++ b/name_classify_api.py
@@ -35,34 +35,7 @@ model = BertClassifier(bert_config, len(label_revert_map.keys()))
 
				 model.load_state_dict(torch.load(model_save_path, map_location=torch.device('cuda:0')))

			
 
				 model.eval()

			
 
				 tokenizer = BertTokenizer.from_pretrained(pre_train_model)

			
 
				-# class ModelManager:

			
 
				-#     def __init__(self, pre_train_model, model_save_path, label_revert_map):

			
 
				-#         self.pre_train_model = pre_train_model

			
 
				-#         self.model_save_path = model_save_path

			
 
				-#         self.label_revert_map = label_revert_map

			
 
				-#         self.model_cache = {}

			
 
				-#         self.tokenizer_cache = {}

			
 
				 

			
 
				-#     def get_model(self):

			
 
				-#         # 使用当前线程ID作为键，确保每个线程有自己的模型实例

			
 
				-#         thread_id = threading.get_ident()

			
 
				-        

			
 
				-#         if thread_id not in self.model_cache:

			
 
				-#             bert_config = BertConfig.from_pretrained(self.pre_train_model)

			
 
				-#             model = BertClassifier(bert_config, len(self.label_revert_map.keys()))

			
 
				-#             model.load_state_dict(torch.load(self.model_save_path, map_location=torch.device('cuda:0')))

			
 
				-#             model.eval()

			
 
				-#             self.model_cache[thread_id] = model

			
 
				-

			
 
				-#         if thread_id not in self.tokenizer_cache:

			
 
				-#             tokenizer = BertTokenizer.from_pretrained(self.pre_train_model)

			
 
				-#             self.tokenizer_cache[thread_id] = tokenizer

			
 
				-

			
 
				-#         print(f"Thread {thread_id}: Tokenizer id: {id(self.tokenizer_cache[thread_id])}, Model id: {id(self.model_cache[thread_id])}")

			
 
				-#         return self.tokenizer_cache[thread_id], self.model_cache[thread_id]

			
 
				-

			
 
				-# 使用示例

			
 
				-# model_manager = ModelManager(pre_train_model, model_save_path, label_revert_map)

			
 
				 class ClassificationRequest(BaseModel):

			
 
				     path: str

			
 
				     client_id: str

			
@@ -77,14 +50,6 @@ class ClassificationRequestBert(BaseModel):
 
				     client_id: str

			
 
				     name_column: str

			
 
				 

			
 
				-# bert_config = BertConfig.from_pretrained(pre_train_model)

			
 
				-# # 定义模型

			
 
				-# model = BertClassifier(bert_config, len(label_revert_map.keys()))

			
 
				-# # 加载训练好的模型

			
 
				-# model.load_state_dict(torch.load(model_save_path, map_location=torch.device('cuda:0')))

			
 
				-# model.eval()

			
 
				-# tokenizer = BertTokenizer.from_pretrained(pre_train_model)

			
 
				-

			
 
				 def bert_predict(text):

			
 
				     if type(text) == str and text != '':

			
 
				         token = tokenizer(text, add_special_tokens=True, padding='max_length', truncation=True, max_length=512)

			
@@ -106,79 +71,7 @@ def bert_predict(text):
 
				         return label_revert_map[pred_label]

			
 
				     else:

			
 
				         return ''

			
 
				-def process_data(origin_csv_path, temp_path, name_col, chunksize, total_processed, df_error):

			
 
				-    if name_col not in pd.read_csv(origin_csv_path).columns:

			
 
				-        return '列名错误', None, None

			
 
				-    for chunk in tqdm(pd.read_csv(origin_csv_path, chunksize=chunksize, iterator=True), total=len(pd.read_csv(origin_csv_path)) // chunksize + 1, desc='Processing', unit='item'):

			
 
				-            try:

			
 
				-                # 对每个块进行处理

			
 
				-                chunk['AI Group'] = chunk[name_col].apply(lambda x : bert_predict(x))

			
 
				-                # 增量保存处理结果

			
 
				-                if total_processed == 0:

			
 
				-                    chunk.to_csv(temp_path, mode='w', index=False)

			
 
				-                else:

			
 
				-                    chunk.to_csv(temp_path, mode='a', header=False, index=False)

			
 
				-                # 更新已处理的数据量

			
 
				-                total_processed += len(chunk)

			
 
				-            except Exception as e:

			
 
				-                df_error = pd.concat([df_error, chunk])

			
 
				-    return temp_path, df_error, total_processed

			
 
				-async def predict_excel(file_path, name_col, temp_path, save_path, chunksize=5):

			
 
				-    # 初始化变量

			
 
				-    error_file_name, error_file_extension = os.path.splitext(os.path.basename(save_path))

			
 
				-    # 添加后缀

			
 
				-    error_file = error_file_name + '_error' + error_file_extension

			
 
				-    origin_csv_file = error_file_name + '_origin.csv'

			
 
				-    # 生成新的文件路径

			
 
				-    error_file_path = os.path.join(os.path.dirname(save_path), error_file)

			
 
				-    origin_csv_path = os.path.join(os.path.dirname(save_path), origin_csv_file)

			
 
				-    total_processed = 0

			
 
				-    df_origin = pd.read_excel(file_path)

			
 
				-    df_error = pd.DataFrame(columns=df_origin.columns)

			
 
				-    df_origin.to_csv(origin_csv_path, index=False)

			
 
				-

			
 
				-    temp_path, df_error, total_processed = await asyncio.to_thread(process_data, origin_csv_path, temp_path, name_col, chunksize, total_processed, df_error)

			
 
				-    if temp_path == '列名错误':

			
 
				-        return '列名错误', None, None

			
 
				-    df_final = pd.read_csv(temp_path)

			
 
				-    df_final.to_excel(save_path, index=False)

			
 
				-    try:

			
 
				-        os.remove(origin_csv_path)

			
 
				-    except Exception as e :

			
 
				-        pass

			
 
				-    if len(df_error) == 0:

			
 
				-        return save_path, '', 0

			
 
				-    else:

			
 
				-        df_error.to_excel(error_file_path)

			
 
				-        return save_path, error_file_path, len(df_error)

			
 
				 

			
 
				-async def predict_csv(file_path, name_col, temp_path, save_path, chunksize=5):

			
 
				-    # 初始化变量

			
 
				-    error_file_name, error_file_extension = os.path.splitext(os.path.basename(save_path))

			
 
				-    # 添加后缀

			
 
				-    error_file = error_file_name + '_error' + error_file_extension

			
 
				-    origin_csv_file = error_file_name + '_origin.csv'

			
 
				-    # 生成新的文件路径

			
 
				-    error_file_path = os.path.join(os.path.dirname(save_path), error_file)

			
 
				-    origin_csv_path = os.path.join(os.path.dirname(save_path), origin_csv_file)

			
 
				-    total_processed = 0

			
 
				-    df_origin = pd.read_csv(file_path)

			
 
				-    df_error = pd.DataFrame(columns=df_origin.columns)

			
 
				-    df_origin.to_csv(origin_csv_path, index=False)

			
 
				-    # 按块读取 CSV 文件

			
 
				-    

			
 
				-    # for chunk in tqdm(pd.read_csv(origin_csv_path, chunksize=chunksize, iterator=True), total=len(pd.read_csv(origin_csv_path)) // chunksize + 1, desc='Processing', unit='item'):

			
 
				-    temp_path, df_error, total_processed = await asyncio.to_thread(process_data, origin_csv_path, temp_path, name_col, chunksize, total_processed, df_error)

			
 
				-    if temp_path == '列名错误':

			
 
				-        return '列名错误', None, None

			
 
				-    df_final = pd.read_csv(temp_path)

			
 
				-    df_final.to_csv(save_path, index=False)

			
 
				-    os.remove(origin_csv_path)

			
 
				-    if len(df_error) == 0:

			
 
				-        return save_path, '', 0

			
 
				-    else:

			
 
				-        df_error.to_csv(error_file_path)

			
 
				-        return save_path, error_file_path, len(df_error)

			
 
				 def remove_files():

			
 
				     current_time = time.time()

			
 
				     TIME_THRESHOLD_FILEPATH = 30 * 24 * 60 * 60

			
@@ -196,6 +89,7 @@ def remove_files():
 
				             if current_time - os.path.getmtime(dir_path) > TIME_THRESHOLD_FILEPATH:

			
 
				                 print(f"删除文件夹: {dir_path}")

			
 
				                 shutil.rmtree(dir_path)

			
 
				+

			
 
				 @app.post("/uploadfile/")

			
 
				 async def create_upload_file(file: UploadFile = File(...), client_id: str = Form(...)):

			
 
				     user_directory = f'{basic_path}/{client_id}'

			
@@ -214,24 +108,22 @@ async def create_upload_file(file: UploadFile = File(...), client_id: str = Form
 
				         }, status_code=200)

			
 
				     except Exception as e:

			
 
				         return JSONResponse(content={"message": f"发生错误: {str(e)}", "data":{}, "code":500}, status_code=500)

			
 
				+

			
 
				 async def process_openai_data(deal_result, client, temp_csv):

			
 
				     for name, value in tqdm(deal_result.items(), desc='Processing', unit='item'):

			
 
				-        try:

			
 
				-            message = [

			
 
				-                {'role':'system', 'content': cls_system_prompt},

			
 
				-                {'role':'user', 'content':user_prompt.format(chunk=str(value))}

			
 
				-            ]

			
 
				-            # result_string = post_openai(message)

			
 
				-            response = await client.chat.completions.create(model='gpt-4',messages=message)

			
 
				-            result_string = response.choices[0].message.content

			
 
				-            result = extract_list_from_string(result_string)

			
 
				-            if result:

			
 
				-                df_output = pd.DataFrame(result)

			
 
				-                df_output.to_csv(temp_csv, mode='a', header=True, index=False)

			
 
				-            else:

			
 
				-                continue

			
 
				-        except Exception as e:

			
 
				-            print(f'{name}出现问题啦, 错误为:{e} 请自行调试')

			
 
				+        message = [

			
 
				+            {'role':'system', 'content': cls_system_prompt},

			
 
				+            {'role':'user', 'content':user_prompt.format(chunk=str(value))}

			
 
				+        ]

			
 
				+        # result_string = post_openai(message)

			
 
				+        response = await client.chat.completions.create(model='gpt-4',messages=message)

			
 
				+        result_string = response.choices[0].message.content

			
 
				+        result = extract_list_from_string(result_string)

			
 
				+        if result:

			
 
				+            df_output = pd.DataFrame(result)

			
 
				+            df_output.to_csv(temp_csv, mode='a', header=True, index=False)

			
 
				+        else:

			
 
				+            continue

			
 
				 @app.post("/classify_openai/")

			
 
				 async def classify_data(request: ClassificationRequest):

			
 
				     try:

			
@@ -290,48 +182,112 @@ async def classify_data(request: ClassificationRequest):
 
				 

			
 
				 @app.post("/classify_bert/")

			
 
				 async def real_process(request: ClassificationRequestBert):

			
 
				-    task = asyncio.create_task(classify_data_bert(request))

			
 
				-    result = await task

			
 
				+    # task = asyncio.create_task(classify_data_bert(request))

			
 
				+    result = await classify_data_bert(request)

			
 
				     return result

			
 
				 

			
 
				 async def classify_data_bert(request: ClassificationRequestBert):

			
 
				-    remove_files()

			
 
				-    work_path = f'{basic_path}/{request.client_id}'

			
 
				-    if not os.path.exists(work_path):

			
 
				-        os.makedirs(work_path, exist_ok=True)

			
 
				-    final_file_name, final_file_extension = os.path.splitext(os.path.basename(request.path))

			
 
				-    final_file = final_file_name + '_classify' + final_file_extension

			
 
				-    # 生成新的文件路径

			
 
				-    new_file_path = os.path.join(os.path.dirname(request.path), final_file)

			
 
				-    timestamp_str = datetime.now().strftime("%Y-%m-%d-%H-%M-%S")

			
 
				-    temp_csv = work_path + '/' + timestamp_str + 'output_temp.csv'

			
 
				-    if final_file_extension == '.csv':

			
 
				-        save_path, error_path, error_len = await predict_csv(request.path, request.name_column, temp_path=temp_csv ,save_path=new_file_path)

			
 
				-    else:

			
 
				-        # 添加后缀

			
 
				-        save_path, error_path, error_len = await predict_excel(request.path, request.name_column, temp_path=temp_csv ,save_path=new_file_path)

			
 
				-    if error_len == 0:

			
 
				-        return JSONResponse(content={

			
 
				-            "message": "分类完成",

			
 
				-            "data":{"output_file": file_base_url + save_path.split(basic_path)[1]},

			
 
				-            "code":200

			
 
				-        }, status_code=200)

			
 
				-    elif save_path == '列名错误':

			
 
				-        return JSONResponse(content={

			
 
				-            "message": "用户标识列输入错误，请重新输入",

			
 
				-            "data":{},

			
 
				-            "code":500

			
 
				-        }, status_code=200)

			
 
				-        

			
 
				-    else:

			
 
				+    try:

			
 
				+        remove_files()

			
 
				+        work_path = f'{basic_path}/{request.client_id}'

			
 
				+        if not os.path.exists(work_path):

			
 
				+            os.makedirs(work_path, exist_ok=True)

			
 
				+        final_file_name, final_file_extension = os.path.splitext(os.path.basename(request.path))

			
 
				+        final_file = final_file_name + '_classify' + final_file_extension

			
 
				+        new_file_path = os.path.join(os.path.dirname(request.path), final_file)

			
 
				+        timestamp_str = datetime.now().strftime("%Y-%m-%d-%H-%M-%S")

			
 
				+        temp_csv = work_path + '/' + timestamp_str + 'output_temp.csv'

			
 
				+        def process_data(origin_csv_path, temp_path, name_col, chunksize, total_processed, df_error):

			
 
				+            if name_col not in pd.read_csv(origin_csv_path).columns:

			
 
				+                return '列名错误', None, None

			
 
				+            for chunk in tqdm(pd.read_csv(origin_csv_path, chunksize=chunksize, iterator=True), total=len(pd.read_csv(origin_csv_path)) // chunksize + 1, desc='Processing', unit='item'):

			
 
				+                    try:

			
 
				+                        # 对每个块进行处理

			
 
				+                        chunk['AI Group'] = chunk[name_col].apply(lambda x : bert_predict(x))

			
 
				+                        # 增量保存处理结果

			
 
				+                        if total_processed == 0:

			
 
				+                            chunk.to_csv(temp_path, mode='w', index=False)

			
 
				+                        else:

			
 
				+                            chunk.to_csv(temp_path, mode='a', header=False, index=False)

			
 
				+                        # 更新已处理的数据量

			
 
				+                        total_processed += len(chunk)

			
 
				+                    except Exception as e:

			
 
				+                        df_error = pd.concat([df_error, chunk])

			
 
				+            return temp_path, df_error, total_processed

			
 
				+        async def process_file(file_path, name_col, temp_path, save_path, chunksize=5):

			
 
				+            error_file_name, error_file_extension = os.path.splitext(os.path.basename(save_path))

			
 
				+            error_file = error_file_name + '_error' + error_file_extension

			
 
				+            origin_csv_file = error_file_name + '_origin.csv'

			
 
				+            error_file_path = os.path.join(os.path.dirname(save_path), error_file)

			
 
				+            origin_csv_path = os.path.join(os.path.dirname(save_path), origin_csv_file)

			
 
				+            

			
 
				+            if final_file_extension == '.csv':

			
 
				+                try:

			
 
				+                    df_origin = pd.read_csv(file_path, encoding='utf-8')

			
 
				+                except UnicodeDecodeError:

			
 
				+                    df_origin = pd.read_csv(file_path, encoding='gbk')

			
 
				+            else:

			
 
				+                df_origin = pd.read_excel(file_path)

			
 
				+            

			
 
				+            df_origin.to_csv(origin_csv_path, index=False)

			
 
				+            df_error = pd.DataFrame(columns=df_origin.columns)

			
 
				+            

			
 
				+            if name_col not in df_origin.columns:

			
 
				+                return '列名错误', None, None

			
 
				+            

			
 
				+            total_processed = 0

			
 
				+            temp_path, df_error, total_processed = await asyncio.to_thread(process_data, origin_csv_path, temp_path, name_col, chunksize, total_processed, df_error)

			
 
				+

			
 
				+            df_final = pd.read_csv(temp_path)

			
 
				+            if final_file_extension == '.csv':

			
 
				+                df_final.to_csv(save_path, index=False)

			
 
				+            else:

			
 
				+                df_final.to_excel(save_path, index=False)

			
 
				+            

			
 
				+            try:

			
 
				+                os.remove(origin_csv_path)

			
 
				+            except Exception as e:

			
 
				+                pass

			
 
				+

			
 
				+            if len(df_error) == 0:

			
 
				+                return save_path, '', 0

			
 
				+            else:

			
 
				+                if final_file_extension == '.csv':

			
 
				+                    df_error.to_csv(error_file_path, index=False)

			
 
				+                else:

			
 
				+                    df_error.to_excel(error_file_path, index=False)

			
 
				+                return save_path, error_file_path, len(df_error)

			
 
				+

			
 
				+        save_path, error_path, error_len = await process_file(request.path, request.name_column, temp_path=temp_csv, save_path=new_file_path)

			
 
				+

			
 
				+        if error_len == 0:

			
 
				+            return JSONResponse(content={

			
 
				+                "message": "分类完成",

			
 
				+                "data":{"output_file": file_base_url + save_path.split(basic_path)[1]},

			
 
				+                "code":200

			
 
				+            }, status_code=200)

			
 
				+        elif save_path == '列名错误':

			
 
				+            return JSONResponse(content={

			
 
				+                "message": "用户标识列输入错误，请重新输入",

			
 
				+                "data":{},

			
 
				+                "code":500

			
 
				+            }, status_code=200)

			
 
				+        else:

			
 
				+            return JSONResponse(content={

			
 
				+                "message": "分类完成只完成部分",

			
 
				+                "data":{"output_file": file_base_url + save_path.split(basic_path)[1],

			
 
				+                        "output_file_nonprocess":file_base_url + error_path.split(basic_path)[1]},

			
 
				+                "code":200

			
 
				+            }, status_code=200)

			
 
				+    except Exception as e:

			
 
				         return JSONResponse(content={

			
 
				-            "message": "分类完成只完成部分",

			
 
				-            "data":{"output_file": file_base_url + save_path.split(basic_path)[1],

			
 
				-                    "output_file_nonprocess":file_base_url + error_path.split(basic_path)[1]},

			
 
				-            "code":200

			
 
				-        }, status_code=200)

			
 
				+                "message": f"出现错误: {e}, 请检查列名和文件重试",

			
 
				+                "data":{},

			
 
				+                "code":500

			
 
				+            }, status_code=200)

			
 
				+

			
 
				 @app.get("/test/")

			
 
				 async def classify_data():

			
 
				     return '测试成功'

			
 
				 if __name__ == "__main__":

			
 
				-    uvicorn.run(app, host="0.0.0.0", port=port)

			
 
				+    uvicorn.run(app, host="0.0.0.0", port=port)
			
--- a/test.csv
+++ b/test.csv
@@ -1,4 +0,0 @@
 
				-name,one_key

			
 
				-Wang Dalin,0

			
 
				-Carl,1

			
 
				-Jack,2
			
--- a/test.xlsx
+++ b/test.xlsx