llm_label.py 2.4 KB

1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768
  1. import os
  2. from volcenginesdkarkruntime import Ark
  3. client = Ark(
  4. base_url="https://ark.cn-beijing.volces.com/api/v3",
  5. api_key="817dff39-5586-4f9b-acba-55004167c0b1",
  6. )
  7. def text_classifer(user_prompt):
  8. system_prompt = """
  9. ## 任务:判断输入的文本是否在讲解衣服特性、属性
  10. ## 背景知识:
  11. ---
  12. **正例:**
  13. - 这是假两件的款式
  14. - 我采用的来自澳大利亚进口的美丽诺羊毛是羊毛中的天花板
  15. - 采用立体裁切,A字版型
  16. - 100%新疆长绒棉,亲肤透气,久穿不易起球变形。
  17. - 高腰A字裙版型,腰线提升视觉比例,下摆微蓬显腿细。
  18. - 超短上衣+低腰裤组合,五五分身材慎选,易显腿短
  19. ---
  20. **反例:** 没有说明衣服属性、特性的具体内容。
  21. - 看看喜欢的款式。
  22. - 你可以去搜去问去找羊毛,
  23. - 对我们来说工艺更难,
  24. - 顶梁柱面料。
  25. - 利亚在冬天的招牌面料自然不可能便宜。
  26. - 今天水洗绵羊毛的这条背心裙以后来一千五只有一条。
  27. ---
  28. ## 输出格式:{"讲解衣服": //<文本是否在讲解衣服特性、属性,取值范围:是、否>}
  29. ## 要求:必须以JSON格式输出提取的结果
  30. ## 注意事项:
  31. - 如果是讲衣服便宜实惠,则输出:{"讲解衣服": "否"}
  32. - 如果没有讲解出衣服属性、特性的实质内容,则输出:{"讲解衣服": "否"}
  33. """
  34. completion = client.chat.completions.create(
  35. messages = [
  36. {"role": "system", "content": system_prompt},
  37. {"role": "user", "content": user_prompt},
  38. ],
  39. model="ep-20241018084532-cgm84", # ep-20241018084532-cgm84 deepseek-v3-241226
  40. temperature = 0.01,
  41. max_tokens = 200
  42. )
  43. return completion.choices[0].message.content
  44. if __name__ == "__main__":
  45. file_path = "/data/data/luosy/project/oral/data/img_caption/"
  46. sorted_files = read_jsons_in_order(file_path)
  47. clips_content = []
  48. for filename, content in sorted_files:
  49. clip_content = str(content)
  50. clips_content.append(clip_content)
  51. user_prompt = "\n".join(clips_content)
  52. answer = get_answer(user_prompt)
  53. print(answer)