正式性:正式语言与非正式语言

Real-time financial market data for stocks and trends.
Post Reply
arzina330
Posts: 365
Joined: Thu May 22, 2025 5:32 am

正式性:正式语言与非正式语言

Post by arzina330 »

文本提取:从媒体、贴纸和其他非文本元素中隔离消息文本。
规范化:将文本转换为小写,删除表情符号、特殊字符、URL和数字(如果不相关)。
标记化:将句子分解为单个单词或子词单元。
停用词删除:删除没有太多含义的常用词(例如“ the”、“is”、 “and”)。
词形还原/词干提取:将单词简化为其词根形式(例如,“running”、“runs”、“ran” -> “run”)。
降噪:过滤垃圾邮件、不相关的消息或机器人生成的内容。
说话人识别:对于将消息归因于特定用户至关重要(例如,通过 Telegramuser_id或username)。
3.特征提取(将文本转换为数据点)
在这里,您可以从清理后的文本中提取可以定义角色的有意义的属性。

语言特点:
词汇:使用独特的词汇,语言的复杂性。
情绪:信息的积极、消极、中性基调。
情绪检测:表达的特定情绪(愤怒、喜悦、悲伤、惊讶)。
主题关键词/短语:最常用的术语。
问题与陈述比率:表明用户是否倾向于提出问题或做出断言。
表情符号/贴纸的使用:情感表达的模式。
行为特征(来自机器人互动和群体活动):
活动级别:消息频率、一天/一周的活动时间。
参与类型:喜欢、反应、回复、转发。
内容偏好:他们最常与哪些类型的消息/链接互动。
问题领域:向支持机器人或群组提出的具体问题。
转化指标:(如果集成)点击产品链接、演示请求、购买。
耐心/不耐烦:他们回应的速度有多快,采取行动之前发送了多少条消息。
命令使用:他们经常使用哪些机器人命令。
人口统计/心理统计特征(如果经同意收集):
年龄、地点、行业、角色(如果在调查或机器人流程中询问)。
4. 用于创建角色的 AI/ML 建模
这就是“AI Personas ”的核心。

聚类(无监督学习):
技术:使用 K-Means、DBSCAN或层次聚类等算法。
流程:将提取的特征(现在是数值表示)输入聚 电报数据 类算法。该算法会将具有相似语言和行为模式的用户分组到不同的聚类中。
输出:每个集群代表一个潜在的 AI 角色。
主题建模(用于识别核心兴趣):
技术:LDA(潜在狄利克雷分配)、NMF(非负矩阵分解)或更先进的技术,如 BERTopic。
流程:应用于整个消息库,识别讨论的潜在主题和话题。然后,针对每个用户,确定其主要话题。
输出:帮助定义每个角色的“兴趣”或“关注领域”。
自然语言生成(NLG-可选但功能强大):
技术:定义人物角色特征后,使用 NLG 模型以自然语言生成每个人物角色的描述性摘要。
输出:引人注目、人类可读的角色描述。
5. 角色定义与细化
标记聚类:手动审查 AI 生成的每个聚类的特征,并为其指定一个描述性名称(例如,“精明的技术专家”、“犹豫的初学者”、“注重预算的买家”)。
Post Reply