💻 NLP研究:使用 Stanza 工具包处理多语言
- 项目背景: 为提高游戏时快速阅读文本的效率,尝试对对话框进行主谓宾等词法标注。
- 工具: 选用 Stanza (Python NLP工具包)。
- 多语言测试结果:
- 中文/韩语: 识别准确率不高,容易将长名词(如“检察院”)错误拆分为动词和名词。
- 日语: 识别较好,因为汉字部分多为名词。
- 泰语: 识别结果意外地准确。据了解,泰语词汇本身少有词法变形,便于 Stanza 直接匹配词意。
📊 Tallinn PyData 会议分享
本次活动在 Wise 总部举办,主要有两个分享:
- 无人机图像识别与 XR:
- 主讲人最初的项目是农业无人机图像识别。
- 但分享内容侧重于介绍 XR 技术,听者认为讲解不够深入或实用。
- Wise 的分布式图计算应用
- 背景: Wise(类支付宝业务)需要进行风险分析(如反诈骗的转账关系分析),需要强大的图计算能力。
- 技术栈演进:
- 早期: 使用 Neo4j,但分布式能力需手动实现(类似于早期 MySQL 的分库分表)。
- 现在: 采用 Apache Spark(分布式内存计算工具,类似分布式 Redis)来处理分布式问题。
- 解决图计算短板: Spark 缺乏 Neo4j 专业的图计算能力,因此引入 GraphFrames 框架,弥补了 Spark 在图计算上的不足,实现了一个自动分布式的图计算系统。
- 演示工具: 演示时使用的是 Marimo notebook,据说比 Jupyter 更优。