November 28, 2025

给我整一次PyData

Listen Later

6 minutes

本周（2025年第49周）感冒持续好转。

💻 NLP研究：使用 Stanza 工具包处理多语言

项目背景： 为提高游戏时快速阅读文本的效率，尝试对对话框进行主谓宾等词法标注。
工具： 选用 Stanza (Python NLP工具包)。
多语言测试结果：
- 中文/韩语： 识别准确率不高，容易将长名词（如“检察院”）错误拆分为动词和名词。
- 日语： 识别较好，因为汉字部分多为名词。
- 泰语： 识别结果意外地准确。据了解，泰语词汇本身少有词法变形，便于 Stanza 直接匹配词意。

📊 Tallinn PyData 会议分享

本次活动在 Wise 总部举办，主要有两个分享：

无人机图像识别与 XR：
- 主讲人最初的项目是农业无人机图像识别。
- 但分享内容侧重于介绍 XR 技术，听者认为讲解不够深入或实用。
Wise 的分布式图计算应用
- 背景： Wise（类支付宝业务）需要进行风险分析（如反诈骗的转账关系分析），需要强大的图计算能力。
- 技术栈演进：
  - 早期： 使用 Neo4j，但分布式能力需手动实现（类似于早期 MySQL 的分库分表）。
  - 现在： 采用 Apache Spark（分布式内存计算工具，类似分布式 Redis）来处理分布式问题。
  - 解决图计算短板： Spark 缺乏 Neo4j 专业的图计算能力，因此引入 GraphFrames 框架，弥补了 Spark 在图计算上的不足，实现了一个自动分布式的图计算系统。
- 演示工具： 演示时使用的是 Marimo notebook，据说比 Jupyter 更优。

...more

View all episodes

View all episodes

Download on the App Store

Download on the App Store

Get it on Google Play

给我整 growgen

By 宫不上

November 28, 2025

给我整一次PyData

Listen Later

6 minutes

本周（2025年第49周）感冒持续好转。

💻 NLP研究：使用 Stanza 工具包处理多语言

项目背景： 为提高游戏时快速阅读文本的效率，尝试对对话框进行主谓宾等词法标注。
工具： 选用 Stanza (Python NLP工具包)。
多语言测试结果：
- 中文/韩语： 识别准确率不高，容易将长名词（如“检察院”）错误拆分为动词和名词。
- 日语： 识别较好，因为汉字部分多为名词。
- 泰语： 识别结果意外地准确。据了解，泰语词汇本身少有词法变形，便于 Stanza 直接匹配词意。

📊 Tallinn PyData 会议分享

本次活动在 Wise 总部举办，主要有两个分享：

无人机图像识别与 XR：
- 主讲人最初的项目是农业无人机图像识别。
- 但分享内容侧重于介绍 XR 技术，听者认为讲解不够深入或实用。
Wise 的分布式图计算应用
- 背景： Wise（类支付宝业务）需要进行风险分析（如反诈骗的转账关系分析），需要强大的图计算能力。
- 技术栈演进：
  - 早期： 使用 Neo4j，但分布式能力需手动实现（类似于早期 MySQL 的分库分表）。
  - 现在： 采用 Apache Spark（分布式内存计算工具，类似分布式 Redis）来处理分布式问题。
  - 解决图计算短板： Spark 缺乏 Neo4j 专业的图计算能力，因此引入 GraphFrames 框架，弥补了 Spark 在图计算上的不足，实现了一个自动分布式的图计算系统。
- 演示工具： 演示时使用的是 Marimo notebook，据说比 Jupyter 更优。

...more