给我整 growgen

给我整一次PyData


Listen Later

  • 本周(2025年第49周)感冒持续好转。
💻 NLP研究:使用 Stanza 工具包处理多语言
  • 项目背景: 为提高游戏时快速阅读文本的效率,尝试对对话框进行主谓宾等词法标注。
  • 工具: 选用 Stanza (Python NLP工具包)。
  • 多语言测试结果:
    • 中文/韩语: 识别准确率不高,容易将长名词(如“检察院”)错误拆分为动词和名词。
    • 日语: 识别较好,因为汉字部分多为名词。
    • 泰语: 识别结果意外地准确。据了解,泰语词汇本身少有词法变形,便于 Stanza 直接匹配词意。
📊 Tallinn PyData 会议分享

本次活动在 Wise 总部举办,主要有两个分享:

  1. 无人机图像识别与 XR:
    • 主讲人最初的项目是农业无人机图像识别。
    • 但分享内容侧重于介绍 XR 技术,听者认为讲解不够深入或实用。
  2. Wise 的分布式图计算应用
    • 背景: Wise(类支付宝业务)需要进行风险分析(如反诈骗的转账关系分析),需要强大的图计算能力。
    • 技术栈演进:
      • 早期: 使用 Neo4j,但分布式能力需手动实现(类似于早期 MySQL 的分库分表)。
      • 现在: 采用 Apache Spark(分布式内存计算工具,类似分布式 Redis)来处理分布式问题。
      • 解决图计算短板: Spark 缺乏 Neo4j 专业的图计算能力,因此引入 GraphFrames 框架,弥补了 Spark 在图计算上的不足,实现了一个自动分布式的图计算系统。
    • 演示工具: 演示时使用的是 Marimo notebook,据说比 Jupyter 更优。
...more
View all episodesView all episodes
Download on the App Store

给我整 growgenBy 宫不上