连享会 · 文本分析专题

连享会 | 推文 | 公开课

连享会 · 文本分析专题1. 课程概览A. 基本信息B. 嘉宾简介2. 课程导引A. 为何要学习文本分析?B. 如何学好这门课?C. 课程目标D. 课程特色3. 课程详情T0. 概述:我们能用文本做什么?T1. 文本预处理:文档-特征矩阵与文本清洗T2. 文本相似度与语义距离:指标与应用T3. 主题模型、LDA 模型T4. 主题模型进阶:引入协变量,提高可解释性T5. 词义的量化:词嵌入, Word2vec, GloVeT6. 序列模型:上下文嵌入和大语言模型附:预读资料4. 报名和缴费信息5. 听课指南6. 诚聘助教

1. 课程概览

A. 基本信息

B. 嘉宾简介

陈婷,香港浸会大学经济系副教授,商学院商业分析与数字经济中心副主任。主要研究方向包括政治经济学、经济史与长期经济发展;成果见诸 Quarterly Journal of Economics (QJE), Economic Journal (EJ), Journal of Politics、Journal of Development Economics (JDE), Journal of Econometrics (JoE), Journal of Comparative Economics (JCE),以及《经济研究》《经济学(季刊)》等期刊。教学方面,陈婷老师在浸会大学、复旦大学等高校开设机器学习与文本分析相关课程,强调从核心概念到可复现实践的连贯路径,颇受好评。相信不少人对「科举万岁!中国科举制度所产生的深远影响」这篇论文并不陌生:其研究设计与识别策略颇具启发性,也常成为博士生组会讨论的重点范例,而这正是陈婷老师的代表作之一。详见 Google Scholar

2. 课程导引

A. 为何要学习文本分析?

在经管研究中,越来越多关键变量开始直接来自「政策文件、年报、舆情与专利」等非结构化文本。为了让这些信息真正服务研究问题,我们需要把文本稳定地转化为可进入计量模型的指标。基于这一目标,文本分析的基本理念是“文本即数据 (Text as Data)”:先完成必要的预处理,再选择合适的表示方式,并据此建立模型,将原始文本转换为结构化的特征或指标。

具体来说,我们可以用 TF-IDF/相似度 衡量文本差异,以 主题模型 概括议题结构,并借助 词嵌入与上下文嵌入 获得更稳健的语义表示。随后,这些指标便能自然嵌入分类、聚类或回归等熟悉的计量框架,最终进入回归、面板或 DID 的经验分析流程。需要强调的是,文本分析的目的并非“炫技”,而是更好地回答研究问题,即在可复现、可解释的前提下,把文本信息纳入识别与机制检验。

过去,文本分析往往需要扎实的编程与机器学习基础,令不少研究者望而却步;然而,随着「生成式人工智能」的发展以及「多模态方法」的逐步普及,文本、表格、图像与影音等信息可以在同一研究设计中被更全面地利用。进一步地,借助 「GenAI 工具与提示词范式」,我们只要掌握若干关键概念与流程,即可在普通电脑上跑通从清洗、表示、建模,到指标导出与实证整合的全链路,从而显著降低了落地成本。

B. 如何学好这门课?

本课程遵循“可理解 → 可复现 → 可应用”的递进路径。首先,我们从整体流程入手,建立连贯的心智图:文本清洗 → 表示 → 建模 → 指标导出 → 与结构化数据合并 → 回归 / DID。通过清晰步骤将环节串联起来,学员能够在每一次推进时明确 “为什么这样做” 以及 “下一步如何衔接”。

为确保“可复现”与“可迁移”,每个专题都配套对照的代码与提示词、典型范例数据、统一的指标命名与输出格式,并安排简短的错误分析与稳健性演示。由此,你不仅能看到“模型为何有效”,也能在出现偏误时进行定位与修正:从清洗与表示可能引入的偏差,到样本外验证与灵敏度分析的操作步骤,课程还提供“把课堂脚本改造成论文”的清单式说明,帮助你将示例稳妥移植到自己的研究项目中。

C. 课程目标

我们希望大家完成本课程的学习后,能够达成如下目标:

D. 课程特色

3. 课程详情

本课程围绕 文本 → 指标 → 实证 的主线展开:

T0. 概述:我们能用文本做什么?

本讲介绍文本数据在经济学和社会科学中的应用,旨在引导大家了解文本如何作为一种数据形式进入计量分析框架。主要内容包括:

亮点

参考文献

T1. 文本预处理:文档-特征矩阵与文本清洗

本讲介绍文本预处理和表示的基本方法,重点讲解如何将非结构化的文本数据转化为结构化的形式,以便进行后续的分析和建模。主要内容包括:

亮点

参考文献

T2. 文本相似度与语义距离:指标与应用

本讲介绍文本相似度与语义距离的基本概念,重点探讨如何通过度量文本之间的相似性来进行内容比较和风格分析。主要内容包括:

亮点

参考文献

T3. 主题模型、LDA 模型

本讲介绍主题模型的基本概念,并详细讲解生成式主题模型(LDA)的工作原理。主要内容包括:

亮点

参考文献

T4. 主题模型进阶:引入协变量,提高可解释性

本讲介绍主题模型进阶方法,重点讲解如何引入协变量提升主题模型的可解释性,帮助研究者从文本数据中提取出更有意义的主题信息。主要内容包括:

亮点

参考文献

T5. 词义的量化:词嵌入, Word2vec, GloVe

本讲介绍词义的量化方法,重点讲解如何使用词嵌入技术(如 Word2VecGloVe)对文本中的词语进行向量化,从而为文本分析提供更丰富的语义信息。主要内容包括:

亮点

参考文献

T6. 序列模型:上下文嵌入和大语言模型

本讲简要介绍序列模型的核心概念和算法原理,重点讲解如何通过上下文嵌入和大语言模型(如 GPT-3)来处理和生成自然语言文本。主要内容包括:

亮点

参考文献


附:预读资料

开课前,大家可以根据自己的基础阅读一些入门材料,帮助理解课程内容。课后也可以参考这些文献,深入学习相关方法和应用。

Textbooks

R 和 Python 补充资料

4. 报名和缴费信息

报名链接: https://www.wjx.top/vm/eUttMRE.aspx# ,或 长按/扫描二维码报名:

缴费方式 1:对公转账

缴费方式 2:扫码支付

温馨提示: 扫码支付时,请务必在「添加备注」栏填写「汇款人姓名-单位」信息。

 

5. 听课指南

软件和课件

听课软件支持 手机,ipad ,平板以及 windows/Mac 系统的笔记本,但不支持台式机

特别提示:

实名制报名

本次课程实行实名参与,具体要求如下:

6. 诚聘助教

申请链接: https://www.wjx.top/vm/QZGUC9I.aspx#,或扫码填写:

连享会 | 推文 | 公开课