Mīscellānea 杂谈

小白的Natural Language Processing学习笔记之二

今天和导师第一次线上见面,了解了更多我们要做的研究的背景知识。导师人非常chill,说反正我是这个项目唯一一个学生,研究的课题或者计划都很flexible。他还说,既然我会其他语言,将来说不定也可以分析非英语的数据集。我想着我还是先用英语的数据集把基础打好吧,毕竟现在我什么都不会😅 我需要学习关于Bag-of-words model(也可以说是extracted features)的概念。再次请出ChatGPT: In the realm of […]

Mīscellānea 杂谈

小白的Natural Language Processing学习笔记之一

前段时间申请下学期跟着学院的两位教授做一个NLP的guided research project,本来不抱什么希望,没想到申请竟然成功了。本人几乎没有正经的研究经验,编程方面的知识储备也少得可怜。感谢教授们给我这个小白这样宝贵的机会。 这个研究项目是情感分析方向的,目标是分析一个数字图书馆的文本传达的情绪是正面还是负面。我上学期学的Python知识都快忘干净了,现在得赶紧复习。 同时我也开始自学NLP的一些基础知识。让ChatGPT帮我解释了几个概念: 这些概念都还蛮好理解的。我感觉lemmatization似乎主要是为屈折语或者黏着语服务的,毕竟汉语这样的孤立语好像没有什么lemmatize的必要。Stemming听着不太靠谱,毕竟印欧语里不规则变形实在太多了。 另外找了几个YouTube教程,等之后慢慢看: