在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!
(资料图片仅供参考)
在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于经管为代表的人文社科类专业科研工作者而言,通过Python可以帮助学者解决使用Web数据进行科研面临的两个问题:
网络爬虫技术解决 如何从网络世界中高效地采集数据?文本分析技术解决 如何从杂乱的文本数据中 抽取文本指标(变量)?一、Python语法入门Python跟英语一样是一门语言
数据类型之字符串
数据类型之列表元组集合
数据类型之字典
数据类型之布尔值、None
逻辑语句(if&for&tryexcept)
列表推导式
理解函数
常用的内置函数
内置库文件路径pathlib库
内置库csv文件库
内置库正则表达式re库
初学python常出错误汇总
二、数据采集网络爬虫原理
网络访问requests库
网页解析pyquery库
案例豆瓣读书
案例Boss直聘
如何解析json数据
案例豆瓣电影
案例京东商城
案例用爬虫下载文档及多媒体文件
案例上市公司定期报告pdf批量下载
案例上交所招股说明pdf批量下载
案例深交所招股说明pdf批量下载
爬虫知识点总结
三、初识文本分析从编码/解码视角重新理解文本
读取不同格式文件中的数据
如何将多个txt文件整理到一个excel中
案例中文分词及数据清洗
案例词频统计&词云图
案例共现法扩展情感词典(领域词典)
案例词向量word2vec扩展领域词典
案例中文情感分析(词典法)
cntext库 情感分析代码操作
案例对excel中的文本进行情感分析 91
案例 语言具体性与心理距离 | 以JCR2021论文为例
案例 使用MD&A数据测量企业数字化| 以管理世界2021、财经研究2022论文为例
四、机器学习与文本分析了解机器学习ML
使用机器学习做文本分析的流程
scikit-learn机器学习库简介
文本特征抽取(特征工程)
案例在线评论文本分类
使用标注工具对数据进行标注
案例计算文本情感分析(有权重)
案例 文本相似性计算
案例 使用文本相似性识别变化(政策连续性)
案例 Kmeans聚类算法
案例 LDA话题模型
使用机器学习从图片中提取文本信息
五、词嵌入与认知词嵌入原理及应用概述
案例 豆瓣影评-训练词向量&使用词向量
案例 使用词向量做话题建模
案例 认知指标(态度、偏见等)的测量
总结-文本分析在社科(经管)领域中的应用
相关文献在这里我把技术细分为词频、词袋、w2v建词典、w2v认知变迁四个维度,整理了经管7篇论文。大家可以阅读这7篇论文,掌握文本分析的应用场景。
[1]沈艳,陈赟,&黄卓.(2019).文本大数据分析在经济学和金融学中的应用:一个文献综述.经济学(季刊),18(4),1153-1186.[2]王伟,陈伟,祝效国,王洪伟.众筹融资成功率与语言风格的说服性-基于Kickstarter的实证研究.*管理世界*.2016;5:81-98.[3]胡楠,薛付婧,王昊楠.管理者短视主义影响企业长期投资吗?——基于文本分析和机器学习[J].管理世界,2021,37(05):139-156+11+19-21.[4]KaiLi,FengMai,RuiShen,XinyanYan,MeasuringCorporateCultureUsingMachineLearning,*TheReviewofFinancialStudies*,2020[5]LoughranT,McDonaldB.Textualanalysisinaccountingandfinance:Asurvey[J].*JournalofAccountingResearch*,2016,54(4):1187-1230.AuthorlinksopenoverlaypanelComputationalsocioeconomics[6]Berger,Jonah,AshleeHumphreys,StephanLudwig,WendyW.Moe,OdedNetzer,andDavidA.Schweidel."Unitingthetribes:Usingtextformarketinginsight."*JournalofMarketing*84,no.1(2020):1-25.[7]Cohen,Lauren,ChristopherMalloy,andQuocNguyen."Lazyprices."*TheJournalofFinance*75,no.3(2020):1371-1415.[8]孟庆斌,杨俊华,鲁冰.管理层讨论与分析披露的信息含量与股价崩盘风险——基于文本向量化方法的研究[J].*中国工业经济*,2017(12):132-150.[9]Wang,Quan,BeibeiLi,andParamVirSingh."Copycatsvs.OriginalMobileApps:AMachineLearningCopycat-DetectionMethodandEmpiricalAnalysis."*InformationSystemsResearch*29.2(2018):273-291.[10]Packard,Grant,andJonahBerger.“Howconcretelanguageshapescustomersatisfaction.”_JournalofConsumerResearch_47,no.5(2021):787-806.[11]冉雅璇,李志强,刘佳妮,张逸石.大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用[J].南开管理评论:1-27.[12]曾庆生,周波,张程,陈信元.年报语调与内部人交易:“表里如一”还是“口是心非”?[J].管理世界,2018,34(09):143-160.[13]彭红枫,&林川.(2018).言之有物:网络借贷中语言有用吗?——来自人人贷借款描述的经验证据[J].金融研究,461(11),133-153.[14]吴非,胡慧芷,林慧妍,and任晓怡.“企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].”管理世界(2021).免费公开资料-社会科学文本挖掘资料汇总
公众号和博客积累了大量社会科学文本挖掘资料,涵盖文本分析概念、技术、代码、数据等。全部理清楚感兴趣的可以关注收藏。
https://hidadeng.github.io/blog/the_text_analysis_list_about_ms/
文献类读完本文你就了解什么是文本分析
转载 | 金融学文本大数据挖掘方法与研究进展
视频 | Python文本分析与会计
视频 |文本分析在经管研究中的应用
视频| Python文本挖掘与金融科技
资料 | 量化历史学与经济学研究
近年《管理世界》《管理科学学报》使用文本分析论文
管理世界 | 使用中文LM金融词典做管理层语调分析
管理世界 | 使用文本分析&机器学习测量短视主义
管理世界 | 使用 经营讨论与分析 测量 企业数字化指标
文本分析在市场营销研究中的应用
营销研究中文本分析应用概述(含案例及代码)
计算文本的语言具体性 | 以JCR2021论文为例
文本分析方法在2021管理世界中的应用
转载 | 大数据时代下社会科学研究方法的拓展——基于词嵌入技术的文本分析的应用
文本可读性研究及应用清单
词嵌入测量不同群体对某概念的态度(偏见)
PNAS | 文本网络分析&文化桥梁Python代码实现
PNAS | 历史语言记录揭示了近几十年来认知扭曲的激增
PNAS | 情侣分手3个月前就有预兆!聊天记录还能反映分手后遗症
PNAS|词汇熟悉度对线上参与和资金筹集的预测性效用
MS | 使用网络算法识别创新的颠覆性与否
文本可读性研究及应用清单
代码类Python语法入门 | 含视频代码
30天Python编程学习挑战
中文金融情感词典
在会计研究中使用Python进行文本分析
Python与文化分析入门
免费社科类Python编程课程列表
tomotopy库 | 速度最快的LDA主题模型
cntext库 | 中文情感分析包
认知的测量 | 向量距离vs语义投影
BERTopic主题建模库
doccano|为机器学习建模做数据标注
PyPlutchik库 | 可视化文本的情绪轮(情绪指纹)
WordBias库 | 发现偏见(刻板印象)的交互式工具
whatlies库 | 可视化词向量
KeyBERT | 关键词发现库
FinBERT | 金融文本BERT模型,可情感分析、识别ESG和FLS类型
Top2Vec | 主题建模和语义搜索库
tfidf有权重的情感分析
Shifterator库 | 词移图分辨两文本用词风格差异
使用Pandas处理文本数据
Label-Studio|多媒体数据标注工具
工具分享 | 正则表达式解析
EmoBank | 中文维度情感词典
Maigret库 | 查询某用户名在各平台网站的使用情况
百度指数 | 使用qdata采集百度指数
Asent库 | 英文文本数据情感分析
安装python包出现报错:Microsoft Visual 14.0 or greater is required. 怎么办?
Python | 词移距离(Word Mover"s Distance)
豆瓣影评| 探索词向量妙处
karateclub库 | 计算社交网络中节点的向量
causalinference库 | 使用Python做因果推断
机器学习实战 | 信用卡欺诈检测
实战 | 构建基于客户细分的 K-Means 聚类算法!
nlp-roadmap | 文本分析知识点思维脑图
R语言 | ggplot2简明绘图之散点图
R语言 | 使用posterdown包制作学术会议海报
R语言 | 使用ggsci包绘制sci风格图表
R语言 | ggpubr包让数据可视化更加优雅
R语言 | 让统计更easy的easystats集合包
R语言 | 使用shiny的reactive表达式写应用程序
R语言 | 使用stargazer包输出格式化回归结果
R语言 | 使用word2vec词向量模型
Latex | 为Rmarkdown配置tinytex环境
LovelyPlots库 | 格式化科学论文、论文和演示文稿的可视化图形
数据集YelpDaset | 酒店管理类数据集10+G
70G上交所年报数据集
14G数据集 | 2007-2021年A股上市公司年度报告(txt文件)
17G资源 | 深交所企业社会责任报告
27G数据集 | 使用Python对27G招股说明书进行文本分析
1850万条 | 世界地图POI兴趣点数据集
1.5G数据集 | 200万条Indiegogo众筹项目信息
12G数据集 | 23w条Kickstarter项目信息
中文语义常用词典 | ChineseSemanticKB
中文词向量资源汇总 & 使用方法
NLP资源 | 汽车、金融等9大领域预训练词向量模型下载资源
Google Books Ngram Viewer显示英文词汇历史使用趋势
-
支持开票 | Python实证指标构建与文本分析付费课程|支持开票|购前咨询微信372335839概览为何要学Python?在科学研究中,数据的获取及分析是最重要的也是最棘手的两个环节!在前大数据时代,一
-
满易贷逾期8个月会上征信吗?_要闻网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后上报给征信机构,因为有些借贷机构可
-
世界今亮点!加紧生产、精准投放、免费发放……让药品尽快到达群众手中新华社北京12月22日电新华社记者连日来,各地群众对感冒、发热、咽痛、咳嗽类药品的购买需求持续增长。记者在吉林、山东、河北等多地采访发现
-
武汉热心市民在楼道建起共享药盒 缓解小区百余居民用药难|天天短讯武汉热心市民在楼道建起共享药盒缓解小区百余居民用药难---熊汉桥想着是不是能建一个“共享药盒”,谁家有多的药就匀出来,分给需要的邻居...
-
天天微资讯!cma考试都是选择题吗?有什么备考建议?cma考试有两种填写:选择题和简答题,选择题有100道,简答题有2道,CMA考试对于考生的计算能力的要求比较高,考试计算量很大,所以考试时间很
-
Go定时器的三种实现方式很多时候需要周期性的执行某些操作,就需要用到定时器。定时器有三种思路。Sleep使用休眠,让当前Goroutine休眠一定的时间来实现定时的效果,
-
中国动力电池企业加速出海 宁德时代德国工厂投产开启全球“抢单” 世界新要闻”值得一提的是,上周,宁德时代与福特汽车与考虑在美国合建电池厂的消息再度受到业界关注,不过目前双方均对外表示目前商谈还在继续,暂时...
-
多地明确!门急诊患者不再查核酸|当前播报来源:中国新闻网,综合上海发布、天津市疫情防控指挥部办公室、银川市卫健委、福建发布、沈阳市卫健委、广西南宁市新冠疫情防控指挥部、西安
-
基于.NetCore开发博客项目 StarBlog - (21) 开始开发RESTFul接口1前言最近电脑坏了,开源项目的进度也受到一些影响这篇酝酿很久了,作为本系列第二部分(API接口开发)的第一篇,得想一个好的开头,想着想着
-
保险科技融合新征程:构建互联网+医疗+医药+保险四维生态闭环随着大数据、云计算、人工智能等科技与金融业态的融合日益紧密,金融科技正成为助推保险业高质量发展的新动能。近年来,无论是保险公司,还是
-
每日快看:嘉环科技(603206):中国国际金融股份有限公司关于嘉环科技股份有限公司2022年度持续督导现场检查报告中国国际金融股份有限公司关于嘉环科技股份有限公司2022年度持续督导现场检查报告上海证券交易所:经中国证券监督管理委员会(以下简称“中国
-
【天天聚看点】小米 MIX Fold 2 月光银、玄夜黑配色今日开售编程客栈12月20日讯:今js日php10点,小米MIXFol编程客栈d2新配色——月光银、玄夜黑将正式开售,售价8999python编程元
-
多地倡导无症状和轻症可上班 抗原试剂“一盒难求”局面或将扭转连日以来,抗原试剂盒“一盒难求”,成为了抢手的香饽饽。受各地陆续取消核酸检测点的影响,抗原试剂成为了居民判断自己是否感染新冠病毒的...
-
唐源电气董秘回复:公司股价受多方因素影响,目前公司运营一切正常,董事会及管理层会继续深耕经营唐源电气(300789)12月19日在投资者关系平台上答复了投资者关心的问题。投资者:陈唐龙董事长,贵公司股票自上市以来长期低迷并且长期下跌,请
-
浙农股份董秘回复:公司作为浙江省供销社下属唯一上市平台,将不断践行服务三农使命-每日热讯浙农股份(002758)12月19日在投资者关系平台上答复了投资者关心的问题。投资者:贵公司是否参与“浙江高质量发展建设共同富裕示范区”的建设浙
-
建安区司法局组织召开“送法进企业”优化法治化营商环境企业界负责人座谈会|当前关注为有力推动全区法治化营商环境建设,为企业健康发展提供法治保障,近日,建安区司法局联合建安区委统战部在建安区司法局会议室召开“送法进...
-
回来了!沃伦明日迎来篮网首秀 时隔两年重返NBA回来了!沃伦明日迎来篮网首秀时隔两年重返NBA,沃伦,篮网队,nba,凯文杜兰特,凯里·欧文,多伦多猛龙队
-
阿姨常年练功地被磨出印记 画面让网友看笑:太执着 树压力好大_每日热门近日,一位阿姨常年绕树练功的视频火了,视频中,阿姨无论春夏秋冬,都按固定路线锻炼,地面上都磨出印记。网友看完之后纷纷表示,这棵树的压
-
光热玻璃加紧供货!安彩光热与国内某100MW光热发电项目达成合作据安彩高科(600207)12月14日晚间公告,全资子公司——河南安彩光热科技有限责任公司(下文简称安彩光热)是全球第二家具备批量生产光热玻...
-
本周盘点(12.12-12.16):信雅达周跌3.37%,主力资金合计净流出1.22亿元截至2022年12月16日收盘,信雅达(600571)报收于10 04元,较上周的10 39元下跌3 37%。本周,信雅达12月12日盘中最高价报10 67元。12月15日盘
-
苏大维格:12月15日融券卖出金额6.32万元,占当日流出金额的0.05%同花顺数据中心显示,苏大维格12月15日获融资买入1707 72万元,占当日买入金额的14 03%,当前融资余额8574 37万元,占流通市值的1 96%,超过历
-
川宁生物总经理邓旭衡:打造具有全球竞争力的创新型合成生物学企业中证网讯(记者倪铭)12月15日,川宁生物首次公开发行股票并在创业板上市网上路演在中国证券报·中证网举行。川宁生物总经理邓旭衡致辞时表...
-
四方科技(603339)12月15日主力资金净买入344.13万元|环球观速讯截至2022年12月15日收盘,四方科技(603339)报收于12 93元,上涨2 86%,换手率1 13%,成交量3 49万手,成交额4489 34万元。12
-
美联储小幅上调今年GDP增速预期 继续下调明后两年GDP预期美联储小幅上调今年GDP增速预期继续下调明后两年GDP预期
-
欧克科技: 安信证券关于欧克科技使用部分募集资金向全资子公司增资以实施募投项目的核查意见_全球快报欧克科技:安信证券关于欧克科技使用部分募集资金向全资子公司增资以实施募投项目的核查意见
-
我市加快推进国家中小城市综合改革试点工作_今日热讯8月25日,我市召开加快推进国家中小城市综合改革试点工作会议。市领导王惠民、王军霞出席会议。会议总结了我市国家中小城市综合改革试点前一阶
-
高凌信息(688175)12月13日主力资金净卖出434.41万元-微头条截至2022年12月13日收盘,高凌信息(688175)报收于37 46元,下跌4 19%,换手率5 93%,成交量1 11万手,成交额4187 05万元。
-
【新要闻】绿盟科技:交通强国建设背景下交通运输网络安全建设新主张全文共3816字,阅读大约需8分钟。 一 引言 党的二十大报告提出,坚持把发展经济的着力点放在实体经济上,推进新型工业化,加快建设制
-
兆新股份:12月12日获融资买入39.28万元|今日关注同花顺数据中心显示,兆新股份12月12日获融资买入39 28万元,占当日买入金额的2 44%,当前融资余额1330 66万元,占流通市值的0 37%,超过历史8
-
全球微头条丨万润新能(688275.SH)拟投建年产10万吨湖北万润新能源电池正极材料项目智通财经APP讯,万润新能(688275 SH)发布公告,公司拟与十堰市郧阳区政府签署《湖北万润新能源电池正极材料项目投资协议书》,双方约定在秦巴