语料库语言学产生于二十世纪60年代,至近十几年已经发展成为计算语言学的重要分支学科。语料库的全称为机存语料库,指存入计算机作为计算机分析的语言素材集。语料库背后的学术思想源于经验主义思潮的复苏,认为可以根据统计学的原理把某一语言的语料按一定的原则抽样存入计算机,作为其全部语料的代表而进行统计分析。研究假设:只要抽样的原则合理,存入足够量的语料后进行的结果也是相当可靠的。目前,比较有名的语料库有美国的Brown语料库、英国和挪威共同建成的LOB语料库、英国的伦教--隆德语料库LLC、英国科林斯出版社和伯明翰大学联合建立的英语语料库COBUILD、英国国家语料库BNC、英国国家英语语料库ICE,等等。在我国,也有一些相当规模的语料库,如北京语言大学研制的现代汉语研究语料库、清华大学研制的现代汉语共时语料库、国家语委主持研制的现代汉语历时语料库等等。
最受欢迎的 15 大 Python 库有哪些
1、Pandas:是一个Python包,旨在通过“标记”和“关系”数据进行工作,简单直观。它设计用于快速简单的数据操作、聚合和可视化,是数据整理的完美工具。2、Numpy:是专门为Python中科学计算而设计的软件集合,它为Python中的n维数组和矩阵的操作提供了大量有用的功能。该库提供了NumPy数组类型的数学运算向量化,可以改善性能,从而加快执行速度。
3、SciPy:是一个工程和科学软件库,包含线性代数,优化,集成和统计的模块。SciPy库的主要功能是建立在NumPy上,通过其特定子模块提供有效的数值例程,并作为数字积分、优化和其他例程。
4、Matplotlib:为轻松生成简单而强大的可视化而量身定制,它使Python成为像MatLab或Mathematica这样的科学工具的竞争对手。
5、Seaborn:主要关注统计模型的可视化(包括热图),Seaborn高度依赖于Matplotlib。
6、Bokeh:独立于Matplotlib,主要焦点是交互性,它通过现代浏览器以数据驱动文档的风格呈现。
7、Plotly:是一个基于Web用于构建可视化的工具箱,提供API给一些编程语言(Python在内)。
8、Scikits:是Scikits
Stack额外的软件包,专为像图像处理和机器学习辅助等特定功能而设计。它建立在SciPy之上,中集成了有质量的代码和良好的文档、简单易用并且十分高效,是使用Python进行机器学习的实际行业标准。
9、Theano:是一个Python软件包,它定义了与NumPy类似的多维数组,以及数学运算和表达式。此库是被编译的,可实现在所有架构上的高效运行。
10、TensorFlow:是数据流图计算的开源库,旨在满足谷歌对训练神经网络的高需求,并且是基于神经网络的机器学习系统DistBelief的继任者,可以在大型数据集上快速训练神经网络。
11、Keras:是一个用Python编写的开源的库,用于在高层的接口上构建神经网络。它简单易懂,具有高级可扩展性。
12、NLTK:主要用于符号学和统计学自然语言处理(NLP) 的常见任务,旨在促进NLP及相关领域(语言学,认知科学人工智能等)的教学和研究。
13、Gensim:是一个用于Python的开源库,为有向量空间模型和主题模型的工作提供了使用工具。这个库是为了高效处理大量文本而设计,不仅可以进行内存处理,还可以通过广泛使用NumPy数据结构和SciPy操作来获得更高的效率。