Fork me on GitHub
JYJatBUPT's Blog

独立之精神, 自由之思想!


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 留言板

  • 搜索

[NLP][长文本分类](二)语料预处理和文本特征选择

发表于 2018-04-16
字数统计: 3,876
导语在上一篇中笔者准备了100w条新闻语料,接下来进入文本分类的预处理环节。当然,进行文本分类需要遵循一些基本步骤,以下便是笔者总结的文本分类的基本处理框架(持续更新本框架): 预处理阶段分词方案NLP中分词是一项基础技术,分词好坏对后续各项NLP任务也有不小的影响。目前的常用分词方案如下:对中文分词的讨论可以参考有哪些比较好的中文分词方案?值得注意的是,常见的分词器都是使用机器学习算法和词典相结 ...
阅读全文 »

[高性能MySQL]笔记(一)

发表于 2018-04-14
字数统计: 13
第1章 MySQL架构与历史 MySQL逻辑架构
阅读全文 »

[程序员的自我修养--链接、装载与库]笔记(四)

发表于 2018-04-14
字数统计: 107
静态链接前一章中,主要介绍了ELF目标文件的整体结构和局部细节。这一章主要考虑:当我们有两个目标文件时,如何将它们链接起来形成一个可执行文件?这个过程是怎么样的? 空间与地址分配 相似段和合并使用这种方法的链接器一般采用两步链接的方法:
阅读全文 »

[ACM模板]01

发表于 2018-04-07
字数统计: 1,646
高精度整数实现1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798991001 ...
阅读全文 »

[NLP][长文本分类](一)开篇

发表于 2018-04-02
字数统计: 2,437
开篇词文本分类是NLP领域最基本和最常见的任务之一,同时它也是检验众多nlp算法模型的重要手段。本项目注重应用各种经典的机器学习模型(含深度学习模型)对单标签新闻进行分类的方法,同时注重分析总结各种算法模型的优缺点 语料准备在做新闻分类前,首先需要准备好新闻语料,通常有2种途径: 要么使用网上公开的新闻语料,但数据量通常不大,比如: 搜狐新闻数据 网易分类文本数据 THUCNews中文 ...
阅读全文 »

[程序员的自我修养--链接、装载与库]笔记(三)

发表于 2018-03-31
字数统计: 1,245
第三章 细探目标文件 目标文件的格式是什么流行的可执行文件格式主要是win下的PE(Portable Executable) 和 Linux下的ELF(Executable Linkable Format),它们皆为COFF(Common file format)格式的变种linux下的目标文件后缀为.o,终端中查看.o文件类型信息如下:[root@slave02 temp]# file he ...
阅读全文 »

[程序员的自我修养--链接、装载与库]笔记(二)

发表于 2018-03-30
字数统计: 406
第二章 编译和链接 被隐藏的过程gcc处理最简单的hello world程序也要分解为4个步骤: 预处理(prepressing) 编译(compilation) 汇编(assembly) 链接(linking) 过程如图所示: 预编译阶段 预编译过程主要处理那些源代码文件中以”#”开头的预编译指令,主要规则如下:hello.i文件部分内容如下: 编译阶段(后文详解) //he ...
阅读全文 »

[程序员的自我修养--链接、装载与库]笔记(一)

发表于 2018-03-30
字数统计: 715
回顾 线程的访问权限 线程调度线程调度大多从优先级调度和轮转法2个方面设计策略在Linux下与线程相关的操作可以通过pthread库来实现,相关参考1IO密集型线程: 频繁等待的线程CPU密集型线程: 很少等待的线程IO密集型线程比cpu密集型线程容易得到优先级的提升 Linux下的多线程 线程安全同步与锁注意二元信号量和多元信号量 信号量、互斥量、临界区、读写锁、条件 ...
阅读全文 »

cmake实践(二)

发表于 2018-03-30
字数统计: 893
更加工程化的HelloWorld之后,我们都将采用外部构建的方式,构建目录是工程目录下的build目录 为了看起来更佳工程化,我们需要: 为工程添加一个子目录src,用来放置工程源代码; 添加一个子目录doc,用来放置这个工程的文档hello.txt; 在工程目录添加文本文件COPYRIGHT, README; 在工程目录添加一个runhello.sh脚本,用来调用hello二 ...
阅读全文 »

面试必会题

发表于 2018-03-28
字数统计: 20,784
————————- 研发相关 —————————————— 阿里面试问题(0) 先介绍2个简历上的项目,表达清楚(面试官会打断问他感兴趣的相关细节(1) bloom filter 以及分布式相关处理(还得会大数据相关算法(那本书)以及hadoop spark storm)相关参考1  相关参考2  相关参考3  相关参考4  相关参考5(2) 各种排序算法(包括外部排序),尤其是针对链表的各种排序 ...
阅读全文 »
12
JYJatBUPT

JYJatBUPT

Natural Language Processing, Machine Learning, Big Data and More

12 日志
6 标签
GitHub E-Mail
© 2018 JYJatBUPT
由 Hexo 强力驱动
|
主题 — NexT.Pisces v5.1.4
Total Users Total Visits