[NLP][长文本分类](二)语料预处理和文本特征选择

发表于 2018-04-16

字数统计: 3,876

导语在上一篇中笔者准备了100w条新闻语料，接下来进入文本分类的预处理环节。当然，进行文本分类需要遵循一些基本步骤，以下便是笔者总结的文本分类的基本处理框架(持续更新本框架): 预处理阶段分词方案NLP中分词是一项基础技术，分词好坏对后续各项NLP任务也有不小的影响。目前的常用分词方案如下:对中文分词的讨论可以参考有哪些比较好的中文分词方案？值得注意的是，常见的分词器都是使用机器学习算法和词典相结 ...

阅读全文 »

[高性能MySQL]笔记(一)

发表于 2018-04-14

字数统计: 13

第1章 MySQL架构与历史 MySQL逻辑架构

阅读全文 »

[程序员的自我修养--链接、装载与库]笔记(四)

发表于 2018-04-14

字数统计: 107

静态链接前一章中，主要介绍了ELF目标文件的整体结构和局部细节。这一章主要考虑:当我们有两个目标文件时，如何将它们链接起来形成一个可执行文件?这个过程是怎么样的? 空间与地址分配相似段和合并使用这种方法的链接器一般采用两步链接的方法:

阅读全文 »

[ACM模板]01

发表于 2018-04-07

字数统计: 1,646

高精度整数实现1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515253545556575859606162636465666768697071727374757677787980818283848586878889909192939495969798991001 ...

阅读全文 »

[NLP][长文本分类](一)开篇

发表于 2018-04-02

字数统计: 2,437

开篇词文本分类是NLP领域最基本和最常见的任务之一，同时它也是检验众多nlp算法模型的重要手段。本项目注重应用各种经典的机器学习模型(含深度学习模型)对单标签新闻进行分类的方法，同时注重分析总结各种算法模型的优缺点语料准备在做新闻分类前，首先需要准备好新闻语料，通常有2种途径：要么使用网上公开的新闻语料，但数据量通常不大，比如: 搜狐新闻数据网易分类文本数据 THUCNews中文 ...

阅读全文 »

[程序员的自我修养--链接、装载与库]笔记(三)

发表于 2018-03-31

字数统计: 1,245

第三章细探目标文件目标文件的格式是什么流行的可执行文件格式主要是win下的PE(Portable Executable) 和 Linux下的ELF(Executable Linkable Format)，它们皆为COFF(Common file format)格式的变种linux下的目标文件后缀为.o，终端中查看.o文件类型信息如下:[root@slave02 temp]# file he ...

阅读全文 »

[程序员的自我修养--链接、装载与库]笔记(二)

发表于 2018-03-30

字数统计: 406

第二章编译和链接被隐藏的过程gcc处理最简单的hello world程序也要分解为4个步骤: 预处理(prepressing) 编译(compilation) 汇编(assembly) 链接(linking) 过程如图所示: 预编译阶段预编译过程主要处理那些源代码文件中以”#”开头的预编译指令，主要规则如下:hello.i文件部分内容如下: 编译阶段(后文详解) //he ...

阅读全文 »

[程序员的自我修养--链接、装载与库]笔记(一)

发表于 2018-03-30

字数统计: 715

回顾线程的访问权限线程调度线程调度大多从优先级调度和轮转法2个方面设计策略在Linux下与线程相关的操作可以通过pthread库来实现，相关参考1IO密集型线程: 频繁等待的线程CPU密集型线程: 很少等待的线程IO密集型线程比cpu密集型线程容易得到优先级的提升 Linux下的多线程线程安全同步与锁注意二元信号量和多元信号量信号量、互斥量、临界区、读写锁、条件 ...

阅读全文 »

cmake实践(二)

发表于 2018-03-30

字数统计: 893

更加工程化的HelloWorld之后，我们都将采用外部构建的方式，构建目录是工程目录下的build目录为了看起来更佳工程化，我们需要：为工程添加一个子目录src，用来放置工程源代码；添加一个子目录doc，用来放置这个工程的文档hello.txt；在工程目录添加文本文件COPYRIGHT, README；在工程目录添加一个runhello.sh脚本，用来调用hello二 ...

阅读全文 »

面试必会题

发表于 2018-03-28

字数统计: 20,784

————————- 研发相关 —————————————— 阿里面试问题(0) 先介绍2个简历上的项目，表达清楚（面试官会打断问他感兴趣的相关细节(1) bloom filter 以及分布式相关处理(还得会大数据相关算法(那本书)以及hadoop spark storm)相关参考1　　相关参考2　　相关参考3　　相关参考4　　相关参考5(2) 各种排序算法(包括外部排序)，尤其是针对链表的各种排序 ...

阅读全文 »

JYJatBUPT

Natural Language Processing, Machine Learning, Big Data and More

GitHub E-Mail