admin 发布的文章

基于机器学习的算法

这类算法使用机器学习模型来识别网页中的文章内容。它们通常会训练模型来识别文章内容的语义特征,例如文本的主题、关键词和句子的结构。这类算法的优点是可以适应各种类型的网页,并且可以随着时间的推移提高准确性。

一些常用的基于机器学习的网页内容提取算法包括:

  • 基于支持向量机的算法:这类算法将网页内容表示为特征向量,然后使用支持向量机来区分文章内容和其他内容。

  • 基于条件随机场的算法:这类算法将网页内容视为序列,并使用条件随机场来预测每个词是否是文章内容的一部分。

  • 基于神经网络的算法:这类算法使用神经网络来学习网页内容的语义特征,然后进行提取。

基于自然语言处理的算法

这类算法利用自然语言处理技术来分析网页内容的文本特征,从而识别文章内容。它们通常会使用以下技术:

  • 文本相似度:计算网页内容与已知文章内容的文本相似度,以此来判断其是否属于文章内容。

  • 主题建模:使用主题建模技术来分析网页内容的主题,并识别与文章主题相关的文本。

  • 句法分析:分析网页内容的句法结构,并识别文章中常见的句法模式。

基于网页结构的算法

这类算法利用网页的结构信息来识别文章内容。它们通常会分析网页的HTML代码,并寻找以下特征:

  • 文章主体元素:例如 <article>, <main>, <content> 等元素。

  • 文本密度:文章内容的文本密度通常较高,而其他内容的文本密度较低。

  • 链接密度:文章内容中通常包含较少的链接,而其他内容中可能包含大量的链接。

混合算法

一些算法会结合多种技术来提高提取的准确性。例如,可以将机器学习算法与自然语言处理算法或网页结构算法相结合。

选择合适的算法

选择合适的算法取决于您的具体需求。如果您需要一种通用的算法,可以考虑使用基于机器学习的算法。如果您需要一种可以针对特定类型的网页进行优化的算法,可以考虑使用基于自然语言处理或网页结构的算法。

以下是一些可以帮助您选择合适的算法的因素:

  • 网页类型的多样性:如果您需要处理多种类型的网页,则需要选择一种能够适应不同类型网页的算法。

  • 提取的准确性要求:如果您需要高精度的提取结果,则需要选择一种性能更好的算法。

  • 计算资源的限制:一些算法需要大量的计算资源,因此您需要考虑您的计算能力限制。


1:.Net开源的跨平台爬虫框架 DotnetSpider Star:430

DotnetSpider这是国人开源的一个跨平台、高性能、轻量级的爬虫软件,采用 C# 开发。目前是.Net开源爬虫最为优秀的爬虫之一。


2:俄国牛人写的开源爬虫xNet Star:117

这个一个俄国牛人写的开源工具,为啥说他强悍了,因为他将所有Http协议的底层都实现了一遍,这有啥好处?只要你是写爬虫的,都会遇到一个让人抓狂的问题,就是明明知道自己Http请求头跟浏览器一模一样了,为啥还会获取不到自己想要的数据

3:开源的.net爬虫Abot Star:1050

Abot是一个开源的.net爬虫,速度快,易于使用和扩展

4:C#仿火车头的开源数据采集器V5_DataCollection Star:25

V5 数据采集器是一款面向个人及专业用户提供的一款专业的数据采集软件,即适用于简单化配置操作,也适应针对复杂数据采集的能力,所见即可采。 V5数据采集器独有的代理轮询采集机制,可有效的解决网站屏蔽问题,可用于互联网数据动态监控,绝对是您的首选

5:C#爬虫引擎内核版SmartSpider Star:17

SmartSpider爬虫引擎内核版,全新的设计理念,真正的极简版本。

6:.Net开源的超级爬虫Hawk Star:1039

HAWK是一种数据采集和清洗工具,依据GPL协议开源,能够灵活,有效地采集来自网页,数据库,文件, 并通过可视化地拖拽, 快速地进行生成,过滤,转换等操作。其功能最适合的领域,是爬虫和数据清洗

7:基于C#.NET的简单且高效的网站爬虫 Star:58

Simple-Web-Crawler - 基于C#.NET的简单网页爬虫,支持异步并发、切换代理、操作Cookie、Gzip加速。

8:网站数据采集软件网络矿工采集器(原soukey采摘) 

Soukey采摘网站数据采集软件是一款基于.Net平台的开源软件,也是网站数据采集软件类型中唯一一款开源软件。尽管Soukey采摘开源,但并不会影响软件功能的提供,甚至要比一些商用软件的功能还要丰富。Soukey采摘当前提供的主要功能如下: 1.    多任务多线程数据采集,支持POST方式;...

9:网站数据采集软件NETSpider Star:94

NETSpider网站数据采集软件是一款基于.Net平台的开源软件。 软件部分功能是基本Soukey软件进行开发的.这个版本采用VS2010+.NET3.5进行开发的. NETSpider采摘当前提供的主要功能如下: 1.    多任务多线程数据采集,支持POST方式(待定); 2.    可...

10:网络爬虫程序NWebCrawler 

NWebCrawler是一款开源的C#网络爬虫程序

11:Web爬虫工具NCrawler 

NCrawler 是一个Web Crawler 工具,它可以让开发人员很轻松的发展出具有Web Crawler 能力的应用程式,并且具有可以延展的能力,让开发人员可以扩充它的功能,以支援其他类型的资源(例如PDF /Word/Excel 等档案或其他资料来源)。 NCrawler 使用多执行绪...

12:多线程web爬虫程序spidernet 

spidernet是一个以递归树为模型的多线程web爬虫程序, 支持text/html资源的获取. 可以设定爬行深度, 最大下载字节数限制, 支持gzip解码, 支持以gbk(gb2312)和utf8编码的资源; 存储于sqlite数据文件. 源码中TODO:标记描述了未完成功能, 希望提交你...

13:网页爬虫ScrapingSpider Star:48

ScrapingSpider 是一个业余时间开发的,支持多线程,支持关键字过滤,支持正文内容智能识别的爬虫。    爬虫的核心实现在ScrapingSpider.Core程序集中。爬虫类为Spider类,爬虫的爬取逻辑,与页面处理逻辑通过事件分离,两个关键事件为AddUrlEvent和Data...

14:爬虫小新Sinawler 

国内第一个针对微博数据的爬虫程序!原名“新浪微博爬虫”。 登录后,可以指定用户为起点,以该用户的关注人、粉丝为线索,延人脉关系搜集用户基本信息、微博数据、评论数据。 该应用获取的数据可作为科研、与新浪微博相关的研发等的数据支持,但请勿用于商业用途。该应用基于.NET2.0框架,需SQL SER...


以下分享的 alist 站地址来自谷歌搜寻,资源类型大概有影视、动漫、图片、游戏、音乐、学习,建议资源下载后再查看,alist 站一般有好几个云盘部分资源失效属正常。部分支持 WebDAV 挂载使用。

https://pan.mediy.cn
https://al.chirmyram.com
https://pan.ecve.cn
https://pan.110014.xyz
https://a.sodaz.xyz/
https://pan.pengcheng.team
https://zi0.cc/
http://alist.xiaoya.pro
https://share.xiaole88.com/
https://pan.arley.cn/zh-CN

http.cnxiaobai.com
https://pan.ichuguang.com
https://pan.xiwangly.top

https://pan.clun.top/ 雨呢网盘 视频 动漫 写真
alist.aqingyuan.repl.co 晴园
al.chirmyram.com 七米蓝
alist.advanced360.top Banana 的资源站
ruipan.bestruirui.repl.co 小瑞
pan.arley.cn Arley’s Drive
apps.weixinqqq.com 微资源
www.kugutsu.ml (NSFW) Puppet Studio
https://zi0.cc/ 梓澪の妙妙屋 ASMR 游戏 番剧 插画
https://imexcloud.top/ AList 经典电影中字
http://alist.xiaoya.pro/ 小雅的 AList 大量影视 有点失效
https://alist.ygxz.xyz/ 小站的 AList
https://tczhongyi.toc.icu/ AList 影视剧合集 4K 原盘
https://asca0121.toc.icu/ 日负斗金 4K 影视 动漫 剧集
https://alist.ouo3.repl.co/ OUO 大佬们的站 其他的 AList 站
https://dl.6r.pw:6080/ AList 网盘 电影 壁纸 视频
https://alist.ucu520.top/ 开心 ucu-AList 漫画 学习 音乐
http://81.68.240.111:1688/ AList 看剧学习资源大全
https://pan.hxft.xyz/ 软件 电影
http://81.70.1.225:5244/ 看の电の视 动漫
https://pan.arley.cn/ Arley’s Drive 图片 电影 游戏
https://apps.weixinqqq.com/ 资源站。随意盘 教程 正规小视频 音乐
https://bdys.top/ bdys 电影动漫韩剧日剧等媒体库资源,提供在线播放,个人资源低调观看
https://pan.cqtjy.cn/ 老谭 alist 影视 4K 在线观看 办公系统软件电子书资料等
https://alist.azad.asia/ azad 个人云盘 影视 4k 在线 电影美剧丰富、MV、学习教程等资源
根据时间往下排序,如果网址失效请在评论区留言!

目瞪狗呆:https://pan.mdgd.cc/
《:heart ALIST❤️》 :http://test.hta.ink/
弱水:http://shicheng.wang:555/
姬路白雪:https://pan.jlbx.xyz
七米蓝的仓库:https://al.chirmyram.com
星梦:Alist https://pan.bashroot.top/
小雅:http://alist.xiaoya.pro
梓澪の妙妙屋:https://zi0.cc/
Applehub 心动:https://app.applehub.cn/
Pengcheng’s:https://pan.pengcheng.team/
路灯网盘:https://pan.eqishare.com/
Arley’s Drive:Arley's Drive
久违网盘:https://pan.jweiy.cn/
Xiwangly 的网盘:https://pan.xiwangly.top/
小鳥遊曉の幻想鄉:https://pan.t-satoru.top/
薄荷の盘:https://alist.6bohe.com/
ECVE | 资源小站:https://pan.ecve.cn
嘻哈有个网盘 https://share.acreson.cn/
一楼没太阳:https://pan.ylmty.cc/
电喵大战皮卡丘 :https://pan.110014.xyz/
Applehub 心动:https://app.applehub.cn/
登拜科技网盘:https://wp.ioshh.com/
枭木资源盘:https://pan.tmxios.top/
Totoro Cloud:https://s3.776161.xyz/
太阳云盘:http://www.teyonds.com/

补充一个破解资源类
https://www.nite07.com/


伪静态配置主要分为两部分,nginx配置和开启地址重写功能;


nginx

将以下配置复制到nginx的server配置中;

location / {   
 if (!-e $request_filename) 
 {      rewrite ^(.*)$ /index.php$1 last;  
   }   
 }


开启伪静态

在后台配置中启用地址重写功能

开启伪静态

NameSilo

NameSilo在业内并非非常有名,不过确实是非常优秀,他们是一级域名代理商,价格实际上是最便宜的,也是我们极力推荐的一家。

NameSilo 优点:
  • 实际全网最低价,8.99美金/年,续费价格不变

  • 没有附加和隐藏费用比如ICANN操作费等,以及无不断推荐额外的辅助类产品

  • 免费终身的WHOIS隐私保护

  • 免费DNSSEC安全保护,避免域名dns受到污染,

  • 注册域名三天内可自主取消域名,无需联系客服或开工单

  • 支持支付宝,微信和银联

NameSilo 缺点:
  • 操作面板相对陈旧,但据他们的最新消息,新的操作面板正在制作更新之中

在NameSilo注册域名,你真的可以不用费很多精力,主要是他们价格透明,而且一个域名需要的功能和优点该有都有,最重要的是它支持国内的付款方式,真的很方便,唯一不足的就是他们的操作后台还是比较古老的设计,但有如此多的优点,我觉得小小瑕疵真的是无所谓的。

NameSilo还提供一些额外的服务,网络主机,企业邮箱,另外你可以作为他们的分销商分销域名等等。

NameCheap

NameCheap那可是一家非常热门的域名注册商,比NameSilo有知名度多了,他们的价格也是非常的低,而且近年来他们的主机业务也发展的很好,已经不是一家纯粹的域名商了。

NameCheap 优点:

  • 价格低,首次注册是8.88美金/年加一点ICANN手续费,总共是9.06美金/年,价格很不错的,续费也不高,10.56美金/年

  • 免费终身的WHOIS隐私保护

  • 注册域名三天内可取消域名

NameCheap 缺点:

  • 附加ICANN手续费,虽然不多

  • 需付费获取DNSSEC安全

NameCheap没什么很突出的优缺点,中规中矩,所以国外用的人还是很多,而且推广得也不错,加上他们这些年得主机业务,真的是超低价主机,在他们家搭建网站,自然是在他们网站注册域名更方便,最少你不需要去另外解析域名了。

Godaddy

Godaddy绝对是最大的域名注册商,然而也是套路最深的域名商。

Godaddy优点:

  • 首次购买两年域名的话第一年能获得挺大优惠

  • 最流行最大的域名商,如果这也算是优点的话

Godaddy缺点:

  • 额外的WHOIS费用

  • 需付费获取DNSSEC安全

  • 套路满满,看我接下来细说

在狗爹上注册域名,以.com为例,我是真的不知道他们的具体价格,反正每次都不一样,我大致说一下吧,第一次注册新域名,如果你任何附加功能都不购买的话,就一个裸域名,价格大致是在160软妹币两年,也不算很贵,但加上whois费用的话就不一样了,有时候你订购域名好像包含了基础whois隐私保护,有时候又好像不包含,反正没用NameSilo和google domains之前,我一般会把域名从狗爹转移到主机商。

至于Godaddy如何套路的请看这里的举例,总之怎么算,godaddy的价格都不划算,虽然也不多,但我不喜欢,你自己看着办。

推荐国外域名商你是怎么都绕不开Godaddy的,我真不是想说Godday如何如何差,但我就想说你市场率排行第一的域名商就不能爽快点,扭扭捏捏的?Godaddy如今业务是越做越大, 发展到主机,建站业务,都很庞大,还是有一众粉丝的。