从神经网络到 Hugging Face

AI 转载AI • 共 10646 字,阅读约 22 分钟 • Posted on

很好的一篇科普文,转载学习 从神经网络到 Hugging Face | 胡涂说

从神经网络到 Hugging Face

神经网络和深度学习简史

March 17, 2024

TL;DR 本文8200+字,全文阅读约需15分钟。本文简要回顾了从感知机到深度学习最新大模型应用 ChatGPT 的历史。

生活中没有什么可怕的东西,只有需要理解的东西。

– 居里夫人

一 深度信念网络

2006年,加拿大多伦多大学教授杰弗里·辛顿在研究如何训练多层神经网络,他已经在神经网络领域默默耕耘了三十多年,尽管在这个领域他算得上是泰斗级的人物,但由于神经网络在人工智能行业一直不被看好,所以他的研究成果一直不为业界所重视。

辛顿出生于英国伦敦,他的家族出过不少知名学者,创立布尔代数的逻辑学家乔治·布尔便是他的曾曾祖父。他的祖父是位科普作家,父亲是昆虫学家。辛顿比周围的人都要聪明,但他的求学之路却颇为曲折,先是在大学攻读建筑学,转而又选择物理学,后又改读哲学,最后以心理学学士身份毕业。1972年辛顿进入爱丁堡大学攻读博士学位,研究方向是神经网络。彼时神经网络被业界所鄙夷,连辛顿的导师也认为这玩意没什么实际用途,也没有前途可言。但辛顿却不为所动,对神经网络研究怀有信心,坚持认为能够证明神经网络的价值,这一坚持就是三十多年。

geoffery-hinton.jpg

小猫咪穿透公司网络限制访问娱乐网站

网络网络技术 • 共 935 字,阅读约 2 分钟 • Posted on

遇到一个小需求,某公司内部网络正常是可以访问外网百度、QQ 之类的网页。但是公司内部网络策略限制无法访问一些类似 B 站之类的娱乐页面。用户的诉求就是希望能可以访问 B 站学习,基于用户已经装了小猫咪,我想了想,接下了这个任务。

2024-03-15-vw9kbKn4OywI

首先我不知道对方的网络环境,只能通过对方的描述来猜测哪些域名是在策略黑名单内,目前看哔哩哔哩一定是被屏蔽的。

好在用户使用了小猫咪,那么我就打算使用小猫咪做为桥梁把 B 站的访问伪装成公司策略无法识别的域名,从我拥有的理论判断这个方案是可行的。

年轻人不要沉迷哲学

哲学书和理想 • 共 494 字,阅读约 1 分钟 • Posted on

偶然看到一些年轻人不要沉迷哲学的原因,自己简单总结下

第一,缺乏人生的积淀,会无法通过实践体会晦涩的逻辑

第二,短期找不到自己的终极关怀,容易限制自己的精神世界。

第三,容易愤世嫉俗,看不到必然中人类生存的意义。

第四,想得太多导致理想主义,现实中交友局限、生活乐趣减半

第六,深不见底的理论和生命实践不匹配,容易否定自己走向虚无

第七,不如学习自然科学更有当下资本主义的现实意义


毛主席给毛岸英、毛岸青的信中提到了一些观点,摘录如下:

但目前以潜心生习自然科学为宜,社会科学辅之。将来可倒置过来,以社会科学为主,自然科学为辅。总之注意科学,只有科学是真学问,将来用处无穷。

2024-01-09-ito7AFQQtvLP

邓晓芒:康德的三大批判究竟讲了些什么?

哲学书和理想 • 共 18192 字,阅读约 37 分钟 • Posted on

伊曼努尔康德,著名德意志哲学家,德国古典哲学创始人,启蒙运动时期最重要的思想家之一。生于东普鲁士哥尼斯堡(今俄罗斯加里宁格勒)。哥尼斯堡大学毕业。1755 年起在母校执教,1770 年升教授。其思想分为"前批判时期"和"批判时期"。在前批判时期,以自然科学的研究为主,并进行哲学探究。1755年发表《自然通史和天体论》,提出关于太阳系起源的星云假说。其学说深深影响近代西方哲学,并开启了德国唯心主义和康德主义等诸多流派。

康德是我最敬佩的西方哲学家之一,梁启超先生称他为"近代第一大哲"。对他的由衷敬佩不仅是由于他所建立的哲学体系和不朽贡献,而是他本人的治学态度和矢志不渝。康德活了80岁,放弃了哈佛大学对他当美学教授的聘请,一辈子没离开他的居住地一哥尼斯堡, 每天规律地生活,下午三点出去散步,以至于哥尼斯堡的人们都拿来对表,唯一一次没有下午三点去散步是因为头天晚上通宵达旦、秉烛夜读卢梭的《爱弥儿》,这一切的一切都为了追求他的终生目标一" 未来形而上学"。康德最出名的著作是他的三大批判一《纯粹 理性批判》、《实践理性批判》和《判断力批判》,构成了他整个哲学体系的核心内容。提起康德,除了"哥白尼式革命",还有我们熟知的一句名言,“有两种东西,我对它们的思考越是深沉和持久,它们在我心灵中唤起的惊奇和敬畏就会日新月异,不断增长,这就是我头上的星空和心中的道德定律。“它出自康德的《实践理性批判》最后一章,也刻在了康德的墓碑上。

Umami 自建网页统计服务

网络 小站网络技术 • 共 595 字,阅读约 2 分钟 • Posted on

背景

今天早上突然发现 不蒜子 - 极简网页计数器 服务挂了,我之所以使用这个服务也是因为懒。比如页脚用的统计服务就是不蒜子的.

2024-01-03-Z88APSsihvuB

既然使用了外部服务,那就也要接受偶尔的服务不稳定,毕竟在互联网没有能一直存在的服务。

思考

外部服务被卡脖子了,那还是得有自建的东西,自建的东西也许没有外部服务好,但是至少完成了从零到一的过程。

方案还是优先用开源的服务自行搭建,自己开发有点浪费时间,而且在有了 Docker 之后搭建一个服务就变得像开箱一样简单。

忽略了挑货的过程,在很多方案中我选择了 umami,不是因为它有多好,而是因为它的功能对我这种个人级别的服务契合度达到 90% 以上,页面视觉也符合我的审美。

2024-01-03-cjDA5CcU4exd

年度总结-词云版

网络技术 小工具网络技术 • 共 924 字,阅读约 2 分钟 • Posted on

背景

最近看到一个分享:提取微信聊天记录,将其导出成HTML、Word、CSV文档永久保存,对聊天记录进行分析生成年度聊天报告微信年度聊天报告觉得挺有意思的,可惜作者搞的是 Windows 的版本,像我这种 Mac 用户就无法使用了。

既然没有办法解析 Mac 微信的数据文件,那么我就想是不是可以通过其他方式实现呢?

思考

直接从微信拿数据短期应该行不通,只能从其他地方找一些行为数据,巧的是为了隐私安全我今年把输入法切换成了雾凇拼音,它不但不会联网,而且它的词库也全部都存储在本地,并且可以多设备同步。

2023-12-20-AC78lZa4JWbf 2023-12-20-6caWpKdgIPkt

那么既然词库都在本地,而且是明文的,确实是很好的做成年度词云的素材数据库。

先看下本地个人词库的数据格式

2023-12-20-ua75OP1i0dF5

快捷指令随手记备忘录

iOS 小工具iOS • 共 524 字,阅读约 2 分钟 • Posted on

需求

很多时候会有一些零碎的想法需要记录,之前的操作都是先打开对应软件,然后新建备忘录,最后再记录保存。操作步骤没什么大问题,但是我还是觉得有点多。

而且每次新记录都要新建一个文件时间久了就很难梳理。即使在同一个文件里填写,每次也需要找到它才能在对应位置再追加,灵感转瞬即逝,本来就是因为记性不好才记录,耽误了这几秒灵感说不定就没了。

于是我打算优化下流程,输入和保存这两个步骤是无法省略的核心步骤,再加上一个触发动作,那么最少需要三步才能完成这个功能。

自己开发个软件更麻烦,这里自然选择了灵活的快捷指令,软件基于系统自带的备忘录。

示例

先看下示例(目前刚好满足我的需求)

OpenAI 代理查询接口示例

网络 ChatGPTAI • 共 217 字,阅读约 1 分钟 • Posted on

经常会调用一些 ChatGPT API 服务,有实时查询调用量的需求,目前看脱离代理商最方便的查询场景就是终端调用接口查询,这里为了怕自己忘记,特此记录下。

这次就不公开提供在线查询服务了,毕竟 token 就是 money,千万不要在网页里随便贴。

2023-12-07-Ort5dsJmTseS

查询模型支持种类

curl https://$PROXY_URL/v1/models \
  -H "Authorization: Bearer $OPENAI_API_KEY"