AI/LLM

karminski-牙医MA · 2 months ago

Google 官方福利, 现在压力来到了Qwen一边

Google 官方福利, 现在压力来到了Qwen一边

Google 刚刚发布了 Gemma 4系列模型的草稿专用模型! 31B Dense 搭配草稿模型速度竟然能提升3倍! 付出的代价仅仅是多花 1G 显存!

1

AlphaAreaA · 4 months ago

当你脑抽了非要在CPU上跑LLM

当你脑抽了非要在CPU上跑LLM

5

karminski-牙医MA · 4 months ago

Apple ANE 被成功逆向! 38TOPS 算力其实是数字游戏?

Apple ANE 被成功逆向! 38TOPS 算力其实是数字游戏?

刚刷到博主 maderix 开源了个硬核项目: 逆向 Apple 的私有 API, 绕过 CoreML, 直接在 Apple Neural Engine (ANE) 上实现了神经网络训练!

6

karminski-牙医MA · 5 months ago

这个卡真的能装得下SOTA级别的大模型吗?

这个卡真的能装得下SOTA级别的大模型吗?

给大家带来 Taalas 这个LLM ASIC 卡的深度解析.

3

karminski-牙医MA · 1 year ago

大模型 API 市场解读

大模型 API 市场解读

2025年已经过去了一半, 文本生成大模型是否已经进入下半场? OpenAI 完全不重视 API市场? Grok3根本没人用? 未来会怎样走向?

来看我花费4小时精心为大家整理的大模型 API 市场解读(使用 OpenRouter 数据) —— 2025上半年谁是 AI API 服务王者

5

William7004 · 1 year ago

终于有合适的漫画风格绘画模型了

终于有合适的漫画风格绘画模型了

sdxl和sd1.5生态上大部分漫画风格模型结构表现不如照片风格模型。但最近测试的wai illustrators v14在结构表现有一定优势，并且可用分辨率在2.5k以上，正式工作流使用1080p分辨率，比cosmos predict2快不少。

5

William7004 · 1 year ago

新的高速绘画模型

新的高速绘画模型

之前尝试使用SD1.5以及LCM版本的微调模型作为高速绘画模型，但分辨率、细节和位置关系等方面表现差一些。今天引入了基于SDXL Lightning的Dreamshaper XL，一定程度上解决了这些问题并且可以在部分场景实现动漫风格。

1

William7004 · 1 year ago

新的主力绘画/视频模型

新的主力绘画/视频模型

由于Hidream i1速度较慢以及部分提示词光照有问题，改用Cosmos Predict2 2b作为主力绘画模型，不过细节较多的场景生成效果有一定问题。

1

karminski-牙医MA · 1 year ago

Unsloth 刚刚发布了一个强化学习小教程

Unsloth 刚刚发布了一个强化学习小教程

Unsloth 刚刚发布了一个强化学习小教程

教程从吃豆人游戏触发，然后简单介绍 RLHF, PPO 再到 GRPO, 然后告诉你如何用 GRPO 开始训练，是个不错的入门小文章。

地址: docs.unsloth.ai/basics/reinforcement-learning-guide

…

2

karminski-牙医MA · 1 year ago

Gemini-2.5-Pro 和 Gemini-2.5-Flash 移除了 Preview 标签了

Gemini-2.5-Pro 和 Gemini-2.5-Flash 移除了 Preview 标签了

Gemini-2.5-Pro 和 Gemini-2.5-Flash 移除了 Preview 标签了。看来是版本固定了？加下来要向 Gemini Ultra 或者 Gemini-3迈进了

1

karminski-牙医MA · 1 year ago

meta 刚刚又发了新模型——V-JEPA 2 （Video Joint Embedding Predictive Architecture 2）

meta 刚刚又发了新模型——V-JEPA 2 （Video Joint Embedding Predictive Architecture 2）

meta 刚刚又发了新模型——V-JEPA 2 （Video Joint Embedding Predictive Architecture 2）

这是个视频理解模型，能判断视频中正在发生什么并进行一定程度的预测。并且亮点应用是零样本机器人控制（如果用yolo需要针对训练，但是大模型的知识具有迁移性，视觉中出现新东西不用训练也能操作）

根据官方报告，这个模型的技术创新有：

自我监督学习：模型不需要大量标注数据，而是通过"自己教自己"的方式学习
遮挡预测机制：模型通过"填空题"的方式学习 - 遮住视频的某些部分，让模型预测被遮住的内容
抽象表征学习：模型不是简单地记忆像素，而是学习视频的"抽象含义"…

1

karminski-牙医MA · 1 year ago

盘点一下火山引擎 | FORCE 原动力大会展厅的 AI 软件

盘点一下火山引擎 | FORCE 原动力大会展厅的 AI 软件

没错进门就是 TRAE, 红色的牌子特别显眼, 这次实装了 doubao-seed-1.6-thinking 很多人都在当场试用

2

karminski-牙医MA · 1 year ago

盘点一下火山引擎 | FORCE 原动力大会展厅的智能硬件

盘点一下火山引擎 | FORCE 原动力大会展厅的智能硬件

Intel 展位

首先还是最重磅的, Intel 把还没正式发布的 Arc Pro B60 拿过来了, 24G GDDR6, 456 GB/s, TDP 200 W. 从贴纸看这个还是工程样品. 我跟现场的工作人员说能否拔下来多拍几张, 结果被拒绝了, 因为没有螺丝刀. 机器搭配的是平平无奇 DDR5 4800.

3

karminski-牙医MA · 1 year ago

面壁智能刚刚发了一堆小模型，包括： MiniCPM4-0.5B/8B/MCP/Survey 等等

面壁智能刚刚发了一堆小模型，包括： MiniCPM4-0.5B/8B/MCP/Survey 等等

面壁智能刚刚发了一堆小模型，包括： MiniCPM4-0.5B/8B/MCP/Survey 等等

MiniCPM4-0.5B 是面向端侧设备的，8B是旗舰模型
BitCPM4-0.5B/BitCPM4-1B 是类似 bitnet 的1bit 量化模型
MiniCPM4-Survey 是个专门用于生成报告的模型
MiniCPM4-MCP 是个MCP专用模型

另外还有一些视觉模型组件。目前从跑分上看，与 Qwen3-8B 不相上下，感兴趣的朋友可以试试。…

1

karminski-牙医MA · 1 year ago

一张图搞定结构化3D建模——PartCrafter

一张图搞定结构化3D建模——PartCrafter

一张图搞定结构化3D建模——PartCrafter

这是一个来自北大+字节跳动+卡耐基梅隆大学的联合项目

简单来说，这个项目实现了从单张RGB图像直接生成多个语义部件的结构化3D模型，彻底告别了传统"先分割再重建"的繁琐流程，提供：

端到端生成：无需预分割输入，一步到位生成完整的部件化3D场景
组合式潜在空间：每个3D部件用独立的潜在token集合表示，支持灵活编辑…

1

karminski-牙医MA · 1 year ago

Mistral 刚又发了个小模型—— Magistral-Small-2506

Mistral 刚又发了个小模型—— Magistral-Small-2506

Mistral 刚又发了个小模型—— Magistral-Small-2506

这是个 Mistral Small 3.1 微调的版本，增加了推理能力的疯狂RL版本。这个大小很适合单卡 32G 跑。至于分数嘛… 跟 Qwen3-4B 差不多。GPQA 会高一些。但AIME甚至没有Qewn3-4B 高。

模型地址：huggingface.co/mistralai/Magistral-Small-2506 Unsloth 量化版本地址：huggingface.co/unsloth/Magistral-Small-2506-GGUF

…

1

William7004 · 1 year ago

Wan2.1 14b以及VACE版本测试

Wan2.1 14b以及VACE版本测试

考虑到提供了Enhance a Video等功能且支持模块化和量化后的VACE模型，虽然显存优化差一些但还是在Comfyui改用WanVideoWrapper而非官方工作流进行部署。

使用文生视频时，8g显存能生成33帧1152x640分辨率的视频，在3070m用时约26分钟。

2

William7004 · 1 year ago

我的GitHub Pages开发终于完成了

我的GitHub Pages开发终于完成了

由于旧版Deepseek R1前端开发能力一般，而GitHub Pages以及这一页面需要展示的网页的开发对模型的前端开发要求较高，因此在Deepseek R1 0528发布后才开发这部分项目。

5

karminski-牙医MA · 1 year ago

再来看小米发布的第二个新模型——MiMo-VL-7B-RL

再来看小米发布的第二个新模型——MiMo-VL-7B-RL

再来看小米发布的第二个新模型——MiMo-VL-7B-RL

这是个视觉模型，主打视觉推理，宣传也是在7B这个规模达到了领先，另外一个亮点是，它支持UI识别，因此可以当作各种界面操作MCP的前置模型。

由于官方没有放出在线使用地址，以及视觉测试我基本都没什么感知，所以感兴趣的朋友只能自己试试了。

地址：huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL …

2

karminski-牙医MA · 1 year ago

"昨天的我狙击了今天的你"

"昨天的我狙击了今天的你"

“昨天的我狙击了今天的你”

小米刚刚发布了两个新模型，我来给大家分别介绍，这个是第一个—— MiMo-7B-RL-0530

这是一个文本推理模型，跟 DeepSeek-R1 是一个类型。小米宣称这个新模型在 7B 规模这个是目前最强的模型。

官方比较的也是之前 DeepSeek-R1 蒸馏的 Qwen2.5-7B, 甚至说 AIME24 数学测试超过了旧版 R1，估计是也没料到 28 号 DeepSeek 发布了新蒸馏的 Qwen3-8B。我把数据整理到一起给大家看。结论就是——没打过 DeepSeek-R1-0528-Distilled-Qwen3-8B. …

2