El nacimiento de Hermes Criollo: bronca, malestar y una laptop en mi cama ~ Entropía binaria

Imagen realizada por la IA de Google, Gemini.

Una recaída que me dio claridad.

Diez días en casa. Junio de 2026, frío húmedo, dolor y malestar que no achicaban, y una laptop apoyada en la cama, conmigo usándola boca abajo, porque no había otra posición que no doliera. Ahí, entre incomodidades varias y medicación fuerte, empecé a preguntarme qué hacer para pasar el tiempo, entre película y documental. Recordé que todo lo que probaba en IA local había sido una porquería, y me había quedado con la espina.

Probé de todo: varios modelos que se suponía que "en mi hardware reducido tenían que funcionar", varios modos de DeepSeek-Coder 16B, de Qwen2.5-Coder 14B, CodeLlama 34B, Dolphin-Mixtral 46B... Todos modelos "al menos medianamente pesados".
También probé livianos, para hardware modesto: el Hermes Q2 (un desastre de incoherencia que se expresó mal y no comprendía del todo lo que yo le decía), el OpenHermes (muy flojo realmente), Qwen 2.5 3B (más rápido que 2 los anteriores, bastante prolijo pero con alguna carencia aún)...

Nombres grandiosos, comparaciones impresionantes, pero en la realidad de mis prácticas, una tomada de pelo. Le preguntaba a otras IAs "web" y me decían "necesitás un hardware bastante más potente...

Comparto mi hardware según el "prompt" que le inyecté a mi terminal cada vez que arranca:

RUNNING ON : VOID LINUX
KERNEL : 6.18.35_1
CPU : AMD RYZEN 7 5800XT 8-CORE PROCESSOR
GPU : ADVANCED MICRO DEVICES, INC. [AMD/ATI] NAVI 23 [RADEON RX 6600/6600 XT/6600M] (REV C1)
RAM : TOTAL 32, FREE 25.42

REMEMBER TO THINK WITH UNIX, KISS AND POSIX HEAD.

READY.
█

Yo pensaba... Si con este software optimizado y este hardware, que son bastante prolijos, no me da para correr un modelo decente... y si el resultado de estos modelos es patético... ¿qué tan lejos estoy de poder correr un modelo que realmente sea útil?

Probé modelos que se olvidaban de lo que habías dicho minutos atrás, que se arrastraban sin dar un resultado correspondiente a la espera (2 a 6 caracteres por segundo cronometrados en tiempo real por mí mismo para dar un resultado pésimo en requerimientos simples de programación BASH), que requerían una GPU de 1500 dólares para arrancar, o que directamente no funcionaban por diversos motivos, ejemplo: solo optimizadas para Windows y en el mejor de los casos, para Ubuntu.

Probablemente tengas la misma bronca que yo. No sé si ya pasaste por lo mismo... Instalás algo que promete ser "el futuro de la IA abierta" y terminás "debuggeando" dependencias rotas, con un "prompt" que se cae a pedazos porque al modelo se le llenó la memoria y vos "precisás más de lo que ya tenés" como consejo y seudo base muy improbable que yo al menos no me animaría a seguir a la luz de mi experiencia con este tema.

2 excepciones en el desierto de la subnormalidad digital.

De todo ese basural desinteligente, solo 2 modelos me hicieron decir "acá hay algo"... solo "algo", en principio... "Nous Hermes 3 8B" y "DeepSeek R1 32B".
También, de los modelos livianos de menor cuantización (ya no Q8 sino Q4), pude rescatar a Llama 3.2 3B.

DeepSeek programando en BASH era solo más prometedor que los otros, sin llegar a ser realmente bueno. En mi hardware funciona, pero lo deja respirando con pulmones de viejo fumador. El Hermes, en cambio, era compacto, rápido y... sorprendentemente inteligente para ser un modelo pequeño en comparación con otros groseros y grotescos que ya había probado. Corría sumamente holgado, era realmente inteligente, no tenía esa corrección política ridícula que te meten los modelos de OpenAI, DeepSeek, Google... y que también te meten los locales muchas veces... una total ridiculez.

Pero tenía 2 problemas para mí.

Primero: se olvidaba. Su ventana de contexto nativa era tan pequeña (2048 tokens), que a las 5 o 6 preguntas, ya había perdido el hilo. ¿Cómo es posible mantener una conversación seria con alguien que tiene amnesia cada cinco minutos, por más que tenga el IQ de Einstein?

Segundo: estaba desconectado del presente. Su fecha de corte era 2024. Cualquier cosa posterior, no la sabía. Y en 2026 y contando, eso era un problema grave.

Así que empecé a pensar en voz alta, en la cama, lidiando con mi enfermedad.

La sinfonía criolla.

Yo no inventé el modelo, ni el motor. A eso lo hicieron Nous Research ( https://nousresearch.com/ ) y Ollama ( https://ollama.com/ ). Esa gente hizo todo el trabajo que de verdad debe ser laureado, si vamos al grano.

Lo que yo hice —y perdón si suena soberbio, pero es la verdad— fue orquestar todo. Construí un puente entre el modelo, el motor y el usuario. Y sí, me ayudaron 3 IAs "online": DeepSeek, Gemini y Claude. No fue fácil.

Un puente que...

Expande la memoria del modelo. Le forcé una ventana de contexto de 16384 tokens. No es magia, es meterle en la cabeza TODO el historial de la conversación antes de cada respuesta. No confiar en su "memoria nativa" (que es realmente muy mala). Tomar el control. Inyectar.

Le da acceso al presente. El comando /net raspa DuckDuckGo en tiempo real. El usuario pregunta algo, el script busca, inyecta los resultados frescos, y recién ahí el modelo responde. No adivinanzas, no delirios, no bucles estúpidos ni respuestas "según mi entrenamiento de 2024...". Datos reales, actualizados, de ahora.

Hace que todo fuera automático: todo concentrado y controlado por 1 solo script BASH. Elegís dónde instalar esta IA, no toca el sistema, descarga todo, configura todo, limpia todo cuando te cansás. Sin documentación de 50 páginas, sin "compila esto", sin "dependencias que no se resuelven". ¡Sin sudo!

Por qué "del laburante".

Porque vos tenés una computadora común. Porque no podés gastar 5000 dólares en una GPU. Porque el futuro de la IA no puede ser solo para los que tienen guita, mientras los modelos fuertes son los que le dejan el culo al aire a tu privacidad y a tu bolsillo, porque por ahí viene la mano.
La mayoría de los proyectos de IA local son corporativos, con otro nombre. Te venden "open source", pero necesitás un clúster de GPUs para correrlo. O te venden "accesible", pero el modelo está tan castrado con filtros éticos que no puede decir una sola opinión fuerte.

"Hermes Criollo" no tiene eso. Corre en hardware común. No tiene censura. No le importa si hacés una pregunta incómoda, polémica, filosóficamente densa. Te va a responder con análisis, no con evasivas.
Y si se va a quedar sin contexto, el script se lo va a reinyectar. Y si no sabe algo actual, lo buscás con /net. Y si querés que se calle la boca con vómitos máquina al pedo, lo ponés en modo silencioso. Y si querés ver qué está pasando atrás, lo ponés en modo verborrágico y te bancás el vómito en la jeta.

Opciones. Control. Libertad.

Cómo funciona técnicamente.

El proyecto consta de 3 archivos:

Hermes_criollo.sh: el orquestador. BASH puro. Maneja la instalación, el menú, los procesos, las rutas. No tiene magia, tiene lógica simple y confiable, a lo UNIX, POSIX, KISS. Es el verdadero laburante: instala, desinstala, enciende, apaga, copia, elimina, controla.

hermes_net.py: el cerebro híbrido. Python (sí, me duele decirlo, pero es potente, más allá de ser un adefesio digital). Maneja el historial, las búsquedas web, la inyección de contexto, la comunicación con Ollama. No pude hacer esto con BASH. Ni solo ni con ayuda de IA. No sé si se puede, pero en Python fue sencillo lograrlo, de entrada.

ayuda.txt: no hace falta aclarar mucho más, en este caso.

El bucle sencillo pero poderoso.

El usuario escribe una pregunta.
Si usa /net, el script busca en DuckDuckGo y acumula resultados.
El script toma TODO el historial de la conversación (hasta 16384 tokens).
Le agrega los resultados de internet si los hay.
Le mete todo eso al modelo en el medio del marote y a la fuerza antes de que responda. Educación pre Vareliana: la letra con sangre entra.
El modelo responde con memoria completa y datos frescos.
El historial se actualiza.

No es IA aumentada. Es IA forzada a ser mejor de lo que es. Como un jugador de fútbol sin renombre pero con esteroides. O un laburante con frío, hambre y bronca: ojo.

Información adicional.

El proyecto ya está en Codeberg desde hace unos minutos, pero tuve que archivarlo tan pronto me enteré de que Python empezó a hacer de las suyas, pidiendo "versiones" de "cosas" en máquinas distintas a la mía.
Francamente, el tema de Python es grave, serio y muy frustrante.
PERO... ni bien me di cuenta de estos problemas, hice una bifurcación del código de Hermes que aún funciona con BASH y Python, pero que en breve funcionará con BASH y Go (Golang), que es mucho más liviano y rápido que Python, además de ser tan estable y predecible como BASH.

Podés bajarte el nuevo "Hermes criollo" desde acá: https://codeberg.org/entropiabinaria/entropIA_criolla

Es código libre, sin rastreos, sin servidores. Lo bajás, lo corrés, es tuyo.
Podés meterle más modelos, más opciones de búsqueda, más trucos de inyección. La base está ahí. El resto es imaginación.
Y si te preguntás por qué le puse "criollo"... porque es la viveza de hacer mucho con poco. Porque representa a la inteligencia del que se las arregla.
Ya teníamos las herramientas. Solo faltaba atarlas con alambre grueso tensado a puro garfio, bronca, seso y convicción.

Y eso hice. Andá y probala. Salú, hermano de clase trabajadora.

Hugo Napoli, junio de 2026

1 comentario:

Maxi16/6/26, 1:08 a.m.
Que bueno Hugo.

Justo estaba pensando en lo de la IA local. Tanto para uso personal, como para elaborar automatizaciones que me rompe colgar documentación que no sabes quién verá ni que uso se realizará, por más que prometan que no se usa ni divulgará. Eso lleva tiempo frenando ciertos proyectos, pero como bien dices, la IA local exige equipos potentes.... Te forkeo!!
ResponderBorrar
Respuestas

Agregar un comentario

Entropía binaria

Un aporte global desde la Filosofía, la Política y la Sociología, confluyendo en las ciencias computacionales, con proyección -dentro y fuera del aula- hacia el ámbito educativo.

Menu

El nacimiento de Hermes Criollo: bronca, malestar y una laptop en mi cama

1 comentario:

Artículos aleatorios

Páginas:

Translate (traductor)

Buscador del blog:

Sitios que te invitamos a visitar.

Redes de Entropía y enlaces de interés

Canales linuxeros amigos.

Autores

Total de vistas del blog:

Bazofia o maravilla: la equis mayúscula y la equis minúscula en Linux y sistemas UNIX-Like.