Whispers of A.I.’s Modular Future

Fri, 17 Feb 2023 22:51:51 +1100

Andrew Pam <xanni [at] glasswings.com.au>

Andrew Pam

"One day in late December, I downloaded a program called Whisper.cpp onto my
laptop, hoping to use it to transcribe an interview I’d done. I fed it an audio
file and, every few seconds, it produced one or two lines of eerily accurate
transcript, writing down exactly what had been said with a precision I’d never
seen before. As the lines piled up, I could feel my computer getting hotter.
This was one of the few times in recent memory that my laptop had actually
computed something complicated—mostly I just use it to browse the Web, watch
TV, and write. Now it was running cutting-edge A.I.

Despite being one of the more sophisticated programs ever to run on my laptop,
Whisper.cpp is also one of the simplest. If you showed its source code to A.I.
researchers from the early days of speech recognition, they might laugh in
disbelief, or cry—it would be like revealing to a nuclear physicist that the
process for achieving cold fusion can be written on a napkin. Whisper.cpp is
intelligence distilled. It’s rare for modern software in that it has virtually
no dependencies—in other words, it works without the help of other programs.
Instead, it is ten thousand lines of stand-alone code, most of which does
little more than fairly complicated arithmetic. It was written in five days by
Georgi Gerganov, a Bulgarian programmer who, by his own admission, knows next
to nothing about speech recognition. Gerganov adapted it from a program called
Whisper, released in September by OpenAI, the same organization behind ChatGPT
and DALL-E. Whisper transcribes speech in more than ninety languages. In some
of them, the software is capable of superhuman performance—that is, it can
actually parse what somebody’s saying better than a human can.

What’s so unusual about Whisper is that OpenAI open-sourced it, releasing not
just the code but a detailed description of its architecture. They also
included the all-important “model weights”: a giant file of numbers specifying
the synaptic strength of every connection in the software’s neural network. In
so doing, OpenAI made it possible for anyone, including an amateur like
Gerganov, to modify the program. Gerganov converted Whisper to C++, a widely
supported programming language, to make it easier to download and run on
practically any device. This sounds like a logistical detail, but it’s actually
the mark of a wider sea change. Until recently, world-beating A.I.s like
Whisper were the exclusive province of the big tech firms that developed them.
They existed behind the scenes, subtly powering search results,
recommendations, chat assistants, and the like. If outsiders have been allowed
to use them directly, their usage has been metered and controlled."

Via Bill Daul.

       *** Xanni ***
mailto:xanni@xanadu.net               Andrew Pam
http://xanadu.com.au/                 Chief Scientist, Xanadu
https://glasswings.com.au/            Partner, Glass Wings
https://sericyb.com.au/               Manager, Serious Cybernetics

Comment via email

Home E-Mail Sponsors Index Search About Us