Reiner Trimborn 2006

 

"Bilder hören":

und mehr durch ......

 

 

Die VAC-Maschine

(VIDEO to AUDIO CONVERSION – Machine VACM)

Das Produkt:

Die VACM ist eine völlig neue stereokamerabasierte Elektronik , die optische (Video-)Bilder in geräuschartige Töne umsetzt. Statt Umgebungsbilder zu sehen , können diese tatsächlich als akustische Information gehört werden.

So lassen sich damit

- akustische Rückspiegel für Fahrzeuge

- akustische Sehsysteme für Blinde

Machbarkeit:

Ein erster Prototyp wurde mit Erfolg verwirklicht und kann vorgeführt werden.

Weiterführende technische Horizonte: Neue "oszillierende"Computerverfahren?

Weiterführende wissenschaftliche Horizonte: Diese weiterführenden Fragen haben sich bei der Theorieformulierung der VACM aufgeworfen: Existenz eines Organisationsprinzips der DNS im Sinne einer "naürlichen Codierung?".Erklärungsmodell für Garbage –DNS? Gibt es ein bisher nicht bekanntes grundlegendes Funktionalprinzip für Hirnströme?

Nährere Informationen: Der Prototyp kann vorgeführt werden, dokumentarisches Echtzeit- Filmmaterial zB. als AVI-Datei kann bereitgestellt werden.

 

 

________________________

 

 

Im folgenden Text ist der Weg zur ersten VACM als "Sehmaschine" und die Konzeption des ersten Prototypen beschrieben. Andere Anwendungen wie "Akustischer Autorückspiegel" sind nur marginale bauliche Varianten.

Was die VACM leisten kann, ist aber erst richtig nachvollziehbar, wenn bei einer Vorführung zB. Bewegungen von Objekten vor der 3 D- Stereo-Kamera stattfinden und die entstehende Soundstruktur in Natura gehört werden kann.

Der Leser möge verzeihen, daß die Schaffung eines völlig neuen Funktionsprinzipes bzw. einer darauf basierenden Maschine zur Beschreibung mitunter auch die "Erfindung neuer Wörter und Begriffe" naturgemäß erfordert, schließlich ist das eine neuartige Technik.

Die Darstellung der vollständige Theorie kann in den möglichen wenigen Seiten so nicht geleistet werden. Ich bitte deshalb um entsprechende Nachsicht.

______________

 

Der Grundgedanke:

Die Natur weißt viele Eigentümlichkeiten auf, über die kaum tiefergehend nachgedacht wird.

Eine davon ist, daß das Auge aller hochstehenden Lebewesen eine "reine" runde (radiale) Form hat und das muß seinen tieferen Grund haben. Erstaunlicherweise berichten Anatomen, daß der Hörnerv eines Menschen deutlich dicker und voluminöser ist , als der Sehnerv usw.

Es kann bereits dadurch geschlossen werden, daß in Sachen Informationsaufnahme das Gehör weit tauglicher ist als das Auge.

Es liegt also nahe, nach Wegen zu suchen, optische Informationen in akustische umzusetzen, also (Kamera-)Bilder in geeignete Geräusche. Blinde könnten so "akustisch sehen" , bei Normalsehenden könnte die Sehfähigkeit zB. ins Infrarote "verlängert" werden, was zB. bei der Brandbekämpfung praktisch sehr nützlich sein könnte.

Die VAC-Maschine (VACM):

Es wurde also über gewisse naturgesetzliche Gegebenheiten tiefergehend meditiert. So wurde etwa die "Dimensionaltransformation " erdacht, sowie weitergehende mathematische Aspekte, denn die Umwandlung eines Bildes in ein akustisches Geschehen ist im Grunde vereinfacht ausgedrückt die Umwandlung eines zwei oder dreidimensionalen Objektes in ein eindimensionales. Das ist über ein dynamisch-zyklisch konzentrisches Pixelzugriffsverfahren technisch möglich, das hörbare akustische Wellen sythetisiert..

Heraus kam dann die Konzeption der VAC-(VIDEO to AUDIO Conversion-) Maschine.

 

Screenshot der VAC-Maschine:

Visualisierung der Konversionsmatritzen beim Boot-up

Im Wesentlichen besteht diese Maschine aus einer 3D-Stereokamera, die einen echten Videostream an eine Elektronik liefert, die den hereinkommenden "Pixelstrom" zu einer hörbaren Klang- oder Geräuschstruktur zusammen setzt.

Diese Konzeption stand dann mit der zugehörigen Theorie über 3 Jahre im Internet, ohne daß auch nur ein einziges Feedback zu verzeichnen war. Vielleicht war die Umsetzung zb. für Universitäten auch zu anspruchsvoll, weil zum Verfahren zB. nun mal die Beherrschung von Digitalkameraprogrammierung gehört. Man muß wissen, daß heute Systemspezifikationen von Digitalkameras insbesondere Steuersequenzen in Sachen Programmierung bewußt geheimgehalten werden, nicht nur aus kommerziellen Gründen, sondern auch, weil damit ansonsten zB. auch unerwünschte, unangenehme Raketensteuerungssysteme für militärische Zwecke leicht gezimmert werden könnten.

Na ja, irgendwann war es denn so weit, die Konzeption im Alleingang in eine reale Maschine umzusetzen.

Überlegt und angedacht wurde eine mögliche reine Hardware-Lösung, weil im Grunde alles so einfach ist, aber dann wurden weniger starre Lösungen für Prototypen zunächst als erfolgversprechender erwogen.

Also wurde als Plattform ein modifizierter herkömmlicher PC gewählt, weil die Hardware halt für diesen Zweck die notwendigen Reserven im Vergleich zu üblichen Microcontrollerboards aufweist, die Programmiertools wesentlich perfekter sind und leichter Varianten möglich sind.

Dank Internet und Ebay konnten auch Digitalkameras aufgetrieben werden, deren Steuersequenzen bekannt sind und damit programmierbar sind. (Dank an Tom Dickens von Seattle Robotics und die vielen Linux-Sourcen-Aktivisten!). Zunächst wurde nur versucht, diese Kameras softwaremäßig maschinennah zu handhaben. Herausgekommen sind dabei die vermutlich weltweit kürzesten auf PCs lauffähigen Cam-Programme. Sie sind nur etwa so lang wie ein Computervirus und können dank maschinennaher Programmierung und Dos-Ästhetik auf festplattenlosen (!) Systemen laufen. Weil auch keine "fertigen" Treiber übernommen wurden, war auch relativ leicht ein echter und weltweit vielleicht einzigartiger Echtzeit –3D-Stereo- Kamerabetrieb als Zwischenschritt programmierbar.

 

 

Echte und gute 3D-Stereokamera der VAC-Maschine, improvisiert aus zwei parallel betriebenen Webcams

Für die Klangsynthese wurden Soundkarten verwendet, jedoch

nur mit einer speziellen IC-Bestückung, weil eine nicht zum Soundblaster-Standard gehörende Betriebsart erstrebenswert für diesen Zweck erschien.

Weil die ganze Software windowsfrei und maschinennah gehalten wurde, war es auch möglich, zwei dieser Karten parallel im PC zu betreiben ( Windows würde rebellieren!)

Auch für diese Soundkarten wurden erst mal Testprogramme geschaffen, weil erst die tatsächliche Programmierarbeit mit den DSPs kartenspezifische Eigenheiten evaluiert.

 

 

Durchaus tauglich für die VAC-Maschine:

Modifizierter PC

 

 

Screenshot der VAC-Maschine: Soundkarteninitialisierung

Zur Niederfrequenzwidergabe eignen sich je nach Einsatzzweck herkömmliche NF-Verstärker mit entsprechenden Lautsprechern oder Köpfhörer, die je nach Verwendungszweck den Vorteil haben, daß Umgebungsgeräusche abgeschirmt werden.

Bei der VAC-Maschine bildet das (herkömmliche) PC - Motherboard das "Herz", um das sich die 4 digitalen Signalprozessoren (DSPs) in den Cams und den Soundkarten herumgruppieren. Die Herstellung eines echten Echtzeitbetriebes war nur möglich, weil alle aktiven Treiber in einander eingemischt bzw. verwoben sind. Das geht fast nur mit maschinennaher Programmierung. (Unter Windows könnten "fertige" Treiber nur entsprechend langsam hintereinander gesetzt werden, DMA hat hier Nachteile.)

Screenshot eines Demokörpers beim Echtzeitbetrieb:

Die in Sound umgewandelten 3 D-Cambilder (#)werden in Echtzeit angezeigt. Die "Falschfarbendarstellung" gehört aber nicht zum VAC-Verfahren, sondern liegt an einer aus Rechenzeitgründen nicht unterbundenen Codedivergenz

# Diese Bilder enthalten tatsächlich die 3D-Rauminformationen! Ist für Betrachter mit Fähigkeit zur 3 D-Parallelbildmethode sichtbar!!!!

Dank PC-Architektur, Coprozessor und ausreichend RAM konnten die erforderlichen Sinus und Cosinusberechnungen ins Boot-Up verlegt werden und hinreichend schneller Echtzeitbetrieb per mehrfacher üppiger und schnellen Indextabellen bzw. mehrdimensionaler Arrays erzielt werden. Das ganze ist derartig schnell, daß nicht die Software bremst, sondern die DSPs in der Kartenhardware.

Als erster experimenteller 2 Kanal-( NF-seitig) Prototyp war so ein Modell mit :

- 4 Bit Bildauflösung und 8 Bit Soundausgabe ( 4 Bit Pixel, 2 Bit links-rechts Kanaltrennung, 2 Bit Entfernungsparameter}

machbar bei 2 mal 200 x 200 Pixelbild entsprechend 100 Kreisringen entsprechend Dimensionaltransformationstheorie bei leider sehr audiosubfrequenten 1Hz für die Grundoszillation. Das entspricht einer "Pixelfrequenz" in Sinne der Audioquantisierung von etwa 20 kHz und damit einer zweckmäßigen Scheibenfrequenz von ca. 200 Hz.

Die erste Inbetriebnahme nach der Koppelung der einzelnen Softwaremodule war absolut schockierend, weil positiv traumatisch: Der vorausgesagte Effekt von phasingartigen Klangstrukturen war auf Anhieb zu beobachten bzw. zu hören.

Der Laie mag den in der experimentellen Version produzierten Sound entfernt als Mischung zwischen "Techno" und dem Sound eines Düsentriebwerkes beschreiben, dessen Geräuschkulisse je nach den optischen Informationen sich ändert.....und damit Bildern spezifische Geräusche zuordnet, bzw. diese entsprechend ausgibt. Subtil vermittelt die niedriege Framerate den Gehöreindruck eines "akustischen Radars".

Es zeigte sich recht schnell , daß die 8 Bit-Sound-Version zur Bildidentifizierung weit weniger geeignet ist, als die 12 Bit Version. Dies dürfte den Grund darin haben, daß die 8Bit Version Bildhintergründe weitaus stärker akustisch überträgt als die 12 Bit Version, sodaß das Nutzsignal naher Objekte halt zu stark in der "Hintergrundkulisse" untergeht.

Genau das zeigte auch, daß der 3D-Stereokameraeinsatz unerläßlich für die VACM ist.

Die Lautstärkeparameter des einzelnen NF-Kanals lassen sich am Besten bezogen auf die Pixellokalisation mit einer horizontalen nicht- linearen Rampe gewinnen, weil ja auch der menschliche Hörsinn eine logarithmische Kennlinie hat. Eine lineare Rampe erscheint völlig ungeeignet.

Enorm wichtig scheint der "Einbau" von Entfernungsparametern zu sein, weil dann eben nahe Objekte "akustisch leichter identifiziert " werden können.

Als erste Betriebserfahrungen dieses ersten noch lange nicht ausgereitzten Prototypen war zu verzeichnen, daß die Kanaltrennung im Sinne einer Links- Rechts- Unterscheidung bisher wenig zufriedenstellend arbeitet, aber andererseits wurde ein "Superphasing Effekt" beobachtet: Mittige nahe Objekte verursachen eine derart deutliche Phasingtönung der entsprechenden Soundkomponente, daß die ganze Anordnung wie eine Art "akustisches Radar" wirkt.

Was in den USA jüngst als "Ultraschall-Taststock für Blinde" vorgestellt wurde, geht mit diesem System vermutlich schon alleine deshalb quantensprungmäßig wesentlich besser.

Als erste Testergebnisse läßt sich jetzt schon sagen, daß mit einer solchen Maschine ein Blinder ganz sicher zB. nicht mehr gegen eine Wand oder Laterne läuft und zB. es bestens registrieren kann, wenn in einem Wohnraum ein anderer Mensch oder Tier sich bewegt (ohne "Anfixieren"!!!) . Das "akustische Erkennen" von Gegenständen oder Personen muß natürlich trainiert werden, weil dies das Erlernen von Zuordnungen von Klangmustern zu Gegenständen bedeutet.

Bei leicht weitwinkeligen Optiken der Cams und "menschenähnlichem" Kamera-"Augen"-Abstand von etwa 7 cm werden Entfernungen von einem halben bis etwa 10 m Metern im Outputsound "adäquat" abgebildet im Sinne der Erkennung einer räumlichen Staffelung.(wie die projezierte Raumwinkelbreite bezogen auf die CCD-Pixelbreite auch erwarten läßt). Das ermutigt als Anwendung für die VACM Anwendungen als "akustischen Rückspiegel" in Erwägung zu ziehen, wobei die Kameraabstände etwa verzehntfacht werden müßten.

Interessant sind auch insbesondere Experimente mit vor die Optik gehaltenen Streifenschablonen: Solche grafischen Gitterstrukturen verursachen deutlich hörbare niederfrequentere Interferenzen mit den Pixelfrequenzen, insbesondere Gitterstrukturen haben entsprechende spezifische Klangmuster ("Flirren").

 

Perspektiven:

Sicher müssen zukünftige Weiterentwicklungen echten 4 Quadranten-Audio- Betrieb ermöglichen. Insbesondere die Frame - Rate der Cams muß erheblich gesteigert werden. Dagegen können die im ersten Prototypen verwirklichten 2 mal 200 x200 Pixel Bildauflösung vermutlich noch erheblich gesenkt werden, denn nur eine "optische Grobstruktur" enthält die relevanten Informationen, die "Details" scheinen marginal.

Zu bedenken ist auch der Umstand, daß visuelle Bilder ab üblichen 23... 24 Hz (letztlich orientiert sich jede Kamera und Monitorhardware an dieser Naturgesetzlichkeit) als stehend empfunden werden, dagegen der Hörsinn nun mal fast 1000 mal reaktiver im Sinne von schneller ist.

Das legt in erweiterten Konzeptionen bei der Aquise der Umgebungsbilder evtl. einen Ansatz nahe, nicht die einzelnen Cambilder aktuell zur Soundausgabe zu nutzen, sondern als Zwischenschritt ein zu synthetisierendes 3D Raummodell anzustreben. Als Form dafür erscheint ein 3D Punkte -Modell höchst unzweckmäßig, sondern besser erscheint eine Art "Kaugummiblasenmodell" im Sinne einer Kugelblase, deren Oberfläche soweit ausgestülpt ist, daß der umgebende Raum damit abgebildet wird. So können räumliche "Soundausschnitte" halt schneller in Echtzeit generiert werden.

 

Blockschema für reine Hardware-VACM in 4Quadranten -Stereofonie

Das Ziel kann nur sein, als nächsten Schritt demnächst eine tragbare VAC-Maschine für umfassende Feldexperimente zu erstellen. Bei entsprechender Weiterentwicklung könnte eine solche Elektronik etwa die Größe eines Handys aufweisen. Das ist machbar!

 

Reiner Trimborn 2005

Kontakt /Email: reiner-trimborn.de@freenet.de